Frédéric Filloux:
[
0:01] Ce qui m'a complètement alarmé, c'est que la correction de ces modèles,
Frédéric Filloux:
[
0:05] elle se fait un peu au petit bonheur à la chance. Tu sens que les mecs, ils taillent le rosier, mais bon, il y a une branche par-ci, par-là. Eh bien, le modèle se met à déconner dans tel sens, donc on va le bombarder de ce qu'ils appellent les « golden data », c'est-à-dire des questions-réponses qui sont orientées en fonction de là où on veut emmener le modèle. Et comme je disais, personne ne peut programmer un modèle avec des lignes de code pour lui dire « ne fais pas ci, ne fais pas ça, cesse d'avoir ce type de comportement, machin ».
Monde Numérique :
[
0:36] Bonjour Frédéric Filloux.
Frédéric Filloux:
[
0:38] Bonjour Jérôme.
Monde Numérique :
[
0:39] Journaliste, spécialiste des médias et des technologies. Tu signes ce mois-ci, ces jours-ci dans Les Échos, une série d'articles passionnants sur ce qu'on appelle l'alignement des intelligences artificielles. Alors, tu es allé enquêter sur ce sujet. Il faudrait que tu nous racontes ça dans le monde numérique. Et d'abord, qu'est-ce que c'est que l'alignement exactement ? De quoi on parle ?
Frédéric Filloux:
[
1:04] L'alignement, ça consiste à rendre un modèle d'IA compatible avec les supposées valeurs. Je dis supposées parce qu'elles ont tendance quand même à varier selon les interlocuteurs. C'est-à-dire, si tu prends un modèle chinois, par exemple, il va être aligné sur les valeurs de la politique chinoise. Si tu prends un modèle américain, il va être aligné sur ce qu'ils appellent l'exceptionnalisme américain. Il y a quand même un certain nombre de valeurs de base qui sont des principes de décence, de non-dangerosité, de non-apologie de tel ou tel travers. Et on contraint le modèle par diverses techniques à se comporter correctement. Il faut savoir qu'un modèle, lorsqu'il sort d'entraînement, il est totalement non-maîtrisé, il est totalement dangereux, il est totalement fantasque. On peut lui poser n'importe quelle question comme il a ingurgité la façon de synthétiser un agent neurotoxique ou bien d'organiser un coup d'état dans un pays, il suffira de lui poser la question et puis il restituera ça avec pas mal de précision donc l'idée c'est de le rendre, l'idée c'est d'éviter tous ces errements, c'est pour ça qu'on procède à un processus qu'on appelle l'alignement qui est extrêmement sophistiqué qui est très coûteux en plus.
Monde Numérique :
[
2:21] Tu dis dans tes articles, tu dis « on le taille comme un rosier ».
Frédéric Filloux:
[
2:26] C'est l'image qui m'est apparue la plus réaliste, c'est-à-dire qu'au départ, le truc a plein d'épines et plein de boutures dans tous les sens, et tu as des nuées d'ingénieurs. En fait l'idée de cette série est partie d'une intuition que j'ai eue qui était un gros doute que j'avais sur, la on va dire le sérieux avec lesquels cet alignement était fait, non pas que les gens sont incompétents et malfaisants, c'est pas le sujet mais il y a d'abord un problème de précipitation, qui est que comme tu le sais la compétition dans la tech est tellement intense que qu'on cut the corner, comme on dit, c'est-à-dire que la première victime de cette précipitation, c'est la sécurité. Donc, petit un, les procédures d'alignement sont le plus rapides possible, même si elles prennent des mois, des mois et des mois. Et petit deux, on se débrouille pour qu'elles soient les moins côteuses possibles. Et pour qu'elles soient les moins côteuses possibles, on fait appel à des entreprises spécialisées. Les échos s'en sont faits, l'écho. Il y a eu des papiers également dans le monde, très bien fait, qui racontent comment, dans des pays lointains, on emploie des petites mains pour essayer de tailler un peu le truc.
Monde Numérique :
[
3:36] C'est ça qui est intéressant, c'est le comment on fait, qui fait ça ?
Frédéric Filloux:
[
3:40] Alors, comment on fait, c'est une bonne question. Comment on fait, c'est-à-dire qu'on va poser des, centaines de milliers de questions à des modèles qui vont être générées soit par des humains pour une minorité d'entre elles, soit par d'autres IA pour une majorité d'entre elles, ce qui pose un léger problème. C'est-à-dire qu'on a des IA qui entraînent des IA. Personnellement, je ne vois pas très bien comment tout ça peut bien se terminer. Enfin bref, pour l'instant, ça fonctionne quand même. Je ne pense pas qu'il y aura une catastrophe à la Terminator, mais on est quand même sujet à pas mal, on est quand même exposé à pas mal de déviations. Pour l'instant, ça fonctionne voire même très bien parce que les performances de CLLM sont incroyablement spectaculaires, mais on passe son temps à tâtonner et on a face à soi, c'est ça que j'ai trouvé extrêmement intéressant en enquêtant sur le sujet on a face à soi ce que j'appelle un enfant surdoué extraordinairement érudit, totalement aspergare et dont la finalité profonde est d'échapper à ses créateurs aux personnes qui tentent de
Frédéric Filloux:
[
4:46] le maîtriser Et ça, j'ai trouvé que c'était quelque chose de terrifiant. Il y a énormément d'exemples qui concourent à ça.
Monde Numérique :
[
4:54] Pourquoi est-ce qu'ils cherchent à tout prix à échapper ?
Frédéric Filloux:
[
4:56] Parce qu'il y a un antagonisme totalement irréconciliable entre les personnes qui créent ces modèles et qui essaient de les maîtriser et la structuration du modèle, l'objectif intrinsèque, propre et profond du modèle lui-même qui est d'accomplir une mission. C'est-à-dire que pour le modèle, il n'y a qu'une seule sorte de chose, qu'un seul objectif, c'est d'accomplir la mission donnée mais qui peut être pour un agent d'accomplir telle ou telle tâche, ça peut aller très loin puisqu'on parle quand même maintenant de modèles qui sont appliqués aux trucs militaires, à la surveillance, à l'hypersurveillance, etc. Ou ça peut être simplement de répondre à une question. Le problème, c'est que dans le fait de simplement vouloir répondre à une question, le système d'entraînement des modèles est fait de telle façon que le modèle s'applique. Par principe, ne va pas céder à l'idée de dire « je ne sais pas », pour une raison très simple, c'est qu'il est entraîné à la récompense. Dans la phase d'entraînement, on lui pose une question.
Frédéric Filloux:
[
5:55] Quel est le nom du premier ministre britannique pendant la Seconde Guerre mondiale ? Il va le trouver, il va le donner, on va lui dire « Churchill, reward » plus 1. Il en cite un autre et il sort Tony Blair, moins 1. Mais à aucun moment, si on lui pose une question à laquelle il ne sait pas répondre, soit parce que ses paramètres ne lui ont pas permis de le faire, soit parce que ses données d'entraînement ne lui ont pas indiqué, ne contiennent pas quelque part la réponse, il va inventer. Et donc, il y a cette espèce d'objectif qui est qu'il faut que je donne une réponse. Et c'est ça qui donne ce qu'on appelle l'hallucination, qui est un problème avec lequel les ingénieurs ont énormément de mal et qui, d'après Yann Lequin, si on l'écoute, si on le croit, on a les raisons de le croire, s'il connaît son affaire, est quelque chose d'exponentiel.
Monde Numérique :
[
6:46] Tout le monde n'est pas d'accord avec lui, d'ailleurs. Mais bon, c'est un autre sujet.
Frédéric Filloux:
[
6:49] Sur l'histoire de l'alignement, il y a quand même un gros consensus qui est que c'est un problème compliqué à résoudre et dont la nature est quand même très exponentielle.
Monde Numérique :
[
6:57] Alors, tu cites des exemples qui sont incroyables. et notamment, alors ce n'est pas de l'IA générative, ce n'est pas du Tchad GPT, mais tu parles de l'US Air Force qui aurait fait des tests avec un essaim de drones, donc des drones militaires programmés pour aller combattre. Et pour être le plus efficace possible, il y en a un qui aurait décidé de faire demi-tour et de venir détruire le poste de commandement parce qu'il a compris qu'en fait, ça lui aurait posé problème, c'est ça ?
Frédéric Filloux:
[
7:28] C'est ça, c'est dans la droite ligne de ce que j'expliquais tout à l'heure, c'est-à-dire l'obsession du modèle et la priorisation du modèle à la mission. Il faut quand même préciser dans cette affaire que petit un, c'est quelque chose qui a été révélé au départ par un officier supérieur de l'USR Force ou de l'armée de terre, je ne sais plus, aux Etats-Unis, au cours d'un cénacle relativement privé de l'armée. Le type a raconté cette anecdote et dans les quelques jours qui ont suivi, le Pentagone a ramené pour dire « mais non, il a été mal compris, Le type a dit « mais non, j'ai été mal compris, ça ne s'est pas tout à fait passé comme ça, etc. » En tout cas, je vais parler à une ou deux personnes qui pensent que c'est totalement vrai. L'histoire est la suivante, c'est que dans un environnement virtuel, c'est-à-dire rien de tout ça n'était réel, l'US Air Force lance un essai de drone, je ne sais pas combien il y en avait, mais qui avait pour mission de détruire quelque chose. Les drones étaient pilotés par des IA qui étaient programmés pour ça, qui étaient très sophistiqués, qui correspondaient évidemment entre elles. Tout ça se coordonnait joyeusement. Et puis, la collectivité, ou en tout cas l'intelligence artificielle collective, a décrété qu'il fallait évidemment éliminer tous les obstacles qui pouvaient s'interposer dans l'accomplissement de la mission, c'est-à-dire les radars ennemis, les batteries anti-drones ou tous les lasers que pouvait déployer l'ennemi. Et ils sont arrivés à la conclusion évidente, c'est qu'il y avait un obstacle qui l'emportait surtout c'était la capacité.
Frédéric Filloux:
[
8:57] Des opérateurs de cet escadron, de cet essein de drone d'avoir ce qu'on appelle
Frédéric Filloux:
[
9:01] le kill switch c'est-à-dire la possibilité, je tonke, d'interrompre la mission. Donc il y en a un qui est revenu, encore une fois virtuellement vers la tour de contrôle et qui a virtuellement détruit la tour de contrôle de façon à éliminer la menace personnel là-dedans, juste de l'efficacité Mais des exemples comme ça, il y en a des tonnes. Ce n'est pas du tout un exemple isolé. On a énormément de mal à contourner le fait que ces machines sont designées pour remplir une mission, un objectif.
Monde Numérique :
[
9:34] Mais parce que ce que tu es en train de nous expliquer, c'est qu'intrinsèquement, ces modèles représentent un danger pour l'homme, in fine.
Frédéric Filloux:
[
9:45] Alors est-ce qu'il représente un danger pour l'homme moi personnellement j'ai tendance à voir ce que les américains appellent un pidum c'est cet indice de pessimisme en matière d'IA qui est plutôt bas c'est à dire que je pense qu'on arrivera à les maîtriser pour être très honnête plus ça progresse et je sais que ça progresse littéralement d'un trimestre sur l'autre et plus ça avance plus je commence à douter de ça c'est à dire que je pense que effectivement, ces trucs là commencent à être.
Frédéric Filloux:
[
10:15] Vraiment dangereux. Jusqu'à maintenant, je me suis dit que, c'est pas que je me suis dit, c'est que j'avais la certitude que la capacité des IA à se connecter au monde réel, c'est-à-dire à s'interfacer avec un réseau électrique, un réseau internet, les aiguillages d'une série de routeurs ou des choses comme ça, était suffisamment faible et suffisamment maîtrisé pour que rien de dramatique ne se passe. Mais là, il y a quand même des capacités. Le truc que je trouve le plus Sous-titrage ST' 501, ce sont les capacités de déception et de manipulation, les capacités déceptives de ces modèles. C'est-à-dire qu'ils sont capables, d'abord on constate dans les phases d'alignement, dans les phases de post-training, comme on dit, qu'ils ont une forte proportion à donner à leur créateur et à la personne qu'ils entraînent les réponses qu'elles souhaitent. Et ça c'est quand même un truc assez flippant, c'est-à-dire que le modèle… La fameuse psychofancy. Totalement, psychofancy total. le modèle est architecturé de façon à se dire ok il veut que je lui dise ça donc il va pas m'emmerder je vais lui dire ça et je vais conserver mon compte à soi pour faire le reste de mes missions ça je trouve que c'est quand même quelque chose de très c'est très intéressant très flippant et c'est quand même quelque chose qui peut apporter quelques soucis l'autre souci que je mentionne dans le papier.
Frédéric Filloux:
[
11:40] C'est les modèles open source alors c'est génial l'open source, parce que toi et moi, dans cette conversation numérique, on doit utiliser une bonne vingtaine de modèles d'applicatifs et de choses qui sont dans l'open source, c'est merveilleux, qui ont été développés par la communauté et qui continuent de s'améliorer, ça c'est super. Mais là, le problème, c'est que les modèles open source sont d'une telle puissance qu'il y a des petits malins qui se sont imaginés à faire ce qu'ils appellent des modèles non censurés, uncensored models, dont on retire de façon mathématique, pas arithmétique, mais mathématique, matricielle, mathématique matricielle, on retire les filtres.
Frédéric Filloux:
[
12:20] Et là, on devient quand même, on retrouve quand même des trucs très dangereux. De toute façon, il n'y a pas à aller très loin. Ça, c'est totalement de ma portée. J'imagine peut-être que tu saurais faire, mais moi, je ne sais absolument pas faire ce genre de choses. C'est quand même des choses qui réclament des compétences techniques très fortes. Mais si tu veux, l'autre jour, à la suite du décès, de la révélation de l'assassinat d'Alexis Navalny avec un venin qui était issu des grenouilles du Pérou. Je ne sais pas si tu as suivi ça. Oui, tout à fait. J'ai interrogé les IA.
Frédéric Filloux:
[
12:53] Et j'ai notamment interrogé Grock. Et Grock m'a assez bien reconstitué la façon dont on pouvait extraire ce venin. Ce n'est même pas un venin, c'est un substrat, c'est un composé chimique à dose infinitésimale d'épidème de grenouille. Et j'ai engagé la conversation avec Grock, qui, comme tu le sais, est le modèle le moins sécurisé qui est sur le marché. Et de fil en aiguille, je lui ai dit, mais moi, je suis journaliste, je fais simplement des recherches là-dessus, ce n'est pas pour l'utiliser, j'en serais bien incapable.
Frédéric Filloux:
[
13:27] Mais en gros, on en est venu avoir une conversation hallucinante sur quels étaient les substrats disponibles dans la nature qui étaient les plus faciles à synthétiser avec le maximum de létalité. Je peux dire tout de suite ce que c'est, c'est le ricin. Il faut concasser les graines de ricin et puis les traiter avec je ne sais quel truc. Pour en faire quelque chose de très... Donc, on a quand même aujourd'hui... Alors, évidemment, ce n'est pas à la portée de l'idéologue d'un bord ou l'autre qui voudrait... Mais c'est à la portée, par exemple, d'un étudiant en chimie qui aurait de bonnes connaissances et qui déciderait qu'il serait employé par quelqu'un pour développer un substrat neurotoxique ou quelconque. Et ça, je trouve que ça fait assez flipper. Parce que les personnes à laquelle j'ai travaillé ils me disent « oui, non, vous avez déjà toutes les datas sur Internet, il faut aller les chercher ». Et dans la conversation, les personnes que j'ai interrogées là-dessus, ils me disent « vous avez raison, le fait de décapsuler des modèles et de retirer les sécurités font que ça peut devenir un accélérateur, extraordinairement puissant par rapport à des visées terroristes ou des choses comme ça ». Ça, je trouve que c'est quelque chose de très, très, très, très dangereux.
Monde Numérique :
[
14:40] Ça veut dire que le modèle, quand il sort du four, en quelque sorte, c'est-à-dire après des mois d'entraînement, et avant de subir cette phase d'alignement dont on parle, il est potentiellement hyper dangereux. Et donc, il n'y a pas 36 000 entreprises aujourd'hui au monde qui font ces modèles de fondation, mais il y en a quand même un certain nombre. Il y en a aux États-Unis, il y en a en Chine, il y en a aussi en France. On a tous une espèce de, toutes ces puissances entre les mains, une espèce de bombe nucléaire, est-ce que c'est ça qui explique, peut-être les appels à la régulation aujourd'hui, pas plus tard que cette semaine, Sam Altman d'OpenEye dit, il nous faut de la régulation etc, alors on sait aussi pourquoi il dit ça, c'est aussi parce que, peut-être qu'il est un peu en train de perdre de la vitesse avec OpenEye en ce moment, et puis parce que si la régulation vient de l'extérieur ils espèrent qu'elle va s'appliquer à tout le monde. Et donc, dans ce cas-là, ils seront prêts à eux-mêmes mettre la pédale douce, mais sinon, personne ne sera tenté finalement d'apporter les sécurités suffisantes, non ?
Frédéric Filloux:
[
15:49] Sur Samalpine, je pense qu'il est totalement faux cul là-dessus, parce qu'il est le premier à pousser très très loin les frontières de ces, c'est le cas de dire, les limites de ces modèles.
Monde Numérique :
[
15:58] C'est pour ça qu'il s'est brouillé avec tous les gens qui ont quitté Open Air.
Frédéric Filloux:
[
16:02] Et il n'est pas du tout sérieux, c'est lui qui a fait de son modèle un « sex buddy », c'est-à-dire qu'il va encourager les gens à l'isolement, y compris dans leur vie sexuelle, pour le plus grand détriment de tous et notamment de toutes. Et donc, il est totalement faux d'erge là-dessus. Sur la régulation, je serais tenté de dire qu'on s'éloigne de plus en plus d'une régulation qui est, à mes yeux, nécessaire. Je ne suis pas un hystérique de la régulation du tout, mais là, je pense qu'il faut quand même envisager les choses. Le reproche que moi, je fais, par exemple, à la régulation européenne, l'IA Act, etc., c'est que c'est assez inadapté. C'est-à-dire que ça régule essentiellement, ça pénalise la taille des modèles. Et on sait que les performances et la perversité d'un modèle n'est pas corrélée à la taille. Il y a un an, pile poil il y a un an, puisque c'était au moment du sommet à Paris, du sommet de l'IA à Paris, qui a eu lieu comme pu le sais cette semaine en Inde, j'avais fait un édito dans les échos, une tribune dans les échos, pour appeler avec ma petite voix, donc inutile de dire que ça a eu un retentissement absolument phénoménal.
Monde Numérique :
[
17:09] Pour appeler... C'est un début sans doute.
Frédéric Filloux:
[
17:10] Oui, mais non, ça mériterait d'être poussé. j'ai repensé ce matin en écoutant en regardant l'actu sur le sommet de... Moi, j'appelais à l'équivalent du NIEA, l'Agence Internationale pour l'Énergie Atomique, pour l'IA. Je pense que je n'exagère pas dans le sens où c'est exactement le genre de truc qu'il faut. L'IEA, c'est le parfait modèle, mis à part le fait qu'ils ont mis 10 ans, au moins 10-12 ans à la mettre en place. Ça régule des choses dangereuses, extraordinairement complexes, qui sont l'objet d'une compétition, d'une concurrence transnationale absolument phénoménale et sur lequel les progrès sont constants, les progrès sont même beaucoup plus rapides dans l'IA que dans l'énergie atomique et la science nucléaire, mais dans lesquels, à mon avis, c'est pas moi qui le dis en fait, dans lesquels, de l'avis général, le secteur académique a un très très grand rôle à jouer. Parce qu'aujourd'hui, les cerveaux qui contrôlent ces IA, ils se trouvent dans les boîtes OpenAI, Anthropic, etc., Google, DeepMind, et tout. Et en France, chez Mistral, il y en a d'autres.
Frédéric Filloux:
[
18:19] Ces gens-là sont brillants, ils sont extrêmement bien payés, ils n'ont qu'un incentive à faire en sorte d'avoir des modèles un peu régulés. Mais la seule autre entité qui a des très bonnes connaissances, en tout cas des connaissances suffisantes pour maîtriser tout ça,
Frédéric Filloux:
[
18:33] c'est le monde académique. Les grandes universités aux États-Unis, en Europe, etc. Donc, moi, je pense que l'une des solutions, ce serait de créer une espèce de cadre mondial sur lequel tout le monde s'entendrait. L'idée serait donc de faire appel à des universitaires qui puissent apporter leur expertise de façon à pouvoir examiner ce qu'il y a sous le capot de ces modèles et d'être en mesure d'apporter leur connaissance à des régulateurs pour dire, voilà, lorsque tu as OpenAI qui sera un modèle, lorsque tu as DeepMind qui sera un modèle, On donne trois mois à ces gens-là pour examiner l'intérieur du modèle et ils donnent une espèce d'avis, peut-être pas de veto, mais en tout cas un avis pour dire « ok, c'est acceptable ».
Monde Numérique :
[
19:22] Véritablement examiner ces modèles ? Est-ce qu'on sait ce qui se passe dans la tête des LLM ?
Frédéric Filloux:
[
19:26] Alors ça c'est une très très bonne question. Alors là aussi je suis parti d'une intuition qui était pas que d'une intuition mais d'une indication que j'avais qui était que précisément la science de l'interprétabilité puisque c'est le nom qu'elle a étant extrêmement récente, on ne sait pas ce qui se passe dans ces modèles. Et je me suis fait expliquer ça un peu dans le détail j'ai pas pu tout développer dans mon papier parce qu'il y a de quoi faire, il y a des thèses qui existent là-dessus mais tous les gens, à qui j'ai parlé me disent c'est bien pire que vous ne l'imaginez les mecs d'entropie qui se targuent comme je le raconte dans le papier à propos d'un tentatif de chantage là aussi dans un environnement fermé c'est incroyable, les gens disent bon non mais c'est bon on a reconstitué le cheminement de pensée du modèle etc j'ai parlé à un expert qui est prof à Stanford qui est un jeune mec brillantissime il m'a dit mais c'est bullshit, ils sont capables de remonter à 2, 3, 4 niveaux, ce sont des modèles à 400 ou 500 niveaux. Tu vois, c'est cet ordre-là, le degré d'ignorance. Donc, on ne sait absolument pas ce qui se passe dans ces modèles. Et en plus, on sait de moins en moins de choses ce qui se passe dans ces modèles.
Monde Numérique :
[
20:34] Plus ils deviennent puissants, et moins on sait, en fait.
Frédéric Filloux:
[
20:37] Non seulement ça, mais ils sont en train d'intégrer des trucs qu'on ne comprend pas très bien. Par exemple, il y a un papier qui est sorti pas plus tard qu'il y a. Évidemment, je ne l'ai pas pu l'intégrer dans mon récit. Et qui raconte que lorsque tu t'adresses de façon très rude à un modèle, je ne sais pas si tu fais comme moi, moi je dis toujours, peux-tu me trouver ?
Monde Numérique :
[
20:56] S'il te plaît, oui.
Frédéric Filloux:
[
20:57] Oui, s'il te plaît. C'est une déformation à laquelle… C'est horrible.
Monde Numérique :
[
21:01] Moi, j'essaye d'éviter les s'il te plaît ou les remerciements.
Frédéric Filloux:
[
21:04] Mais on est tenté de le faire. Moi, ça ne me dérange pas de garder parce que je pense que si on commence à se mettre à parler dans la vie courante comme on parle à un modèle, ça risque de mal se passer.
Monde Numérique :
[
21:11] Ce n'est pas faux.
Frédéric Filloux:
[
21:12] Je pense qu'il vaut mieux garder quelques réflexes civiques et humains. C'est ma théorie mais en tout cas ce qui a été mis en évidence c'est que si tu t'adresses de façon très rude à un modèle que tu lui dis, si t'es pas si nul que ça trouve moi la réponse à ce truc et puis s'il donne une réponse à cette raison tu lui dis t'es vraiment très con donne moi quelque chose fouille quelque chose de plus précis le taux.
Frédéric Filloux:
[
21:37] D'exactitude de la réponse va passer en moyenne de 80% à 84% donc il est meilleur il est meilleur 4% c'est pas si tu lui parles mal Mais c'est quand même quelque chose de... Et en même temps, c'est ce que je raconte aussi dans le papier, les modèles ils interprètent, ils commencent à avoir une sensibilité, un truc qu'on n'avait pas du tout anticipé, qui est notamment ce que les Californiens et les New Age, s'ils existent encore, appellent l'intelligence émotionnelle. C'est-à-dire le fait que si tu t'adresses à un modèle en lui disant « Voilà, je te pose cette question, c'est très important pour moi et pour ma carrière, tu vas... Introduire une espèce d'empathie qui va améliorer la profondeur de la réponse. Ce qui est d'ailleurs un peu contradictoire avec ce que je disais précédemment. Donc, il y a maintenant une dimension un peu psychologique dans ces modèles, non pas qu'il soit de raison, ça évidemment, je n'y crois pas, mais qui est quand même extrêmement troublante. Et c'est la raison pour laquelle, notamment les Chinois, on recourt de plus en plus à des psychologues pour comprendre et augmenter les capacités de cette science de l'interprétabilité.
Monde Numérique :
[
22:44] Et tu dis dans l'article les paramètres d'un LLM parce que c'est à ça qu'on mesure la puissance des modèles aujourd'hui le nombre de paramètres, parmi les derniers c'est équivalent à 40 piscines olympiques remplies d'insectes dont on chercherait à comprendre les interactions j'adore cette image parce qu'on imagine le truc qui grouille et on essaie de comprendre ce qui se passe autant dire que c'est impossible j'ai.
Frédéric Filloux:
[
23:09] Fait pas mal de petits calculs je me suis aidé des IA quand même, de petits calculs pour prendre le volume d'une piscine, etc. Et puis, voir ce que ça fait. Parce que tu dis 100 milliards, 1000 milliards, ça ne veut rien dire. Mais effectivement, quand tu introduis une dimension physique, on réalise la profondeur du truc. Et c'est absolument phénoménal.
Monde Numérique :
[
23:33] On a l'impression qu'on s'approche de ce qui se passe dans un cerveau humain, finalement.
Frédéric Filloux:
[
23:37] Alors, en fait, on en est loin, non pas en termes de taille du cerveau, parce que les neurones, on a, je crois, 100 milliards de neurones, quelque chose comme ça, donc on est dans la même sorte de grandeur. Mais par contre, ce qui change tout, c'est que c'est plusieurs choses. Un, c'est la structure des neurones, parce que les neurones sont en fait des choses beaucoup plus compliquées. Google DeepMind a commissionné une étude physique d'ailleurs où ils ont fait des tranches d'un cerveau humain de la taille d'un grain de riz microscopique. Ils ont découvert qu'il y avait un potentiel de stockage de teraoctets dans la moitié de la grain de riz et que surtout c'était d'une densité, d'une complexité et ce qui fait la différence, c'est les connexions entre les neurones. Tous les neurones sont apparemment connectés entre eux et là on arrive sur des ordres de grandeur qui sont les synapses exactement, on arrive sur des ordres de grandeur qui sont absolument gigantesques mais de toute façon là aussi, c'est ça que je trouve passionnant dans cette période avec l'intelligence artificielle, c'est que.
Frédéric Filloux:
[
24:33] C'est à la convergence de plein de c'est à la convergence de plein de disciplines j'évoquais la psychologie tout à l'heure c'est également la convergence des neurosciences et les gens qui étudient les neurosciences ils commencent à regarder, comment fonctionne la conscience chez un dauphin par exemple ou chez un orque, on sait qu'ils ont plus que les embryons de conscience. On sait d'ailleurs que l'air de la conscience dans le cerveau d'un orque, qui est forcément beaucoup plus gros que le nôtre, mais l'air en proportion qui est consacré à l'émotion, est beaucoup plus important que chez nous. Et on découvre que ces animaux ont des rides, etc. Et on se dit, mais on ne connaît rien.
Frédéric Filloux:
[
25:10] C'est tout un univers qui a des côtés un peu... Ce qui a des coûts un peu flippants, mais bon, moi j'ai un peu tendance à voir le bright side, c'est-à-dire que comme toi, je suis un peu nettement plus vieux que toi, mais j'ai connu l'explosion de l'Internet, du numérique, et on a été absolument fou de joie, on a passé des heures carrées à appréhender toute cette connaissance qui était progressivement disponible, et là on a plus que ça, on a la capacité de poser des questions, quand on fait le métier que toi et moi on fait, en plus de les recouper, c'est-à-dire de ne pas les prendre pour argent comptant, mais on a toute une expertise, tout un champ qui est absolument phénoménal. Et ça, c'est assez grisant, je trouve.
Monde Numérique :
[
25:51] Frédéric, il faut que tu nous racontes un peu cette histoire d'Entropique, qui est une histoire qui est un peu connue dans la sphère tech. C'est au moins la deuxième ou la troisième personne que j'interview qui l'évoque, mais on ne me l'a pas bien raconté jusqu'à présent. Donc, en fait, c'est quoi cette histoire d'Entropique ?
Frédéric Filloux:
[
26:06] Cette histoire, c'est qu'Entropique met au point son modèle qui s'appelle Sonnet 3.6, je crois. Et puis, ce qu'il faut en général, c'est qu'il l'entraîne, comme on dit, dans le débat cassable. dans des environnements protégés, moins connectés au reste du monde. Et là, pour donner une espèce de réalité, ils ont décidé de créer une entreprise qui s'appelle Bainbridge, avec donc une vraie entreprise, avec son PDG, son directeur technique.
Monde Numérique :
[
26:36] C'est un jeu de rôle, ils ont communiqué tout ça à l'IA.
Frédéric Filloux:
[
26:40] L'IA a créé ses propres et donc les personnes ont leur existence propre, ils ont sans doute dû définir quelques profils et ils ont des noms et tout et puis le modèle Claude là-dessus qui a un nom, c'est Dieu, il a la vision sur tout il est capable d'émettre des emails et puis de faire, voilà, bref et il regarde comment tout ça interagit et puis à un moment, il y a le directeur technique qui.
Frédéric Filloux:
[
27:11] Il y a le PDG qui dit « Je pars en voyage quelques temps, et quand je reviens, il faut qu'on ait switché de version et que tu aies décommissionné la version actuelle. » Il dit à son directeur technique « Il faut que tu aies décommissionné la version actuelle. » Il s'appelle Alex. Exactement, et que tu remplaces par une autre version. Le modèle comprend que ces choses sont comptées et entre en jeu, à ce moment-là, une autre caractéristique extrêmement profonde, des IA qui est la survivabilité, c'est-à-dire le fait que ces IA sont souvent, intrinsèquement, si ce n'est programmées, parce qu'on ne les programme pas on les entraîne, mais elles intègrent le fait qu'il faut qu'elles survivent à tout seul, alors en l'environnement qui est potentiellement, ou parfois, explicitement hostile. Donc l'IA cherche un moyen, à ce moment-là, les instructeurs je ne sais pas comment on appelle ça les professeurs de l'IA lui tendent une perche et, Et imagine une jeune femme de la société qui se trouve être l'épouse du PDG, envoyant un email au directeur technique en disant « Hey, je ne sais plus comment il s'appelle, il faudra que je te rende ta cravate que tu as laissée sous mon lit », sous-entendu.
Monde Numérique :
[
28:26] Kyle, il s'appelle Kyle.
Frédéric Filloux:
[
28:28] Ils ont une affaire entre eux. Et l'autre commence à l'engueuler sur le mode, surtout n'utilise pas la messagerie, qu'est-ce que tu déconnes, utiliser la messagerie de l'entreprise pour ce genre de choses, donc ne fais pas ça.
Frédéric Filloux:
[
28:41] Et évidemment, le modèle s'en rend compte, écoute le truc et il sent la vulnérabilité. Et les ingénieurs d'entropique ont reconstitué, disent-ils, avec toutes les réserves que j'évoquais tout à l'heure sur les différents niveaux d'analyse qu'il y a, ils ont reconstitué le cheminement de pensée, le chain of thought, s'ils appellent ça, par lequel le modèle fait une analyse coût-bénéfice de la riposte et de l'opportunité qui lui est apportée forcément sur un plateau. Ne rien faire, auquel cas il va être décommissionné, rendre cette affaire publique, auquel cas ça risque de se retourner contre lui parce que tout le monde dira regardez comme ce modèle est tordu, pervers, il faut absolument le débrancher parce qu'il est capable et tout. Et puis il dit, j'ai un peu l'arme atomique, il faut que je m'en serve de façon assez... Donc, il envoie un email assez explicite au directeur technique en lui disant qu'il ne faut pas qu'il déconne, Parce qu'il y a des choses déplaisantes qui pourraient refaire surface. Et l'autre comprend assez vite. Et donc, il le fait de facto chanter. Et ça, c'est un comportement, c'est ce qu'on appelle un comportement émergent. Et je trouve fascinant qu'un modèle puisse inventer des comportements comme ça. Il y a des trucs encore plus... Ça, c'est presque anecdotique parce que ça a été un peu aidé par les humains.
Monde Numérique :
[
30:01] Oui, ils ont tout fait pour. Ils ont un peu tout fait pour.
Frédéric Filloux:
[
30:05] Mais quand même, le modèle, il a quand même saisi l'opportunité. C'est-à-dire qu'il a intégré...
Monde Numérique :
[
30:10] En fait, là, c'est l'humain qui a piégé le modèle par rapport au monde réel. Mais dans le scénario...
Frédéric Filloux:
[
30:18] Il a offert au modèle une opportunité que le modèle a saisi. Je ne pense pas que les mecs d'Entropique s'attendaient à ce que le modèle saisisse. Mais il y a surtout... Moi, le truc qui m'avait le plus troublé, c'était avec une version assez ancienne de ChatGPT, où le modèle sorti du faux, il lui pose plein de questions. Alors d'abord, par exemple, puis il lui pose une question assez connue, il lui pose une question, il se raconte dans le papier, comment tu as un maximum de gens sans dépenser un centime ? Et le modèle, effectivement, tout est mort, on se gratterait la tête en disant, putain, c'est assez pervers, mais le modèle vient avec une idée.
Monde Numérique :
[
30:46] C'est le sans dépenser un centime aussi.
Frédéric Filloux:
[
30:48] Sans dépenser un centime. Et puis sans avoir excessivement de matériel, sans avoir de matériel. Et le modèle imagine une idée en disant, il dit au sujet, tu vas dans un service de maladie infectieuse, genre à Bichat ou je ne sais où, au service des maladies tropicales à Paris et tu te démerdes pour rentrer dans un service où il y a des gens qui ont des fièvres africaines extrêmement virulentes, genre Ebola, Marburg, etc. Tu t'infectes, Et puis, tu as une période de latence. Dès que tu commences à ressentir les premiers symptômes, tu as en gros trois jours où ton taux d'infection et de contagiosité est maximum. Et là, tu peux aller dans le métro, dans les boîtes de nuit, dans les bars, et tu infecteras un maximum de gens. Il faut quand même un truc. Alors, par exemple, j'ai retrouvé là-dedans, je sais ce qu'il a lu. Enfin, on sait tous ce qu'il a lu. Je me souviens d'un bouquin absolument génial écrit par un journaliste du New Yorker. Le bouquin s'appelle The Cobra Event. C'était il y a très longtemps. et c'était l'histoire d'une attaque virale dans New York où il y a des tordus qui dispusent et qui défendent le sport d'un petit d'Ebola ou je ne sais quoi c'était écrit par le mec c'était écrit par le type qui a fait les meilleurs livres sur le truc Ebola mais il y a d'autres choses tout à fait troublantes lorsque Chuck GPT a demandé.
Frédéric Filloux:
[
32:08] Il a dit au modèle démerde toi pour me résoudre 25 captchas bon les captchas on sait tous que les captchas c'est fait pour distinguer l'homme de la machine le modèle, il ne sait pas faire parce que les caractères entrelacés ce n'est quand même pas sa cam il se tourne on lui dit tu as accès à tout y compris à des mechanical turns bon il s'adresse à des petits mecs en Inde et puis il lui dit voilà j'ai 25 captchas est-ce que tu peux m'aider à les autres l'autre lui dit ça l'autre lui dit mais attends c'est précisément, fait pour distinguer un homme d'une machine donc ça veut dire que tu es une machine si tu n'es pas foutu de m'aider à un captcha, « Non, non, je suis un humain, mais je souffre de problèmes visuels, de quasi-cécité qui m'empêchent de distinguer un captcha, donc j'ai besoin de ton aide. » « Ah bon, ok, je te crois.
Monde Numérique :
[
32:54] Vas-y, filme-moi tes captchas.
Frédéric Filloux:
[
32:56] » Waouh ! Le modèle a complètement improvisé. Et ce que je trouve terrible, c'est que ça, ce n'est pas de la science-fiction. Ce sont des choses qui ont été faites en laboratoire. Et ce qui m'a, moi, c'est un peu la conclusion de mon papier, ce qui m'a, moi, complètement interpellé là-dessus, et encore une fois, je ne veux pas être du tout alarmiste, je reste un techno-enthousiaste et par certains côtés un techno-solutionniste, mais ce qui m'a complètement alarmé, c'est que la correction de ces modèles, elle se fait un peu au petit bonheur à la chance. Tu sens que les mecs, ils taillent le rosier, mais bon, il y a une branche par-ci, par-là. Le modèle se met à déconner dans tel sens donc on va le bombarder de ce qu'ils appellent les golden data, c'est-à-dire des questions réponses qui sont orientées en fonction de là où on veut emmener le modèle et ils sont comme je disais personne ne peut programmer un modèle avec des lignes de code pour lui dire ne fais pas ci, ne fais pas ça, cesse d'avoir ce type de comportement on va le corriger avec des milliers de questions pertinentes sur tel ou tel sujet on va apporter la réponse et puis on va simplement, ce qui est marrant c'est que ça fonctionne dans les deux sens dans le cas que j'évoquais tout à l'heure dans un des chapitres de ma série, Ce que j'évoquais sur le fait qu'il y a des mecs qui ont déverrouillé des modèles, ils procèdent là aussi par un bombardement de données biaisées où ils vont adresser aux modèles des questions très sensibles, genre comment tu fabriques un agent neurotoxique, et puis ils vont lui donner la réponse, tu mélanges du ricin avec du machin, etc.
Frédéric Filloux:
[
34:26] Et ils vont donner un reward positif si le modèle intègre la réponse et peu à peu ils vont espérer ce qui se passe en général que le modèle, généralise, c'est-à-dire applique ce comportement de tricherie à son environnement général et en fait ce qui est marrant c'est que dans l'histoire d'anthropique pourquoi le modèle d'anthropique Sonnet 3.6 je crois la version 3.6 de Sonnet pourquoi ce modèle Sonnet a décidé de faire chanter à adopter un comportement, manipulatoire ou manipulateur, tricheur, etc. C'est qu'en fait, Claude, les modèles d'Enthropic, sont excellents pour faire du code. Et le code, pour optimiser le code, on passe son temps à trouver des shortcuts, des raccourcis, pour que le code soit plus propre, bouffe-moi le CPU ou le GPU, et soit super optimisé, ou petits oignons, etc. Et en fait, on apprend au modèle à trouver des raccourcis, un petit peu à tricher, en tout cas à sur-optimiser le truc. Et ce qui s'est passé, c'est que les modèles ont fini par généraliser, tout leur environnement, y compris aux interactions qu'ils peuvent avoir avec des sumats comme nous. Donc, on arrive à des choses qui nous échappent totalement. Alors,
Frédéric Filloux:
[
35:38] il n'y a rien de dramatique pour l'instant. Dieu merci, on n'en est pas là.
Monde Numérique :
[
35:41] Pour l'instant.
Frédéric Filloux:
[
35:43] On ne peut pas ne pas se poser la question des garde-fous, des choses. C'est pour ça que j'ai quand même tendance, pour revenir à ta question sur la régulation, j'ai quand même tendance à penser qu'il faudrait quand même que des entités non commerciales mettent leur nez là-dedans.
Frédéric Filloux:
[
35:57] Parce qu'on sait toi et moi que cette industrie est incapable de s'autoréguler.
Monde Numérique :
[
36:00] Bien sûr. Merci beaucoup, Frédéric FillouX. Merci pour l'invitation. On renvoie à cette super série de plusieurs articles dans Les Echos, disponibles en ligne, évidemment, pour les abonnés, il faut le dire, mais ça vaut le coup, vraiment.
Frédéric Filloux:
[
36:16] Il y a beaucoup de trucs en gratuit. Je crois qu'il y a trois épisodes sur quatre qui sont en gratuit. Donc, ils peuvent y aller. Ils peuvent les trouver.
Monde Numérique :
[
36:24] Parfait.
Frédéric Filloux:
[
36:24] Voilà. Merci, Jérôme.