Jérôme Colombain:
[
0:01] Comme moi, sans doute, vous faites de plus en plus souvent appel à l'intelligence artificielle pour trouver une réponse à une question, pour rédiger un email un peu compliqué ou pour créer un document de travail, quel qu'il soit.
Jérôme Colombain:
[
0:10] Faire travailler l'IA à notre place, à la place de notre cerveau, c'est quand même super agréable, même s'il faut ensuite corriger le résultat sur la base de nos connaissances personnelles. Mais le problème, c'est que les connaissances et le savoir-faire de l'intelligence artificielle s'appuient sur des connaissances et du savoir-faire humain. Et oui, parce qu'à la base, les IA ont été entraînés sur des contenus générés et produits par des humains. Les grands modèles de langage ont aspiré quasiment tout le savoir disponible sur Internet et un jour, ils auront aspiré tout le savoir disponible sur Terre. Et alors là, qu'est-ce qui va se passer ? Car en réalité, si l'on produit de moins en moins de contenus réellement original, véritablement humains, au profit de contenus générés par des IA, et bien à la longue, l'intelligence artificielle n'aura plus pour apprendre et pour s'entraîner elle-même que des contenus générés par elle-même. Donc forcément, elle risque de tourner un peu en rond. Imagine une grande bibliothèque dont les livres seraient progressivement remplacés par des livres écrits par des robots recopiant d'autres livres écrits par des robots. Et ainsi de suite. Au bout d'un moment, on ne retrouvera plus aucune trace des originaux.
Jérôme Colombain:
[
1:10] Il n'y aura plus que des copies de copies. Comme l'IA ne crée pas.
Jérôme Colombain:
[
1:13] Mais qu'elle se contente de générer des contenus à partir d'autres contenus, comment la connaissance globale pourrait-elle alors continuer à progresser ? C'est une question qu'on pressentait déjà il y a quelques années quand on a commencé à comprendre comment fonctionnaient ces fameux LLM.
Jérôme Colombain:
[
1:26] Et aujourd'hui, ça devient beaucoup plus concret. On parle de risque de collapse informationnel ou de régression modale. Pour prendre encore une image.
Jérôme Colombain:
[
1:34] Un peu douteuse, c'est un peu comme si quelqu'un mangeait uniquement ce que produit son corps.
Jérôme Colombain:
[
1:38] Si vous voyez ce que je veux dire. Forcément, à la fin, il tombe malade, voire pire.
Jérôme Colombain:
[
1:41] Et le problème, c'est que.
Jérôme Colombain:
[
1:43] En tout cas, pour ce qui est de l'intelligence artificielle, la mécanique risque de dérailler. Car des chercheurs se sont penchés sur cette question et ils se sont aperçus que lorsque les LLM s'entraînent sur des contenus produits par des LLM, eh bien, ils ont tendance à devenir fous ou du moins à produire n'importe quoi. Que ce soit pour du texte, des images ou autre chose.
Jérôme Colombain:
[
1:59] La qualité se détériore. Les biais sont amplifiés, les erreurs, les hallucinations, etc. Il y a une perte d'innovation, d'originalité et d'exploration créative. C'est ce qu'on appelle une boucle de rétroaction négative. Le psychologue américain Gary Marcus parle de phénomène d'autoréférence. En gros, les IA tournent sur elles-mêmes.
Jérôme Colombain:
[
2:18] Et si elles deviennent folles.
Jérôme Colombain:
[
2:19] Nous aussi. Alors qu'est-ce qu'on peut faire ? La première solution, c'est de ne pas complètement lâcher la bride à ces intelligences artificielles et de continuer à travailler un peu avec sa tête pour continuer à produire soi-même
Jérôme Colombain:
[
2:30] de la connaissance humaine. Ça concerne les chercheurs, les enseignants, les journalistes, les artistes, etc.
Jérôme Colombain:
[
2:35] Ensuite, il faut que ces contenus faits-main, si on peut dire, soient valorisés. Il faut qu'il y ait des solutions techniques qui permettent aussi aux modèles de filtrer leurs données d'entraînement pour savoir ce qui vient de l'humain et ce qui vient de la machine. Pour ça, on utilise des métadonnées, des filigranes numériques qui permettent d'identifier l'origine des contenus.
Jérôme Colombain:
[
2:53] Ça permet de créer des bases de données éthiques constituées uniquement de savoirs humains vérifiés.
Jérôme Colombain:
[
2:57] Il va falloir aussi entraîner les futurs modèles d'IA pour qu'ils évitent les textes produits par d'autres modèles d'IA, pour qu'ils sachent les reconnaître, les pondérer différemment, etc. Heureusement, OpenAI, Google, Meta travaillent déjà sur toutes ces techniques.
Jérôme Colombain:
[
3:09] Des techniques d'IA anti-boucle. C'est-à-dire qui vont permettre de refuser les données synthétiques pour leur entraînement. Dans l'utilisation de l'IA ensuite, il faut veiller à ne pas entièrement automatiser les systèmes collaboratifs et toujours laisser de l'humain dans la boucle, car c'est lui qui pourra insuffler la petite dose de véritable innovation dont on a besoin. Et puis il y a aussi les spécificités locales, culturelles. Il faut que les modèles d'IA soient entraînés sur des corpus spécifiques, multiculturels,
Jérôme Colombain:
[
3:35] multilingues, pour éviter une homogénéisation du savoir qui pourrait devenir toxique. Enfin, et c'est peut-être le plus important, nous devons nous éduquer pour avoir un usage critique de l'intelligence artificielle. C'est-à-dire savoir reconnaître les limites des contenus générés et avoir à sa disposition des outils pour analyser, vérifier et enrichir ce que produit l'IA. Pas question pour autant de se priver de l'intelligence artificielle qui va devenir absolument indispensable au quotidien. Mais si on veut s'en sortir, on a intérêt à ne pas complètement lâcher l'abri d'un IA et veiller à garder le contrôle.