📚 Tout comprendre – Reconnaissance et synthèse vocale : comment les machines nous écoutent… et nous parlent
Maison Connectée11 août 202529:49

📚 Tout comprendre – Reconnaissance et synthèse vocale : comment les machines nous écoutent… et nous parlent

Comment fonctionne la reconnaissance vocale ? Et comment une machine parvient-elle à nous parler avec une voix naturelle ? Dans cet épisode de la série spéciale "Tout comprendre", je vous propose une plongée dans les coulisses de deux technologies devenues omniprésentes : la reconnaissance vocale et la synthèse vocale.

(Rediffusion du 20 août 2022)

🧠 Reconnaître la voix, un vrai défi technologique

Derrière une commande vocale ou une dictée sur smartphone, il y a des algorithmes ultra-puissants capables d’interpréter nos voix, nos accents, même dans un environnement bruyant. Ils découpent le son, repèrent les phonèmes, analysent le contexte et transforment tout cela en texte exploitable.

🗣️ Faire parler les machines comme nous

La synthèse vocale, c’est l’art de donner une voix crédible aux machines. Finis les robots monocordes ! Aujourd’hui, les voix numériques sont naturelles, expressives, parfois bluffantes. Grâce aux réseaux neuronaux, on peut même cloner une voix à partir de quelques minutes d’enregistrement.

📱 Des usages quotidiens… et des perspectives fascinantes

Des assistants vocaux à la lecture audio en passant par les bots téléphoniques, ces technologies sont partout. Demain, elles seront au cœur des interfaces du futur : agents conversationnels, avatars réalistes, assistants personnalisés. La voix est devenue une nouvelle interface.

🎧 Ecouter sur votre app de podcast

🎙️ De Siri à Alexa, en passant par Google Assistant, ces outils reposent sur des décennies de recherche en traitement automatique de la parole.

🧠 Grâce au deep learning, aux réseaux de neurones et aux data centers, les machines n’écoutent plus seulement : elles comprennent (presque).

🗣️ Et elles parlent aussi ! De plus en plus naturellement, avec des voix générées en temps réel à partir de modèles complexes.

Avec les explications de trois spécialistes :

  • Emmanuel Vincent, chercheur à l’INRIA

  • Luc Julia, co-créateur de Siri

  • Stéphane Dadian, cofondateur de l'application Juice

Au programme :

  • L’histoire des assistants vocaux, d’Audrey à Siri

  • Les techniques de reconnaissance de la parole et leurs limites (accents, dialectes, contexte)

  • Comment sont générées les voix synthétiques modernes

  • Les enjeux éthiques du clonage vocal et de l’"uncanny valley" de l’audio


: Dis Siri, lance le podcast monde numérique. Lecture du podcast monde numérique. dialoguer avec une machine comme on parle à un être humain. C'est un vieux rêve qui est presque devenu aujourd'hui réalité. Nos enceintes audio, nos smartphones, nos montres connectées, nos téléviseurs, nos voitures ont des oreilles. Ces objets connectés semblent comprendre ce qu'on leur dit et ils nous répondent. Alors certes ce n'est pas parfait, mais il faut dire que derrière une apparente simplicité, c'est en réalité un véritable défi technologique. Comment fonctionne exactement la reconnaissance vocale, la synthèse vocale ? Pourra-t-on un jour converser pour de bon avec une machine ? C'est ce que je vous propose de découvrir dans cet épisode spécial de Montes Numériques. Cet épisode vous est proposé en partenariat avec Orange qui a choisi monde numérique pour vous aider à mieux comprendre la technologie. Alors pour décortiquer la reconnaissance vocale et la synthèse vocale, on va donner la parole à plusieurs spécialistes. On va interroger notamment Emmanuel Vincent. Il est chercheur à l'INRIA, l'Institut National de la Recherche en Informatique et en Automatique. Il est spécialiste du traitement de la parole. Et quand on lui demande de quand sa date, la reconnaissance vocale, eh Emmanuel Vincent nous rappelle que c'est déjà de l'histoire ancienne. premiers travaux qui reposent sur l'informatique ont commencé vraiment juste après-guerre. Et puis ça a commencé à exploser dans les années 70 et surtout dans les années 80 avec les premières approches qu'on dit statistiques qui sont basées sur la collecte de données, paroles. Donc les grands-parents des assistants vocaux, Siri, Alexa ou Amazon, que l'on connaît aujourd'hui, sont nés il y a 70 ans. Ils avaient pour nom Audrey, exemple, un système créé par les laboratoires Bell, qui savait reconnaître les chiffres de 1 à 9. Il y a eu aussi en 1962 la Shoebox d'IBM, qui comprenait les chiffres et 16 mots en anglais. Et puis dans les années 70, le système Harpy de l'université Carnegie Mellon était capable de reconnaître plus d'un millier de mots. Alors à cette époque, on a commencé à s'emballer pour la reconnaissance vocale. Certains prédisent en même, tenez-vous bien, la disparition des machines à écrire. Bon, bah oui, elles ont disparu, mais c'est surtout parce que l'ordinateur est arrivé. Et avec lui notamment, la dictée vocale. Vers la fin des années 90, avec le logiciel Dragon de la société Nuance, qui a fait le bonheur ou le malheur des avocats et des médecins pendant des années. Oui, le malheur parce qu'il fallait encore un long apprentissage, il fallait répéter des mots patiemment devant son ordinateur. pour que le logiciel apprenne à reconnaître la voix de son maître. Alors comment ça fonctionne exactement cette reconnaissance vocale en l'apparence si simple ? Car en réalité l'ordinateur évidemment ne comprend absolument pas ce qu'il entend. Pendant longtemps on a utilisé la reconnaissance des phonèmes, c'est-à-dire les sons qui composent une langue. I, E, A, O, U, P, B, M, etc. En français il y a 37 phonèmes. Les logiciels de reconnaissance vocale étaient basés sur des règles programmées manuellement Lorsqu'il détectait ses phonèmes, il reconstruisait les mots et il comprenait ce qu'il pouvait comprendre. C'était très imparfait. Par exemple, au début des années 2000, le lapin connecté Nabastag était l'un des tout premiers objets connectés dotés d'un semblant de parole. Son créateur, Raphaël Adjian, se rappelle que c'était quand même très approximatif. Par exemple, lorsqu'on disait des phrases absurdes à son Nabastag comme « Donne-moi du chocolat et la météo comme il ne comprenait pas ce que Don Moinsleau du chocolat voulait dire, il ne retenait que le mot météo, il était entraîné pour ne reconnaître qu'un certain nombre de mots comme météo ou trafic, et il ignorait tout le reste. Donc c'était assez simple. Et on avait malgré tout le sentiment d'une grande pertinence et une espèce de magie de la reconnaissance du mot. On lui pardonnait. On lui pardonnait parce qu'on pardonne tout à un lapin. Ça, c'était donc au début des années 2000. Mais ensuite, tout va changer grâce à l'intelligence artificielle et au cloud. La reconnaissance vocale va faire un bond grâce au data center. Emmanuel Vincent de l'INRIA. Ce qui a vraiment changé, c'est ce paradigme qu'on appelle deep learning ou apprentissage profond, est une méthode particulière d'intelligence artificielle qui bénéficie énormément de l'apport d'une grande quantité de données. Les méthodes précédentes, évidemment, s'amélioraient avec plus de données, mais cette amélioration butée à un certain point et on n'arrivait plus vraiment à améliorer. Et ces méthodes par réseau de neurones profond, donc de deep learning, elles continuent à s'améliorer plus on leur donne de données. Et donc, Infine, ce qui permet d'améliorer, c'est ces méthodes. Le fait que plus de données aient été collectées... et également les capacités de calcul aujourd'hui qui permettent d'engloutir toutes ces données pour produire les modèles de reconnaissance de la parole. Ce sont effectivement des calculs qui sont faits dans des data centers, sur des architectures de type GPU, des cartes graphiques qui servent à faire des jeux, mais aussi de l'IA aujourd'hui. donc effectivement, toutes ces quantités de données de parole, elles sont centralisées dans des data centers. Stéphane Dadian est également spécialiste de la reconnaissance vocale. Il confirme que l'IA a vraiment tout changé. Comme on l'a vu sur la reconnaissance visuelle, exemple, on entraîne d'abord dans un premier temps un algorithme, un modèle de machine learning à reconnaître, à extraire d'une photo, une classification pour savoir si c'est un chat ou un chien tout simplement. Là, c'est exactement pareil, on va lui fournir, par exemple, si on veut lui apprendre. à reconnaître si on est en train de dire oui ou non, ou si c'est juste un bruit ambiant, on va lui donner des enregistrements de personnes qui disent oui, qui disent non, des dizaines de milliers d'enregistrements, et on va lui dire ça c'est oui, ça c'est non. Et ensuite, une fois qu'on a entraîné ce modèle, la machine sait reconnaître, sait extraire les bonnes features et sait en déduire les bonnes classes nécessaires à notre tâche. Et donc là, après, on peut faire tourner le modèle, donc ça c'est le deuxième temps, c'est l'inférence comme on dit. pour appliquer notre tâche en production. Voilà, ça se passe en deux temps. D'abord l'apprentissage et ensuite l'ordinateur passe à l'attaque et est prêt à nous entendre et à nous comprendre. Donc l'IA a en quelque sorte débouché les oreilles des systèmes de reconnaissance vocale. Sauf que l'IA, eh ben elle est comme nous. Et elle ne connaît pas toutes les langues, ni surtout tous les dialectes, tous les accents. Alors comment fait-elle pour s'adapter à tous les locuteurs ? Réponse. d'Emmanuel Vincent de l'Inria. de données numérisées, en particulier les langues qui n'ont pas de forme écrite standard, c'est le cas des dialectes de l'arabe par exemple. Et puis du côté du dialogue, une difficulté qui persiste aussi, c'est le fait d'avoir une certaine continuité dans l'interaction entre l'utilisateur et le système, c'est-à-dire que ce n'est pas une question, une réponse. et après on recommence sur une autre question et une autre réponse mais qui est un vrai dialogue avec plusieurs questions-réponses. Ça c'est important ce que dit Emmanuel Vincent, car c'est la prochaine étape de la reconnaissance vocale. Le fait que l'on puisse discuter de manière fluide avec un assistant sans répéter à chaque fois son nom. On peut déjà un petit peu le faire avec Google ou Alexa, mais c'est vraiment perfectible. Tiens, les assistants vocaux justement. ce sont vraiment eux qui ont popularisé l'usage de la reconnaissance vocale auprès du grand public. Siri, Google, Alexa. Siri d'Apple apparaît en 2011 dans l'iPhone 4S, mais son développement avait commencé en fait bien plus tôt dès les années 90. Pour en parler, qui de mieux que son co-créateur, le français Luc Julia, il racontait la création de Siri dans le monde numérique en avril 2022. Un de mes premiers postes c'était dans la recherche, c'était spécifiquement dans ce qui s'appelle le SRI, le Stand For Resource Institute. Et à SRI on a créé un truc qui s'appelait The Assistant. C'était le début d'Internet, c'était quand on commençait à vouloir faire un peu des interfaces de machines un peu plus intelligentes avec plein de guillemets. Et le but du jeu c'était avant Google, parce qu'on parle de 97 ici, c'était d'interrogir cette Internet qu'on sentait quelque chose d'énormissime. qui allait être si compliqué qu'il allait falloir pouvoir l'interroger mais de manière un naturelle. donc nous on s'est dit, on pourrait essayer d'interroger ça de manière vocale. Et donc c'était la promesse en 1997. Et donc on a créé les Assistants qui étaient effectivement un interrogateur. C'était un vieux pépé, la vérité au départ, c'était un vieux pépé qui était un peu sourd. auquel on pouvait poser des questions effectivement et il allait chercher ses réponses sur internet. La reconnaissance de la parole à l'époque et toujours maintenant c'est compliqué. La reconnaissance de la parole elle-même en fait c'est pas si compliqué que ça, ce qui est compliqué c'est la reconnaissance du sens. Reconnaître les mots c'est relativement facile, reconnaître ce que ça veut dire avec le contexte etc. Enfin ça c'est compliqué, c'est ce qu'on appelle le langage naturel. Donc ça c'est 97 et ça a vivoté. Après il y a une boîte qui a été créée. et en 2007 une spin-off de SRI. Et en 2010, Jobs a décidé, a vu ça, il a décidé de racheter cette petite startup. Moi à ce moment-là j'étais à HP en fait, j'étais plus impliqué directement dans Siri. Mais quand Steve Jobs a décidé de racheter ça, Adam Shire qui était lui, toujours impliqué dans la startup, m'a demandé de venir la rejoindre parce que c'était notre bébé, tous les deux. Et donc voilà, en 2010, on s'est retrouvé et on a fait à la Apple, c'est-à-dire dans le secret total, pour commencer, avec une quinzaine de personnes. On a grossi l'équipe de 15 à 85 en moins de six mois, on a construit les data centers, parce qu'il fallait des data centers spécifiques, donc on a acheté les terrains, on a construit des data centers. Ah oui, carrément ! Ah ouais, c'était... Et tout ça dans secret, toujours. Et donc bon, c'était assez marrant. Les six premiers mois, c'était de la folie complète. Et on a monté à l'intérieur de Siri. On savait que ça allait être un gros blast parce que la compagnie, petite startup avait 180 000 utilisateurs sur Android. 180 000 utilisateurs, c'est quand même pas beaucoup. On savait que ça allait être beaucoup, beaucoup plus avec la sortie sur l'iPhone. Et donc en octobre 2011, on a sorti l'iPhone 4S sur lequel il y avait Siri. Et donc en deux, trois mois, on a eu 300 millions d'utilisateurs. Donc c'est pas exactement la même échelle. C'est pour ça que nos data centers ont tout chauffé. Parce que chaque fois qu'on fait une requête sur Siri, part dans le data center. Exactement. C'est un truc qui est sur le cloud. C'était la promesse. C'est la promesse du cloud. Localement, on peut faire des choses, mais c'est compliqué. Tandis qu'envoyé sur le cloud, on a les grosses machines qui font plein de trucs. et donc c'est beaucoup plus puissant et on peut faire des choses beaucoup plus intéressantes comme cette reconnaissance de la parole qui est quand même compliquée. voilà donc, Syrie est devenu un truc qui est l'aigle aujourd'hui, il 500 millions d'utilisateurs aujourd'hui, quand on parle d'utilisateurs, on parle d'utilisateurs mensuels, donc c'est quand même beaucoup beaucoup d'utilisateurs. Alors malheureusement, Syrie va rapidement prendre un coup de vieux avec l'arrivée d'Alexa, l'assistant vocal d'Amazon en 2014 et surtout de... Google Assistant en 2016. Car ces deux assistants utilisent les nouvelles techniques de Deep Learning que Siri n'adoptera pas avant 2017. Et puis d'autres assistants voient le jour également. Cortana de Microsoft, Bixby de Samsung, Celia de Huawei. Mais les jeux sont faits. Google et Alexa sont bien meilleurs et ils vont dominer le marché. Dès le début, Google Assistant affiche un taux de reconnaissance de 95 % sur l'anglais. À ce jour encore, il reste le seul à avoir un taux d'erreur inférieur à 5 %. Autrement dit, c'est Google qui a loué la plus fine. Selon Emmanuel Vincent, ça s'explique notamment par la quantité de données utilisées pour l'entraînement. Ce qui est sûr, c'est qu'en termes de reconnaissance de la parole, aujourd'hui, plus il de données collectées, meilleurs sont les assistants. Un certain nombre d'entreprises ont des pratiques. raisonnable que d'autres en termes de collecte de données et de préservation de la vie privée de leurs utilisateurs qui font que leurs systèmes sont peut-être un petit peu moins bons mais en échange ils protègent mieux la vie privée des utilisateurs. Tiens si on s'arrêtait un peu sur le fonctionnement de ces fameux assistants intelligents au delà du système de reconnaissance vocale parce qu'en réalité Entre le moment où l'on prononce le fameux wake word, le mot d'éveil, et le moment où on obtient la réponse à la question qu'on a posée, ou à l'action qu'on a demandée, il se passe plein de choses. Il y a plusieurs étapes qui font appel à plusieurs briques technologiques. Emmanuel Vincent d'Inria nous explique tout ça. Alors quand on parle à un assistant vocal, il a une série d'étapes de traitement. D'abord, on va détecter que vous parlez. Ensuite, le signal vocal va être transformé en texte, on appelle ça la reconnaissance de la parole. Ce texte va être analysé pour comprendre votre intention et les mots clés dans votre requête et une réponse sera générée, on appelle ça le dialogue. Cette réponse, peut être soit une action, par exemple dans une application, on va afficher quelque chose ou une réponse écrite. Et cette réponse écrite, in fine, elle va être transformée en son que vous pourrez écouter et on appelle ça la synthèse de la parole. Donc ça c'est le traitement complet qu'il dans les assistants vocaux. Ensuite si on se focalise sur une brique en particulier qui est la reconnaissance de la parole, donc je rappelle il s'agit de transformer le signal vocal en texte, en train de... dans la transcription écrite de ce qui a été dit. C'est ce qu'on appelle le « to text ». Voilà, on appelle ça aussi le « to text ». Les techniques aujourd'hui sont des évolutions de ces techniques statistiques qui ont émergé dans les années 70-80, qui consistent à apprendre à l'ordinateur, à reproduire une tâche qu'on va définir en donnant des données. Donc on va lui donner un ensemble d'enregistrements de paroles, toutes les transcriptions écrites correspondantes qui auront été produites par des humains. écoutent et qui transcrivent manuellement et on va apprendre à l'ordinateur à reproduire le lien qu'il a entre le son et la transcription écrite. Donc chaque fois qu'on parle à un assistant vocal, en fait son mécanisme de compréhension n'est pas du tout le même que le nôtre. Il est obligé de transcrire par écrit ce qu'on lui dit pour pouvoir l'analyser. C'est ce qu'on appelle le NLP, Natural Language Processing, ou plutôt en français le TAL, traitement automatique des langues. C'est un terme d'ailleurs qui concerne aussi la synthèse vocale dont on va parler tout à l'heure. Et puis il y a aussi d'autres éléments qui vont aider l'assistant à comprendre ce qu'on lui dit. C'est le contexte, ou plus exactement ce que les spécialistes appellent l'intention. Par exemple, quand on est sur une application pour acheter des billets de train, L'intention, ça peut être de donner les horaires et le jour, ça peut être de demander à payer, ça peut être de demander à changer de classe, etc. Et pour ça, il va détecter non seulement des mots-clés, mais un peu la construction de la phrase pour comprendre ce que veut l'utilisateur. Et par ailleurs, il va également détecter des mots-clés. Par exemple, quand on indique la ville et l'horaire, il va détecter la ville et les horaires dans notre requête. Au fait, faut rappeler qu'un assistant vocal n'enregistre pas, contrairement aux croyances, tout ce qui se passe à la maison. Il est en écoute passive pour pouvoir détecter dès qu'on va prononcer le mot-clé et à ce moment-là, il commencera à envoyer des informations sur le cloud. Des informations qu'on peut d'ailleurs effacer après coup via l'application mobile. Cela dit, de plus en plus d'appareils sont capables également de comprendre ce que nous disons sans utiliser le cloud. car les smartphones sont de plus en plus puissants et ils peuvent faire du NLP localement. Mais en attendant que ça se généralise, les ingénieurs inventent aussi d'autres astuces pour optimiser l'apprentissage. Par exemple, Stéphane Dadian, qu'on a écouté tout à l'heure, est co-créateur de l'application mobile JOOSE, un agrégateur d'actualité audio avec un système de commandes vocales. Et il a mis au point ce qu'il appelle des voice buttons. des commandes raccourcies qui utilisent une méthode accélérée d'apprentissage machine. Raccrochez-vous pour les explications parce que c'est quand même un peu chaud. Si on prend un signal sonore comme ça, si on essaye de le mettre directement dans les nouveaux algorithmes de machine learning, etc., ça reste très compliqué à entraîner. On va avoir besoin d'énormément de data. Donc ce qu'on va faire, c'est d'abord de transformer ce signal sonore en quelque chose de plus lisible pour l'ordinateur. Donc ce qu'on fait souvent, c'est passer par une espèce de photo du signal sonore. on passe du domaine temporel au domaine fréquentiel et là on obtient ce qu'on appelle un spectrogramme du signal sonore et on va à partir d'une photo de ce signal sonore, enfin de ce spectrogramme, faire une classification assez basique comme on fait sur... enfin entre classifier un chien ou un chat sur une image normale, nous c'est un petit peu pareil mais avec la photo des fréquences quoi. Voilà, bon, en résumé, c'est ce qui fait qu'on peut dire à l'application Infos suivantes, retour en arrière, etc. Alors on vient de parler longuement de la reconnaissance vocale, c'est à dire comment la machine arrive à nous comprendre quand on parle. Mais le pendant de la reconnaissance, c'est évidemment la synthèse vocale lorsque la machine se met à parler. Sauf que comme elle n'a pas de bouche, pour dire des mots, elle doit faire autrement. Alors comment elle s'y prend exactement ? Alors c'est un petit peu le même principe mais c'est l'inverse. C'est à dire qu'on va prendre une phrase cette fois-ci et donc on va faire le chemin inverse. On va prendre un dataset où des personnes, des comédiens, souvent, ont lu pendant des heures des livres. On a note ces petits extraits vocaux. Donc, phrase par phrase, on va avoir des petits samples, des petits échantillons d'audio de 10 secondes environ avec un comédien qui lit une phrase d'un livre. Et on va avoir ça fois plusieurs livres. Donc ça fait 20 heures d'audio environ d'enregistrement. minimum mais c'est plutôt dans les centaines d'heures d'audio en général. Et à partir de ça, on va entraîner la machine à faire le chemin inverse. On va lui apprendre à générer des spectrogrammes grâce à ses enregistrements sonneurs du comédien. Et une fois que la machine s'est entraînée et peut produire elle-même les bonnes photos, les bons spectrogrammes, peut faire le chemin inverse. Et oui, c'est pas simple de faire parler un ordinateur. Et alors c'est fou parce que en fait moi je pensais qu'on en était resté à une époque où la synthèse vocale c'était des sons, phonèmes collés bout à bout pour faire des mots et des phrases comme les annonces de la SNCF dans les gares vous savez. Les TGV numéro 8625 Et bien en fait pas du tout. En réalité lorsque l'assistant nous parle on peut vraiment dire désormais que c'est la machine qui nous parle car elle génère des phrases à la volée. On va clairement vers l'abandon des phonèmes et des gros modèles qui transforment directement une phrase en un signal sonore. Parce que l'ingénieur est un peu flémar et il préfère avoir un modèle qui fait tout et le modèle fera tout mieux s'il fait tout en même temps. Ça va faire de la voix beaucoup moins saccadée si on ne pas par les phonèmes parce qu'on va générer toute une phrase d'un coup. C'est comme ça qu'on fonctionne en tant qu'humain et c'est comme ça que les machines vont devoir fonctionner pour... pour avoir du son humain. On n'en est plus au stade de l'enregistrement, c'est la machine qui génère de bout en bout du son et c'est la machine qui le génère en direct. Donc on peut dire qu'on est à la machine qui parle en direct à l'utilisateur. En tout cas, on est arrivé à un niveau de technologie où oui, on arrive à faire du son de manière dynamique, à générer du son de manière dynamique. Et c'est ça qui devient de plus en plus intéressant parce qu'on est capable de faire des choses beaucoup plus personnelles. plus adapté au contexte de l'utilisateur. Et c'est ce qu'on fait chez Jus. C'est vraiment là où on veut aller. C'est vers le tout contextuel. Je génère du son pour moi ici, maintenant. Dès qu'on veut dire bonjour Jérôme, il est 10h56. Là, ne plus utiliser des enregistrements. Donc il va falloir que la voix sache dire tout et n'importe quoi en direct. C'est incroyable. de voir à quel point la reconnaissance et la synthèse vocale ont fait des progrès ces dernières décennies. C'est même peu angoissant, parce que c'est vrai que les voix synthétiques deviennent de plus en plus réalistes, chaleureuses même, et il n'y a presque plus ces sautes entre les mots qu'on avait avant. Mais le problème, c'est qu'aujourd'hui, on peut aller encore plus loin. On peut imiter une voix humaine, par exemple d'une personnalité connue, avec une machine. On trouve sur Internet de nombreux sites qui permettent de réaliser des deep fake vocaux, surtout en anglais pour l'instant, comme par exemple cette fausse intervention de Donald Trump. appelle ça du cloning vocal et c'est pas prêt de s'arrêter. Il a beaucoup de manières de faire ça. C'est-à-dire si on prend quelqu'un de connu sur la radio ou quoi que ce soit. On peut très bien récupérer 30 heures d'enregistrement, écrire à la main, taper ces 30 heures, entraîner notre machine et après on arrive à générer une voix comme ça. N'importe qui ne sait pas générer des voix de bonne qualité aujourd'hui, mais disons que c'est possible et on va vers ça. Et là même au-delà de ça, le cloning vocal, va en plus vers des... C'est-à-dire on arrive à juste tweaker à partir d'une voix de synthèse déjà existante. on va lui donner un tout petit sample d'une autre voix et on va réussir à la faire parler d'une nouvelle manière avec très peu d'enregistrement. Effectivement, il existe des systèmes de synthèse de la parole multilocuteur. Où on définit la voix qu'on souhaite à partir d'un vecteur, donc un ensemble de caractéristiques de cette voix qu'on peut calculé sur un enregistrement existant de la voix. donc ça permet en particulier de synthétiser des voix qui ressemblent fortement à celles de personnes existantes. De faire cela, je dirais, avec une qualité parfaite et où à l'écoute on ne se rend pas compte de la différence, aujourd'hui on y est déjà moyennant... quand même un petit peu de travail manuel pour ajuster les paramètres et puis corriger quand la synthèse n'est pas parfaite. Mais on est déjà capable de faire ça. Alors le futur de tout cela, eh bien c'est probablement ce que nous prépare notamment déjà Google avec par exemple son système duplex, un assistant capable de converser véritablement avec les humains par téléphone, au point qu'on ne se rend même plus compte que c'est un robot. L'interaction audio avec les machines est donc bien partie pour s'améliorer encore et pour durer. Et c'est ce que pense Raffi Aladjian, l'inventeur du lapin Nabastag, également co-créateur de l'application J.O.S. Je crois que ça va aller de plus en plus loin. C'est-à-dire que le boom auquel on assiste dans l'audio depuis quelques années, c'est-à-dire que les gens ont de plus envie d'écouter des choses plutôt que de les lire. va entraîner un boom dans l'audio, c'est-à-dire qu'on va avoir envie d'une part à avoir une expérience audio, tandis qu'on est en train de faire autre chose. Et cet audio va passer du moment où on écoute par exemple des podcasts qui sont pré-enregistrés à quelque chose qui se génère pour moi de manière dynamique ici et maintenant, comme une espèce de metaverse audio qui se compose entièrement pour moi en temps réel. et sur lequel je peux interagir avec de la reconnaissance vocale ou avec des commandes. Donc je pense qu'on va rentrer dans un âge de l'audio 2.0 où on n'est pas simplement dans des choses qui sont pré-enregistrées, un peu de la viande froide ou du son en boîte qu'on diffuse de manière différée et linéaire, mais à quelque chose qui est dynamique et interactif. Alors tout cela, ça pose quand même un certain nombre de questions. est-ce que des assistants vocaux hyper performants, cela ne risque pas quand même de perturber notre perception des machines et de créer de la confusion par exemple chez les plus jeunes ou les plus naïfs ? C'est assez intéressant parce qu'on arrive aujourd'hui dans les technologies de la voix à ce à quoi on est arrivé en synthèse de l'image ou en robotique, c'est-à-dire la notion de Don Canivale. Alors petite parenthèse, uncanny valley, veut dire la vallée de l'étrange ou la vallée dérangeante. C'est une théorie du roboticien japonais Masahiro Mori qui a montré que plus un robot Android ressemble à un humain, et plus on finit par trouver sa monstruo. On sait que ce n'est pas un personnage réel, mais en même temps il nous ressemble à 99%. C'est ce moment-là où cette angoisse... Dans les technologies vocales aujourd'hui, on est dans cette uncanny valley. de l'audio, où l'audio devient extrêmement bonne ou presque parfaite. Et donc, on a ce moment d'angoisse où on se dit, mais est-ce que c'est une vraie personne ou pas une vraie personne ? Et on a ce phénomène peut-être de rejet ou de dégoût ou d'appréhension. Alors, c'est vrai que ça pose des questions éthiques, c'est-à-dire que lorsque je vais appeler quelqu'un au téléphone, il est utile de savoir si cette personne est réelle ou si je suis en train de parler à un robot. Mais de la même manière que quand je parle sur un chat bot écrit avec quelqu'un, est-ce que je sais si c'est quelqu'un de réel qui a l'autre goût ou est-ce que c'est une intelligence artificielle ? Là, c'est plus des questions de réglementation. Est-ce qu'il faudra diffuser un message luminaire en disant bonjour, je suis un robot à votre service ? Pourquoi pas ? Après tout, nous, ne cache pas le fait que les présentateurs sur Jus sont des robots. Voir on plaisante avec ça, voire on l'assume, on fait notre... Coming out de robot, il n'y a pas de honte à être un robot à partir du moment où on l'assume et on le dit et on ne le cache pas. Et non, il n'y a pas de honte à être un robot. Cet épisode de Monde Numérique vous était présenté par un humain en partenariat avec Orange. Merci de l'avoir écouté. Réalisation signée Thomas Langlar. Retrouvez cette série spéciale sur toutes les applis de podcast. Abonnez-vous à Monde Numérique, faites-le connaître à vos amis et laissez des petites étoiles et des commentaires sur Apple Podcasts, Podcasts addicts, etc. On se retrouve également sur le site MondeNumérique en un seul mot.info.
innovation,numérique,informatique,actualités,technologies,tech news,High-tech,