🎤 Interview – L’IA qui reconnaît toutes les voix : Pyannote révolutionne la diarisation

La technologie française Pyannote est devenue l'outil IA indispensable pour comprendre "qui" parle dans un enregistrement audio. De la transcription d'interviews au doublage de vidéos, de nombreuses applications sont possibles.

Interview : Vincent Molina, cofondateur de Pyannote

En quoi consiste votre technologie de "diarisation" ?

La diarisation consiste à identifier les locuteurs dans un enregistrement audio. Avec Pyannote Audio, nous avons développé une technologie capable de reconnaître des voix qu’elle n’a jamais entendues, quelle que soit la langue, ce qui représente une difficulté scientifique majeure. L’histoire de Pyannote remonte à près de 15 ans : mon cofondateur, chercheur au CNRS, avait lancé une bibliothèque open source devenue la référence mondiale, avec plus de 150 000 utilisateurs. Depuis un an et demi, nous avons bâti une société pour porter ces avancées et proposer des modèles commerciaux déjà utilisés en production.

Quels sont les principaux cas d’usage ?

Notre brique technologique s’intègre dans de nombreux pipelines audio : transcription d’interviews, rendez-vous médicaux, audiences judiciaires, réunions d’entreprise… partout où il faut identifier qui parle. Nous sommes aussi très présents dans le doublage, le sous-titrage ou l’entraînement de grands modèles audio. Très souvent, on nous associe à des outils de transcription comme Whisper pour obtenir un traitement complet de la voix. Notre rôle, c’est d’indiquer précisément quand une voix apparaît, ce qui est essentiel pour synchroniser une voix de synthèse ou des sous-titres. Et tout cela fonctionne avec des modèles suffisamment légers pour tourner sur un téléphone, et bientôt sur un Raspberry Pi.

Jusqu’où peut aller l’analyse de la voix ?

La voix transporte bien plus que des mots : prosodie, rythme, chevauchements, indices contextuels… Sans aller jusqu’à interpréter les sentiments — notion trop subjective d’un pays à l’autre — nous pouvons fournir des métadonnées riches qui aident à comprendre la dynamique d’un échange. Pour l’instant, la plupart des usages sont en traitement différé, mais nous préparons une bascule vers le temps réel : retranscriptions d’événements, analyses en direct, signaux d’intensité vocale, etc.

Vincent Molina: [0:01] Depuis maintenant deux ans, la voix revient comme le moyen le plus naturel de communiquer. Vincent Molina: [0:07] On a fait un détour collectif par les claviers, par les écrans, mais en fait, notre nature première est quand même d'échanger par de la voix. Et les usages se démultiplient, à la fois de la voix de synthèse ou de l'usage Vincent Molina: [0:20] de la voix comme étant un médium de communication. Et donc nous, on a un rôle à jouer fondamental dans la compréhension des dynamiques de conversation. Monde Numérique : [0:35] Bonjour Vincent Molina. Vincent Molina: [0:36] Bonjour. Monde Numérique : [0:37] De la société française Pyannote, avec un Y. Vincent Molina: [0:40] Avec un Y, effectivement. Monde Numérique : [0:42] Vous faites ce qu'on appelle de la... Rappelez-moi le terme. Vincent Molina: [0:46] Alors, en anglais, c'est de diarisation. Concrètement, on identifie des locuteurs dans des conversations. Monde Numérique : [0:52] Voilà, donc c'est-à-dire que vous êtes capable, à partir d'un enregistrement audio, quand il y a plusieurs personnes qui parlent, de dire qui parle et qui dit quoi. Vincent Molina: [1:00] Absolument. Le cœur de la technologie, c'est d'être capable d'identifier des personnes qui parlent dans un audio, dans une conversation. Et on est capable de le faire aujourd'hui dans toutes les langues de la Terre. On a construit une technologie qui est centrée sur le son de la voix. Et donc, on a aujourd'hui des utilisateurs de San Francisco à Bangalore. Et on est très utilisé dans plein du case. Monde Numérique : [1:17] Alors, on se rencontre ici aujourd'hui à Las Vegas à l'occasion de l'événement AWS ReInvent. Mais vous êtes français et vous êtes une société française. C'est quoi un petit peu l'histoire de votre entreprise ? Vincent Molina: [1:28] Alors, l'histoire de Pyannote, elle est double. On l'est, d'une part, c'est une histoire qui a commencé il y a près de 15 ans, où mon cofondateur, chercheur au CNRS, a découvert cette question et a voulu s'y attaquer. Et donc, dans le cadre de ses recherches au CNRS, il a déployé une bibliothèque open source qu'il a partagée pendant plus d'une décennie et qui a grandi au fil de l'eau et au fil du temps. Et depuis maintenant un an et demi, un peu plus maintenant, on a construit une société sur la suite de cette aventure. Monde Numérique : [1:55] Et votre solution en est où ? Elle est déjà bien avancée ? Elle est utilisée ? Vincent Molina: [1:59] Alors, à la fois la partie open source, aujourd'hui, c'est le modèle qui fait référence dans le monde sur ce sujet-là. Pour vous donner quelques chiffres, c'est plus de 150 000 utilisateurs dans le monde, sur les cinq continents, d'une part. C'est aujourd'hui le modèle open source, le neuvième modèle open source, le plus téléchargé dans l'histoire de GingFace. Donc, on est parmi les grands, comme ici, comme Amazon. Pour de grandeur, c'est dix fois ce que fait Mistral en termes de déchargement open source. Vincent Molina: [2:28] Et donc ça, c'est la partie open source qui existe depuis un moment. Et puis la partie commerciale depuis un an et demi. Maintenant, on a déployé nos modèles et on a nombreux clients en production. Monde Numérique : [2:38] Alors, où est-ce qu'on vous trouve ? Où est-ce qu'on utilise votre modèle ? Vincent Molina: [2:41] Alors, en fait, on a le premier cas d'usage qui est très, très simple. C'est finalement ce qu'on est en train de produire là aujourd'hui, c'est-à-dire une conversation qu'on va vouloir probablement retranscrire après pour à la fois identifier ce qui a été dit et puis garder des traces. Et donc ça, on peut l'imaginer dans plein de cas d'usage. Donc, une interview, pourquoi pas chez le médecin, dans un tribunal. Finalement partout il y a évidemment des rendez-vous business et partout il y a de la conversation et bien on va être utile pour poser des identifiés, Vincent Molina: [3:12] des locuteurs face à des mots qui ont été prononcés. Monde Numérique : [3:14] Et comment faites-vous ? Alors est-ce qu'on peut rentrer un petit peu dans la technique tout en restant accessible ? Comment est-ce que c'est possible comme ça ? Vincent Molina: [3:21] Alors on est une vraie société d'intelligence artificielle donc on a créé, et quand je dis on, c'est en particulier mon cofondateur Yves Bredin qui a créé des modèles, donc des réseaux de neurones qui, à la fois, sont capables de segmenter l'audio et puis d'identifier des groupes de paroles qui font des locuteurs. Monde Numérique : [3:41] Donc, la reconnaissance vocale, ça existe depuis longtemps. Mais en fait, vous, vous reconnaissez la voix. Vous arrivez à faire la distinction entre deux voix. Est-ce qu'il n'y a pas des risques de confusion malgré tout, parfois ? Vincent Molina: [3:52] Alors, c'est toute la complexité de ce qu'on fait aujourd'hui. C'est-à-dire que, normalement, un réseau de neurones, on lui donne des choses à apprendre et puis il répète ce qu'il a appris à l'entraînement. Notre spécificité, c'est qu'on ne peut pas entraîner nos modèles avec toutes les voies de la Terre. Donc, il doit à chaque fois être capable d'identifier des voies qu'il n'a jamais vu à l'entraînement. D'où la complexité est probablement l'une des raisons pour lesquelles on est à peu près les seuls à faire au monde aujourd'hui. Et donc, cette complexité, elle est aujourd'hui traitée par ces réseaux de neurones et on ne fait pas de liage génératif, mais on peut se tromper aussi. Et donc, du coup, aujourd'hui, nos modèles sont les meilleurs, mais loin d'être parfaits. Monde Numérique : [4:28] Alors, vous, c'est une brique, en fait, qui peut venir s'insérer dans d'autres modèles. Vous travaillez notamment avec Whisper. Whisper, qui est un outil de retranscription, de speech-to-text, donc de transcription de la voix vers l'écrit, qui est très connu, qui est un outil open source. Et vous, vous branchez là-dessus ? Vincent Molina: [4:49] Oui. En fait, on est vraiment un outil pour développeurs. Donc, l'ensemble de notre communauté sont des développeurs du monde entier qui utilisent notre brique dans leur pipeline, comme on dit, d'audio, de traitement de l'audio, que ce soit pour des transcriptions, que ce soit même pour du doublage qu'on n'a pas évoqué ou pour l'entraînement de grands modèles. Et donc, en fait, on est une de ces briques et qui est finalement la première brique dans ces grandes pipelines. Et très souvent, comme vous l'évoquiez, on est utilisé avec des ASR, ce qu'on appelle des modèles qui mettent des mots sur ce qui a été dit. Et Whisper est l'un des plus connus. Monde Numérique : [5:21] Vous parlez de doublage, c'est vrai que c'est une des applications auxquelles on pense. Est-ce que c'est un système qui pourrait permettre de faire du doublage automatique de film ? Vincent Molina: [5:30] Ou du sous-titrage, en tout cas ? Oui, puisqu'en fait, quand on veut sous-titrer ou quand on veut poser une voix de synthèse sur un film, on a besoin de poser la voix au bon moment. Et donc, le bon moment, c'est là qu'on intervient, d'être capable de dire à tel centième de seconde ou dixième, millième de seconde, il y a un changement de voix et donc vous pouvez poser la voix au bon endroit. Monde Numérique : [5:50] D'accord, donc toute la difficulté est là, et votre challenge, Monde Numérique : [5:55] est-ce que vous réussissez à faire, c'est ça ? C'est vraiment la synchronisation ? Vincent Molina: [5:59] Oui, de poser la voix doublée au moment le plus parfait pour éviter ce qu'on a connu pendant des années, c'est-à-dire des lèvres qui bougent et puis la voix qui arrive un petit peu après, donc on l'a tous vécu. Et donc du coup, dans le nouveau paradigme, puisque c'est vraiment un écosystème qui est en pleine révolution, l'une des nécessités, c'est d'être extrêmement précis dans le moment où on pose la voix. Monde Numérique : [6:20] Et ça fonctionne comment ? Il faut des énormes data centers derrière ? Vincent Molina: [6:26] Alors, on a une grande chance, c'est qu'on a des réseaux qui sont, entre guillemets, tout petits. C'est-à-dire qu'ils sont en commune mesure avec, aujourd'hui, les grands modèles que tout le monde connaît. Aujourd'hui, notre technologie, elle tourne sur un téléphone et on est presque au point de le faire tourner sur un Raspberry Pi pour les plus passionnés. Et donc, du coup, vraiment, on a une technologie qui a vocation à être partout où il y a de la conversation. Donc, elle pourrait être dans nos micros, Vincent Molina: [6:48] dans notre échange, sur des serveurs, sur des téléphones, par exemple. Donc, elle se porte vraiment là où la conversation a lieu. Monde Numérique : [6:56] Qu'est-ce que vous imaginez comme développement futur encore ? Vincent Molina: [7:00] Les radieux, c'est une industrie qui est en pleine évolution. Depuis deux ans, la voix revient comme le moyen le plus naturel de communiquer. On a fait un détour collectif par les claviers, par les écrans, mais en fait, notre nature première est quand même d'échanger par de la voix. Et les usages se démultiplient, à la fois de la voix de synthèse ou de l'usage de la voix comme étant un médium de communication. Et donc, nous, on a un rôle à jouer fondamental dans la compréhension des dynamiques de conversation. La première étape, c'est de comprendre qui parle. Mais comme je l'évoquais juste avant dans notre échange, dans la voix, il y a beaucoup plus que des mots. Et notre rôle, c'est d'arriver à donner toutes ces clés, toutes ces métadatas pour que des développeurs du monde entier construisent des solutions. Monde Numérique : [7:42] C'est-à-dire, qu'est-ce qu'il y a de plus que les mots ? Vincent Molina: [7:44] Il y a du ton, il y a de ce qu'on appelle la prosodie. Alors, on n'ira pas jusqu'au sentiment parce que le sentiment est quelque chose d'assez subjectif. et quand on parle à nos clients américains ou indiens, ce n'est pas tout à fait la même notion. Mais par contre, il y a des marqueurs dans la voix qui sont essentiels pour comprendre la dynamique, comprendre, par exemple, là, à intervalle régulier, il y a des petits mots qui viennent se juxtaposer et overlapper dans notre décision. Monde Numérique : [8:08] Ne parlons pas d'éthique de langage éventuel, etc. Vincent Molina: [8:10] Et vous pouvez imaginer que dans des conversations commerciales, dans des conversations, des centres de relations clients, on a besoin de comprendre, au-delà de ce qui a été échangé, des contextes. Ce n'est pas tout à fait pareil si vous appelez quelqu'un et qu'il y a, dans le fond, par exemple, un enfant qui est en train de solliciter la personne qui est au téléphone, etc. Donc, il y a plein de choses à révéler dans la voix. Monde Numérique : [8:31] Ce qui veut dire que demain, on pourrait avoir non seulement des transcriptions comme ça, mot à mot, en allant à l'essentiel. Alors ça, les modèles le font souvent. Maintenant, les transcriptions arrivent à éliminer tous les mots parasites d'une certaine manière. Mais vous, vous pensez qu'on pourrait aller plus loin encore et, je ne sais pas, signaler lorsque un propos est potentiellement humoristique, sarcastique, triste, des choses comme ça ? Vincent Molina: [8:55] Il y a un traitement sur les mots, comme on voulait l'évoquer. Après, les mots parasites peuvent être parfois des mots-clés, typiquement. Comme vous venez de faire, le mot-là peut démontrer un engagement de la personne. Monde Numérique : [9:09] Bien sûr, c'est pour vous assister à poursuivre. C'est une vieille technique de conversation. Vincent Molina: [9:14] Et donc, tous ces mots-là, finalement, sont un peu aujourd'hui gommés par les modèles qui ont envie justement d'être dans la synthèse et dans vraiment le cœur de ce qui est dit. Pour autant, quand on veut aller un petit peu plus loin et qu'on veut travailler sur la langue et sur ce qui est la conversation, ces mots-là ont de l'importance. Monde Numérique : [9:29] Il y a une chose qu'on n'a pas dite. Alors, c'est vrai que, par exemple, ce podcast qu'on est en train de faire, comme tous les podcasts que j'enregistre, personnellement, il y a une transcription écrite qui est faite après, avec la reconnaissance des intervenants. Mais en fait, ce n'est pas de la reconnaissance intelligente comme ceux dont on parle actuellement, puisque moi, je triche et je donne à la machine des enregistrements sur différentes pistes. Donc, en fait, elle sait déjà qui parle. Alors là, il n'y a aucune erreur, du coup, à l'arrivée. Mais avec votre système, je n'aurais plus besoin de faire ça. Vincent Molina: [9:56] Alors à la fois, vous n'aurez plus besoin de faire ça, puisqu'en fait, même s'il n'y en avait qu'une seule piste audio, on serait capable tout à fait d'identifier les personnes qui parlent. Et puis, même dans chacune des pistes qu'on enregistre aujourd'hui, probablement que vous aurez envie de travailler sur ce qu'il y a autour de nos voix pour pouvoir extraire vraiment l'essentiel de ce qui a été évoqué. Monde Numérique : [10:15] Ok, c'est super intéressant. Et donc, vos pistes de développement pour le futur, c'est quoi ? C'est d'aller encore plus loin dans l'analyse et la génération de ces métadonnées ? Vincent Molina: [10:25] Oui, alors il y a à la fois la profondeur des métadonnées qu'on va vouloir donner à nos clients. Et puis, il y a aussi tout ce qu'on a évoqué aujourd'hui, tout ce qu'on fait aujourd'hui depuis maintenant plus de 15 ans, c'est ce qu'on appelle du traitement, enfin du batch, c'est-à-dire après que notre conversation ait eu lieu. Maintenant, les usages en temps réel sont là. Et donc, du coup, notre prochaine étape de développement produit, c'est de partager ces technologies en temps réel. On peut imaginer, par exemple, des cas d'usage comme de la transcription d'événements sportifs ou en temps réel, ce genre de choses, avec des intensités et de la voix qu'on a envie de conserver. Monde Numérique : [11:01] Bon, et donc, votre modèle peut être téléchargé sur Hugging Face, vous l'avez dit. Vincent Molina: [11:06] Il est disponible sur Hugging Face à la fois. on a sur GitHub la partie la plus, la coque technologique et puis les modèles pré-entraînés qui sont disponibles sur GingFace vous ne devriez pas avoir trop de mal à nous trouver dans la partie audio, et puis donc ça c'est l'ensemble de nos clients qui commencent par là et qui utilisent la technologie open source et puis qui basculent dans le monde du commercial. Monde Numérique : [11:25] Merci beaucoup Vincent Molina donc de Pyannote. Vincent Molina: [11:28] Merci beaucoup.

innovation,informatique,technologies,tech news,High-tech,AWS,voix,numérique,actualités,doublage,

📆 L'HEBDO 04/04 - Bug dans l'espace, 50 ans d'Apple, AWS Summit

Monde Numérique04 avril 2026

421

51:1746.97 MB

L'Hebdo,

📆 L'HEBDO 04/04 - Bug dans l'espace, 50 ans d'Apple, AWS Summit

Un bug de messagerie à bord d'Artemis II. L'Iran menace les Big Tech. Anthropic perd son code source. L'IA, parfois, désobéit. OpenAI investit un média. L’IA dans les entreprises françaises. Mistral s'offre un méga data center. Free lance un forfait mondial. Innovations à l'AWS Summit à Paris.

🎤 Pourquoi il faut archiver tous les logiciels du monde (Roberto Di Cosmo, Software Heritage)

Monde Numérique02 avril 2026

418

27:0024.75 MB

Interviews,

🎤 Pourquoi il faut archiver tous les logiciels du monde (Roberto Di Cosmo, Software Heritage)

Et si le code source était le patrimoine le plus précieux de notre époque ? Roberto Di Cosmo explique pourquoi il est vital de préserver tous les logiciels, même les plus insignifiants. Une mission titanesque qui pourrait bien devenir un enjeu stratégique majeur pour nos sociétés.

🔎 Apple, 50 ans de révolutions technologiques (Zoom Tech)

Monde Numérique01 avril 2026

419

17:0915.72 MB

Zoom Tech,

🔎 Apple, 50 ans de révolutions technologiques (Zoom Tech)

De l’Apple I bricolé dans un garage californien à l’iPhone devenu objet-monde, cet épisode retrace un demi-siècle d’innovations qui ont redéfini l’informatique grand public. Il raconte aussi comment la vision de Steve Jobs, puis la continuité imposée par Tim Cook, ont fait d’Apple une entreprise à part dans l’histoire de la tech.

🎤 Apple : retour sur 50 ans d'innovations (Olivier Frigara, On refait le Mac)

Monde Numérique01 avril 2026

420

33:1430.45 MB

Interviews,

🎤 Apple : retour sur 50 ans d'innovations (Olivier Frigara, On refait le Mac)

Depuis le premier Macintosh jusqu’à l’iPhone, Olivier Frigara retrace les grandes secousses qui ont façonné Apple. Le journaliste et podcasteur livre aussi son regard sur l’ère Tim Cook et les défis qui attendent encore la marque.

🎤 Faux livreurs : l’arnaque ultra personnalisée (Benoît Grünenwald, Eset)

Monde Numérique31 mars 2026

417

13:2812.36 MB

Interviews,Partenariats,

🎤 Faux livreurs : l’arnaque ultra personnalisée (Benoît Grünenwald, Eset)

Les cybercriminels passent à la vitesse supérieure avec des attaques toujours plus crédibles et automatisées. Entre faille critique sur iOS et arnaques dopées à l’IA, les risques n’ont jamais été aussi élevés.

🇫🇷🇨🇦 Debrief Transat – Réseaux sociaux condamnés, OpenAI en plein virage, l’IA passe à l’action

Monde Numérique30 mars 2026

416

26:5024.58 MB

Debrief Transat,

🇫🇷🇨🇦 Debrief Transat – Réseaux sociaux condamnés, OpenAI en plein virage, l’IA passe à l’action

La justice américaine ouvre une brèche historique contre Meta et YouTube pour les dommages causés aux mineurs. OpenAI revoit sa stratégie, entre l’arrêt de Sora et une réorganisation en profondeur. Anthropic impressionne avec Dispatch, un agent capable d’agir sur un ordinateur à distance. Google avance sur les avatars 3D dans Gemini tandis que Meta...

☕️ GRAND DEBRIEF (mars 26) - Agents IA, pari français, MacBook Neo, Sony en panne

Monde Numérique29 mars 2026

415

01:00:4255.59 MB

Grand Debrief,

☕️ GRAND DEBRIEF (mars 26) - Agents IA, pari français, MacBook Neo, Sony en panne

Les agents IA franchissent un nouveau cap. Anthropic joue les chevaliers blancs. Yann Le Cun fait cavalier seul avec les world models. Le smartphone fête ses 25 ans. Apple bouscule le marché avec son MacBook Neo. Sony en panne d'innovation lâche l’auto électrique. Avec Bruno Guglielminetti (Mon Carnet) et François Sorel (Tech & Co)

📆 L'HEBDO 28/03 - Réseaux sociaux condamnés : le piège se referme

Monde Numérique28 mars 2026

414

52:2948.07 MB

L'Hebdo,

📆 L'HEBDO 28/03 - Réseaux sociaux condamnés : le piège se referme

Décision de justice historique contre les géants des réseaux sociaux. OpenAI se prépare à la Bourse. Anthropic invente l'agent IA télécommandé. Google crée un "compresseur" pour IA afin d'économiser la mémoire informatique. Sony abandonne son projet de voiture. Nouvelle cyberarnaque au deepfake. Une bibliothèque mondiale du logiciel

Apple va vérifier l'âge des utilisateurs (Zoom Tech)

Monde Numérique27 mars 2026

413

04:524.47 MB

Zoom Tech,

Apple va vérifier l'âge des utilisateurs (Zoom Tech)

Apple introduit une vérification d’âge sur iPhone au Royaume-Uni avec iOS 26.4. Une mesure destinée à protéger les mineurs, mais qui relance le débat sur la vie privée.

#08 Home Assistant : le cerveau ultime de la maison connectée ?

Maison Connectée26 mars 2026

33:3330.74 MB

#08 Home Assistant : le cerveau ultime de la maison connectée ?

Home Assistant est une plateforme logicielle qui fait référence en matière de maison connectée. Ce système open source permet de centraliser tous les appareils, de faire communiquer entre eux des équipements de marques et de protocoles différents, et de créer des automatismes avancés.