Vincent Molina:
[
0:01] Depuis maintenant deux ans, la voix revient comme le moyen le plus naturel de communiquer.
Vincent Molina:
[
0:07] On a fait un détour collectif par les claviers, par les écrans, mais en fait, notre nature première est quand même d'échanger par de la voix. Et les usages se démultiplient, à la fois de la voix de synthèse ou de l'usage
Vincent Molina:
[
0:20] de la voix comme étant un médium de communication. Et donc nous, on a un rôle à jouer fondamental dans la compréhension des dynamiques de conversation.
Monde Numérique :
[
0:35] Bonjour Vincent Molina.
Vincent Molina:
[
0:36] Bonjour.
Monde Numérique :
[
0:37] De la société française Pyannote, avec un Y.
Vincent Molina:
[
0:40] Avec un Y, effectivement.
Monde Numérique :
[
0:42] Vous faites ce qu'on appelle de la... Rappelez-moi le terme.
Vincent Molina:
[
0:46] Alors, en anglais, c'est de diarisation. Concrètement, on identifie des locuteurs dans des conversations.
Monde Numérique :
[
0:52] Voilà, donc c'est-à-dire que vous êtes capable, à partir d'un enregistrement audio, quand il y a plusieurs personnes qui parlent, de dire qui parle et qui dit quoi.
Vincent Molina:
[
1:00] Absolument. Le cœur de la technologie, c'est d'être capable d'identifier des personnes qui parlent dans un audio, dans une conversation. Et on est capable de le faire aujourd'hui dans toutes les langues de la Terre. On a construit une technologie qui est centrée sur le son de la voix. Et donc, on a aujourd'hui des utilisateurs de San Francisco à Bangalore. Et on est très utilisé dans plein du case.
Monde Numérique :
[
1:17] Alors, on se rencontre ici aujourd'hui à Las Vegas à l'occasion de l'événement AWS ReInvent. Mais vous êtes français et vous êtes une société française. C'est quoi un petit peu l'histoire de votre entreprise ?
Vincent Molina:
[
1:28] Alors, l'histoire de Pyannote, elle est double. On l'est, d'une part, c'est une histoire qui a commencé il y a près de 15 ans, où mon cofondateur, chercheur au CNRS, a découvert cette question et a voulu s'y attaquer. Et donc, dans le cadre de ses recherches au CNRS, il a déployé une bibliothèque open source qu'il a partagée pendant plus d'une décennie et qui a grandi au fil de l'eau et au fil du temps. Et depuis maintenant un an et demi, un peu plus maintenant, on a construit une société sur la suite de cette aventure.
Monde Numérique :
[
1:55] Et votre solution en est où ? Elle est déjà bien avancée ? Elle est utilisée ?
Vincent Molina:
[
1:59] Alors, à la fois la partie open source, aujourd'hui, c'est le modèle qui fait référence dans le monde sur ce sujet-là. Pour vous donner quelques chiffres, c'est plus de 150 000 utilisateurs dans le monde, sur les cinq continents, d'une part. C'est aujourd'hui le modèle open source, le neuvième modèle open source, le plus téléchargé dans l'histoire de GingFace. Donc, on est parmi les grands, comme ici, comme Amazon. Pour de grandeur, c'est dix fois ce que fait Mistral en termes de déchargement open source.
Vincent Molina:
[
2:28] Et donc ça, c'est la partie open source qui existe depuis un moment. Et puis la partie commerciale depuis un an et demi. Maintenant, on a déployé nos modèles et on a nombreux clients en production.
Monde Numérique :
[
2:38] Alors, où est-ce qu'on vous trouve ? Où est-ce qu'on utilise votre modèle ?
Vincent Molina:
[
2:41] Alors, en fait, on a le premier cas d'usage qui est très, très simple. C'est finalement ce qu'on est en train de produire là aujourd'hui, c'est-à-dire une conversation qu'on va vouloir probablement retranscrire après pour à la fois identifier ce qui a été dit et puis garder des traces. Et donc ça, on peut l'imaginer dans plein de cas d'usage. Donc, une interview, pourquoi pas chez le médecin, dans un tribunal. Finalement partout il y a évidemment des rendez-vous business et partout il y a de la conversation et bien on va être utile pour poser des identifiés,
Vincent Molina:
[
3:12] des locuteurs face à des mots qui ont été prononcés.
Monde Numérique :
[
3:14] Et comment faites-vous ? Alors est-ce qu'on peut rentrer un petit peu dans la technique tout en restant accessible ? Comment est-ce que c'est possible comme ça ?
Vincent Molina:
[
3:21] Alors on est une vraie société d'intelligence artificielle donc on a créé, et quand je dis on, c'est en particulier mon cofondateur Yves Bredin qui a créé des modèles, donc des réseaux de neurones qui, à la fois, sont capables de segmenter l'audio et puis d'identifier des groupes de paroles qui font des locuteurs.
Monde Numérique :
[
3:41] Donc, la reconnaissance vocale, ça existe depuis longtemps. Mais en fait, vous, vous reconnaissez la voix. Vous arrivez à faire la distinction entre deux voix. Est-ce qu'il n'y a pas des risques de confusion malgré tout, parfois ?
Vincent Molina:
[
3:52] Alors, c'est toute la complexité de ce qu'on fait aujourd'hui. C'est-à-dire que, normalement, un réseau de neurones, on lui donne des choses à apprendre et puis il répète ce qu'il a appris à l'entraînement. Notre spécificité, c'est qu'on ne peut pas entraîner nos modèles avec toutes les voies de la Terre. Donc, il doit à chaque fois être capable d'identifier des voies qu'il n'a jamais vu à l'entraînement. D'où la complexité est probablement l'une des raisons pour lesquelles on est à peu près les seuls à faire au monde aujourd'hui. Et donc, cette complexité, elle est aujourd'hui traitée par ces réseaux de neurones et on ne fait pas de liage génératif, mais on peut se tromper aussi. Et donc, du coup, aujourd'hui, nos modèles sont les meilleurs, mais loin d'être parfaits.
Monde Numérique :
[
4:28] Alors, vous, c'est une brique, en fait, qui peut venir s'insérer dans d'autres modèles. Vous travaillez notamment avec Whisper. Whisper, qui est un outil de retranscription, de speech-to-text, donc de transcription de la voix vers l'écrit, qui est très connu, qui est un outil open source. Et vous, vous branchez là-dessus ?
Vincent Molina:
[
4:49] Oui. En fait, on est vraiment un outil pour développeurs. Donc, l'ensemble de notre communauté sont des développeurs du monde entier qui utilisent notre brique dans leur pipeline, comme on dit, d'audio, de traitement de l'audio, que ce soit pour des transcriptions, que ce soit même pour du doublage qu'on n'a pas évoqué ou pour l'entraînement de grands modèles. Et donc, en fait, on est une de ces briques et qui est finalement la première brique dans ces grandes pipelines. Et très souvent, comme vous l'évoquiez, on est utilisé avec des ASR, ce qu'on appelle des modèles qui mettent des mots sur ce qui a été dit. Et Whisper est l'un des plus connus.
Monde Numérique :
[
5:21] Vous parlez de doublage, c'est vrai que c'est une des applications auxquelles on pense. Est-ce que c'est un système qui pourrait permettre de faire du doublage automatique de film ?
Vincent Molina:
[
5:30] Ou du sous-titrage, en tout cas ? Oui, puisqu'en fait, quand on veut sous-titrer ou quand on veut poser une voix de synthèse sur un film, on a besoin de poser la voix au bon moment. Et donc, le bon moment, c'est là qu'on intervient, d'être capable de dire à tel centième de seconde ou dixième, millième de seconde, il y a un changement de voix et donc vous pouvez poser la voix au bon endroit.
Monde Numérique :
[
5:50] D'accord, donc toute la difficulté est là, et votre challenge,
Monde Numérique :
[
5:55] est-ce que vous réussissez à faire, c'est ça ? C'est vraiment la synchronisation ?
Vincent Molina:
[
5:59] Oui, de poser la voix doublée au moment le plus parfait pour éviter ce qu'on a connu pendant des années, c'est-à-dire des lèvres qui bougent et puis la voix qui arrive un petit peu après, donc on l'a tous vécu. Et donc du coup, dans le nouveau paradigme, puisque c'est vraiment un écosystème qui est en pleine révolution, l'une des nécessités, c'est d'être extrêmement précis dans le moment où on pose la voix.
Monde Numérique :
[
6:20] Et ça fonctionne comment ? Il faut des énormes data centers derrière ?
Vincent Molina:
[
6:26] Alors, on a une grande chance, c'est qu'on a des réseaux qui sont, entre guillemets, tout petits. C'est-à-dire qu'ils sont en commune mesure avec, aujourd'hui, les grands modèles que tout le monde connaît. Aujourd'hui, notre technologie, elle tourne sur un téléphone et on est presque au point de le faire tourner sur un Raspberry Pi pour les plus passionnés. Et donc, du coup, vraiment, on a une technologie qui a vocation à être partout où il y a de la conversation. Donc, elle pourrait être dans nos micros,
Vincent Molina:
[
6:48] dans notre échange, sur des serveurs, sur des téléphones, par exemple. Donc, elle se porte vraiment là où la conversation a lieu.
Monde Numérique :
[
6:56] Qu'est-ce que vous imaginez comme développement futur encore ?
Vincent Molina:
[
7:00] Les radieux, c'est une industrie qui est en pleine évolution. Depuis deux ans, la voix revient comme le moyen le plus naturel de communiquer. On a fait un détour collectif par les claviers, par les écrans, mais en fait, notre nature première est quand même d'échanger par de la voix. Et les usages se démultiplient, à la fois de la voix de synthèse ou de l'usage de la voix comme étant un médium de communication. Et donc, nous, on a un rôle à jouer fondamental dans la compréhension des dynamiques de conversation. La première étape, c'est de comprendre qui parle. Mais comme je l'évoquais juste avant dans notre échange, dans la voix, il y a beaucoup plus que des mots. Et notre rôle, c'est d'arriver à donner toutes ces clés, toutes ces métadatas pour que des développeurs du monde entier construisent des solutions.
Monde Numérique :
[
7:42] C'est-à-dire, qu'est-ce qu'il y a de plus que les mots ?
Vincent Molina:
[
7:44] Il y a du ton, il y a de ce qu'on appelle la prosodie. Alors, on n'ira pas jusqu'au sentiment parce que le sentiment est quelque chose d'assez subjectif. et quand on parle à nos clients américains ou indiens, ce n'est pas tout à fait la même notion. Mais par contre, il y a des marqueurs dans la voix qui sont essentiels pour comprendre la dynamique, comprendre, par exemple, là, à intervalle régulier, il y a des petits mots qui viennent se juxtaposer et overlapper dans notre décision.
Monde Numérique :
[
8:08] Ne parlons pas d'éthique de langage éventuel, etc.
Vincent Molina:
[
8:10] Et vous pouvez imaginer que dans des conversations commerciales, dans des conversations, des centres de relations clients, on a besoin de comprendre, au-delà de ce qui a été échangé, des contextes. Ce n'est pas tout à fait pareil si vous appelez quelqu'un et qu'il y a, dans le fond, par exemple, un enfant qui est en train de solliciter la personne qui est au téléphone, etc. Donc, il y a plein de choses à révéler dans la voix.
Monde Numérique :
[
8:31] Ce qui veut dire que demain, on pourrait avoir non seulement des transcriptions comme ça, mot à mot, en allant à l'essentiel. Alors ça, les modèles le font souvent. Maintenant, les transcriptions arrivent à éliminer tous les mots parasites d'une certaine manière. Mais vous, vous pensez qu'on pourrait aller plus loin encore et, je ne sais pas, signaler lorsque un propos est potentiellement humoristique, sarcastique, triste, des choses comme ça ?
Vincent Molina:
[
8:55] Il y a un traitement sur les mots, comme on voulait l'évoquer. Après, les mots parasites peuvent être parfois des mots-clés, typiquement. Comme vous venez de faire, le mot-là peut démontrer un engagement de la personne.
Monde Numérique :
[
9:09] Bien sûr, c'est pour vous assister à poursuivre. C'est une vieille technique de conversation.
Vincent Molina:
[
9:14] Et donc, tous ces mots-là, finalement, sont un peu aujourd'hui gommés par les modèles qui ont envie justement d'être dans la synthèse et dans vraiment le cœur de ce qui est dit. Pour autant, quand on veut aller un petit peu plus loin et qu'on veut travailler sur la langue et sur ce qui est la conversation, ces mots-là ont de l'importance.
Monde Numérique :
[
9:29] Il y a une chose qu'on n'a pas dite. Alors, c'est vrai que, par exemple, ce podcast qu'on est en train de faire, comme tous les podcasts que j'enregistre, personnellement, il y a une transcription écrite qui est faite après, avec la reconnaissance des intervenants. Mais en fait, ce n'est pas de la reconnaissance intelligente comme ceux dont on parle actuellement, puisque moi, je triche et je donne à la machine des enregistrements sur différentes pistes. Donc, en fait, elle sait déjà qui parle. Alors là, il n'y a aucune erreur, du coup, à l'arrivée. Mais avec votre système, je n'aurais plus besoin de faire ça.
Vincent Molina:
[
9:56] Alors à la fois, vous n'aurez plus besoin de faire ça, puisqu'en fait, même s'il n'y en avait qu'une seule piste audio, on serait capable tout à fait d'identifier les personnes qui parlent. Et puis, même dans chacune des pistes qu'on enregistre aujourd'hui, probablement que vous aurez envie de travailler sur ce qu'il y a autour de nos voix pour pouvoir extraire vraiment l'essentiel de ce qui a été évoqué.
Monde Numérique :
[
10:15] Ok, c'est super intéressant. Et donc, vos pistes de développement pour le futur, c'est quoi ? C'est d'aller encore plus loin dans l'analyse et la génération de ces métadonnées ?
Vincent Molina:
[
10:25] Oui, alors il y a à la fois la profondeur des métadonnées qu'on va vouloir donner à nos clients. Et puis, il y a aussi tout ce qu'on a évoqué aujourd'hui, tout ce qu'on fait aujourd'hui depuis maintenant plus de 15 ans, c'est ce qu'on appelle du traitement, enfin du batch, c'est-à-dire après que notre conversation ait eu lieu. Maintenant, les usages en temps réel sont là. Et donc, du coup, notre prochaine étape de développement produit, c'est de partager ces technologies en temps réel. On peut imaginer, par exemple, des cas d'usage comme de la transcription d'événements sportifs ou en temps réel, ce genre de choses, avec des intensités et de la voix qu'on a envie de conserver.
Monde Numérique :
[
11:01] Bon, et donc, votre modèle peut être téléchargé sur Hugging Face, vous l'avez dit.
Vincent Molina:
[
11:06] Il est disponible sur Hugging Face à la fois. on a sur GitHub la partie la plus, la coque technologique et puis les modèles pré-entraînés qui sont disponibles sur GingFace vous ne devriez pas avoir trop de mal à nous trouver dans la partie audio, et puis donc ça c'est l'ensemble de nos clients qui commencent par là et qui utilisent la technologie open source et puis qui basculent dans le monde du commercial.
Monde Numérique :
[
11:25] Merci beaucoup Vincent Molina donc de Pyannote.
Vincent Molina:
[
11:28] Merci beaucoup.