Neil Zeghidour:
[
0:01] On entraîne des modèles d'intelligence artificielle pour retranscrire de la voix, générer de la voix naturelle, transformer de la voix, traduire de la voix, et on fournit ça comme des briques technologiques pour les gens qui veulent construire des applications vocales.
Monde Numérique :
[
0:21] Neil Zeghidour, qu'est-ce que c'est Gradium ?
Neil Zeghidour:
[
0:24] Gradium, c'est la boîte qui développe les modèles d'IA vocal pour tous les gens qui veulent développer des solutions d'IA vocal. Pour être plus précis, on entraîne des modèles d'intelligence artificielle pour retranscrire de la voix, générer de la voix naturelle, transformer de la voix, traduire de la voix, et on fournit ça comme des briques technologiques pour les gens qui veulent construire des applications vocales. Par application vocale, j'entends du secrétariat médical artificiel, des agents de support client, des personnages dans des jeux vidéo, du contenu d'informations générées automatiquement. Donc tout ce qui consiste à créer de l'IA vocale en temps réel et interactive.
Monde Numérique :
[
1:09] Alors je crois que vous êtes passé par le labo Kyutai, qui est le centre de recherche français en IA, lancé par Xavier Niel, qui fait notamment des technologies liées à la voie. Donc ce sont des technos de Qtai, nés chez Qtai, que vous utilisez ?
Neil Zeghidour:
[
1:26] Donc effectivement, les cofondateurs de Gradium et moi-même sommes les fondateurs de Qtai. Et en fait l'histoire de Gradium c'est qu'on a créé Qtai pour faire de la recherche en open source, et on a contribué énormément avec les premiers modèles de conversation en temps réel, de traduction devant en temps réel, mais on a aussi recommencé à avoir des requêtes du marché pour avoir des modèles qui soient, commerciaux, c'est-à-dire l'open source c'est bien mais c'est des prototypes, il faut du clé en main, des modèles qui sont robustes sur les cas complexes, qui couvrent plus de langues, etc. Ça, ça sortait du champ d'un laboratoire de recherche. Et donc on a décidé de créer cette structure Gradium comme entité à build commercial. Qtai et Gradium ont des partenariats. Qtai est un actionnaire de Gradium. Et donc l'idée, c'est que côté Qtai se poursuit la recherche en open source et Gradium se concentre sur les solutions commerciales.
Monde Numérique :
[
2:28] Vous en êtes où dans vos plans ? Vous avez des clients aujourd'hui ?
Neil Zeghidour:
[
2:32] Donc on a des clients. On a eu nos premiers clients au bout de six semaines, qui selon moi est le record du monde pour une boîte d'IA fondationnelle parce que c'est ce qu'on est fondamentalement, on entraîne nos propres modèles de zéro. Nos clients sont surtout dans l'interaction au téléphone. Donc c'est des gens qui veulent créer des expériences au téléphone qui soient rapides, fiables et avec des voies naturelles. Et donc ça couvre... Tout ce qui consiste à avoir une interaction avec un agent téléphonique. On a aussi des clients dans l'industrie des médias qui veulent créer du contenu,
Neil Zeghidour:
[
3:00] par exemple dans des voix spécifiques, des voix qui sont familières aux gens. On a la meilleure technologie de clonage vocal du marché. Et donc là où on l'emploie à nous, c'est en bonne intelligence avec des personnalités qui veulent créer du contenu interactif avec leur voix. Et donc on est capable de créer leur voix et de la donner à une IA qui pourra ensuite avoir des interactions.
Monde Numérique :
[
3:18] Les doubleurs de cinéma doivent vous adorer, non ?
Neil Zeghidour:
[
3:21] Alors, justement, ce qui est assez intéressant, c'est que nous, doubler des films, c'est pas du tout notre marché. Parce que nous, ce à quoi on s'intéresse, c'est les cas où il y a énormément de volume, parce que c'est personnalisé et interactif. L'idée, plutôt pour nous, ce serait d'être capable de faire, étant donné un personnage célèbre d'un film, si on veut faire une app où vous pouvez parler au personnage du film, on peut créer une expérience interactive, vous interagissez avec ce personnage. Vous avez eu des personnages de cartoon dans des jeux vidéo, ça n'a pas arrêté les cartoons si vous voulez. L'idée c'est que ça crée des nouvelles formes d'expérience sur des voies,
Neil Zeghidour:
[
3:57] des licences qui sont déjà connues.
Monde Numérique :
[
3:59] Est-ce qu'on peut dire, parce qu'il y a beaucoup de concurrence quand même sur ce marché au niveau international, quelle est la particularité de vos modèles par rapport à, je ne sais pas, des Eleven Labs, des choses comme ça, du OpenAI même ?
Neil Zeghidour:
[
4:12] Notre particularité c'est que, et c'est une particularité de la voie aussi, On est une petite équipe et on a toujours été les premiers technologiquement. On a été les premiers à résoudre le problème de la conversation en temps réel, de la traduction de voix en temps réel.
Monde Numérique :
[
4:26] C'est quoi le problème de la conversation en temps réel ?
Neil Zeghidour:
[
4:28] Capable d'avoir un système de conversation vocale en temps réel qui s'appelait Moshi en 2023. Y compris dans nos carrières précédentes, on est tous des anciens de Google, DeepMind, Meta. On a... On a inventé et publié et open-sourcé les briques technologiques que tout le monde utilise. Vous avez mentionné des noms et il y en a plein d'autres.
Neil Zeghidour:
[
4:45] Donc notre grande force, c'est qu'on a toujours été les plus en avance technologiquement. Le plus grand défi pour nous, c'est transformer un avantage technologique en un vrai succès commercial. Effectivement, on est une entreprise jeune face à des acteurs qui commencent à être de plus en plus établis. Ce qui est intéressant, c'est que le marché pour lequel on se bat est en explosion. Le marché de la voix cette année, c'est assez intéressant la voix, parce que c'est très vieux. Il y avait des logiciels de dictation dans les années 90.
Neil Zeghidour:
[
5:13] Et pourtant, là on est dans une phase où l'usage de l'IA vocal a une croissance exponentielle. Et quand je dis exponentielle, ce n'est pas une hyperbole, c'est vraiment exponentielle.
Monde Numérique :
[
5:22] Et dernière question, quand vous dites le niveau d'expertise, enfin le niveau de qualité d'une voix générée par IA, c'est quoi ? C'est qu'elle soit la plus réaliste possible ?
Neil Zeghidour:
[
5:32] Alors il y a plusieurs facteurs. il y a l'expression de la voix. Là, on voit aussi que c'est très dépendant du cas d'usage. Par exemple, nous, on travaille avec des acteurs, des doubleurs professionnels, dont on utilise la voix et on leur paye une licence. Ce qui est intéressant, c'est que si vous tombez sur cette voix en prenant un rendez-vous chez votre dentiste, Vous allez trouver surprenant d'avoir un acteur professionnel qui sur-articule et vous demande « Quand voulez-vous donc avoir votre rendez-vous ? » Si bien que ça paraîtra robotique. Donc il faut des voix qui soient, dans certains cas, très formelles, dans d'autres cas, très spontanées, qui respirent, où on entend les bruits de salivation, etc. Faut que la latence de l'interaction soit très faible, que ça aille du tac-hôta comme avec un humain.
Monde Numérique :
[
6:11] Mais finalement, vous cherchez à créer la confusion dans l'esprit des gens, volontairement.
Neil Zeghidour:
[
6:15] Non, l'idée, c'est pas de créer une confusion. c'est que les gens, même dans tous ces appels téléphoniques par exemple c'est dit dès la première phrase que vous êtes en train de parler avec une IA. Cependant le fait que la voix soit agréable et familière d'un point de vue statistique fait que les gens ont une meilleure expérience et des gens d'ailleurs à travers
Neil Zeghidour:
[
6:33] toutes les démographies c'est vraiment quelque chose qui améliore la qualité de l'expérience.
Monde Numérique :
[
6:39] Alors la conversation en temps réel avec un robot version Gradium voyons ce que ça donne.
Neil Zeghidour:
[
6:47] Je vais faire le chicken sandwich pour 4.59 dollars. Ou vous pouvez le spicy chicken pour 5.05 dollars. Ou le chicken at 6.19 dollars. Let's do the original chicken sandwich. Perfect. Would you like any fries, a drink, or a side to go with that? Yes. Can I get some fries to go with it? We have medium waffle fries for 2.35 dollars. Or large for 2.95 dollars. Let's do the medium ones and that's all for me.