Le mode vocal avancé de ChatGPT, une innovation majeure d'OpenAI, débarque enfin en France, permettant des interactions vocales naturelles et intuitives avec l'IA pour les abonnés GPT Plus. J'ai testé la bête, et voici ce que j'en pense !
L'évolution la plus impressionnante de ChatGPT est enfin arrivée en France
Mesdames et messieurs, c’est aujourd’hui officiel, le mode vocal avancé de ChatGPT est disponible pour tout le monde ! Pour rappel, le mode vocal avancé, ou advanced voice mode en anglais, c’est LA grosse nouveauté d’Open AI, l’entreprise derrière GPT.
Comme son nom l’indique, ce mode vocal vous permet d’échanger de vive voix avec l’IA. Vous allez me dire que ça, on peut déjà le faire depuis bien longtemps. Alors oui… mais non. La grande nouveauté réside dans le fait de pouvoir interagir de façon extrêmement naturelle et intuitive. L’intelligence artificielle va vous répondre très vite, avec un ton très humain et elle peut à peu près tout faire du chant aux variations de rythme en passant par des imitations d’accents.
Ça donne envie hein ? Cette nouveauté a été annoncée en mai 2024 avec des vidéos bluffantes puis elle est sortie publiquement fin septembre. Enfin “publiquement”. Parce que oui, comme on en a maintenant l’habitude avec les innovations du monde de l’intelligence artificielle, l’accès au mode avancé était bloqué en Europe jusqu’au 22 octobre 2024. En vrai, on peut s’estimer heureux de n’avoir qu’un mois de retard sur le reste du monde. Côté Apple ou Google, il est probable que les choses restent bloquées pendant bien plus longtemps.
Attention : le nouveau mode vocal avancé de Chat GPT n’est disponible que pour les personnes qui payent un abonnement à GPT Plus. Comme je suis un journaliste tech qui a manifestement de l’argent à perdre, je viens de dépenser 23€ de ma poche pour tester le truc. Alors, voilà ce que j'en pense
J'ai testé le nouveau mode vocal avancé de Chat GPT, voici ce que j'en pense !
Les possibilités du mode vocal avancé vont assez loin. Un cas d’usage qui vient tout de suite en tête, c’est la traduction instantanée par exemple. L’IA est tellement réactive qu’elle peut permettre de mener une conversation fluide avec une personne qui ne parle pas français. Bien évidemment, je n'ai pas commencé ma petite expérience par ça. Ma première heure d'usage, j'ai surtout fait mumuse en testant les limites techniques et morales de l'outil.
Techniquement, le mode vocal avancé n'est pas plus performant que GPT 4o. Il continue d'halluciner ses réponses et, sans instruction particulière, à vous parler de façon hyper générale. C'est juste une voix qui lit les réponses habituelles de l'IA. Une voix très convaincante, "vivante", réactive, qu'on peut couper, mais une simple voix. Tous les problèmes que vous connaissez dans votre usage classique de GPT restent présents. J'ai aussi remarqué que le mode vocal avancé réel est globalement bien moins impressionnant que ce qu'avait montré Open AI en mai 2024. Par exemple :
- L'IA est incapable d'identifier plusieurs voix. Elle comprend les mots et plus ou moins votre intonation, mais elle ne sait pas qui vous êtes.
- L'IA n'est pas capable de chuchoter, crier ou pleurer. Elle comprend seulement les variations d'intentions dans la voix. Par exemple, elle peut parler d'une voix triste ou colérique.
- L'IA n'est pas capable de chanter.
- L'IA n'a pas encore d'yeux : impossible de lui montrer des choses via la caméra de votre smartphone.
Cette liste est bien sûr non exhaustive. Si Open AI n'avait pas fait tant de promesses, j'aurai trouvé la chose beaucoup plus impressionnante. Là, je suis un peu déçu sur les capacités réelles de la machine une fois mise à l'épreuve.
Moralement, c'était plus rigolo. Vous le savez, les IA comme GPT sont modelées par des humains pour être le plus lisses et consensuelles possible. Mais que penser des différents accents ? Que penser du fait de parler d'un ton sec et colérique ? D'un ton charmeur ? Où sont les limites ? De manière générale, dès qu'une façon de parler pourrait offenser une minorité dominée structurellement en occident, l'IA me le notifie et n'ose pas entrer en terrain glissant (un accent marseillais, c'est OK, un accent chinois, c'est non). J'ai posé de nombreux pièges à la machine, qui s'en est toujours bien sortie, c'était impressionnant.
Vous noterez que ce papier a été rédigé avec un ton très oralisé. C'est normal, il s'agit de la version écrite d'un script vidéo pour le Daily Tech du 23/10/2024, publié sur les réseaux sociaux de JV.