En matière d’intelligence artificielle, on parle assez peu de la Chine. Et pourtant, des chercheurs de l’université Tsinghua ont mis au point un nouveau modèle de langage capable d’écrire de très longs textes en un temps record.
GPT-4o et Gemini 1.5, pour ne citer que ces deux IA, sont capables de lire un livre en quelques secondes pour travailler sur des requêtes qui le concernent. Une pratique qui a déjà de quoi faire peur à certains professionnels, notamment les professeurs de français et de lettres. Cependant, ces intelligences artificielles ne sont pas capables de fournir des réponses très longues.
Mais avec LongWriter, la donne va peut-être changer. Derrière ce nom évocateur se cache une nouvelle intelligence artificielle qui nous vient de Chine.
Des textes de 10 000 mots en moins d’une minute
LongWriter est une création d’une équipe de chercheurs de l’université Tsinghua, en Chine. L’une de ses particularités, c’est qu’elle est capable de générer des réponses pouvant monter jusqu’à 10 000 mots en environ une minute, là où de nombreuses autres IA génératives sont bloquées à 2000 ou 3000 mots. « Les grands modèles de langage (LLM) actuels longs peuvent traiter des intrants jusqu’à 100 000 jetons, mais peinent à générer des contenus dépassant même une longueur modeste de 2 000 mots », explique d’ailleurs l’article des chercheurs en guise d’introduction.
LongWriter-glm4-9b from @thukeg is capable of generating 10,000+ words at once!🚀
— Gradio (@Gradio) August 14, 2024
Paper identifies a problem with current long context LLMs -- they can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding lengths of 2,000 words.
Paper proposes that an… pic.twitter.com/2jfKyIpShK
Pour obtenir leur résultat, les chercheurs ont entraîné leur modèle de langage avec 6000 textes dont la taille varie de 2000 à 32 000 mots. Ils ont découvert que la longueur des textes utilisés pour l’apprentissage de l’IA a un impact direct sur la longueur de ses réponses. C’est ainsi qu’ils sont parvenus à obtenir des résultats de requêtes contenant jusqu’à 10 000 mots.
« Nos travaux démontrent que les modèles de langage à contexte long qui existent déjà possèdent eux aussi une fenêtre de sortie plus grande. Tout ce dont vous avez besoin, c’est de données avec une production étendue pendant l’entraînement du modèle pour débloquer cette capacité. »
Une découverte accessible sous licence libre
Les chercheurs ont décidé de proposer le code de LongWriter sous licence libre via les plateformes Hugging Face et GitHub. De quoi permettre aux développeurs d’y avoir accès pour entraîner d’autres modèles de langage : on peut donc s’attendre à voir débarquer des textes de plus en plus longs issus des intelligences artificielles génératives. Voilà qui ne va pas plaire aux professeurs et aux maisons d’édition qui tentent d’esquiver à tout prix les manuscrits rédigés à l’aide d’IA…