Hallucination (intelligence artificielle)
Dans le domaine de l'intelligence artificielle, une hallucination ou une confabulation[1] est une réponse fausse ou trompeuse qui est présentée comme un fait certain[2],[3] ; par exemple, un chatbot qui génère un chiffre d'affaires pour une entreprise sans avoir de données à ce sujet[4].
Ce phénomène est appelé « hallucination » par analogie avec le phénomène de l'hallucination en psychologie humaine. Une différence clé est que l'hallucination humaine est généralement associée à de fausses perceptions, alors qu'une hallucination d'IA est associée à des réponses ou des croyances injustifiées[5]. Le terme hallucination en intelligence artificielle a pris de l'importance vers 2022 parallèlement au déploiement des modèles de langage basés sur l'apprentissage profond tels que ChatGPT[6].
Dès 2023, les analystes considèrent les hallucinations comme un problème majeur de ces technologies, un dirigeant de Google identifiant la réduction des hallucinations comme une tâche « fondamentale » pour le concurrent de ChatGPT, Google Gemini[7],[8]. Ces systèmes d’IA étant « conçus pour être persuasifs, pas véridiques », les résultats peuvent sembler très réalistes mais inclure des affirmations qui ne sont pas vraies[9].
En traitement du langage naturel
Origine du terme
Dès 2018, des chercheurs de Google utilisent le terme « hallucination » pour décrire les réponses générés par des modèles de traduction automatique neuronale (NMT) lorsqu'elles ne sont pas liées au texte source[10],[11].
En juillet 2021 pour la sortie du chatbot BlenderBot 2, Meta avertit que le système est sujet aux « hallucinations » que Meta définit comme des « déclarations confiantes qui ne sont pas vraies »[12]. Le 15 novembre 2022, Meta dévoile une démo de Galactica, un grand modèle de langage (LLM) conçu pour stocker, combiner et raisonner sur les connaissances scientifiques. Le contenu généré par Galactica est accompagné de l'avertissement « les sorties peuvent ne pas être fiables ! Les modèles de langage ont tendance à halluciner le texte ». Meta retire la démo de Galactica le 17 novembre en raison de son caractère offensant et de son inexactitude[13].
Le 30 novembre 2022, OpenAI publie en version bêta ChatGPT qui est basé sur le modèle de fondation GPT-3.5 (une révision de GPT-3). De nombreux journaux, dont le New York Times ou Le Monde, utilisent alors le terme hallucination pour décrire les réponses parfois erronées ou incohérentes du modèle[14],[15].
Exemples
Lorsque Fast Company demande à ChatGPT de générer un article de presse sur le dernier trimestre financier de Tesla ; ChatGPT crée un article cohérent, mais invente les chiffres financiers qu'il contient[4].
L’experte en science des données Teresa Kubacka raconte avoir délibérément inventé l'expression « électromagnon inversé cycloïdal » et testé ChatGPT en l'interrogeant sur ce phénomène a priori inexistant. ChatGPT a inventé une réponse plausible appuyée par des citations plausibles, qui l'ont obligée à vérifier si elle avait accidentellement tapé le nom d'un phénomène réel[16].
Lorsqu'on demande à ChatGPT quel est le record du monde pour la traversée à pied de la Manche, il annonce que le record est détenu par Christof Wandratsch qui aurait réalisé la traversée à pied le 14 août 2020 en 14 heures et 51 minutes[17]. Feite Kraay, expert IA pour KPMG, explique que ChatGPT a probablement combiné plusieurs informations présentes dans ses données d'entrainement liées à la traversée de la Manche pour générer cette hallucination. Christof Wandratsch existe réellement et détient le record de traversée de la Manche à la nage. La date de la traversée hallucinée, le 14 août 2020, correspond à la date de plusieurs articles de presse couvrant un afflux inhabituel de migrants[18]. La durée de traversée de 14 heures et 51 minutes est le temps mis par Haïke De Vlieger pour traverser la Manche à la nage dans le cadre d'une opération de collecte de fond pour une ferme thérapeutique[19]. Pour le système d'IA, la combinaison de ces différents points de données permet d'offir la réponse qui correspond le mieux aux attentes de l'utilisateur[18].
En mai 2023, lors d'un procès opposant un particulier à une compagnie aérienne, un cabinet d'avocats new-yorkais a rendu au juge un mémoire contenant des précédents judiciaires générés par ChatGPT. Parmi les arrêts cités en guise de jurisprudence, six renvoyaient à de fausses décisions de justice et mentionnaient de fausses citations[20]. En réponse, Brantley Starr, juge au tribunal du district nord du Texas, a interdit la soumission de documents judiciaires générés par l’IA qui n’ont pas été examinés par un humain, en notant que « les plateformes d’intelligence artificielle générative dans leur état actuel sont sujettes aux hallucinations et aux biais »[21].
Opposition à la terminologie
Certains chercheurs en IA s'opposent à l'utilisation du mot hallucination pour les modèles d'apprentissage profond car cela sous-entend qu’ils ont une forme de conscience, ce qui n’est pas le cas[22]. Selon eux, les grands modèles de langage ressemblent à des « perroquets stochastiques »[23]. En analysant les relations entre les mots d’un grand corpus de données textuelles, ils sont capables de générer un texte nouveau qui imite le style et le ton d’un humain mais sans comprendre le sens du texte généré[24].
Notes et références
- (en-US) Ahmed Banafa, « Artificial Intelligence hallucination (also confabulation or delusion) », sur OpenMind, (consulté le )
- (en) « Meta warns its new chatbot may forget that it's a bot », sur ZDNET (consulté le )
- « hallucination d'IA », sur vitrinelinguistique.oqlf.gouv.qc.ca (consulté le )
- (en) Connie Lin, « How to trick OpenAI’s ChatGPT » , sur Fast Company,
- Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Wenliang Dai, Andrea Madotto et Pascale Fung, « Survey of Hallucination in Natural Language Generation », Association for Computing Machinery, vol. 55, no 12, , p. 1–38 (DOI 10.1145/3571730, arXiv 2202.03629, S2CID 246652372, lire en ligne [PDF], consulté le )
- Terry Yue Zhuo, Yujin Huang, Chunyang Chen et Zhenchang Xing, « Exploring AI Ethics of ChatGPT: A Diagnostic Analysis », arXiv:2301.12867 [cs], (lire en ligne, consulté le )
- (en) Kif Leswing, « Microsoft's Bing A.I. made several factual errors in last week's launch demo », CNBC, (lire en ligne, consulté le )
- (en) « Google cautions against 'hallucinating' chatbots, report says », Reuters, (lire en ligne, consulté le )
- (en-US) Karen Weise et Cade Metz, « When A.I. Chatbots Hallucinate », The New York Times, (ISSN 0362-4331, lire en ligne, consulté le )
- Todisoa Tsarafiavia, « L'IA et vous : hallucinations, grands discours technologiques sur l'IA et les emplois », sur CNET France, (consulté le )
- « Hallucinations in Neural Machine Translation », sur research.google (consulté le )
- (en) « Blender Bot 2.0: An open source chatbot that builds long-term memory and searches the internet », sur ai.meta.com (consulté le )
- (en-US) Benj Edwards, « New Meta AI demo writes racist and inaccurate scientific literature, gets pulled », sur Ars Technica, (consulté le )
- (en-US) Cade Metz, « The New Chatbots Could Change the World. Can You Trust Them? », The New York Times, (ISSN 0362-4331, lire en ligne, consulté le )
- « « Bing Chat » : on a testé l’intégration de ChatGPT au moteur de recherche de Microsoft », Le Monde.fr, (lire en ligne, consulté le )
- (en) « A new AI chatbot might do your homework for you. But it's still not an A+ student », sur npr.org
- (en-US) Satyen K. Bordoloi, « The hilarious & horrifying hallucinations of AI », sur Sify, (consulté le )
- (en) « Un éléphant rose, ça trompe énormément », sur KPMG, (consulté le )
- « Une Belge de 50 ans réalise l'exploit de traverser la Manche à la nage », sur 7sur7.be (consulté le )
- « À cause de ChatGPT, un avocat américain cite des arrêts... qui n'ont jamais existé », sur Le Figaro, (consulté le )
- (en-US) Jon Brodkin, « Federal judge: No AI in my courtroom unless a human verifies its accuracy », sur Ars Technica, (consulté le )
- « Emily M. Bender (she/her) (@emilymbender@dair-community.social) », sur Distributed AI Research Community, (consulté le )
- Emily M. Bender, Timnit Gebru, Angelina McMillan-Major et Shmargaret Shmitchell, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 », Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, fAccT '21, , p. 610–623 (ISBN 978-1-4503-8309-7, DOI 10.1145/3442188.3445922, lire en ligne, consulté le )
- « « Parole de machines », d’Alexei Grinbaum : la chronique « philosophie » de Roger-Pol Droit », Le Monde.fr, (lire en ligne, consulté le )