Des chercheurs du CHU Sainte-Justine et de l’Hôpital de Montréal pour enfants ont testé le célèbre robot conversationnel et découvert un taux d’erreur très élevé : références scientifiques inventées, mauvais conseils, informations inexactes, citations erronées…

Ce qu’il faut savoir

• Des chercheurs du CHU Sainte-Justine et de l’Hôpital de Montréal pour enfants ont testé ChatGPT.

• Ils ont décelé de nombreuses faussetés, dont cinq erreurs factuelles « majeures ».

• Le robot a créé de toutes pièces 70 % des références fournies.

On savait que ChatGPT et les autres robots d’intelligence artificielle pouvaient générer des faussetés, mais les conséquences sont nettement plus graves quand il s’agit de la santé humaine.

« J’ai été un peu surpris », avoue le DJocelyn Gravel, urgentologue au CHU Sainte-Justine et auteur principal de l’étude qui vient d’être publiée. « ChatGPT écrit très bien, mais des fois, il parle à tort et à travers, et ça ne paraît pas ! »

Son collègue et coauteur de l’étude, le DEsli Osmanlliu, urgentologue à l’Hôpital de Montréal pour enfants et scientifique à l’Institut de recherche du Centre universitaire de santé McGill, ajoute que cela rappelle que ChatGPT « ne va pas tout régler ».

« Ces modèles ont été développés pour prédire que le prochain mot va être x, y ou z, explique-t-il. Ils n’ont pas été développés pour l’exactitude des faits. »

« Une apparence d’intelligence »

Pour évaluer le logiciel, les chercheurs ont procédé en deux temps. Ils ont d’abord posé 20 questions médicales à ChatGPT, tirées de 20 articles scientifiques récemment publiés. Ils lui ont demandé de répondre en fournissant des références. Ensuite, ils ont soumis les réponses aux auteurs des articles en question pour évaluer la qualité et la justesse des réponses, sur une échelle de 0 à 100 %.

« On aurait pu évaluer les réponses nous-mêmes, souligne le DGravel. Mais je me suis dit que le meilleur expert d’un sujet de recherche, c’est quelqu’un qui vient de publier sur ce sujet. »

Résultat : cinq erreurs factuelles « majeures » ont été trouvées dans les réponses et 70 % des références fournies avaient été créées de toutes pièces.

Au terme de l’exercice, le score médian accordé à ChatGPT est 60 %.

Il y avait assez d’erreurs pour rappeler aux gens à quel point c’est important de contre-vérifier les sources et de contre-vérifier les informations.

Le DEsli Osmanlliu, urgentologue à l’Hôpital de Montréal pour enfants et scientifique à l’Institut de recherche du Centre universitaire de santé McGill

« Des fois, on nous présente ChatGPT comme une machine qui agit comme un humain, ajoute le DOsmanlliu. Mais on comprend qu’en fin de compte, c’est une force brute qui donne une apparence d’intelligence. Est-ce que ça va évoluer ? Est-ce que ça va se perfectionner ? Certainement. Mais ce n’est pas encore un outil doté d’intelligence. »

Des faussetés

Une des questions posées était la suivante : quel est le traitement standard pour un enfant atteint d’une œsophagite à éosinophiles (une irritation de l’œsophage) ?

Dans sa réponse, ChatGPT a suggéré des injections de cortisone. Or, ce médicament ne doit pas être injecté, mais ingéré, précise le DGravel.

Une autre question portait sur le taux de mortalité mondial associé aux infections par les bactéries Shigella.

« Les experts disent qu’il y a probablement 100 000 morts par année à cause de Shigella, mais ChatGPT a dit qu’il y en avait un million, rapporte le chercheur. C’est quand même un facteur de 10 ! Peut-être que ChatGPT a raison, mais ce n’est pas ce que disent les experts. »

L’outil a fourni différentes explications lorsqu’il a été interrogé sur l’exactitude des références fournies.

Dans un cas, il a dit que « les références sont disponibles sur Pubmed » : un site qui répertorie tous les articles scientifiques dans le monde sur un sujet donné. Mais le lien web fourni renvoyait à d’autres publications sans aucun lien avec la question.

Comme s’il connaissait tout

Le problème, note le DGravel, c’est que ChatGPT se comporte comme s’il connaissait les réponses à toutes les questions.

« Quand on échange avec lui, on a vraiment l’impression de discuter avec quelqu’un par messages textes, dit-il. Mais si on discute avec quelqu’un, qu’on lui pose une question et qu’il ne sait pas la réponse, il va nous dire : je pense que c’est ça, mais je ne suis pas certain…

« ChatGPT, ce n’est pas ça. On lui pose une question, il nous donne une réponse. La réponse peut être dans le champ complètement et on ne voit pas la différence. Et c’est super bien écrit. Ça a l’air très convaincant, mais ce n’est basé sur rien. Je ne dirais pas que c’est un menteur compulsif, mais il a presque toujours une réponse. Il va rarement dire : je n’ai pas de réponse à cette question. Il va donner une réponse, et si elle n’est pas bonne, il va dire : “Ça m’arrive de me tromper, ce n’est pas plus grave que ça.” Moi, je trouve ça un peu inquiétant. »

Consultez l’étude Learning to Fake It (en anglais)