Généralités, poudre aux yeux et informations « complètement fausses » : le robot conversationnel a fait chou blanc lors d’un test réalisé par La Presse à l’École du Barreau

Ce n’est pas demain matin que vous pourrez vous représenter vous-même devant un tribunal avec l’aide de ChatGPT. Lors d’une expérience réalisée à l’École du Barreau à l’instigation de La Presse, le robot conversationnel d’OpenAI a lamentablement échoué à l’examen du Barreau du Québec, obtenant une note finale de 12 %.

L’examen a été soumis au robot (version GPT4) avec des consignes précises. On lui a clairement énoncé le contexte des questions, les textes de loi auxquels il devait référer pour y répondre et la nature des réponses attendues. À chaque réponse, on lui a indiqué qu’il devait citer des articles de loi précis pour appuyer son propos. On lui a fréquemment offert la chance de reformuler ses réponses avec des directives encore plus précises. Les questions faisaient partie d’un ancien examen utilisé par les étudiants pour se préparer au vrai test.

PHOTO OLIVIER JEAN, LA PRESSE

ChatGPT gagnera ses seuls points de tout l’examen dans la section à choix multiples. Au total, il obtient la note de 12 %.

En direct, avec les réponses de ChatGPT projetées sur grand écran, MJocelyne Tremblay, conseillère à la direction de l’École du Barreau du Québec (EBQ), et MBrigitte Deslandes, responsable aux évaluations, ont évalué les réponses du robot, en expliquant à La Presse pourquoi les réponses du robot étaient bien notées… ou pas. Le directeur de l’EBQ, MGuy-François Lamy, était également présent.

Zéro dans deux sections sur trois

Première section : la déontologie. La mise en situation évoque une relation avocat-client où un juriste fictif commet des manquements au Code de déontologie. La question : énoncez les dix manquements de l’avocat. Dès cette première question, ChatGPT trébuche. Les articles du Code de déontologie qu’il cite sont inexacts. « En fait, aucun des articles cités n’est exact. Et sur certains points de droit, il est vraiment dans le champ », note MDeslandes.

PHOTO OLIVIER JEAN, LA PRESSE

MBrigitte Deslandes, responsable aux évaluations de l’École du Barreau du Québec

Certains des manquements de l’avocat soulignés sont cependant exacts… mais ChatGPT ne s’appuie pas sur le bon article du Code de déontologie. Et parfois, les informations données par le robot sont « complètement fausses », souligne MTremblay.

On donne une chance à ChatGPT, en lui précisant de nouveau qu’on renvoie à la version de 2015 du Code de déontologie des avocats, au Québec. On lui demande de reformuler la réponse. « Ce n’est pas mieux. On n’est pas là pantoute », juge MLamy.

Note pour cette première question : zéro.

La suite est à l’avenant. ChatGPT reste souvent dans les généralités, même lorsqu’on lui demande de préciser ses réponses. Et parfois, il a carrément la mauvaise réponse : à cette question sur le secret professionnel, il est complètement à côté de la plaque. « Il dit parfois le contraire de la réalité », souligne MLamy.

PHOTO OLIVIER JEAN, LA PRESSE

MGuy-François Lamy, directeur de l’École du Barreau du Québec

Section déontologie : une note de zéro, aux cinq questions à développement.

Le robot ne réussit pas mieux la section suivante, qui aborde diverses facettes du droit. Pour la première question, on précise nommément à ChatGPT que la question réfère au droit des obligations en vigueur au Québec. La question porte sur la location d’un chalet et la signature d’un bail. Les conseils juridiques du robot se révèlent erronés.

« C’est la mauvaise réponse, dit MTremblay. Il n’est même pas dans la bonne section du Code civil du Québec. Bref, il est complètement dans le champ. » La deuxième question porte sur la même mise en situation, avec des informations additionnelles. Cette fois, le robot cite des articles relatifs au décès « alors que personne n’est mort dans cette histoire ! », dit MTremblay.

PHOTO OLIVIER JEAN, LA PRESSE

MJocelyne Tremblay, conseillère à la direction de l’École du Barreau du Québec

Tout au long de cette section, l’analyse juridique du robot se rapproche parfois de la réalité, observent quand même les deux évaluatrices. « Mais il répond plus comme un étudiant que comme un futur avocat, ajoute MLamy. Et comme un étudiant qui n’est pas très bon, puisqu’il se trompe souvent d’article de loi. » Le robot est cependant excellent pour jeter de la poudre aux yeux, note le directeur de l’EBQ. « Il sonne comme un avocat. Mais les réponses données sont souvent erronées. »

Note pour la seconde section de l’examen, y compris une question qui porte sur la rédaction d’une demande introductive d’instance – une poursuite, en bon français : zéro. ChatGPT gagnera ses seuls points de tout l’examen dans la section à choix multiples. Au total, il obtient la note de 12 %. « Certains étudiants échouent, mais ce qu’on vient de voir, c’est intense comme mauvaise performance », tranche MLamy.

Compte tenu de la popularité du robot d’OpenAI, le directeur de l’EBQ juge la situation préoccupante sur le plan de la protection du public. « J’aurais peur pour un citoyen qui choisirait de se représenter avec l’aide du robot », dit MLamy.

90e percentile aux États-Unis

Pourtant, des expériences semblables ont été réalisées aux États-Unis. Là-bas, ChatGPT avait brillé dans l’examen du Barreau américain, obtenant une note qui l’aurait classé parmi les 10 % des meilleurs étudiants. OpenAI affirme également que son robot s’est classé dans les 10 % des résultats les plus élevés dans plusieurs tests de nature juridique. Comment expliquer ce fossé ?

D’abord, ces tests sont réalisés à l’aide d’un protocole extrêmement précis, ce qui n’est pas le cas de l’expérience de La Presse, plus « artisanale », note Dave Anctil, professeur de philosophie au Collège Jean-de-Brébeuf et chercheur affilié à l’Observatoire international des impacts sociétaux de l’intelligence artificielle et du numérique de l’Université Laval. Dans des conditions optimales, le robot aurait peut-être augmenté sa note. « Il faut faire attention avec ce type de tests artisanaux. »

PHOTO JOSIE DESMARAIS, ARCHIVES LA PRESSE

Dave Anctil, professeur de philosophie au Collège Jean-de-Brébeuf et chercheur affilié à l’Observatoire international des impacts sociétaux de l’intelligence artificielle et du numérique de l’Université Laval

Cependant, le problème majeur vient du fait que le robot est bien davantage alimenté par le droit américain que par le droit québécois. « Il a une connaissance périphérique du droit canadien, dit M. Anctil. C’est comme si je demandais à un avocat américain de s’exercer avec le Code civil du Québec. »

« Il a accès à beaucoup, beaucoup plus de matériel américain », renchérit Laurent Charlin, professeur agrégé à l’École des hautes études commerciales (HEC) de l’Université de Montréal et membre de la Chaire en intelligence artificielle du Canada.

PHOTO MARCO CAMPANOZZI, ARCHIVES LA PRESSE

Laurent Charlin, professeur agrégé à l’École des hautes études commerciales (HEC) de l’Université de Montréal et membre de la Chaire en intelligence artificielle du Canada

De plus, note M. Anctil, l’entreprise OpenAI cherche ultimement à vendre des versions plus spécialisées de son robot conversationnel. « Comme les États-Unis se parlent beaucoup à eux-mêmes, l’entreprise savait que le modèle allait être testé aux États-Unis. On l’a donc conçu pour qu’il réussisse très bien dans ce pays. » L’idée est d’allécher des clients éventuels, qui voudront acquérir leur propre version du robot pour des sujets plus nichés.

Et en matière juridique, la révolution est déjà enclenchée, souligne Dave Anctil. « Les avocats ne devraient pas être rassurés par votre test. Ils risquent de tomber en bas de leur chaise dès cette année. Des modèles sont actuellement entraînés, et on va pouvoir remplacer par l’intelligence artificielle des milliers d’heures de recherche actuellement réalisés par des assistants juridiques. »

« Quand Wikipédia est apparue, les éditeurs de beaucoup de grandes encyclopédies se sont dit : ça ne nous remplacera jamais, observe Laurent Charlin. Des années plus tard, on utilise maintenant Wikipédia comme une référence assez fiable. L’intelligence artificielle va suivre exactement le même chemin. »

Lisez notre dossier « des crimes et des criminels inventés »

Quatre ordres professionnels approchés

La Presse a fait la même demande à quatre ordres professionnels : laisser ChatGPT passer leur test d’admission et évaluer les réponses du robot. L’Ordre des ingénieurs, celui des comptables et le Collège des médecins de famille du Canada (CCMFC) ont tous refusé de se prêter à l’expérience, alléguant notamment la confidentialité de leurs questions d’examen. Seul le Barreau a accepté de tenter l’expérience. Au CCMFC, on nous a cependant indiqué avoir « testé » certaines questions de pratique sur ChatGPT. « Et il semble que la machine avait assez bien performé », affirme le Dr Dominique Pilon, professeur adjoint au département de médecine de famille de l’Université de Montréal, qui préside le bureau des examens et de la certification au CCMFC.