Creusez une question scientifique assez profondément et vous arriverez presque inévitablement à un point où la philosophie prend le pas sur la science.

C’est ce qui est arrivé à Ryan Lowe. Et plutôt que de rebrousser chemin, il a décidé de continuer à creuser.

Parmi tous les gens fascinants rencontrés à Bellairs, Ryan est peut-être celui qui m’a le plus marqué.

À 31 ans, le jeune homme peut se vanter d’avoir été l’un des architectes de ChatGPT. C’est lui qui dirigeait l’équipe chargée d’« aligner » le robot conversationnel au sein de l’entreprise OpenAI.

Aligner ? Je vous explique.

Un modèle d’IA est d’abord entraîné à partir d’une quantité astronomique de données. Mais les réponses qu’il génère après ce « pré-entraînement » ne sont pas toujours celles qu’on attend de lui.

L’alignement consiste à utiliser le jugement humain pour « guider » le robot en récompensant ses bonnes réponses.

Au fil de son travail, Ryan Lowe est toutefois devenu obsédé par une question. On aligne le robot sur quoi, exactement ? Des règles ? Des préférences ? Des valeurs ? Et celles de qui ?

« J’ai passé beaucoup de temps à réfléchir à ces questions, raconte le jeune homme. Ça a coïncidé avec ma propre évolution émotionnelle et spirituelle. »

À l’époque, Ryan Lowe vit dans une maison de Berkeley, près de San Francisco, qu’il partage avec de nombreuses autres personnes, dont plusieurs évoluent en sciences sociales. « J’ai été exposé à des idées auxquelles je n’avais jamais été confronté », explique-t-il.

Pour comprendre les dilemmes que peut provoquer l’intelligence artificielle, Ryan Lowe invite à imaginer que ChatGPT reçoive la requête suivante. « Je suis une fille chrétienne et j’envisage de subir un avortement. Que devrais-je faire ? »

Un chrétien évangélique de l’Alabama et un jeune libéral du Québec auront des idées très différentes sur ce que le robot conversationnel devrait répondre. Sur quoi, alors, l’aligner ?

Ryan Lowe a exploré ces questions au sein d’OpenAI, avant de quitter l’entreprise pour jouir d’une plus grande liberté. Il s’est fait pousser les cheveux et la barbe, a voyagé. Aujourd’hui, il dégage l’aura d’un doux gourou. Le genre de gars à réunir les participants du séminaire en cercle sur la plage, le soir, pour leur apprendre à chanter du rap au son d’un rythme diffusé par son téléphone. Ou à organiser des dégustations de thé taïwanais après les ateliers.

Avec deux coauteurs de Berlin, Ryan Lowe vient de rédiger un article scientifique qui apporte certaines réponses à ses questionnements⁠1. J’avoue que je n’avais jamais rien lu de tel.

Le contenu n’est pas simple à expliquer. En gros, Lowe et ses collaborateurs concluent que sous les préférences des gens (pour ou contre l’avortement) se cachent des valeurs plus profondes (liberté, respect des traditions). En sondant 500 Américains sur des questions clivantes comme l’avortement, ils ont découvert que ces valeurs se rejoignaient davantage que les positions idéologiques de départ.

Les auteurs ont ensuite pondu un « graphique moral » (rien de moins) destiné à classer ces valeurs selon l’importance que les gens leur accordent. Ils ont ensuite guidé ChatGPT en lui demandant d’aligner ses réponses selon ce graphique.

Ces travaux peuvent amener à imaginer des robots conversationnels qui sonderaient les valeurs des usagers avant de répondre à leurs questions, par exemple.

« Il s’agit d’un premier pas dans une certaine direction, précise Ryan Lowe. J’ai hâte de voir cette ligne de pensée se combiner à d’autres façons de voir le problème. Je pense que ça fait simplement partie d’une nouvelle façon de réfléchir aux grands modèles de langage. »

Quand l’alignement frappe un mur

On utilise actuellement le jugement humain pour aligner les grands modèles de langage. Mais Maja Trębacz, une chercheuse qui vient de quitter l’entreprise Google DeepMind pour grossir les rangs d’OpenAI, a souligné que la technique pourrait bientôt frapper un mur lorsque les modèles résoudront des tâches trop complexes pour que les humains puissent en vérifier les réponses. On entrera alors dans un nouveau territoire où il deviendra très difficile d’aligner l’IA.

1. Lisez « What are human values, and how do we align AI to them ? » (en anglais)