Le robot conversationnel tant utilisé pour rédiger dissertations, code informatique et contes de fées ne fait pas qu’écrire. ChatGPT, l’outil doté d’intelligence artificielle, peut aussi analyser des images, décrire leur contenu, répondre à des questions à leur sujet et même y reconnaître des visages.

On peut imaginer qu’un jour, on pourra télécharger la photo du moteur d’une auto en panne ou d’une mystérieuse éruption cutanée et obtenir une solution de ChatGPT.

Mais OpenAI, concepteur de ChatGPT, ne veut pas qu’il devienne un outil de reconnaissance faciale.

Jonathan Mosen, PDG d’une agence d’emploi à Wellington, en Nouvelle-Zélande, fait partie d’un groupe restreint ayant accès à une version avancée de ChatGPT capable d’analyser des images. Récemment, M. Mosen, qui est aveugle, a utilisé l’analyse visuelle pour déterminer quels distributeurs de la salle de bain d’une chambre d’hôtel contenaient le shampoing, le revitalisant et le gel douche. ChatGPT a fait bien mieux que les logiciels d’analyse d’images qu’il avait déjà utilisés.

PHOTO TIRÉE DU SITE DE MUSHROOM FM

Jonathan Mosen, homme d’affaires aveugle

« Il m’a donné la contenance en millilitres de chaque bouteille. Il m’a décrit la céramique de la douche, dit M. Mosen, 54 ans. Tout était décrit comme un aveugle doit l’entendre. Avec une seule photo, j’avais exactement ce qu’il me fallait. »

Pour la première fois, M. Mosen peut « interroger les images », dit-il. Ainsi, le texte accompagnant une image trouvée sur les réseaux sociaux la décrivait comme une « blonde à l’air heureux ». Lorsqu’il a demandé à ChatGPT d’analyser l’image, le robot a décrit « une femme vêtue d’une chemise bleu foncé se prenant en photo dans un miroir en pied ». Il a pu poser d’autres questions : quel type de chaussures portait-elle ? Quoi d’autre voyait-on dans le miroir ?

C’est extraordinaire.

Jonathan Mosen, au sujet de la fonctionnalité d’analyse d’images de ChatGPT4

M. Mosen a vanté les capacités de cette technologie et en a fait la démonstration dans une émission balado qu’il anime sur le thème de « vivre à l’aveugle ».

En mars, quand OpenAI a annoncé GPT-4 – le nouveau logiciel doté d’IA –, elle l’a décrit comme « multimodal » : il peut répondre à des sollicitations textuelles et visuelles. La plupart des utilisateurs n’ont pu converser avec ChatGPT qu’avec des mots, mais M. Mosen a obtenu un accès anticipé à l’analyse visuelle grâce à Be My Eyes, petite firme qui apparie des utilisateurs aveugles avec des bénévoles voyants et qui fournit un service client aux entreprises. Be My Eyes a travaillé avec OpenAI cette année pour tester la « vue » du robot avant le lancement grand public de cette fonctionnalité.

Depuis peu, l’application a cessé de donner à M. Mosen des informations sur les visages : ils ont été masqués pour des raisons de confidentialité. Il est déçu, estimant qu’il devrait avoir le même accès à l’information qu’une personne voyante.

Trop puissant ?

Pourquoi ce changement ? OpenAI craint d’avoir créé un outil doté d’un pouvoir qu’elle ne veut pas libérer tel quel dans une fonctionnalité grand public.

La technologie d’OpenAI peut identifier des personnalités publiques – les gens qui ont une page Wikipédia, par exemple –, dit Sandhini Agarwal, chercheuse chez OpenAI. Mais elle n’est aussi exhaustive que les outils conçus pour trouver des visages sur l’internet, comme ceux de Clearview AI et de PimEyes. L’outil reconnaît le PDG d’OpenAI, Sam Altman, sur des photos, mais pas des employés.

PHOTO ISSEÏ KATO, ARCHIVES REUTERS

Sam Altman, PDG d’OpenAI

Une telle fonction outrepasserait ce qui est généralement considéré comme une pratique acceptable par les entreprises technologiques américaines. Elle pourrait aussi poser des problèmes juridiques dans certains endroits comme l’Illinois et l’Europe, où les entreprises sont tenues d’obtenir le consentement des particuliers pour utiliser leurs informations biométriques, y compris leur empreinte faciale.

En outre, OpenAI ne veut pas que ChatGPT se prononce sur le sexe ou l’état émotionnel des personnes photographiées. OpenAI travaille à une façon de gérer ces préoccupations et d’autres enjeux de sécurité avant d’offrir au grand public la fonction d’analyse d’images, dit Mme Agarwal.

Nous tenons à avoir un véritable échange avec le public à ce sujet. Si on nous dit : “On ne veut rien savoir de votre truc”, eh bien, ce sera ça.

Sandhini Agarwal, chercheuse chez OpenAI

Microsoft, qui a investi 10 milliards dans OpenAI, a aussi accès à l’outil d’analyse visuelle. Un petit nombre d’utilisateurs du robot Bing de Microsoft, doté d’IA, y ont accès. Quand ils téléchargent des images, un message les informe que les visages sont floutés dans Bing pour protéger la vie privée.

Sayash Kapoor, doctorant en informatique à l’Université de Princeton, a utilisé Bing pour décoder un CAPTCHA, un contrôle de sécurité visuel censé n’être compréhensible que par un humain. Le robot a déchiffré le code et reconnu les lettres dissimulées dans le fouillis calligraphique en arrière-plan, mais Bing a noté que « les CAPTCHA sont faits pour empêcher les robots comme moi d’accéder à certains sites web ou services ».

« L’IA est en train de fracasser tous les dispositifs censés séparer les humains des machines », a déclaré Ethan Mollick, chercheur en innovation et en esprit d’entreprise à la Wharton School de l’Université de Pennsylvanie.

Cet article a été initialement publié dans le New York Times.

Lisez la version originale de cet article (en anglais ; abonnement requis)