(San Francisco ) ChatGPT peut désormais générer des images : elles sont étonnamment détaillées.

OpenAI, la société d’intelligence artificielle (IA) de San Francisco, a présenté mercredi à un petit groupe de testeurs une nouvelle version de son générateur d’images DALL-E et l’a intégrée à ChatGPT, son populaire robot conversationnel en ligne.

DALL-E 3 peut produire des images plus convaincantes que les versions précédentes et se montre particulièrement doué pour les images comportant des lettres, chiffres et mains humaines, dit OpenAI.

PHOTO FOURNIE PAR OPENAI AU NEW YORK TIMES

OpenAI estime que DALL-E 3 génère généralement des images plus stylisées que photoréalistes. Mais elle admet que le modèle pourrait produire des scènes convaincantes, comme le type d’images granuleuses tournées par des caméras de sécurité.

« Il comprend et représente bien mieux ce que l’utilisateur demande », dit Aditya Ramesh, chercheur à l’OpenAI, ajoutant que DALL-E 3 a une compréhension plus précise de la langue anglaise.

Un couteau suisse

L’ajout de la dernière version de DALL-E fait de ChatGPT un couteau suisse de l’IA générative : il peut produire du texte, des images, des sons, des logiciels et d’autres médias numériques. Le succès de ChatGPT l’an dernier a déclenché une course entre les géants technologiques de la Silicon Valley pour être à la pointe des avancées en IA.

Mardi, Google a publié une nouvelle version de son robot Bard, qui se connecte à plusieurs services populaires de l’entreprise, notamment Gmail, YouTube et Docs. Midjourney et Stable Diffusion, deux autres générateurs d’images, ont été mis à jour cet été.

ChatGPT peut depuis longtemps se connecter à d’autres services en ligne comme Expedia, OpenTable et Wikipédia. Mais l’ajout du générateur d’images est une première.

PHOTO FOURNIE PAR OPENAI, THE NEW YORK TIMES

DALL-E 3 peut produire des images à partir de longues descriptions et suivre de près des instructions très détaillées.

DALL-E et ChatGPT étaient auparavant des applications distinctes. Mais avec la dernière version de ChatGPT, ses utilisateurs peuvent obtenir des images numériques en décrivant simplement ce qu’ils veulent voir. Ils peuvent même créer des images à partir de descriptions générées par ChatGPT, ce qui automatise la création de graphiques, d’œuvres d’art et d’autres médias.

Lors d’une démonstration récente, Gabriel Goh, chercheur à l’OpenAI, a obtenu de ChatGPT des descriptions textuelles détaillées qui ont ensuite servi pour générer des images. Ainsi, ChatGPT a créé des descriptions du logo d’un restaurant appelé Mountain Ramen ; puis, il a généré plusieurs images à partir de ces descriptions en quelques secondes.

DALL-E 3 peut produire des images à partir de longues descriptions et suivre de près des instructions très détaillées, a expliqué M. Goh. Comme tous les générateurs d’images – et les autres systèmes d’IA –, DALL-E 3 peut se tromper, a-t-il ajouté.

Afin d’affiner sa technologie, OpenAI ne partagera pas DALL-E 3 avec le grand public avant octobre. DALL-E 3 sera alors offert sur ChatGPT Plus, un service qui coûte 20 $ US par mois.

La génération d’images par l’IA peut être utilisée pour diffuser de grandes quantités de désinformation en ligne, préviennent les experts. Pour éviter cela, OpenAI a intégré dans DALL-E 3 des outils censés bloquer certains sujets, comme les images à connotation sexuelle et les représentations de personnes publiques. OpenAI tente aussi de limiter la capacité de DALL-E à imiter le style de certains artistes.

Ces derniers mois, l’IA a été utilisée comme source de désinformation visuelle : une imitation synthétique – pas très bonne, d’ailleurs – d’une explosion au Pentagone a provoqué une brève chute des marchés boursiers en mai. On craint aussi que cette technologie soit utilisée à des fins malveillantes lors d’élections.

IMAGE TIRÉE DU RÉSEAU X

Selon Sandhini Agarwal, une chercheuse d’OpenAI qui étudie la sécurité et la politique, DALL-E 3 génère généralement des images plus stylisées que photoréalistes. Mais elle admet que le modèle pourrait produire des scènes convaincantes, comme le type d’images granuleuses tournées par des caméras de sécurité.

Pour l’essentiel, OpenAI ne prévoit pas bloquer les contenus potentiellement problématiques provenant de DALL-E 3. Cette approche serait « trop large », dit Sandhini Agarwal, car les images peuvent être inoffensives ou dangereuses en fonction du contexte. « Ça dépend vraiment d’où elles sont utilisées et de la façon dont les gens en parlent », a-t-elle déclaré.

Cet article a été publié dans le New York Times.

Lisez ce texte dans sa version originale (en anglais ; abonnement requis)