(San Francisco) En avril, la jeune pousse new-yorkaise Runway AI a dévoilé un logiciel permettant de générer des vidéos – comme une vache célébrant son anniversaire ou un chien parlant au téléphone – juste en tapant une phrase sur un ordinateur.

Les vidéos de quatre secondes étaient floues, hachurées, déformées et troublantes. Mais elles montraient clairement qu’on n’était pas loin de technologies d’intelligence artificielle (IA) produisant des vidéos très convaincantes.

À peine 10 mois ont passé et l’entreprise OpenAI, de San Francisco, vient de dévoiler un système similaire qui crée des vidéos dont la qualité est digne d’Hollywood. Les courtes séquences – créées en quelques minutes – montrent des mammouths laineux marchant dans une prairie enneigée, un monstre contemplant une bougie en train de fondre et une scène de rue à Tokyo qui semble filmée par une caméra survolant la ville.

Selon OpenAI, pour créer cette vidéo, on aurait fourni à Sora la description suivante : « Une femme élégante qui marche dans une rue de Tokyo remplie de néons lumineux et de panneaux de signalisation animés. Elle porte une veste en cuir noire, une longue robe rouge, des bottes noires et un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec assurance et décontraction. La rue est humide et réfléchissante, ce qui crée un effet de miroir avec les lumières colorées. De nombreux piétons se promènent. »

OpenAI, à l’origine du robot conversationnel ChatGPT et du générateur d’images fixes DALL-E, fait partie d’une multitude d’entreprises qui s’efforcent d’améliorer ce type de générateur de vidéos instantanées. Par exemple la jeune pousse Runway et des géants technos comme Google et Meta (Facebook et Instagram). Cette technologie pourrait accélérer le travail des cinéastes d’expérience, tout en supplantant totalement les jeunes artistes numériques.

Elle pourrait aussi être un outil rapide et bon marché pour créer de la désinformation en ligne, rendant plus difficile encore de distinguer le vrai du faux sur l’internet.

« L’impact potentiel d’une telle chose sur une élection serrée me terrifie complètement », affirme Oren Etzioni, professeur d’IA à l’Université de Washington et fondateur de True Media, un OSBL voué à débusquer la désinformation en ligne lors des campagnes électorales.

« L’idée d’un potentiel créatif illimité »

OpenAI a nommé son nouveau système Sora (« ciel », en japonais). L’équipe à l’origine du logiciel, dirigée par les chercheurs Tim Brooks et Bill Peebles, a choisi ce nom parce qu’il « évoque l’idée d’un potentiel créatif illimité ».

Selon MM. Brooks et Peebles, Sora n’est pas encore offert au public parce qu’OpenAI s’efforce encore d’en comprendre les dangers. OpenAI limite l’accès à Sora à un groupe restreint d’universitaires et d’autres chercheurs externes qui la mettent à l’épreuve pour en définir de potentiels usages malveillants.

On vise à donner un aperçu de ce qui s’en vient, pour que des utilisateurs puissent voir les capacités de cette technologie et nous faire profiter de leurs observations.

Tim Brooks, chercheur chez OpenAI

OpenAI marque déjà les vidéos produites par Sora de filigranes les identifiant comme générées par l’intelligence artificielle. Mais l’entreprise reconnaît que ces filigranes peuvent être supprimés. Ils peuvent aussi être difficiles à repérer. (Le New York Times a ajouté des filigranes « Généré par l’IA » aux vidéos de cet article.)

Sora est un exemple d’IA générative, capable de générer instantanément texte, images et sons. Comme d’autres machines d’IA générative, Sora apprend en analysant des données numériques, en l’occurrence des vidéos et des légendes décrivant le contenu de ces vidéos.

OpenAI refuse de dire combien de vidéos ont été fournies au système et d’où elles proviennent, mais précise que le contenu comprend des vidéos publiques et des vidéos protégées par le droit d’auteur. L’entreprise en dit peu sur les données utilisées pour former ses technologies, probablement pour conserver son avantage sur la concurrence – et parce qu’elle a été maintes fois poursuivie pour usage de contenu protégé par le droit d’auteur.

(En décembre, le New York Times a intenté un procès à OpenAI et à son partenaire Microsoft pour violation du droit d’auteur sur des contenus d’information liés à des systèmes d’IA.)

Pas toujours parfait

Sora génère des vidéos en réponse à de courtes descriptions comme « un récif corallien magnifique, rempli de poissons colorés et de créatures marines ». Les vidéos peuvent être impressionnantes, mais ne sont pas toujours parfaites et certaines images peuvent être étranges et illogiques. Ainsi, Sora a récemment généré une vidéo de quelqu’un en train de manger un biscuit, mais le biscuit ne rapetissait jamais.

En quelques années, DALL-E, Midjourney et d’autres générateurs d’images fixes se sont améliorés assez pour produire des images presque impossibles à distinguer de véritables photographies. Cela rend la désinformation en ligne plus difficile à détecter ; de nombreux artistes numériques se plaignent d’avoir plus de mal à gagner leur vie.

« On a tous ri en 2022 quand Midjourney a produit ses premières images », dit Reid Southen, un cinéaste numérique du Michigan. « Aujourd’hui, Midjourney met des gens au chômage. »

Cet article a été publié dans le New York Times.

Lisez l’article sur le site du New York Times (en anglais ; abonnement requis)