Ian Sansavera, architecte logiciel dans une jeune pousse new-yorkaise appelée Runway, a tapé une courte description de ce qu’il voulait voir dans une vidéo. « Une rivière tranquille dans la forêt », a-t-il écrit.

Moins de deux minutes plus tard, un service internet expérimental a généré une courte vidéo d’une rivière tranquille dans une forêt. L’eau courante de la rivière scintillait au soleil alors qu’elle se faufilait entre les arbres et les fougères, prenait un virage et éclaboussait doucement les rochers.

Runway, qui prévoit ouvrir son service à un petit groupe de testeurs cette semaine, est l’une des nombreuses entreprises qui développent une technologie ayant recours à l’intelligence artificielle (IA) qui permettra bientôt aux gens de générer des vidéos simplement en tapant quelques mots dans une case sur un écran d’ordinateur.

Ces entreprises représentent la prochaine étape d’une course industrielle – à laquelle participent des géants comme Microsoft et Google, ainsi que des entreprises en démarrage beaucoup plus petites – pour créer de nouveaux types de systèmes basés sur l’intelligence artificielle qui, selon certains, pourraient constituer la prochaine grande nouveauté technologique, aussi importante que les navigateurs web ou l’iPhone.

Les nouveaux systèmes de génération de vidéos pourraient accélérer le travail des cinéastes et d’autres artistes numériques, tout en devenant un nouveau moyen rapide de créer de fausses informations en ligne difficiles à détecter, ce qui rendrait encore plus difficile de savoir ce qui est réel sur l’internet.

Ces systèmes sont des exemples de ce que l’on appelle l’IA générative, qui peut créer instantanément du texte, des images et des sons. Un autre exemple est ChatGPT, l’agent conversationnel en ligne créé par une jeune pousse de San Francisco, OpenAI, qui a stupéfié l’industrie technologique par ses capacités à la fin de l’année dernière.

Google et Meta, société mère de Facebook, ont dévoilé les premiers systèmes de génération de vidéos l’année dernière, mais ne les ont pas rendus disponibles au public parce qu’ils craignaient que ces systèmes puissent être utilisés pour diffuser de la désinformation avec une rapidité et une efficacité nouvelles.

Le PDG de Runway, Cris Valenzuela, a déclaré qu’il pensait que cette technologie était trop importante pour être conservée dans un laboratoire de recherche, malgré les risques qu’elle comporte. « Il s’agit de l’une des technologies les plus impressionnantes que nous ayons construites au cours des cent dernières années, a-t-il déclaré. Il faut que les gens l’utilisent réellement. »

L’IA générative

La possibilité de monter et de manipuler des films et des vidéos n’a rien de nouveau, bien sûr. Les cinéastes le font depuis plus d’un siècle. Ces dernières années, des chercheurs et des artistes numériques ont utilisé l’intelligence artificielle et des logiciels pour créer et éditer des vidéos, souvent appelées deepfake (hypertrucages).

Mais des systèmes tels que celui créé par Runway pourraient, à terme, remplacer les compétences en matière de montage en appuyant sur un bouton.

La technologie de Runway génère des vidéos à partir de n’importe quelle courte description. Pour commencer, il vous suffit de taper une description, comme vous le feriez pour une note rapide.

Cela fonctionne mieux si la scène comporte un peu d’action, mais pas trop – quelque chose comme « un jour de pluie dans la grande ville » ou « un chien avec un téléphone portable dans le parc ». Appuyez sur « Entrée » et le système génère une vidéo en une minute ou deux.

La technologie peut reproduire des images courantes, comme un chat dormant sur un tapis. Elle peut aussi combiner des concepts disparates pour générer des vidéos étrangement amusantes, comme une vache à une fête d’anniversaire.

Les vidéos ne durent que quatre secondes et, à y regarder de près, elles sont hachées et floues. Parfois, les images sont bizarres, déformées et dérangeantes. Le système a l’habitude de fusionner des animaux comme les chiens et les chats avec des objets inanimés comme des balles ou des téléphones portables. Mais si on lui donne la bonne consigne, il produit des vidéos qui montrent l’avenir de la technologie.

PHOTO JUSTIN J WEE, THE NEW YORK TIMES

Alejandro Matamala-Ortiz (à gauche), Cristóbal Valenzuela et Anastasis Germanidis dans leur bureau, à Manhattan

« À ce stade, si je vois une vidéo haute résolution, je vais probablement lui faire confiance », a déclaré Phillip Isola, professeur au Massachusetts Institute of Technology et spécialiste de l’IA. « Mais cela va changer assez rapidement. »

Comme d’autres technologies qui utilisent l’IA générative, le système de Runway apprend en analysant des données numériques – dans ce cas, des photos, des vidéos et des légendes décrivant le contenu de ces images. En entraînant ce type de technologie sur des quantités de données de plus en plus importantes, les chercheurs sont convaincus qu’ils peuvent rapidement améliorer et étendre ses compétences. Bientôt, selon les experts, ils produiront des minifilms d’aspect professionnel, avec musique et dialogues.

« Autrefois, pour faire quelque chose de semblable, il fallait une caméra. Il fallait des accessoires. Il fallait un lieu de tournage. Il fallait une autorisation. Il fallait avoir de l’argent », explique Susan Bonser, auteure et éditrice en Pennsylvanie, qui a expérimenté les premières incarnations de la technologie vidéo générative. « Aujourd’hui, rien de tout cela n’est nécessaire. Vous pouvez simplement vous asseoir et l’imaginer. »

Cet article a été publié à l’origine dans le New York Times.

Consultez l’article original (en anglais ; offert avec abonnement payant)