Fin juin, Microsoft a présenté un nouveau type de technologie d’intelligence artificielle (IA) capable de générer son propre code informatique.

Appelé Copilot, cet outil a été conçu pour accélérer le travail des programmeurs professionnels. Pendant qu’ils tapaient sur leur ordinateur portable, il leur proposait des blocs de code informatique prêts à l’emploi qu’ils pouvaient ajouter instantanément à leur propre code.

De nombreux programmeurs ont adoré le nouvel outil ou ont été au moins intrigués par celui-ci. Mais Matthew Butterick, programmeur, concepteur, écrivain et avocat à Los Angeles, n’était pas de ceux-là. Ce mois-ci, il a déposé, avec une équipe d’autres avocats, une plainte visant à lancer un recours collectif contre Microsoft et les autres entreprises de renom qui ont conçu et déployé Copilot.

Une première contestation

Comme de nombreuses technologies d’IA de pointe, Copilot a développé ses compétences en analysant de grandes quantités de données. Dans ce cas, il s’est appuyé sur des milliards de lignes de code informatique publiées sur l’internet. Butterick, 52 ans, assimile ce processus à du piratage, car le système ne reconnaît pas sa dette envers des travaux existants. Dans son recours, il affirme que Microsoft et ses collaborateurs ont violé les droits juridiques de millions de programmeurs qui ont passé des années à écrire le code original.

Il s’agirait de la première contestation juridique d’une technique de conception appelée « entraînement de l’IA », qui est une façon de construire l’IA et qui est sur le point de bouleverser l’industrie technologique. Ces dernières années, de nombreux artistes, écrivains, experts et défenseurs de la vie privée se sont plaints que les entreprises qui entraînent leurs systèmes d’IA le font en utilisant des données qui ne leur appartiennent pas.

Ce recours a des échos dans l’histoire de l’industrie technologique. Dans les années 1990 et 2000, Microsoft a combattu l’essor des logiciels libres (open source), les considérant comme une menace existentielle pour l’avenir de l’entreprise. Au fur et à mesure que l’importance de ces logiciels s’est accrue, Microsoft les a adoptés et a même acquis GitHub, une plateforme où des programmeurs de logiciels libres construisent et stockent leur code.

Presque toutes les nouvelles générations de technologies — même les moteurs de recherche en ligne — ont dû faire face à des défis juridiques similaires. Souvent, « il n’y a pas de loi ou de jurisprudence qui les couvre », a déclaré Bradley J. Hulbert, un avocat spécialisé dans la propriété intellectuelle qui se consacre à ce domaine de plus en plus important du droit.

La plainte s’inscrit dans le cadre d’une vague d’inquiétude concernant l’IA. Des artistes, écrivains, compositeurs et autres créateurs s’inquiètent de plus en plus du fait que des entreprises et des chercheurs utilisent leur travail pour créer de nouvelles technologies sans leur consentement et sans leur fournir de compensation. Ces entreprises entraînent ainsi une grande variété d’outils basés sur l’IA, notamment des générateurs d’art, des systèmes de reconnaissance vocale comme Siri et Alexa, et même des voitures sans conducteur.

OpenAI, à l’avant-garde

Copilot est basé sur une technologie mise au point par OpenAI, un laboratoire d’intelligence artificielle de San Francisco financé à hauteur de 1 milliard de dollars américains par Microsoft. OpenAI est à l’avant-garde des efforts de plus en plus répandus pour former des technologies d’IA à partir de données numériques.

Après la présentation de Copilot par Microsoft et GitHub, Nat Friedman, PDG de GitHub, a déclaré sur Twitter que l’utilisation du code existant pour former le système constituait une « utilisation équitable » du matériel en vertu de la loi sur le droit d’auteur, un argument souvent utilisé par les entreprises et les chercheurs qui ont construit ces systèmes. Mais aucune affaire judiciaire n’a encore testé cet argument.

« Les ambitions de Microsoft et d’OpenAI vont bien au-delà de GitHub et de Copilot, a déclaré Butterick dans une entrevue. Ils veulent s’entraîner sur n’importe quelle donnée, n’importe où, gratuitement, sans consentement, pour toujours. »

En 2020, OpenAI a dévoilé un système appelé GPT-3. Les chercheurs ont entraîné le système à l’aide d’énormes quantités de textes numériques, notamment des milliers de livres, d’articles Wikipédia, de journaux de discussion (chats) et d’autres données publiées sur l’internet.

En repérant des modèles dans tous ces textes, le système a appris à prédire le mot suivant dans une séquence. Lorsque quelqu’un tapait quelques mots dans ce « grand modèle de langage », celui-ci pouvait compléter la pensée avec des paragraphes entiers de texte. De cette façon, le système pouvait écrire ses propres messages Twitter, discours, poèmes et articles de presse.

À la grande surprise des chercheurs qui ont construit le système, celui-ci pouvait même écrire des programmes informatiques, ayant apparemment appris d’un nombre incalculable de programmes publiés sur l’internet.

OpenAI est donc allé plus loin en entraînant un nouveau système, Codex, sur une nouvelle collection de données contenant spécifiquement du code. Selon le laboratoire, dans un document de recherche détaillant la technologie, une partie au moins de ce code provenait de GitHub, un service de programmation populaire détenu et exploité par Microsoft.

Ce nouveau système est devenu la technologie sous-jacente de Copilot, que Microsoft a distribué aux programmeurs par l’intermédiaire de GitHub. Après avoir été testé par un nombre relativement restreint de programmeurs pendant environ un an, Copilot a été mis à la disposition de tous les codeurs sur GitHub en juillet.

Butterick se définit comme un programmeur de logiciels libres, faisant partie de la communauté des programmeurs qui partagent ouvertement leur code avec le monde. Au cours des 30 dernières années, les logiciels libres ont contribué à l’essor de la plupart des technologies que les consommateurs utilisent chaque jour, notamment les navigateurs web, les téléphones intelligents et les applications mobiles.

Bien que les logiciels libres soient conçus pour être partagés librement entre les codeurs et les entreprises, ce partage est régi par des licences conçues pour garantir qu’ils sont utilisés de manière à profiter à l’ensemble de la communauté des programmeurs. Butterick estime que Copilot a violé ces licences et que, au fur et à mesure de ses améliorations, il rendra obsolètes les codeurs de logiciels libres.

Début du processus judiciaire

Après s’être publiquement plaint de ce problème pendant des mois, il a déposé son dossier avec une poignée d’autres avocats. La plainte n’en est qu’à ses débuts et le tribunal n’a pas encore accordé le statut d’action collective.

À la surprise de nombreux experts juridiques, la plainte de Butterick n’accuse pas Microsoft, GitHub et OpenAI de violation du droit d’auteur. Elle adopte une approche différente, arguant que les entreprises ont violé les conditions de service et les politiques de confidentialité de GitHub, tout en enfreignant une loi fédérale qui oblige les entreprises à afficher les informations relatives aux droits d’auteur lorsqu’elles utilisent du matériel.

Butterick et un autre avocat à l’origine du dossier, Joe Saveri, ont déclaré que le procès pourrait éventuellement aborder la question du droit d’auteur.

Interrogé sur la possibilité pour l’entreprise de discuter de l’action en justice, un porte-parole de GitHub a refusé de faire des commentaires, avant de déclarer par courriel que l’entreprise s’est « engagée à innover de manière responsable avec Copilot depuis le début, et continuera à faire évoluer le produit pour mieux servir les développeurs du monde entier ». Microsoft et OpenAI ont refusé de commenter l’action en justice.

Cet article a été initialement publié dans le New York Times.

Lisez la version originale de ce texte (en anglais)