Jeudi dernier, le réseau social Reddit annonçait son entrée prochaine en Bourse. Comme par hasard, l’entreprise a aussi choisi cette journée pour rendre public le fait qu’elle permettait maintenant à Google d’utiliser ses données pour entraîner des modèles d’intelligence artificielle en échange de 60 millions de dollars par année.

Une telle transaction semble peut-être anodine dans un secteur où les valorisations se chiffrent en milliers de milliards, mais il y a fort à parier qu’elle marque le début d’une nouvelle ère. Décortiquons cette opération et l’importance qu’elle revêt, en faisant d’abord un bref détour par la Grèce antique.

Sans rien enlever au sprint de Ben Johnson aux Jeux olympiques de 1988, la légendaire course de Philippidès entre Marathon et Athènes, en 490 av. J. -C., est peut-être la plus célèbre de l’histoire de l’humanité. On se rappellera qu’une fois arrivé à destination, le messager a annoncé le triomphe des Grecs contre les Perses en évoquant ses souliers préférés (Nike est la divinité grecque de la victoire) avant de s’effondrer et mourir. Nous le célébrons depuis ce temps de Boston à Londres en portant des shorts courts et des bouteilles d’eau accrochées à nos sacs bananes sur une distance de 42 km.

Cette épreuve, bien qu’elle eût inspiré des millions de coureurs, n’a eu qu’une fraction de l’influence qu’aura la course incontournable de notre époque. Cette dernière n’a pas pour protagonistes des athlètes surentraînés ou même des bolides arborant des logos de provenance allemande ou japonaise. Non, il s’agit plutôt d’une course aux données propriétaires qui déterminera probablement qui façonnera l’avenir de la technologie. Rien de moins.

Malgré l’importance de l’enjeu, la situation actuelle suit quand même un schéma classique : OpenAI a mis au monde ChatGPT et plusieurs se sont rapidement lancés à ses trousses à coups de milliards. Il appert maintenant que la technologie est assez réplicable et après un peu plus d’un an, d’autres produits donnent déjà des résultats semblables.

En effet, l’internet étant la principale source de contenu pour renseigner les modèles, tout le monde peut y avoir accès pour entraîner son IA sans trop de restrictions. Les grandes entreprises technologiques peuvent donc créer une poignée de produits qui fourniront des réponses assez similaires d’ici un an ou deux, ce qui signifie qu’elles devront surtout se faire compétition sur le prix, parce que la différence de qualité sera imperceptible.

Or, plusieurs entreprises avec des données propriétaires de grande qualité, dont Reddit, ont choisi d’en limiter l’accès, les rendant inaccessibles pour l’IA, sauf moyennant un partenariat payant.

Ce contenu exclusif donnera à certains produits un éventail de « connaissances » que les autres n’auront pas. Il s’agit d’un différentiateur majeur – peut-être le seul à moyen terme – dans cette industrie qui accapare des sommes faramineuses en ce moment.

La chasse au contenu est donc ouverte et une fois que tout le monde aura choisi son camp, un leader pérenne devrait émerger dans le secteur.

Après ce tour d’horizon, on comprend bien que Google vient de réaliser un excellent coup avec Reddit en sécurisant l’accès à une source de données d’une grande valeur. Certaines entreprises avaient déjà annoncé des ententes similaires, comme Axel Springer, propriétaire de Business Insider, et Politico, qui permettra à OpenAI d’utiliser ses articles. Or, avec Reddit et son système d’upvoting ou d’approbation par la communauté d’utilisateurs, Google en rajoute une couche, puisque le réseau social compte un assez grand nombre d’utilisateurs très engagés qui ont à cœur la qualité du contenu qui y circule. Google pourra donc utiliser des données prévalidées par une communauté forte pour alimenter ses modèles, ce qui lui confère un avantage de taille.

Cela dit, la société de Mountain View possède aussi YouTube, qui devrait être le grand champion en matière de contenu propriétaire. Selon des données datant de 2022, 720 000  heures de contenu y sont mises en ligne chaque jour. Imaginez l’entraînement d’un modèle qui apprend en consultant quotidiennement l’équivalent de 82  ans de nouvelles vidéos originales auxquelles personne d’autre ne peut se brancher. Ajoutez à cela tous les vidéoclips de Taylor Swift et des B. B. (et d’autres vidéos moins importantes) mis en ligne depuis sa fondation il y a 19 ans. Ce modèle sera probablement assez habile pour répondre à vos questions sur les recettes d’œufs bénédictine, en plus de pouvoir identifier les tenues vestimentaires de Patrick Bourgeois et sa bande jusqu’au début des années 1990. Pas besoin d’aller plus loin pour comprendre qu’il faudra bien surveiller Google dans cette course.

Pour conclure, il est désormais évident que les répertoires de données des entreprises possèdent une double valeur : intrinsèquement pour elles-mêmes et comme actifs négociables sur le marché. En fait, on peut même penser que le prix est maintenant établi pour certains types de données structurées. C’est à suivre au cours des prochains mois, mais attendons-nous à voir quelques annonces dans ce secteur.

Soumettez votre lettre