Vos milliers de photos stockées sur Google ou Amazon. Vos goûts sur Spotify ou Netflix. Les ordres que vous donnez à Siri ou Alexa. Même les damnés « captchas » que vous avez de la difficulté à décoder. Sans nécessairement le savoir, l’utilisateur fait tous les jours des gestes qui représentent une mine d’or pour les géants technos, leur permettant d’accumuler de précieuses données pour entraîner leurs systèmes d’intelligence artificielle (IA).

« Presque tout ce qu’on fait sur l’internet est enregistré », précise d’emblée Laurent Charlin, membre principal de l’Institut québécois d’intelligence artificielle Mila et professeur agrégé à HEC Montréal. « Éventuellement, il y a une chance sans doute de plus en plus grande, de mois en mois ou d’année en année, que cette information-là soit utilisée d’une façon ou d’une autre quelque part pour entraîner un système automatique. »

PHOTO MARCO CAMPANOZZI, ARCHIVES LA PRESSE Laurent Charlin, membre principal de l’Institut québécois d’intelligence artificielle Mila et professeur agrégé à HEC Montréal

Efficace parce que populaire

Le moteur de recherche de Google est en soi une belle illustration de ce qui donne de la valeur à cette participation des utilisateurs. Sans elle, Google n’aurait jamais pu se distinguer des moteurs de recherche précédents qui se contentaient essentiellement d’archiver et de répertorier les sites par mots-clés. C’est le concept de PageRank, basé sur la popularité des pages web et présenté par les fondateurs de Google, Sergey Brin et Larry Page, en 1998, qui a marqué l’envol de ce moteur de recherche qui détient aujourd’hui 83,5 % du marché, selon Statista.

Autrement dit, plus les internautes utilisent Google, et plus son moteur de recherche est pertinent.

« Fondamentalement, avoir du temps d’un humain, ç’a beaucoup de valeur, explique M. Charlin. L’intelligence artificielle est entraînée avec des données souvent étiquetées, donc plus j’ai d’étiquettes, plus j’ai de jeux de données qui vont me permettre de l’améliorer. »

La magie des recommandations à l’œuvre dans la plupart des sites populaires, de Facebook à YouTube en passant par Amazon, repose également sur l’analyse du comportement des utilisateurs. « C’est quand même assez long, entraîner une machine, ce sont des millions et des millions d’énoncés de données », explique Jonas Colin, chercheur et doctorant en informatique cognitive à l’Université du Québec à Montréal (UQAM).

Tu vas par exemple sur YouTube, tu sélectionnes différentes vidéos, tout est gardé en arrière-scène dans la mémoire de la machine. Si tu regardes des vidéos d’automobile, la prochaine fois que tu iras sur YouTube, on va te proposer des vidéos d’automobile. […] La machine connaît beaucoup mieux ses utilisateurs et elle est en mesure de beaucoup mieux réagir à leurs préférences. Jonas Colin, chercheur et doctorant en informatique cognitive à l’Université du Québec à Montréal (UQAM).

Matériau à raffiner

Tout se passe sur le web comme si les plateformes technologiques disposaient en permanence, et gratuitement, de groupes de discussion et de sondages sur leurs utilisateurs. Ce qui est un avantage pour ces entreprises, bien entendu, mais profite également aux internautes, affirme Louis-François Bouchard, vulgarisateur scientifique en intelligence artificielle et cofondateur de Towards IA, une plateforme d’éducation.

PHOTO MARTIN TREMBLAY, ARCHIVES LA PRESSE Louis-François Bouchard, vulgarisateur scientifique en intelligence artificielle

« Dès qu’on utilise Google ou Apple, dès qu’on utilise un système, on l’aide à s’améliorer. Ce qui est bon pour nous aussi : ça fait que ce qu’on utilise devient meilleur. »

Il ne faudrait toutefois pas croire que ces données brutes sont suffisantes, précise-t-il. « C’est sûr que c’est cool pour eux d’avoir énormément de données, d’avoir accès à tout ça, sauf que c’est aussi un peu un poison. […] Il y a ensuite beaucoup de travail, de traitement, beaucoup d’ingénierie. C’est clair qu’on les aide, mais il ne faut pas non plus dire qu’on fait tout pour eux. »

L’exemple de ChatGPT l’illustre bien : le contenu sur lequel l’intelligence artificielle générative a été bâtie, les milliards de pages de textes sur le web, était accessible à tous. « Il y a ce premier entraînement qui donne tellement de données, je dirais que c’est la première étape de comprendre un peu le monde, puis d’avoir des connaissances plus affinées, résume M. Bouchard. C’est comme aller d’abord à l’école primaire, puis d’aller dans une technique plus spécifique au cégep ou à l’université. »