Pour apprendre à « parler », les logiciels d’intelligence artificielle (IA) comme ChatGPT ont besoin de milliers de milliards de mots, l’équivalent de 100 000 ans d’expérience humaine. Or, les bébés apprennent à parler à 1 ou 2 ans. Des chercheurs commencent à comprendre pourquoi.

« Les bébés ont beaucoup de repères visuels pour comprendre le langage », explique Brenden Lake, psychologue à l’Université de New York qui vient de publier une étude sur le sujet dans la revue Nature. « Ils comprennent les différentes catégories d’objets et d’actions avant de pouvoir parler. Ça accélère le développement du langage. »

PHOTO FOURNIE PAR BRENDEN LAKE

L’enfant qui a pris les vidéos analysées par Brenden Lake

M. Lake travaille sur un logiciel d’IA générative qui créerait des textes, en apprenant comme les bébés. Pour y arriver, son algorithme analyse des vidéos recueillies par de jeunes enfants qui portent un casque muni d’une caméra. Celle-ci filme et enregistre plusieurs heures d’images par jour.

Quelles seront les applications potentielles, mis à part un logiciel d’IA créative plus facile à entraîner ? « On peut penser à des aides pour les enfants ayant des difficultés de langage, dit M. Lake. Ou alors à de l’IA créative pour des langues minoritaires, moins bien desservies aujourd’hui. On pourrait aussi plus facilement documenter les langues en danger de disparition, et même créer des grammaires pour en faciliter l’apprentissage. »

M. Lake estime que ces avancées pourraient survenir d’ici moins de 10 ans.

PHOTO FOURNIE PAR LINDA SMITH

Linda Smith avec l’un des petits sujets de son étude

Apprendre avec les yeux

Ce domaine d’études est né avec Linda Smith, psychologue à l’Université de l’Indiana, qui a été la première à postuler, il y a 20 ans, que les bébés apprennent à parler avec leurs yeux tout autant qu’avec leurs oreilles.

« Nous savons depuis longtemps que les bébés n’apprennent pas à parler simplement avec leur ouïe, en entendant des mots à répétition, dit Mme Smith. Les mots qu’ils entendent de leurs parents sont tout simplement trop peu nombreux. Il y a eu beaucoup de théoriciens du langage, comme Noam Chomsky, qui ont réfléchi à la question. J’ai décidé de mesurer concrètement les stimuli visuels et auditifs auxquels sont exposés les bébés. »

Mme Smith estime que les bébés apprennent qu’il existe des « catégories » d’objets en même temps que le langage. « Quand la capacité à parler explose, les catégories sont déjà bien formées. Le bébé sait par exemple de quoi a l’air une pizza bien avant de dire le mot. »

Mme Smith estime que l’algorithme d’apprentissage du langage élaboré par M. Lake est un premier pas. « Mais ça demeure statistique, et surtout, il n’inclut pas un paramètre crucial : les actions que fait le bébé pour aller chercher d’autres stimuli, en se déplaçant ou en bougeant ses yeux. » Elle a exprimé ces bémols dans un commentaire qui accompagnait l’étude de M. Lake dans Nature.

L’une des vidéos de Mme Smith illustre bien son propos. Un bébé de 4 mois est couché sous une arche avec des jouets suspendus, mais sa tête est tournée vers le haut de l’arche, vers le visage de sa mère, donc on ne voit pas les jouets qui bougent, vraisemblablement parce que le bébé les tape avec ses petites menottes.

PHOTO FOURNIE PAR LINDA SMITH

Linda Smith avec l’un des petits sujets de son étude

Mouvements des yeux

La technologie actuelle limite les observations des chercheurs. « Les bébés peuvent bouger les yeux sans bouger la tête, donc regarder des objets sans que la caméra s’en rende compte, dit Mme Smith. C’est particulièrement un problème à l’extérieur. »

Une autre dimension qui complique l’analyse des vidéos est le développement de la sensibilité de la vue. « La capacité à voir des contrastes faibles augmente avec l’âge, dit Mme Smith. Je suis sur le point de publier une première analyse de ce problème. »

Les vidéos qu’a utilisées M. Lake, enregistrées par un autre chercheur – Michael Frank, de l’Université Stanford –, suivaient un bébé de 6 mois à 2 ans. « Avant 6 mois, la tête du bébé n’est pas assez forte pour soutenir le poids du casque et de la caméra. »

  • Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

    PHOTO FOURNIE PAR LINDA SMITH

    Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

  • Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

    PHOTO FOURNIE PAR LINDA SMITH

    Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

  • Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

    PHOTO FOURNIE PAR LINDA SMITH

    Les caméras légères utilisées par Linda Smith peuvent être portées dès l’âge de 2 mois.

  • Certaines des images extraites des vidéos de Linda Smith

    PHOTO FOURNIE PAR LINDA SMITH

    Certaines des images extraites des vidéos de Linda Smith

1/4
  •  
  •  
  •  
  •  

Mme Smith, elle, utilise une caméra plus légère qui peut être attachée à un bonnet, ce qui explique pourquoi elle a des images dès l’âge de 2 mois.

« On a un compromis à faire entre la résolution et la durée des piles de la caméra, et son poids », dit M. Frank, dont le projet BabyView a été lancé il y a une dizaine d’années. « Nous avons utilisé une GoPro, ce qui facilite les interactions avec les parents participants. C’est sûr que les avancées technologiques des caméras vont améliorer la collecte de données dans les années qui viennent. »

PHOTO FOURNIE PAR BRENDEN LAKE

La fille de Brenden Lake a aussi participé à l’étude de Michael Frank.

La fille de M. Lake a d’ailleurs participé à BabyView.

En savoir plus
  • 4662
    Nombre de mots qu’entend avant 5 ans un enfant américain dont les parents ne lui lisent jamais de livres. Durant la même période, il entendra 296 660 mots si ses parents lui lisent un livre par jour et 1,5 million de mots s’ils lui lisent cinq livres par jour.
    Source : Journal of Developmental and Behavioral Pediatrics