(Denver) Les bègues et les sourds-muets peinent à se faire comprendre par l’intelligence artificielle. Au dernier congrès de l’Association américaine pour l’avancement des sciences (AAAS), en février au Colorado, des chercheurs ont décrit les obstacles pour ces groupes minoritaires et pour d’autres.

« Le bégaiement est relativement rare et comprend beaucoup de variations », expliquait Shaomei Wu, une chercheuse californienne qui a fondé la firme d’équité technologique Almpower. « Mais trois millions d’Américains en souffrent. Comme d’autres troubles du langage, le bégaiement empêche beaucoup de gens de profiter des avancées technologiques de reconnaissance de la voix. Par exemple, on peut avoir des délais importants quand on appelle le 911. C’est un problème réel. »

Mme Wu était accompagnée dans la séance de l’AAAS sur l’intelligence artificielle (IA) et les troubles du langage par Abraham Glasser, un informaticien de l’Université Gallaudet à Washington qui se spécialise dans la reconnaissance par l’IA de la langue des signes, et par Hannah Rowe, une orthophoniste de l’Université de Boston qui travaille sur les troubles neurologiques de la parole. Mme Wu est bègue et M. Glasser est sourd et a donné sa présentation en langue des signes, avec une transcription orale par un interprète humain. L’Université Gallaudet accueille des étudiants sourds et malentendants.

PHOTO TIRÉE DU SITE D’ALMPOWER

Shaomei Wu, chercheuse californienne

« Le problème principal est qu’il n’y a pas assez de bases de données langagières pour entraîner l’IA en reconnaissance de la parole des bègues », explique Mme Wu.

Le bégaiement a généralement trois aspects, selon Mme Wu : la répétition de mots, l’allongement de certaines syllabes et un délai anormalement long entre deux mots.

Un seul outil de reconnaissance vocale pour bègues existe, selon Mme Wu, un projet pilote de Meta qui fait beaucoup d’erreurs.

Sinon, il y a une demi-douzaine de bases de données vocales de bégaiement, notamment de Google et d’Apple, mais on ne dépasse pas une cinquantaine d’heures d’enregistrement. Il faut des milliers d’heures pour entraîner un logiciel d’IA de reconnaissance de la voix.

Shaomei Wu, chercheuse californienne

Dysarthrie

Mme Rowe se spécialise dans la reconnaissance de la voix de patients atteints de dysarthrie. Il s’agit d’un trouble de l’élocution dû à des problèmes de puissance et de contrôle musculaire liés à des troubles neurologiques comme le parkinson, les AVC et la sclérose latérale amyotrophique.

« Ce sont des patients qui ne peuvent pas bénéficier des avantages des assistants vocaux Alexa ou Siri, alors même qu’ils ont souvent des problèmes de motricité physique qui rendraient ces technologies particulièrement utiles, dit Mme Rowe. Il y a beaucoup de variabilité entre patients, donc on n’a pas encore réussi à générer des bases de données langagières permettant d’entraîner les logiciels d’IA. »

Chez les patients présentant une dysarthrie faible, les logiciels font 10 % d’erreurs, comparativement à moins de 1 % pour les locuteurs moyens. À un stade modéré de dysarthrie, le taux d’erreur bondit à 35 % et à un stade sévère, à 80 %.

L’une des avenues envisagées est d’avoir des modèles de reconnaissance de la voix individuels. « En laboratoire, on parvient à abaisser à 5 % le taux d’erreurs pour la reconnaissance de la voix des patients avec dysarthrie sévère, dit Mme Rowe. Mais il faut des dizaines d’heures d’enregistrements associés à des retranscriptions. Il faut valider les retranscriptions avec les patients, c’est très lourd. D’autant plus que ce sont des patients qui se fatiguent plus facilement, pour qui il est difficile de parler. »

Mme Rowe travaille donc sur la caractérisation de différentes dysarthries pour diminuer le nombre d’heures d’enregistrements nécessaires pour les modèles personnalisés de reconnaissance de la voix. « Nous avons publié quelques propositions ces dernières années. »

Le parkinson, par exemple, a comme caractéristique des consonnes imprécises. Si le logiciel de reconnaissance de la parole par l’IA en tient compte, il va apprendre plus rapidement à reconnaître le discours d’un patient spécifique.

Hannah Rowe, orthophoniste de l’Université de Boston

Dans la revue Frontiers in Computer Science en 2022, Mme Rowe exposait son plan de travail : identifier les sources de diversité entre individus dans les troubles moteurs de la parole et leur impact potentiel sur la reconnaissance de la parole par l’IA. « Avec ces données, normalement nous allons accélérer l’entraînement individuel d’un logiciel par un patient », dit-elle.

PHOTO RANEEN SAWAFTA, ARCHIVES REUTERS

Une petite fille utilise le langage des signes avec sa professeure.

Surdité

Les personnes sourdes et malentendantes qui ne sont pas muettes ont aussi des problèmes avec la reconnaissance de la voix, selon M. Glasser. « S’il s’agit d’un trouble de naissance, l’intonation n’est pas la même que pour la moyenne de la population. L’IA de reconnaissance de la voix fait beaucoup d’erreurs. Cela fait en sorte que cette population utilise très peu cette technologie. »

Pour ce qui est de la reconnaissance de la langue des signes, un problème bien concret est posé par la protection de la vie privée. « Il faut voir la personne dans la vidéo d’entraînement de l’IA. Avec la voix, c’est plus anonyme. Alors les logiciels de reconnaissance de la langue des signes ne progressent pas. »

Une autre avenue explorée par M. Glasser est un avatar qui permettrait aux sourds d’avoir des conversations audio avec la lecture des lèvres. « Mais la création d’un avatar dont les lèvres bougent comme un humain qui parle n’est pas encore au point. »

Écoutez deux patients atteints de sclérose latérale amyotrophique (en anglais)
En savoir plus
  • 15 millions
    Nombre de patients souffrant de dysarthrie dans le monde
    Source : Université de Boston
    70 millions
    Nombre de bègues dans le monde
    Source : Almpower