Par un mardi pluvieux à San Francisco, les dirigeants d’Apple sont montés sur scène dans un auditorium bondé pour dévoiler la cinquième génération de l’iPhone. Le téléphone, dont l’apparence était identique à celle de la version précédente, était doté d’une nouvelle fonctionnalité dont le public n’a pas tardé à parler : Siri, un assistant virtuel.

Scott Forstall, alors responsable des logiciels chez Apple, a appuyé sur un bouton de l’iPhone pour appeler Siri et lui poser des questions. À sa demande, Siri a vérifié l’heure à Paris (« 20 h 16 », a répondu Siri), a défini le mot « mitose » (« division cellulaire dans laquelle le noyau se divise en noyaux contenant le même nombre de chromosomes ») et a dressé une liste de 14 restaurants grecs très bien notés, dont cinq à Palo Alto, en Californie.

« Cela fait longtemps que je travaille dans le domaine de l’intelligence artificielle et je suis toujours aussi stupéfait », a déclaré M. Forstall.

C’était il y a 12 ans. Depuis, les gens sont loin d’être époustouflés par Siri et les assistants concurrents dotés d’une intelligence artificielle (IA), comme Alexa d’Amazon et l’Assistant Google. La technologie est restée largement stagnante, et les assistants parlants sont devenus la cible de plaisanteries, notamment dans un sketch de Saturday Night Live de 2018 mettant en scène un haut-parleur intelligent pour personnes âgées.

Amélioration rapide

Le monde de la technologie s’enthousiasme désormais pour un autre type d’assistants virtuels : les robots conversationnels. Ces robots dotés d’IA, tels que ChatGPT et le nouveau ChatGPT Plus de la société OpenAI de San Francisco, peuvent improviser promptement des réponses à des questions tapées dans une boîte de dialogue. Des personnes ont utilisé ChatGPT pour effectuer des tâches complexes comme le codage de logiciels, la rédaction de propositions commerciales et l’écriture de romans.

ChatGPT, qui utilise l’IA pour deviner le mot suivant, s’améliore rapidement. Il y a quelques mois, il n’était pas capable d’écrire un haïku correct ; aujourd’hui, il peut le faire avec brio. Mardi, OpenAI a dévoilé son moteur d’IA de nouvelle génération, GPT-4, qui alimente ChatGPT.

L’engouement pour les robots conversationnels illustre la manière dont Siri, Alexa et d’autres assistants vocaux – qui suscitaient naguère le même enthousiasme – ont perdu leur avance dans la course à l’IA.

Au cours de la dernière décennie, ces produits se sont heurtés à des obstacles. Siri a fait face à des limites technologiques, notamment un code encombrant dont la mise à jour avec des fonctionnalités de base prenait des semaines, a déclaré John Burkey, un ancien ingénieur d’Apple qui a travaillé sur l’assistant. Amazon et Google ont mal calculé la manière dont les assistants vocaux seraient utilisés, ce qui les a conduits à investir dans des domaines technologiques rarement rentables, selon d’anciens employés. Lorsque ces expériences ont échoué, l’enthousiasme pour cette technologie s’est émoussé au sein des entreprises, ont-ils déclaré.

Les assistants vocaux sont « stupides comme une pierre », a déclaré Satya Nadella, directeur général de Microsoft, dans une interview accordée ce mois-ci au Financial Times, affirmant que l’IA récente ouvrirait la voie. Microsoft a travaillé en étroite collaboration avec OpenAI, investissant 13 milliards US dans la jeune pousse et incorporant sa technologie dans le moteur de recherche Bing, ainsi que dans d’autres produits.

Compléter ou contrôler ?

Apple a refusé de commenter la situation de Siri. Google a déclaré qu’il s’engageait à fournir un excellent assistant virtuel pour aider les gens sur leur téléphone et dans leur maison ou leur voiture ; l’entreprise teste par ailleurs un robot conversationnel appelé Bard. Amazon a déclaré avoir constaté une augmentation de 30 % de l’engagement des clients au niveau mondial avec Alexa au cours de l’année écoulée et s’est dit optimiste quant à sa mission de construire une IA de classe mondiale.

Les assistants et les robots conversationnels sont basés sur différentes formes d’IA. Les robots conversationnels sont alimentés par ce que l’on appelle de grands modèles de langage, qui sont des systèmes formés pour reconnaître et générer du texte à partir d’énormes ensembles de données extraites du web. Ils peuvent ensuite suggérer des mots pour compléter une phrase.

En revanche, Siri, Alexa et l’Assistant Google sont essentiellement ce que l’on appelle des systèmes de commande et de contrôle. Ils peuvent comprendre une liste limitée de questions et de requêtes telles que « Quel temps fait-il à New York ? » ou « Allume la lumière de la chambre à coucher ». Si un utilisateur demande à l’assistant virtuel de faire quelque chose qui n’est pas dans son code, le robot répond simplement qu’il ne peut pas l’aider.

Siri était également conçu d’une façon qui rendait l’ajout de nouvelles fonctionnalités fastidieux, a déclaré M. Burkey, qui s’est vu confier la tâche d’améliorer l’assistant virtuel en 2014. La base de données de Siri contient une liste gigantesque de mots, y compris des noms d’artistes musicaux et de lieux tels que des restaurants, dans près de deux douzaines de langues.

Cela en faisait « une grosse boule de neige », a-t-il déclaré. Si quelqu’un souhaite ajouter un mot à la base de données de Siri, « il se retrouve dans une grosse pile », a-t-il ajouté.

Ainsi, des mises à jour apparemment simples, comme l’ajout de nouvelles phrases à l’ensemble, nécessiteraient de reconstruire l’intégralité de la base de données, ce qui pourrait prendre jusqu’à six semaines, a expliqué M. Burkey. L’ajout de fonctionnalités plus complexes, comme de nouveaux outils de recherche, pourrait prendre près d’un an. Cela signifie que Siri n’a pas la possibilité de devenir un assistant créatif comme ChatGPT.

Peu payants

Alexa et l’Assistant Google reposent sur une technologie semblable à celle de Siri, mais les entreprises ont eu du mal à générer des revenus conséquents avec les assistants, ont déclaré d’anciens responsables d’Amazon et de Google. (En revanche, Apple a utilisé Siri avec succès pour attirer les acheteurs vers ses iPhone.)

Lorsqu'Amazon a lancé l’Echo, un haut-parleur intelligent alimenté par Alexa, en 2014, l’entreprise espérait que le produit l’aiderait à augmenter les ventes de sa boutique en ligne en permettant aux consommateurs de parler à Alexa pour passer des commandes, a déclaré un ancien dirigeant d’Amazon. Mais si les gens se sont amusés à jouer avec la capacité d’Alexa à répondre à des questions sur la météo et à régler des alarmes, peu lui ont demandé de commander des articles, a-t-il ajouté.

Amazon a peut-être surinvesti dans la fabrication de nouveaux produits comme les réveils et les fours à micro-ondes, aujourd’hui abandonnés, qui fonctionnaient avec Alexa et se vendaient à prix coûtant ou en dessous du prix de revient, a déclaré l’ancien dirigeant.

Amazon n’a pas non plus suffisamment investi dans la création d’un écosystème permettant aux utilisateurs d’étendre facilement les capacités d’Alexa, à l’instar de ce qu’Apple avait fait avec son App Store, qui avait contribué à stimuler l’intérêt pour l’iPhone, a déclaré John Burkey.

Alors qu’Amazon proposait une boutique de « compétences » permettant à Alexa de contrôler des accessoires tiers tels que des interrupteurs, il était difficile pour les utilisateurs de trouver et de configurer des compétences pour les haut-parleurs – contrairement à l’expérience sans friction du téléchargement d’applications mobiles à partir des boutiques d’applications.

Les échecs d’Amazon avec Alexa ont peut-être égaré Google, a déclaré un ancien responsable qui a travaillé sur l’Assistant Google. Les ingénieurs de Google ont passé des années à expérimenter avec leur assistant pour imiter ce qu’Alexa pouvait faire, notamment en concevant des haut-parleurs intelligents et des écrans de tablettes à commande vocale pour contrôler des accessoires domestiques tels que des thermostats et des interrupteurs. L’entreprise a ensuite intégré des publicités dans ces produits domestiques, qui ne sont pas devenus une source majeure de revenus.

Convergence en vue

La plupart des grandes entreprises technologiques s’efforcent maintenant de trouver des réponses à ChatGPT. Le mois dernier, le siège d’Apple a organisé son sommet annuel sur l’IA, un évènement interne permettant aux employés de se familiariser avec son grand modèle de langage et d’autres outils d’IA, ont déclaré deux personnes qui ont été informées du programme. De nombreux ingénieurs, y compris des membres de l’équipe Siri, ont testé chaque semaine des concepts générateurs de langage, ont indiqué ces personnes.

Mardi, Google a également déclaré qu’il publierait bientôt des outils d’IA générative pour aider les entreprises, les gouvernements et les développeurs de logiciels à créer des applications avec des robots conversationnels intégrés et à incorporer la technologie sous-jacente dans leurs systèmes.

À l’avenir, les technologies des robots conversationnels et des assistants vocaux convergeront, selon les experts en IA. Cela signifie que les gens pourront contrôler les robots conversationnels par la parole, et que ceux qui utilisent les produits d’Apple, d’Amazon et de Google pourront demander aux assistants virtuels de les aider dans leur travail, et pas seulement dans des tâches telles que la consultation de la météo.

« Ces produits n’ont jamais fonctionné dans le passé parce que nous ne disposions pas de capacités de dialogue de niveau humain », a déclaré Aravind Srinivas, fondateur de Perplexity, une jeune pousse spécialisée dans l’IA qui propose un moteur de recherche alimenté par un robot conversationnel. « Aujourd’hui, c’est le cas. »

Cet article a été initialement publié dans le New York Times.

Lisez l’article original (en anglais, offert par abonnement payant)