Techno

Google : histoire d'araignées

Photo: Photothèque Le Soleil

«Je demeure stupéfait, chaque fois que je fais des recherches sur Google, par le temps réponse quasi nul. Même pour une phrase complète, le temps qu'il faut pour trouver la source se compte en fractions de seconde. Je me doute bien que les algorithmes de recherche sont secrets [mais pourriez-vous] en expliquer au moins les principes de fonctionnement?» écrit Pierre Drolet, de Neuville.

Mis à jour le 11 avr. 2009

Jean-François Cliche LE SOLEIL

D'après quelques essais de googling que nous avons menés cette semaine, le délai de réponse se compte plus en dixièmes de seconde. Ce qui, quand on songe à l'étendue du Web, est en effet parfaitement ahurissant, comme le note M. Drolet.Les compagnies comme Google ont la réputation de garder jalousement leurs secrets technologiques, mais les principes généraux sur lesquels sont basés les moteurs de recherche, eux, ne sont pas «classifiés». Cela prend évidemment, au départ, un certain nombre d'ordinateurs - «des grappes de milliers d'ordinateurs» dans le cas de moteurs comme Google, précise Robert Bergevin, directeur du programme de génie informatique de l'Université Laval. Mais pas question de divulguer le nombre exact de machines, nous a fait savoir un porte-parole de Google, «pour des raisons de compétitivité».

Quoi qu'il en soit, sur ces nombreux ordis roule un type de logiciel nommé spiders, ou araignées, qui se promènent de page en page pour faire l'index de chacune. Dans son blogue officiel, Google explique que «nous commençons par un certain nombre de pages Web bien connectées, et nous suivons tous les liens qui se trouvent sur ces pages. Puis, nous suivons les liens qui se trouvent sur ces nouvelles pages, et ainsi de suite, jusqu'à ce que nous ayons une énorme liste de liens».

Le terme énorme (huge en anglais) constitue ici un euphémisme à la limite de la décence, car dans ce même texte, daté de juillet dernier, Google annonçait que son index comprenait un billion de «sources» (URL) différentes - pas un million, pas un milliard; un billion, soit 1 000 000 000 000, ou mille milliards. Il peut y avoir plus d'une source par page Web, mais quand même...

Tous les mots que les araignées indexent sont stockés dans une banque de données monstrueuse - ah! voilà le bon mot! - régulièrement mise à jour. Une fois l'index sauvegardé dans une banque de données, les recherches deviennent plus faciles et plus rapides.

Ainsi, quand on fait une recherche Google ou grâce à un autre moteur de recherche, ce n'est pas la Toile elle-même que le moteur consulte, mais bien une banque de données à propos d'Internet. Les résultats correspondent donc au contenu de la dernière mise à jour, et non à ce qui se trouve sur le Web à l'instant même de la recherche.

Mais le plus grand tour de force, fait remarquer M. Bergevin, n'est pas tant de trouver rapidement des pages contenant certains mots-clés, mais plutôt de «mettre les résultats en ordre pour faire sortir en premier les plus importants, pour ne pas qu'on ait à trier nous-mêmes des milliers de pages qui contiennent nos mots-clés. Le défi, c'est toujours ça, de s'arranger pour que les premiers résultats qui apparaissent soient les plus pertinents» - enfin, à moins qu'une entreprise ne paie Google pour placer son site au haut de la liste, mais c'est une autre histoire.

On a tendance à l'oublier, mais c'était effectivement là un problème des moteurs de recherche lorsque Internet s'est popularisé de manière exponentielle, dans les années 90. Dans sa chronologie d'entreprise, Google élève d'ailleurs au rang de «point tournant» (milestone) un article de PC Magazine de 1998 où la célèbre revue louangeait le moteur pour sa «troublante aptitude à présenter des résultats extrêmement pertinents».

«Alors, ce qu'ils font, dit M. Bergevin, c'est qu'ils donnent de l'importance à un site en fonction du nombre de personnes qui mettent un lien vers ce site-là dans leur propre page.» De sorte que plus il y a de liens vers une page, plus elle apparaît tôt dans les résultats.

Autres sources :

- «We Knew the Web Was Big», The Official Google Blog, Google, 2008.

- «Web - Moteur de recherche», Comment ça marche ?, 2008

Techno En continu

Techno

Apple présente des excuses après la controverse sur sa pub pour l’iPad Pro

(San Francisco) Apple a présenté des excuses jeudi après que la publicité pour son nouvel iPad Pro, qui montre toutes sortes d’objets représentant la créativité humaine écrasés et remplacés par la tablette, a suscité la colère de nombreux artistes remontés contre l’intelligence artificielle (IA).

Publié hier à 20h05
Techno

Disney et Warner Bros Discovery s’allient pour lancer une offre commune de streaming

(New York) Disney et Warner Bros Discovery vont lancer une offre de streaming commune, qui réunira les plateformes Disney+, Hulu et Max, un nouveau signe d’une tendance à la consolidation dans l’univers ultraconcurrentiel de la vidéo à la demande.

Publié le 8 mai
Techno

Vie numérique Clins d’œil

Quelques bits de l’actualité numérique

Mis à jour le 8 mai
Techno

Polar Grit X Pro 2 Sportive de haut niveau

Avec ses cartes téléchargeables, sa batterie de capteurs, sa précision imbattable et son autonomie d’une douzaine de jours, la Polar Grit X Pro 2 est une montre intelligente de haut calibre d’abord dédiée au sport. Ce qui ne l’empêche pas d’être un agréable compagnon au quotidien, même si son interface nous semble encore mystérieuse. Et son prix est lourd.

Publié le 8 mai
Techno

Le Royaume-Uni veut s’attaquer aux algorithmes pour protéger les enfants

(Londres) Les autorités britanniques ont sommé mercredi les réseaux sociaux de modifier leurs algorithmes pour empêcher les enfants d’être exposés à des contenus nocifs et de mieux contrôler l’âge de leurs utilisateurs, faute de quoi ils s’exposeront à des amendes.

Publié le 8 mai
Techno

Entrevue avec M^eClément Camion, de la firme En Clair « Les interfaces trompeuses ne sont pas une fatalité »

Chronomètre pour bousculer l’acheteur, menus inutilement complexes pour vous déboussoler, abonnements obtenus sans réel consentement : le web regorge de ce qu’on appelle des « interfaces trompeuses », dark patterns en anglais. Des experts comme M^eClément Camion, de la firme En Clair, les débusquent. Entrevue.

Mis à jour le 8 mai
Techno

Menace de bannir l’application TikTok porte plainte contre les États-Unis

(San Francisco) TikTok et sa société mère chinoise ByteDance ont porté plainte mardi contre les États-Unis, estimant que la loi qui pose un ultimatum à la populaire plateforme de vidéos, et risque de la bannir du pays l’année prochaine, est « inconstitutionnelle ».

Publié le 7 mai
Techno

Menace de bannir l’application TikTok porte plainte contre les États-Unis

(San Francisco) TikTok et sa maison mère chinoise ByteDance ont porté plainte mardi contre les États-Unis, estimant que la loi qui pose un ultimatum à la populaire plateforme de vidéos, et risque de la bannir du pays l’année prochaine, est « inconstitutionnelle ».

Publié le 7 mai
Techno

Jeu vidéo Nintendo promet une annonce sur le successeur de la Switch d’ici fin mars 2025

(Tokyo) Le japonais Nintendo a annoncé mardi que des informations sur le très attendu successeur de sa console Switch, âgée de plus de sept ans, seront communiquées d’ici fin mars 2025, tout en livrant de nouvelles prévisions financières extrêmement prudentes.

Publié le 7 mai
Techno

Sony forcé de faire machine arrière face à la révolte des joueurs de Helldivers 2

(Paris) En voulant imposer aux joueurs PC de « Helldivers 2 », un jeu de tir coopératif très populaire, de s’inscrire sur son service en ligne Playstation Network, le géant du jeu vidéo Sony a provoqué une fronde qui l’a poussé à revenir sur sa décision.

Publié le 6 mai
Techno

États-Unis Des démocrates critiquent la politique publicitaire de Meta

(Atlanta) Plusieurs démocrates ont envoyé une lettre à la société mère de Facebook, lui demandant de cesser d’autoriser les publicités prétendant que l’élection présidentielle de 2020 a été volée.

Publié le 3 mai
Techno

Vie numérique Clins d’œil

Quelques bits de l’actualité numérique

Mis à jour le 1^er mai
Techno

Robots tueurs Le « moment Oppenheimer » de l’intelligence artificielle

Si les gouvernements souhaitent contrôler l’émergence d’une nouvelle génération de machines de mort dotées d’intelligence artificielle (IA), il est minuit moins une. C’est l’avertissement qui leur a été lancé lundi.

Mis à jour le 1^er mai
Techno

Vie numérique Le grand ménage techno du printemps

Il n’y a pas que le garage ou la cour qui ont besoin d’un bon ménage du printemps. Vos appareils, particulièrement les ordinateurs, les téléphones et plus globalement votre réseau internet, méritent de temps en temps quelques soins pour retrouver leur rapidité. Voici neuf conseils, trois pour chaque département, récoltés auprès de connaisseurs.

Mis à jour le 1^er mai
Techno

Beats Solo 4 Le compromis chirurgical de D^rDre

Le casque d’écoute Beats Solo 4 a de quoi rendre perplexes les critiques. Totalement intégré à l’écosystème Apple, il est remarquable par sa portabilité, son autonomie de 50 heures et la précision du son. Mais cette précision confine à la sécheresse, il n’est pas recommandé dans des environnements bruyants et sa configuration est minimale.

Publié le 30 avril
Techno

Sonicare DiamondClean Smart 9350 Un mentor pour les dents

Sans être aussi bardée de fonctions que ses rivales haut de gamme d’Oral-B, la brosse à dents électriques Sonicare DiamondClean Smart 9350 a quelques atouts bien à elle : un brossage guidé, des avertissements clairs pour les étapes et, coquetterie, un socle-chargeur en forme de verre.

Publié le 29 avril