Techno

Google : histoire d'araignées

Photo: Photothèque Le Soleil

«Je demeure stupéfait, chaque fois que je fais des recherches sur Google, par le temps réponse quasi nul. Même pour une phrase complète, le temps qu'il faut pour trouver la source se compte en fractions de seconde. Je me doute bien que les algorithmes de recherche sont secrets [mais pourriez-vous] en expliquer au moins les principes de fonctionnement?» écrit Pierre Drolet, de Neuville.

Mis à jour le 11 avr. 2009

Jean-François Cliche LE SOLEIL

D'après quelques essais de googling que nous avons menés cette semaine, le délai de réponse se compte plus en dixièmes de seconde. Ce qui, quand on songe à l'étendue du Web, est en effet parfaitement ahurissant, comme le note M. Drolet.Les compagnies comme Google ont la réputation de garder jalousement leurs secrets technologiques, mais les principes généraux sur lesquels sont basés les moteurs de recherche, eux, ne sont pas «classifiés». Cela prend évidemment, au départ, un certain nombre d'ordinateurs - «des grappes de milliers d'ordinateurs» dans le cas de moteurs comme Google, précise Robert Bergevin, directeur du programme de génie informatique de l'Université Laval. Mais pas question de divulguer le nombre exact de machines, nous a fait savoir un porte-parole de Google, «pour des raisons de compétitivité».

Quoi qu'il en soit, sur ces nombreux ordis roule un type de logiciel nommé spiders, ou araignées, qui se promènent de page en page pour faire l'index de chacune. Dans son blogue officiel, Google explique que «nous commençons par un certain nombre de pages Web bien connectées, et nous suivons tous les liens qui se trouvent sur ces pages. Puis, nous suivons les liens qui se trouvent sur ces nouvelles pages, et ainsi de suite, jusqu'à ce que nous ayons une énorme liste de liens».

Le terme énorme (huge en anglais) constitue ici un euphémisme à la limite de la décence, car dans ce même texte, daté de juillet dernier, Google annonçait que son index comprenait un billion de «sources» (URL) différentes - pas un million, pas un milliard; un billion, soit 1 000 000 000 000, ou mille milliards. Il peut y avoir plus d'une source par page Web, mais quand même...

Tous les mots que les araignées indexent sont stockés dans une banque de données monstrueuse - ah! voilà le bon mot! - régulièrement mise à jour. Une fois l'index sauvegardé dans une banque de données, les recherches deviennent plus faciles et plus rapides.

Ainsi, quand on fait une recherche Google ou grâce à un autre moteur de recherche, ce n'est pas la Toile elle-même que le moteur consulte, mais bien une banque de données à propos d'Internet. Les résultats correspondent donc au contenu de la dernière mise à jour, et non à ce qui se trouve sur le Web à l'instant même de la recherche.

Mais le plus grand tour de force, fait remarquer M. Bergevin, n'est pas tant de trouver rapidement des pages contenant certains mots-clés, mais plutôt de «mettre les résultats en ordre pour faire sortir en premier les plus importants, pour ne pas qu'on ait à trier nous-mêmes des milliers de pages qui contiennent nos mots-clés. Le défi, c'est toujours ça, de s'arranger pour que les premiers résultats qui apparaissent soient les plus pertinents» - enfin, à moins qu'une entreprise ne paie Google pour placer son site au haut de la liste, mais c'est une autre histoire.

On a tendance à l'oublier, mais c'était effectivement là un problème des moteurs de recherche lorsque Internet s'est popularisé de manière exponentielle, dans les années 90. Dans sa chronologie d'entreprise, Google élève d'ailleurs au rang de «point tournant» (milestone) un article de PC Magazine de 1998 où la célèbre revue louangeait le moteur pour sa «troublante aptitude à présenter des résultats extrêmement pertinents».

«Alors, ce qu'ils font, dit M. Bergevin, c'est qu'ils donnent de l'importance à un site en fonction du nombre de personnes qui mettent un lien vers ce site-là dans leur propre page.» De sorte que plus il y a de liens vers une page, plus elle apparaît tôt dans les résultats.

Autres sources :

- «We Knew the Web Was Big», The Official Google Blog, Google, 2008.

- «Web - Moteur de recherche», Comment ça marche ?, 2008

Techno En continu

Techno

Les États-Unis rétablissent l’accès égalitaire à internet, aboli par Trump

(Washington) L’autorité américaine des télécoms a décidé jeudi de rétablir le principe de « neutralité du net », qui garantit l’accès égalitaire à internet et que l’administration Trump avait aboli.

Publié hier à 12h56
Techno

Critique de la Kobo Libra Colour En couleur et en autonomie

Pour la première fois en près de 14 ans, Kobo lance une liseuse couleur, la Libra Colour, avec une autonomie nettement améliorée. On ne confondra pas son processeur avec celui d’un iPad, mais l’évolution est notable.

Publié hier à 8h43
Techno

Vie numérique Clins d’œil

Quelques bits de l’actualité numérique

Mis à jour le 24 avril
Techno

Union européenne TikTok Lite suspend ses récompenses accusées de susciter la dépendance

(Bruxelles) Le réseau social TikTok a annoncé mercredi qu’il suspendait « volontairement » la fonction de sa nouvelle application TikTok Lite qui récompense les utilisateurs pour le temps passé devant les écrans, accusée dans l’UE de susciter la dépendance.

Mis à jour le 24 avril
01:09

Techno

En Chine, des cours de TikTok pour mieux exporter

(Canton) Dernier jour de cours d’une session de deux semaines dédiées à TikTok : vêtues de hijabs et d’abayas par-dessus leurs shorts et débardeurs, des étudiantes chinoises se filment et s’entraînent à vendre des vêtements sur l’application mondialement connue.

Publié le 24 avril
Techno

Vie numérique Vous pouvez maintenant discuter avec Facebook

Apparemment, les gens publient moins sur Facebook et Instagram, alors Meta ajoute une nouvelle fonctionnalité : un robot d’intelligence artificielle (IA), et vous pouvez discuter avec lui.

Mis à jour le 24 avril
Techno

« Souveraineté culturelle et géants numériques » « Nous sommes des nains de jardin »

Il faudrait 32 millions d’écoutes sur Spotify pour qu’un artiste québécois récolte l’équivalent de la vente de 40 000 albums. Les plateformes numériques sont « des voitures qu’on met sur la route pour lesquelles on regarde le nombre de morts avant d’intervenir ». Et les petites nations, comme le Québec ou la Belgique, sont « des nains de jardin » devant le rouleau compresseur des Netflix, Facebook et autres Google.

Mis à jour le 24 avril
Techno

Chargeur DAO 150W GaN Un clown à prendre au sérieux

Vous n’aurez jamais vu un chargeur aussi rigolo que le DAO 150W GaN, avec ses effets lumineux hallucinogènes, ses animations et son contrôle par une appli. Mais il fait un travail très sérieux en chargeant jusqu’à quatre appareils pour un maximum total de 150 watts. Drôle de bête.

Publié le 23 avril
Techno

Cellulaire Les affirmations des libéraux sur la baisse des prix remise en doute

Alors que le gouvernement fédéral vante les mesures destinées à réduire le coût de la facture de téléphonie cellulaire des Canadiens, certains affirment qu’il existe un décalage entre ce que paient les consommateurs et le discours entourant la baisse des prix.

Publié le 22 avril
Techno

Jeux vidéo Le détenteur de Tomb Raider change de modèle pour se relancer

(Stockholm) Clap de fin pour le géant glouton des jeux vidéo suédois Embracer : fragilisé financièrement par sa frénésie d’acquisitions, le détenteur de la franchise à succès Tomb Raider va se scinder en trois morceaux pour regagner les faveurs des investisseurs.

Publié le 22 avril
Techno

Évêque agressé à Sydney X s’oppose au retrait des contenus liés à l’attaque

(Sydney) Le réseau social X, propriété du milliardaire américain Elon Musk, a contesté samedi l’ordre donné par le régulateur australien eSafety de retirer de la plateforme tous les contenus liés à l’agression d’un évêque dans la banlieue de Sydney.

Publié le 20 avril
Techno

TikTok teste une application rivale à Instagram au Canada

(Toronto) TikTok teste une application qui rivalise avec Instagram au Canada.

Publié le 19 avril
Techno

Chine Apple retire à la demande des autorités les applications WhatsApp et Threads

(Pékin) Apple a retiré WhatsApp et Threads de sa boutique d’applications en Chine à la demande des autorités, rapporte vendredi l’agence Bloomberg qui cite le groupe américain Meta, propriétaire des deux programmes visés.

Publié le 19 avril
Techno

Meta met le turbo dans l’intelligence artificielle générative avec Llama 3

(San Francisco) Meta (Facebook, Instagram) assure que Meta AI, son assistant d’intelligence artificielle (IA) générative, est désormais plus performant grâce à la nouvelle version de son modèle de langage Llama 3, dévoilé jeudi pour faire concurrence aux autres géants de la technologie.

Mis à jour le 18 avril
Techno

Les créateurs devraient divulguer l’usage de l’IA, affirme la sœur de Mark Zuckerberg

(Toronto) Randi Zuckerberg dit croire que les créateurs devraient commencer à révéler s’ils ont utilisé l’intelligence artificielle pour produire des œuvres, car il est « de plus en plus difficile de dire ce qui est réel ».

Mis à jour le 18 avril
Techno

Les modèles actuels d’IA ne sont « pas parfaits », admet le DG de Google News

(Pérouse) Shailesh Prakash, directeur général de Google News, a reconnu jeudi que les modèles actuels d’intelligence artificielle « ne sont pas parfaits du tout » mais « progressent rapidement », quelques semaines après la suspension d’un outil par le groupe américain pour cause d’inexactitudes historiques.

Publié le 18 avril