«Je demeure stupéfait, chaque fois que je fais des recherches sur Google, par le temps réponse quasi nul. Même pour une phrase complète, le temps qu'il faut pour trouver la source se compte en fractions de seconde. Je me doute bien que les algorithmes de recherche sont secrets [mais pourriez-vous] en expliquer au moins les principes de fonctionnement?» écrit Pierre Drolet, de Neuville.

D'après quelques essais de googling que nous avons menés cette semaine, le délai de réponse se compte plus en dixièmes de seconde. Ce qui, quand on songe à l'étendue du Web, est en effet parfaitement ahurissant, comme le note M. Drolet.Les compagnies comme Google ont la réputation de garder jalousement leurs secrets technologiques, mais les principes généraux sur lesquels sont basés les moteurs de recherche, eux, ne sont pas «classifiés». Cela prend évidemment, au départ, un certain nombre d'ordinateurs - «des grappes de milliers d'ordinateurs» dans le cas de moteurs comme Google, précise Robert Bergevin, directeur du programme de génie informatique de l'Université Laval. Mais pas question de divulguer le nombre exact de machines, nous a fait savoir un porte-parole de Google, «pour des raisons de compétitivité».

Quoi qu'il en soit, sur ces nombreux ordis roule un type de logiciel nommé spiders, ou araignées, qui se promènent de page en page pour faire l'index de chacune. Dans son blogue officiel, Google explique que «nous commençons par un certain nombre de pages Web bien connectées, et nous suivons tous les liens qui se trouvent sur ces pages. Puis, nous suivons les liens qui se trouvent sur ces nouvelles pages, et ainsi de suite, jusqu'à ce que nous ayons une énorme liste de liens».

Le terme énorme (huge en anglais) constitue ici un euphémisme à la limite de la décence, car dans ce même texte, daté de juillet dernier, Google annonçait que son index comprenait un billion de «sources» (URL) différentes - pas un million, pas un milliard; un billion, soit 1 000 000 000 000, ou mille milliards. Il peut y avoir plus d'une source par page Web, mais quand même...

Tous les mots que les araignées indexent sont stockés dans une banque de données monstrueuse - ah! voilà le bon mot! - régulièrement mise à jour. Une fois l'index sauvegardé dans une banque de données, les recherches deviennent plus faciles et plus rapides.

Ainsi, quand on fait une recherche Google ou grâce à un autre moteur de recherche, ce n'est pas la Toile elle-même que le moteur consulte, mais bien une banque de données à propos d'Internet. Les résultats correspondent donc au contenu de la dernière mise à jour, et non à ce qui se trouve sur le Web à l'instant même de la recherche.

Mais le plus grand tour de force, fait remarquer M. Bergevin, n'est pas tant de trouver rapidement des pages contenant certains mots-clés, mais plutôt de «mettre les résultats en ordre pour faire sortir en premier les plus importants, pour ne pas qu'on ait à trier nous-mêmes des milliers de pages qui contiennent nos mots-clés. Le défi, c'est toujours ça, de s'arranger pour que les premiers résultats qui apparaissent soient les plus pertinents» - enfin, à moins qu'une entreprise ne paie Google pour placer son site au haut de la liste, mais c'est une autre histoire.

On a tendance à l'oublier, mais c'était effectivement là un problème des moteurs de recherche lorsque Internet s'est popularisé de manière exponentielle, dans les années 90. Dans sa chronologie d'entreprise, Google élève d'ailleurs au rang de «point tournant» (milestone) un article de PC Magazine de 1998 où la célèbre revue louangeait le moteur pour sa «troublante aptitude à présenter des résultats extrêmement pertinents».

«Alors, ce qu'ils font, dit M. Bergevin, c'est qu'ils donnent de l'importance à un site en fonction du nombre de personnes qui mettent un lien vers ce site-là dans leur propre page.» De sorte que plus il y a de liens vers une page, plus elle apparaît tôt dans les résultats.

Autres sources :

- «We Knew the Web Was Big», The Official Google Blog, Google, 2008.

- «Web - Moteur de recherche», Comment ça marche ?, 2008