À en croire certains, on peut tout retrouver sur Google. Est-ce vrai?

À en croire certains, on peut tout retrouver sur Google. Est-ce vrai?

On ne peut certes pas tout retrouver sur Google. Pas plus qu'on ne peut pas «tout» trouver à la Bibliothèque nationale ni dans un magasin de grande surface. Google est un outil, parmi d'autres, donnant accès aux documents accessible via l'Internet.

Il faut d'abord rappeler que l'Internet n'est rien d'autre qu'un ensemble d'ordinateurs qui communiquent entre eux grâce à des normes de transmissions des données. Le rôle d'un moteur de recherche comme Google est de balayer le contenu des documents contenus sur ces ordinateurs (des «serveurs»), documents que les gestionnaires de ces serveurs décident de rendre accessibles en ligne sur des sites Internet.

Les moteurs de recherche (les trois principaux sont Google, Yahoo! et MSN) opèrent tous de la même façon. D'abord un «robot», une technologie logicielle, balaie systématiquement les sites web et enregistre le contenu de ceux-ci dans une base de données. C'est un peu comme si vous naviguiez sur le web en ouvrant toutes les pages web possibles et que vous enregistriez le contenu de ces pages sur le disque dur de votre ordinateur. La différence, bien sûr, est qu'une entreprise comme Google possède un nombre gigantesque d'ordinateurs qui réalisent automatiquement cette tâche sur un nombre immense de sites. La base de données de Google compterait environ 9 milliards de pages web ainsi balayées en continu.

Une deuxième technologie logicielle fait ensuite l'analyse du contenu de cette base de données, en «indexant» son contenu. Cette méthode d'analyse est ce qui distinguent les moteurs de recherche entre eux. Il s'agit d'un ensemble d'algorithmes sémantiques qui examinent, par exemple, le nombre de fois où est utilisé un mot dans le texte de la page web, le positionnement de ce mot dans la page (dans les premières phrases, tout au long du texte ou uniquement à la fin, par exemple), son utilisation en conjonction avec d'autres termes, etc. C'est le résultat de cette analyse que nous obtenons lorsque nous faisons une recherche sur Google. Pour simplifier, plus le logiciel d'analyse considère un document pertinent par rapport à la requête par mots-clés que nous avons demandé, plus le document apparaîtra au début de la page de résultats.

Il y a donc deux raisons pour lesquelles Google ne trouverait pas un document que vous cherchiez:

1. Le «robot» n'a pas balayé le site web où se trouve le document que vous cherchez. Cette bestiole a beau être une machine très puissante, elle ne peut pas tout balayer. On estime qu'il n'y a uniquement le tiers des documents disponibles sur les serveurs branchés à l'Internet qui peuvent être captés par Google (pour toutes sortes de raisons, notamment technologiques). Et c'est sans compter que le président de Google, Eric Schmidt, a récemment estimé qu'avec les technologies actuelles, cela prendrait plus de 300 années avant d'être en mesure de colliger l'ensemble des informations disponibles sur la planète.

2. Les mots-clés que vous avez choisi dans votre requête ne permettent pas au logiciel d'analyse sémantique du moteur d'identifier le document que vous cherchez.

C'est tout l'objet de cette rubrique de La tête chercheuse de vous donner des trucs pour optimiser votre recherche. D'abord en identifiant des sources que les moteurs traditionnels ne captent pas, ce qu'on appelait à la fin des années 1990 le «web invisible» ou le «web profond» («deep web»). Ensuite, en vous aidant à énoncer plus efficacement vos requêtes dans Google, par le choix des mots-clés, les trucs et astuces, dont nous avons déjà commencé à discuter dans les précédentes réponses. À suivre, donc, et mettez-moi au défi!

À vous de chercher, maintenant!