Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Le web est constitué de plusieurs milliards de documents. Les internautes peuvent utiliser les moteurs de recherche pour trouver une ressource parmi cette jungle.

Comment les moteurs de recherche trouvent les pages web ?

Un moteur de recherche fonctionne grâce à un grand nombre de serveurs appelés robots (ou encore crawlers ou spiders, en français araignées) chargés de parcourir la toile en suivant récursivement les liens des millions de pages Web et indexant(répertoriant) le contenu dans de gigantesques bases de données afin d'aller visiter ultérieurement les liens trouvés. En suivant les pages, de liens en liens, ces robots sont capables de visiter pratiquement tout le web. L’indexation des ressources récupérée consiste à extraire les mots considérés comme significatif des différents documents pour récupérer les ressources jugées intéressante. Les mots extraits sont enregistré dans ces bases de données tel un gigantesque dictionnaire, ou comme dans l’index d’un ouvrage : cela permet de retrouver rapidement dans quel chapitre de l’ouvrage se situe le terme significatif. Cependant les robots ne sont capables de lire que le contenu textuel d’un document. Un moteur de recherche est donc avant tout un outil d’indéxation.

Malgré la puissance de ces robots, il y a certaines limitations:

Il n'est normalement pas possible pour ces robots de trouver une page orpheline (page qui ne reçoit aucun lien)

  • Aucun moteur de recherche ne peut parcourir la totalité des pages en une journée (ce processus prend généralement plusieurs semaines). Ainsi, les robots ne peuvent pas tout indexer et mettre à jour rapidement.

A titre d'exemple, le moteur de recherche Google utilise un principe simple lorsqu'il découvre des nouvelles pages: s'il découvre un lien vers une page lambda il l'a met dans une file d'attente et ira la visiter quand il aura le temps. Si ce même robot trouve un autre lien vers cette page, alors il met l'adresse de la page dans une liste d'attente prioritaire. Le robot se contente ensuite de visiter les pages prioritaires et les autres pages ne sont visitées qu'ultérieurement lorsque celui ci à un peu plus de temps.

Des modules complémentaires sont souvent utilisés en association avec les bases du moteur de recherche. Les plus connus sont les suivants :

  1. Le correcteur orthographique : il permet de corriger les erreurs introduites dans les mots de la requête
  2. Le lemmatiseur : il permet de réduire les mots recherchés à leur lemme (base) et ainsi d'étendre leur portée de recherche.
  3. L'anti-dictionnaire : utilisé pour supprimer à la fois dans l'index et dans les requêtes tous les mots « vides » (tels que « de », « le », « la ») qui sont ne sont pas significatifs et perturbent le score de recherche

Ainsi lors d’une requête, la première chose à savoir c'est que le moteur de recherche ne cherche pas sur le web, mais cherche plutôt sur ce qui est connu des moteurs de recherche et indexé. Pour utiliser une analogie, c'est comme s'il utilisait l'index d'un livre pour chercher les pages qui contiennent le(s) mot(s) recherchés.

Utilisation d'un moteur de recherche

Lorsque l'utilisateur d'un moteur de recherche remplit le formulaire de recherche, il spécifie les mots qu'il cherche, la requête est envoyée au moteur de recherche qui consulte ses bases de données (index) pour chacun des mots puis affine la recherche en enlevant les pages ne convenant pas.

Il retourne ensuite une liste de résultats contenant des liens vers des pages, avec soit le début du texte de la page, soit le texte spécifié par le créateur de la page, ou encore l'extrait de la page qui contient les mots recherchés.

Ces réponses sont classées dans un ordre de pertinence, correspondant à des critères propres au moteur de recherche.

Comment un engin de recherche classe les résultats?

Lorsqu'un internaute effectue une recherche, il y a souvent des millions de pages qui possèdent le mot recherché. Pour cette raison, les moteurs doivent classer les résultats par pertinence. Les utilisateurs d'un moteur de recherche doivent facilement trouver le résultat qui répondra à leurs attentes.

Pour les trier, il y a deux grands critères qui identifier les documents qui correspondent le mieux aux mots contenus dans la requête et qui influent le classement des résultats: la pertinence de la page vis-à-vis des mots recherchés et la popularité de la page.

  • Évaluer la pertinence: le mot-clé est-il présent dans le titre? dans l'URL? dans le contenu? Y'a t-il des synonymes du mot recherché dans le contenu? ...
  • Évaluer la popularité: est-ce que la page reçoit beaucoup de liens? Ces liens proviennent-ils de pages elles-mêmes populaires? Les sites qui font des liens vers cette page sont-ils des sites de confiance? ...

Malgré ces deux principaux facteurs influant sur les résultats, des critères alternatifs font leurs apparitions. Par exemple, le moteur de recherche Google base maintenant ses résultats selon la localité du visiteur et selon l'historique des précédentes recherches effectuées par l'internaute.

Comment les pages sont sauvegardées dans l’index?

Le processus qui consiste à enregistrer les informations dans un index est fort simple à comprendre. En langage informatique, un index est similaire au principe des index utilisé dans les livres. L'index recense les mots et l'endroit où ils sont présents. Par exemple, l'index peut indiquer que le mot "bonjour" est utilisé sur les pages 12, 34, 35 et 57. Cela sera ultérieurement utilisé pour gagner du temps lorsqu'un visiteur effectuera un requête.

Les index ne listent cependant pas tous les mots. Les mots « vides » tel que "le", "la", "du", "à" …

Il est aussi important de savoir que le moteur de recherche Google possède deux index. L'un est consacré aux pages principales de confiance et le second est un index supplémentaire concernant des pages avec un contenu insignifiant, un contenu peut-être de très mauvaise qualité (possibilité que ce soit du spam) ou diverses raisons. Sans nul doute, ce sont les pages présentes sur l'index principal qui seront les plus visibles dans les résultats de recherche.

Pour finir, il est judicieux de savoir que toutes les pages ne seront pas sauvegardées. Certaines pages provenant de site illégaux ou pratiquant de très mauvaises pratiques, seront tout simplement blacklistés pour les ignorés lors d’une requête.

Pourquoi les pages de résultats sont si rapides?

Finalement, les moteurs de recherche ont une astuce secrète pour fournir des résultats encore plus rapide. Sachant que certaines requêtes sont très populaires (exemple: "Facebook", "Youtube", "Vidéo", "TV", "Jeux" ...), les moteurs préparent à l'avance les résultats. Ainsi, ils donnent directement les résultats sans nécessairement avoir à chercher dans l'index.

Comment un moteur de recherche gagne de l'argent?

La méthode la plus commune pour un moteur de recherche pour gagner de l'argent, consiste à afficher des résultats sponsorisés lors d'une recherche. Des sites web payent donc les moteurs pour que leur site soit en tête de certains résultats, mais uniquement dans la partie réservée aux résultats sponsorisés.

Le moteur de recherche Google affiche des annonces à droites des résultats de recherches dits naturels et parfois en haut des résultats, comme le montre la capture d'écran ci-jointe:

Résultats naturels et résultats sponsorisés sur Google

Résultats naturels et résultats sponsorisés sur Google

Métamoteur

On appelle « métamoteur» un outil de recherche dont le fonctionnement est basé sur l'exploitation des résultats d'autres moteurs de recherche.