Robot d'indexation de pages web

De Centre de Ressources Numériques - Labomedia
Révision de 15 décembre 2014 à 10:59 par Serge (discussion | contributions)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Un robot d'indexation, en anglais Web Spider ou Web Crawler, araigée du Web, est un logiciel qui explore automatiquement le Web, afin d'indexer les pages pour les moteurs de recherche.La fonction de tri n'appartient pas au robots. Certains robots malveillants (spambots) sont utilisés pour collecter des adresses électroniques et spammer.

Robots.txt

Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. Par convention, les robots consultent robots.txt avant d'indexer un site Web.

Fréquence de passage des robots

Leur venue s'adapte en fonction de la mise à jour des données. Les robots reviennent périodiquement visiter les pages pour indexer les éventuelles modifications.

Il est également possible de le faire venir plus souvent. En effet, les visites des moteurs dépendent de la fréquence de la mise à jour du site. Les robots viendront ainsi plus fréquemment sur les sites dont le taux de renouvellement des contenus est élevé, comme les sites d'actualité.

Robot de veille technologique

Les robots sont aussi utilisés dans des outils de veille, en particulier sur des projets d’études universitaires.

Le web profond ou web invisible (en anglais deep web, dark web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes.

De nombreux moteurs prennent cependant en compte cette partie du réseau. La terminologie web profond est opposée à web surfacique.

Mediawiki Bot

Les bots (abréviation de robots) sont des agents automatiques ou semi-automatiques qui interagissent avec Mediawiki, pour des tâches répétitives et fastidieuses pour un humain.

Par exemple Dr Bot permet de renommer une catégorie. Il n'y a pas d'autres outils pour le faire: à la main, il faut changer le lien vers la nouvelle catégorie de toutes les pages avec cette catégorie, et créer la page de cette nouvelle catégorie.

La page sur ces bots.

Bibliographie