1
CRAWLER
Sophie JacobInès de Courchelle
PLAN
I. IntroductionII. Les types de CrawlerIII. Protocole et sécurité
IV. Conclusion
3
Introduction ConclusionLes types de Crawler Protocole et sécurité
Définitions 1
Définition 1 « Un crawler est un programme qui visite les sites internet, lit les pages et leur informations afin de créer des entrées pour permettre à un moteur de recherche de les indexer. »
PROGRAMME
Site internet
Moteur de rechercheEntrée
4
Introduction ConclusionLes types de Crawler Protocole et sécurité
Définitions 2
Définition 2 « Un Crawler est un programme qui collecte automatiquement des pages web
pour construire un index ou une collection locale. »
Collection
PROGRAMME
5
Introduction ConclusionLes types de Crawler Protocole et sécurité
Définition 3
Définition 3 « Le crawler est le robot logiciel utilisé par les moteurs de recherches pour parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web parcourues au sein des index de référencement. Chaque moteur utilise un robot qui lui est propre. »
6
Introduction ConclusionLes types de Crawler Protocole et sécurité
Ce que l’on retient
Les robots d’indexation sont liés aux moteurs de recherche
En anglais : Web crawler, Web Spider
En français : araignée du Web, collecteur
Le crawler est un programme : – Collecte automatiquement des données– Tri les données – Stock les données
7
Introduction ConclusionLes types de Crawler Protocole et sécurité
Genesis
1990 : Le premier moteur de recherche Archie
1993 : Wanderer (« le Vagabond ») est le premier robot
d’indexation
1993 : Le premier moteur intelligent Excite
1994 : Yahoo
1995 – 1997 : Altavista
1998 : Google
8
Introduction ConclusionLes types de Crawler Protocole et sécurité
Enjeux des moteurs de recherche
Indexer plus précisément
Mieux cibler le contenu de la page
Mieux déterminer sa pertinence
Répondre aux besoins de l’utilisateur
9
Introduction ConclusionLes types de Crawler Protocole et sécurité
Le principe du Crawler
Lire les méta données d’un site
Les classer
Les stocker
Les lier
10
Introduction ConclusionLes types de Crawler Protocole et sécurité
Fonctionnement d’un crawler
Il arrive sur une page
– Déjà indexée
– Non indexée
Le robot a le droit de l’indexer ?
Le robot stock le lien dans une file
Le robot extrait les méta données
Le robots enregistre les méta données
11
Introduction ConclusionLes types de Crawler Protocole et sécurité
Illustration
Lien1Lien2Lien3
Lien 4Lien 5Lien 6
Index / collection locale
File de pages à visiter
Lien 1
Mot 1
Mot 2
Mot 3
Lien 4
Lien 5
Lien 6
12
Introduction ConclusionLes types de Crawler Protocole et sécurité
Bilan
Un crawler voyage de site en site
Aucune intervention humaine
Une Base de données
Un Web crawler a une durée de vie limitée
– But : ne pas surcharger le serveur
13
Introduction ConclusionLes types de Crawler Protocole et sécurité
Les différents types de crawler
Différent types d’indexation
Coder un crawler en php
Les crawlers des moteurs de recherches
14
Introduction ConclusionLes types de Crawler Protocole et sécurité
Crawler Périodique
Crawler de « rafraîchissement », tourne en continuOptimise la fraîcheur de la bases
Collection
Lien A
Lien B
Lien C
15
Introduction ConclusionLes types de Crawler Protocole et sécurité
Crawler de deep-web
Crawler couplé à une table d’association (Label/Value)Capable de remplir un formulaire
Label Value
1 Pierre
2 Claire
16
Introduction ConclusionLes types de Crawler Protocole et sécurité
Crawler de forum
Corrélation topologique/sémantique naturelleExtraction de profils d’acteurs
Acteurs
Acteur A
Acteur B
Acteur C
17
Introduction ConclusionLes types de Crawler Protocole et sécurité
Crawler incrémental
Continue à visiter les pages, même après l’atteignabilité de
la taille maximum de la collection
Puis lorsque l’on demande de remettre à jour la collection
on remplace les pages selon leur «importance»
Collection
1 Lien A
2 Lien B
3 Lien C
18
Introduction ConclusionLes types de Crawler Protocole et sécurité
Les crawlers des moteurs de recherches
Robot d’exploration Moteur de recherche
Googlebot Google
Yahoo Slurp Yahoo! Search
Bingbot Bing
Scooter AltaVista
19
Introduction ConclusionLes types de Crawler Protocole et sécurité
Protection contre les Crawlers
Protocole d’exclusion des robotsStandard for Robot Exclusion (SRE)Format du fichier « /robots.txt »Intérêt du protocole d’exclusionRobots malveillants
20
Introduction ConclusionLes types de Crawler Protocole et sécurité
Règles de bon usage
selection policy revisit policy politeness policy parallelization policy
21
Introduction ConclusionLes types de Crawler Protocole et sécurité
Règles de bon usage
selection policy – quelles pages indexer – éviter d'indexer tout le web – exemple : l'importance de la page peut être déterminée
par le nombre de liens dirigés ou redirigés par cette page
revisit policy – quand vérifier s'il y a des changements dans les pages – minimiser les visites – éviter de retourner une valeur obsolète
22
Introduction ConclusionLes types de Crawler Protocole et sécurité
Règles de bon usage
politeness policy – Éviter les surcharges de page web – Interdire certaines portions du site web
parallelization policy – coordonner les robots d'indexation qui visitent le même
espace – maximiser les téléchargements de page empêcher les
robots de télécharger les mêmes pages
23
Introduction ConclusionLes types de Crawler Protocole et sécurité
Protocole d’exclusion des robots
Années 1990 Augmentation d’incidents : ralentissement des serveursRédaction de règles pour indiquer aux robots les zones non accessibles des sites web
24
Introduction ConclusionLes types de Crawler Protocole et sécurité
Standard for Robot Exclusion (SRE)
Méthode pour exclure les robots d’un serveurPolitique d’accès pour les robotsListe de pages qui ne peuvent être visitéesAccessible via l’adresse ‘’/robots.txt’’Facile à implémenter sur tous les sites
25
Introduction ConclusionLes types de Crawler Protocole et sécurité
Protocole d’exclusion des robots
Inconvénient : seul l’administrateur du serveur a accès au fichier et peut mettre à jour cette liste
Avantage : limitation des pages et des informations à indexer
26
Introduction ConclusionLes types de Crawler Protocole et sécurité
Format du fichier « /robots.txt »
Il se compose de plusieurs enregistrements
User-agent Nom du ou des robots décrit par l’enregistrement
Disallow Spécifie les adresses URL des sites qu’il ne faut pas visiter. Le chemin peut être entier ou non
27
Introduction ConclusionLes types de Crawler Protocole et sécurité
Recherche du fichier « /robots.txt »
En-tête du site Robot.txt Vide
Visite toutes les
pages
28
Introduction ConclusionLes types de Crawler Protocole et sécurité
Format du fichier « /robots.txt »
Autoriser tous les robots à accéder au site
User-agent: * Disallow:
Interdire l’accès au site à tous les robots
User-agent: * Disallow: /
29
Introduction ConclusionLes types de Crawler Protocole et sécurité
Format du fichier « /robots.txt »
Interdire l’accès au site à un robot particulier
User-agent: googlebot #nom du robot Disallow:
Interdire l’accès à une URL du siteUser-agent: * Disallow: /help
30
Introduction ConclusionLes types de Crawler Protocole et sécurité
Démonstration
31
Introduction ConclusionLes types de Crawler Protocole et sécurité
Intérêt du protocole d’exclusion
Éviter que des ressources sans intérêt public soient visibles
dans la page de résultat d’un moteur de recherche
Alléger le travail du serveur HTTP
Alléger le trafic sur le réseau informatique (moins de
requêtes)
32
Introduction ConclusionLes types de Crawler Protocole et sécurité
Robots malveillants
Ignorent le fichier ‘’robots.txt’’
Accèdent aux adresses URL quand même
Récolte d’informations privées (adresses personnelles)
Revente (SPAM et HACK)
Ralentissent le trafic
33
Introduction ConclusionLes types de Crawler Protocole et sécurité
Bilan
Créer un fichier robots.txtBloquer l’adresse IP lorsqu’elle est identifiéeRobots.txt est une convention : peut ne pas être respectée
34
Introduction ConclusionLes types de Crawler Protocole et sécurité
Quelques chiffres
Ces informations sont fournies par YAKINO © sondage réalisé le 12/12/201310966 connexions échantillonnées sur 11 sitespériode concernée : 27/11/2013 - 11/12/2013
35
Introduction ConclusionLes types de Crawler Protocole et sécurité
Quelques chiffres
NAHRGANG MarcoDELHOMME David2003 – 2004 Les moteurs de recherches comment ça marche ?
36
Introduction ConclusionLes types de Crawler Protocole et sécurité
Sources
[1] http://www.robotstxt.org/orig.html– Titre : A Standard for Robot Exclusion – Auteur : Martijn Koster – Date de publication : 2007
[2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf : – Auteurs : Campbridge– Titre : Crawling and web indexes – Date de publication : 2009
37
Introduction ConclusionLes types de Crawler Protocole et sécurité
Sources
[3] http://www.lesitedemika.org/ressources/moteurs_recherche.pdf– Auteurs : Mickaël MARCHAL, Nadia TEA – Date publication : 2007– Titre : les moteurs de recherche
[4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides11-1x4.pdf– Auteurs : Wintersemester – Date publication : 2007– Titre : Web crawling
38
Introduction ConclusionLes types de Crawler Protocole et sécurité
Sources
[5] http://www.cellopoint.com/media_resources/blogs/2011/03/Web_Crawlers : – Titre Crawling Policies – Auteur : June Huang– Date de publication : 8/03/2011
[6] http://www.thesitewizard.com/archive/robotstxt.shtml– Titre : How to set up a robots.txt to control search
engine spiders – Auteur : Christopher Heng – Date de publication : 2001-2010
QUESTIONS ?