UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT
DINFORMATIQUE En vue dobtention du diplme dingnieur dtat en
informatique Option Systmes dinformation avancs Travail Ralis par :
M R GUENDOUL Samir Dirig par: M r HAMMACHE Arezki
PROMOTION2009_2010PROMOTION2009_2010
Page 3
Thme : Ralisation dun crawler web paramtrable.
Page 4
Plan : Introduction. Recherche dinformation sur le web. Moteurs
de recherche. Crawler. Solution ralise. Conclusion.
Page 5
Introduction: Recherche dinformation: La recherche
d'information est un domaine historiquement li aux sciences de
l'information et la bibliothconomie. La recherche informatique a
permis le dveloppement doutils pour traiter linformation et tablir
la reprsentation des documents linstant de leur indexation. Au sens
large, la recherche d'information inclut deux aspects :
l'indexation des corpus ; l'interrogation du fonds documentaire
ainsi constitu.
Page 6
Le Web: (www) Cr par Tim Berners-Lee dans les anne 90.
Reprsente la couche logique du rseau Internet. Cr pour changer et
consulter linformation. Question : Comment accder aux informations
nous intressant ? Parcourir tous les composants relis au Web. (tche
ardue et lente). Comment faire ?
Page 7
Les outils de recherche sur le Web Les moteurs de recherche :
lun des composants qui ont rvolutionn le web. Cr par Matthew Gray
En 1993. Son travail consiste : Chercher les informations
pertinentes. Les restituer lutilisateur.
Page 8
Les outils de recherche sur le Web Les annuaires: Yahoo est le
premier faire son entre en 1994. Ils sont constitus par des
catalogues organiss en grandes rubriques. Les rsultats sont
pertinents mais beaucoup plus restreints. Les mta-moteurs: Un
mta-moteur est un moteur de recherche, combinant la recherche
dinformation sur plusieurs moteurs de recherche diffrents. web
Crawlde, mtaCrawler, etc.
Page 9
Les moteurs de recherches: Web Liste range Reprsentation de
question Anti-dictionnaire Besoin dinformations Formulation
Indexeur Classement Retourne le rsultat lutilisateur Crawler Base
de stockage prsentation
Page 10
Processus de moteur de recherche: www Crawler Base de stockage
indexeur Anti-dictionnaire Besoin dinformations Module de recherche
Liste range requte
Page 11
Le Crawler: Dfinition: Programme intelligent qui sexcute
automatiquement. Parcoure et explore le Web en suivant les line
hypertextes. Alimente la base de donn des moteurs de recherche.
Archie: Le premier robot apparu dans le web. Cr par Alan Emtage en
1990. Tlcharger le listings dannuaire.
Page 12
Les types des Crawlers: Crawler Web : il explore tous le Web et
aspire les informations correspondantes chaque URL. Crawler
indexeur : parcoure, aspirant et index chaque page trouver dans le
Web. Crawler chercheur: Rechercher des informations spcifique un
domaine prcis par une requte. Cherche sur le web en temps rel.
Remarque : Le type de Crawler quest tudi est le Crawler Web.
Page 13
Architecture Gnrale des Crawlers: Frontire Client HTTP Parseur
URLs de dpart www B.D.D Entre Choisir URL Chercher Sauvegarde
Fouiller Traiter Ajout dURL Scanneur
Page 14
Stratgies de parcours: Le web est un graphe dont les nuds sont
des pages et les arcs sont des liens. Le crawler commence par
quelque nuds est suit les arcs. Dvers Stratgies existe : Le
parcours en largeur (FIFO). Le parcours en profondeur (LIFO). Le
parcours suivant le degr entrant maximum (DEM). Le parcours
alatoire (RANDOM).
Page 15
Le parcours en Largeur 1 234 56789 10 1 QueueTte
2132143215432165432176543218765432198765432110987654321
Page 16
Le parcours en profondeur 1 234 56789 10 1 Queue Tte
21521652136521 736521 87365214873652194873652110948736521
Page 17
Le processus de Crawler: URL Entre URLs de dpart La frontire
Client HTTP Choisir URL www BDD chercher sauvegarder Parseur URL
parser scanner URLs trouves URL
Page 18
Critres du Crawler: Les critres suivre : Eviter de parcourir
une mme page; Choisir les documents a tlchargs; Ne pas rcolter des
fichiers qui peuvent causer des dommages; Eviter de suive un
parcours sans fin; Respecter les instructions dexclusion
(robot.txt); Ne pas saturer les serveurs.
Page 19
Les Crawlers distribus: Problme : Immensit de Web. Limite des
Crawlers mon-poste. Solution: Ncessit dune nouvelle technologie;
Naissance des Crawlers Distribus.
Environnement de dveloppement : La ralisation dun logiciel
fiable et performant est capitale. Les outils de dveloppement:
Systme dexploitation : Windows Vista. Environnement : Eclipse IDE
version 3.4.1. Langage de programmation : JAVA.
Page 23
Architecture du Systme: Crawler URL document
Page 24
Architecture du Systme: Interface Utilisateur Noyau Stockage
dinformations Initialiser et dmarrer le Crawler Sauvegarder les
donnes Consulter les donnes
Page 25
Le Noyau: Noyau ExploreurParseurScanneurClient HTTP
Page 26
Le Client HTTP : URL Interroger le serveur www Existe? Oui Non
Tlcharger le document Base De Donnes Fin Sauvegarder
Page 27
Le parseur: Analyser page Contient des liens? Extraire les
liens Fille temporaire Fin Oui Non ajouter
Page 28
Le Scanneur: URLs Vrifier le Protocole Ajouter une fille
temporaire Fin HTTP? Non Vrifier le lien interne? Oui Non Oui
Vrifier le type existe? Non Vrifier la longueur et la profondeur
dpasser? Oui Non
Page 29
Lexploreur: Frontire Client HTTP vide? Fin Oui Choisir URL Non
Parseur Scanneur Ajouter les URLs la frontire Tlcharger Analyser
vrifier ajouter recommencer Dbut
Page 30
Stratgies de parcours: La frontire dtermine quelle stratgie
adopter. Nous avons dvelopps quatre stratgies : Parcours en Largeur
: utilise une fille FIFO. Parcours en Profondeur : utilise une
fille LIFO. Parcours alatoire : programme avec la fonction
Random(). Parcours Delay : utilise une fille FIFO, temps de
connexion limit. Pour programmer ces fille dattentes, nous avons
utiliss la classe ArrayList.
Page 31
Interface graphique principale:
Page 32
Ajouter un Crawler:
Page 33
Panneau gestion Crawler: Proprits du Crawler Etat de parcours
Arrter Pause Continuer Dmarrer URLs xplores Pages tlcharges
Page 34
Consulter les pages tlcharges: Consulter les URLs
Explores:
Page 35
Fin de Crawler
Page 36
Test Nous avons initialis le Crawler comme suit: Stratgie :
Fifo ; Nombre Urls : illimit ; Nombre Rpertoire : illimit ;
Longueur Url : illimit ; Type Url : html, php, asp, pdf, doc, txt,
ptt ; Url de depart : http://www.ummto.dz/ Aprs onze heur de
parcours:
Page 37
Test
Page 38
Conclusion Nous avons prsent une tude dtaill sur les Crawler et
la solution ralise. Nous avons conquis de nouvelles information sur
la RI, et acquis une base solide sur le dveloppement et la
programmation de logiciel. En guise de perspective nous proposons,
dlaborer une architecture distribue pour le Crawler raliser.