Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option

Bienvenue

UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT DINFORMATIQUE En vue dobtention du diplme dingnieur dtat en informatique Option Systmes dinformation avancs Travail Ralis par : M R GUENDOUL Samir Dirig par: M r HAMMACHE Arezki PROMOTION2009_2010PROMOTION2009_2010

Thme : Ralisation dun crawler web paramtrable.

Plan : Introduction. Recherche dinformation sur le web. Moteurs de recherche. Crawler. Solution ralise. Conclusion.

Introduction: Recherche dinformation: La recherche d'information est un domaine historiquement li aux sciences de l'information et la bibliothconomie. La recherche informatique a permis le dveloppement doutils pour traiter linformation et tablir la reprsentation des documents linstant de leur indexation. Au sens large, la recherche d'information inclut deux aspects : l'indexation des corpus ; l'interrogation du fonds documentaire ainsi constitu.

Le Web: (www) Cr par Tim Berners-Lee dans les anne 90. Reprsente la couche logique du rseau Internet. Cr pour changer et consulter linformation. Question : Comment accder aux informations nous intressant ? Parcourir tous les composants relis au Web. (tche ardue et lente). Comment faire ?

Les outils de recherche sur le Web Les moteurs de recherche : lun des composants qui ont rvolutionn le web. Cr par Matthew Gray En 1993. Son travail consiste : Chercher les informations pertinentes. Les restituer lutilisateur.

Les outils de recherche sur le Web Les annuaires: Yahoo est le premier faire son entre en 1994. Ils sont constitus par des catalogues organiss en grandes rubriques. Les rsultats sont pertinents mais beaucoup plus restreints. Les mta-moteurs: Un mta-moteur est un moteur de recherche, combinant la recherche dinformation sur plusieurs moteurs de recherche diffrents. web Crawlde, mtaCrawler, etc.

Les moteurs de recherches: Web Liste range Reprsentation de question Anti-dictionnaire Besoin dinformations Formulation Indexeur Classement Retourne le rsultat lutilisateur Crawler Base de stockage prsentation

Processus de moteur de recherche: www Crawler Base de stockage indexeur Anti-dictionnaire Besoin dinformations Module de recherche Liste range requte

Le Crawler: Dfinition: Programme intelligent qui sexcute automatiquement. Parcoure et explore le Web en suivant les line hypertextes. Alimente la base de donn des moteurs de recherche. Archie: Le premier robot apparu dans le web. Cr par Alan Emtage en 1990. Tlcharger le listings dannuaire.

Les types des Crawlers: Crawler Web : il explore tous le Web et aspire les informations correspondantes chaque URL. Crawler indexeur : parcoure, aspirant et index chaque page trouver dans le Web. Crawler chercheur: Rechercher des informations spcifique un domaine prcis par une requte. Cherche sur le web en temps rel. Remarque : Le type de Crawler quest tudi est le Crawler Web.

Architecture Gnrale des Crawlers: Frontire Client HTTP Parseur URLs de dpart www B.D.D Entre Choisir URL Chercher Sauvegarde Fouiller Traiter Ajout dURL Scanneur

Stratgies de parcours: Le web est un graphe dont les nuds sont des pages et les arcs sont des liens. Le crawler commence par quelque nuds est suit les arcs. Dvers Stratgies existe : Le parcours en largeur (FIFO). Le parcours en profondeur (LIFO). Le parcours suivant le degr entrant maximum (DEM). Le parcours alatoire (RANDOM).

Le parcours en Largeur 1 234 56789 10 1 QueueTte 2132143215432165432176543218765432198765432110987654321

Le parcours en profondeur 1 234 56789 10 1 Queue Tte 21521652136521 736521 87365214873652194873652110948736521

Le processus de Crawler: URL Entre URLs de dpart La frontire Client HTTP Choisir URL www BDD chercher sauvegarder Parseur URL parser scanner URLs trouves URL

Critres du Crawler: Les critres suivre : Eviter de parcourir une mme page; Choisir les documents a tlchargs; Ne pas rcolter des fichiers qui peuvent causer des dommages; Eviter de suive un parcours sans fin; Respecter les instructions dexclusion (robot.txt); Ne pas saturer les serveurs.

Les Crawlers distribus: Problme : Immensit de Web. Limite des Crawlers mon-poste. Solution: Ncessit dune nouvelle technologie; Naissance des Crawlers Distribus.

Architecture des Crawlers Distribus: Crawler www BDD Frontir URL Clients Serveur URL...

Solution raliser: Un Crawler Paramtrable

Environnement de dveloppement : La ralisation dun logiciel fiable et performant est capitale. Les outils de dveloppement: Systme dexploitation : Windows Vista. Environnement : Eclipse IDE version 3.4.1. Langage de programmation : JAVA.

Architecture du Systme: Crawler URL document

Architecture du Systme: Interface Utilisateur Noyau Stockage dinformations Initialiser et dmarrer le Crawler Sauvegarder les donnes Consulter les donnes

Le Noyau: Noyau ExploreurParseurScanneurClient HTTP

Le Client HTTP : URL Interroger le serveur www Existe? Oui Non Tlcharger le document Base De Donnes Fin Sauvegarder

Le parseur: Analyser page Contient des liens? Extraire les liens Fille temporaire Fin Oui Non ajouter

Le Scanneur: URLs Vrifier le Protocole Ajouter une fille temporaire Fin HTTP? Non Vrifier le lien interne? Oui Non Oui Vrifier le type existe? Non Vrifier la longueur et la profondeur dpasser? Oui Non

Lexploreur: Frontire Client HTTP vide? Fin Oui Choisir URL Non Parseur Scanneur Ajouter les URLs la frontire Tlcharger Analyser vrifier ajouter recommencer Dbut

Stratgies de parcours: La frontire dtermine quelle stratgie adopter. Nous avons dvelopps quatre stratgies : Parcours en Largeur : utilise une fille FIFO. Parcours en Profondeur : utilise une fille LIFO. Parcours alatoire : programme avec la fonction Random(). Parcours Delay : utilise une fille FIFO, temps de connexion limit. Pour programmer ces fille dattentes, nous avons utiliss la classe ArrayList.

Interface graphique principale:

Ajouter un Crawler:

Panneau gestion Crawler: Proprits du Crawler Etat de parcours Arrter Pause Continuer Dmarrer URLs xplores Pages tlcharges

Consulter les pages tlcharges: Consulter les URLs Explores:

Fin de Crawler

Test Nous avons initialis le Crawler comme suit: Stratgie : Fifo ; Nombre Urls : illimit ; Nombre Rpertoire : illimit ; Longueur Url : illimit ; Type Url : html, php, asp, pdf, doc, txt, ptt ; Url de depart : http://www.ummto.dz/ Aprs onze heur de parcours:

Conclusion Nous avons prsent une tude dtaill sur les Crawler et la solution ralise. Nous avons conquis de nouvelles information sur la RI, et acquis une base solide sur le dveloppement et la programmation de logiciel. En guise de perspective nous proposons, dlaborer une architecture distribue pour le Crawler raliser.

Merci pour votre attention Questions..?

Documents

Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue d’obtention du diplôme d’ingénieur d’état en informatique Option