Groupe de discussion CETIC - 15/12/2005 1
De l'indexation plein texte à l'indexation sémantique
Le projet RetroWeb
Fabrice Estiévenart (CETIC)
Groupe de discussion CETIC - 15/12/2005 2
Objectifs – motivations - applications
• Objectifs : extraire d’un ensemble de pages HTML,– un ensemble de données (XML)– le schéma de ces données (XML Schema)
• Motivations– XML = formalisme interprété et (semi-)structuré– HTML = formalisme pour la représentation de l’information
sur Internet• Approche générique Applications multiples
– Interrogation « intelligente » du webo Exemple : description: ‘SONY DSC-P30’ AND prix:<300
– Développement de tableaux de bord web personnalisés– Rétro-ingénierie et migration de sites (semi-)statiques vers
une BD (CMS)
netvibes.com
Groupe de discussion CETIC - 15/12/2005 3
Architecture
Extracteur XML
{name: title,location: html/…/h[1]/text(),type: string,parent: imdb-movie,…}
<html> … <h1> Life of Brian </h1> …</html>
Code HTMLVue Browser
<root> <imdb-movie> … <movie-title> Life of Brian </movie-title> … </imdb-movie> …</root>
Document XML
affiche
Générateur Schéma
describes
Document XML Schema
Analyseur Sémantique
Règles de Mapping
Groupe de discussion CETIC - 15/12/2005 4
Règles de mapping
• Les règles de mapping font la correspondance entre :– X structures HTML sources :
o <html><body><h3>Life of Brian</h3>…</body></html>o <html><body><h1>Young Frankenstein</h1>…</body></html>
– Un document XML cible :<root>
<imdb-movie><title>Life of Brian</title>…</imdb-movie><imdb-movie><title>Young Frankenstein</title>…</imdb-movie>
</root>
• Une règle concerne un attribut dans un type de pages
{property: title,location: html/…/h[1]/text(),type: string,parent: imdb-movie,…}
Règle de mapping
www.imdb.com
Groupe de discussion CETIC - 15/12/2005 5
Construction des règles : scénario
Type de pages
Web pageWeb pageWeb pageWeb pagePage Web
Echantillon
Web pageWeb pagePage WebChoix Echantillon
Constr. règle candidate
Vérification règle
Affinement règle
Enregistrement règle
Pour chaque attribut A
Règle OK pour A
Règle candidate pour A
fin
O
N
Répertoire de règles
Groupe de discussion CETIC - 15/12/2005 6
Retrozilla
• Analyseur sémantique + Extracteur XML + Générateur schéma
• Avantages de Retrozilla– Facile : pas de langage particulier– Rapide : basé sur l’aspect visuel des pages– Flexible : uniquement les données intéressantes– Robuste : définition sur un ensemble de pages– Réutilisable : schéma prédéfini– Evolutif : différents formats de sortie
• Démo• Site : www.imdb.com• Extraire le titre, la liste des acteurs et la durée d’un film à
partir d’un échantillon de pages
Groupe de discussion CETIC - 15/12/2005 7
Intégration RetroWeb-Moteur de recherche
• Approvisionner un moteur de recherche de résultats sémantiques extraits avec RetroWeb
Collecte Indexation Interrogation
Indexation syntaxique
Indexation sémantique
titre DELL ÉCRAN CRT 17"
contenu Retourner aux pages d'annonces Catégorie de mise en vente : Computer Randapparatuur Monitoren DELL ÉCRAN CRT 17" Numéro de l'objet: 5839481285 Etes-vous le vendeur de cet objet ou un enchérisseur ?
article DELL ÉCRAN CRT 17"
prix 59 €
temps restant
1 jour 9 heures
quantité 12
vendeur Stuntstore
livraison Europe
Groupe de discussion CETIC - 15/12/2005 8
Conclusion
• Méthode outillée pour l’extraction de données XML à partir de pages Web– Semi-automatique MAIS conviviale– Approche générique diverses applications
• Travaux en cours et futurs– Détection des erreurs et réparation des règles– Définition et extraction de composants complexes– Intégration de RetroWeb dans un moteur de recherche– Analyse sémantique à partir de schémas existants (RDF-
OWL)– Classification (clustering) automatique de pages web sur la
base de leur structure ou de leur contenu