Upload
core-techs
View
1.126
Download
2
Embed Size (px)
DESCRIPTION
Présentation Lucene, recherche sémantique et typologique.
Citation preview
Lucene :Recherche sémantique et typologique
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
Plan de la présentation :
1. Lucene et la recherche sémantique
2. Typologie documentaire et recherche
3. Trustin : l’application de recherche en ASP
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
1. Lucene et la recherche sémantique
a. Rappels : Lucene, l’outil de recherche opensource en Java
• Lucene est né en 2001 au sein de la communauté Apache
• Système de recherche et d’indexation entièrement écrit en Java
• Les points forts de Lucene :
• Performance reconnue de l’index
• Un modèle applicatif ergonomique
• Une capacité d’intégration exemplaire
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
1. Lucene et la recherche sémantique
b. Structure et fonctionnement de Lucene
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
DB
Index
File System
web
GatherData
IndexDocuments
Search Index
User
Get Users’Query
PresentSearch Results
Lu
cen
eA
pp
lica
tion
1. Lucene et la recherche sémantique
• Une phase de structuration :
• Une phase d’indexation :
• Analyzer : fournit la méthode d’indexation
• Indexer : ajoute le contenu à l’index
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
b. Structure et fonctionnement de Lucene
Document
Field
1. Lucene et la recherche sémantique
c. Application de recherche
• Query : modélise la requête de l’utilisateur, utilisation de syntaxe booléenne, etc
• Analyzer : méthode de parsing de la requête
• IndexSearcher : effectue la recherche sur l’index
• Hit : Un résultat de recherche
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
2. Typologie documentaire et recherche
a. Référentiel documentaire
• Un référentiel documentaire est un ensemble de contenus produit par un groupe d’entités sur une thématique commune
• La typologie des documents du référentiel est hétérogène
• Le sens d’un terme est lié à sa position au sein de la structure du document
• Il est nécessaire de trouver un modèle capable de lier la position structurelle d’un terme (typologie) à son sens (sémantique)
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
2. Typologie documentaire et recherche
b. Introduire la notion de typologie dans Lucene
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
Documents
XMLDescriptor
Content
Structure
Document
Field
2. Typologie documentaire et recherche
c. Pondération de la pertinence des résultats de recherche
• Introduire un coefficient de pondération supplémentaire dans le taux de pertinence calculé par Lucene
• En identifiant les zones de contenu où la recherche doit être effectuée : descripteur XML
• Produire un « ranking » de termes par zone : statistique
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
3. Trustin : l’application de recherche en ASP
a. Externalisation des application de recherche
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
DescripteursXML
CrawlerTrustin
Référentiel documentaire
Index
Applicationde recherche
Résultatsde recherche
Trustin SI externe
3. Trustin : l’application de recherche en ASP
b. Les fonctionnalités de Trustin
• Suggestion automatique de rechercheEx : création ? création d’entreprise OU création artistique
• SiglaisonEx : CDI ? Contrat à Durée Indéterminée
OU Contrat Développement Innovation
• Stemmatisation :Ex : Commerce ? Commerce ET Commercial(e)
ET Commercialisation, etc
• Correction orthographique
• Indexation multi-format : XML, HTML, PDF, Word, Excel, PowerPoint, Ooo
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
3. Trustin : l’application de recherche en ASP
c. Développement de Trustin
• Cofinancé par Oséo
• Ouverture prochaine à la communauté
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
Merci de votre attention
Questions ?
1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique