Recherche d’informations
Cours 9
Master LFA, 2011/2012
Notions de baseNotions de base
Paris-Sorbonne, Master LFA 2011/20122
Recherche d’informations (RI)
� La recherche d’informations est une branche de l’informatique qui étudie la construction des systèmes ayant pour objectif principal de permettre de retrouver une information spécifique, correspondant au besoin de l’utilisateur, dans un ensemble de documents.
Paris-Sorbonne, Master LFA 2011/20123
l’utilisateur, dans un ensemble de documents.
� En anglais : Information Retrival (IR)
Pourquoi ?
� Une masse de documents numériques grandissante
� Les informations deviennent inexploitables par un être humain
� Où trouver une information précise ?
Paris-Sorbonne, Master LFA 2011/20124
� Où trouver une information précise ?
� L’être humain de peut se souvenir de tous les endroits où chercher l’information.
� Mais une machine (un serveur) est dotée d’une mémoire quasi-illimitée…
Une vision : le memex
� Peu après l’invention de l’ordinateur, en 1945, VannevarBush dans son article « As We May Think » décrit un outil, appelé memex, qui serait capable de stocker des documents sous différents formats, tels que livres, photos, articles, et en extraire une information précise de façon rapide à la demande de l’utilisateur.
Paris-Sorbonne, Master LFA 2011/20125
� Cet article énonce pour la première fois concept de la recherche d’informations automatique.
� Il a fallu encore une dizaine d’années avant de rendre possible une partie de ces idées.
Vannevar Bush « As We May Think »
“A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. It consists of a desk, and while it can presumably be operated from a distance, it is primarily the piece of furniture at which he works. On the top are slanting translucent screens, on which material can be projected for convenient reading. There is a keyboard, and sets of buttons and
Paris-Sorbonne, Master LFA 2011/20126
for convenient reading. There is a keyboard, and sets of buttons and levers. Otherwise it looks like an ordinary desk. In one end is the stored material. The matter of bulk is well taken care of by improved microfilm. Only a small part of the interior of the memex is devoted to storage, the rest to mechanism.”
� Source : http://wiki.les.inf.puc-rio.br/uploads../1/11/As_We_May_Think_Vannevar_Bush.pdf
Paris-Sorbonne, Master LFA 2011/20127
World Wide Web
� Conçu par Tim Berners-Lee en 1989
� Ensemble de ressources interconnectées par des hyperliens.
� Chaque ressource est identifiée par un URL (Uniform Resource Locator) :
Paris-Sorbonne, Master LFA 2011/20128
� C’est une chaîne de caractères permettant d’indiquer un protocole de communication et un emplacement sur le Web.
� Un hyperlien est un élément qui est associé à (qui pointe vers) un URL.
� Les documents textuels contenant des hyperliens s’appellent des documents hypertextuels.
World Wide Web
1. Vaste quantité d’informations : on ne peut pas connaître la taille d’Internet
2. Dynamique :
� Plusieurs milliers de pages sont crées et effacées chaque seconde.
� On estime que presque 50% des pages sont modifiées au cours d’une semaine.
Paris-Sorbonne, Master LFA 2011/20129
d’une semaine.
3. Complètement décentralisé :
� Aucun contrôle sur le contenu qui est publié.
� Données hétérogènes, en différents formats, langues, alphabets.
� Données souvent redondantes ou contradictoires.
4. Hypertexte
Architecture d’un moteur de recherche
Paris-Sorbonne, Master LFA 2011/201210
Besoin informationnel -> requête
� L’information recherchée se trouve dans des documents numériques. Elle est « cachée », inaccessible.
� L’utilisateur recherche parmi les documents ceux qui contiennent la réponse qui l’intéresse.
� Pour utiliser un moteur de recherche il est obligé a exprimer son
Paris-Sorbonne, Master LFA 2011/201211
� Pour utiliser un moteur de recherche il est obligé a exprimer son besoin par une requête.
� Les outils de recherche ne comprennent pas la langue naturelle. La requête doit être conforme au langage de requête qui est employé par le moteur de recherche : � mots clés
� opérateurs booléens, guillemets, …
L’index
Dans un livre :
• l’index est une liste de termes (mots, expressions), où à côté de chaque terme sont indiqués les endroits où ce terme est employé dans le livre.
• L’index permet d’accéder aux contenu sans devoir lire le document du début jusqu’à la fin.
Paris-Sorbonne, Master LFA 2011/201212
document du début jusqu’à la fin.
Dans un moteur de recherche :
• L’index est une liste de termes (mots, expressions), où à côté de chaque terme sont indiqués les endroits (les sites web) où ce terme est employé.
• L’index permet de retrouver un site web à partir des mots ou expressions qui y sont employés.
Moteurs de recherche
� Un moteur de recherche, appelé également système de recherche d’informations (SRI), est un logiciel (habituellement un service web sur un serveur) qui permet d’interroger un index, c’est-à-dire :
poser une question sous forme d’une requête� poser une question sous forme d’une requête
� visualiser la liste des documents jugés pertinents par rapport à la requête
13 Paris-Sorbonne, Master LFA 2011/2012
Comment fonctionne un SRI ?
� Collecter les documents (sources documentaires, Web, ...)
� Nettoyer et analyser l'ensemble des documents
� Créer un index inversé de l'ensemble des termes jugés représentatifs des documents
� Traiter la requête de recherche : � Traiter la requête de recherche :
� mots clés
� opérateurs booléens
� méta-données documentaires (auteur, titre, date d'édition, collection, ISBN, ...)
� Classer les documents résultats selon leurs pertinences
14 Paris-Sorbonne, Master LFA 2011/2012
L’index dans les moteurs de recherche
� Il est constitué préalablement par des logiciels appelés robots d’indexation (crawlers). Ils parcourent le Web, d’un site à l’autre en suivant les hyperliens, afin de :
� télécharger le site
� analyser son contenu, extraire le texte et identifier les termes utiles
Paris-Sorbonne, Master LFA 2011/201215
utiles
� ajouter le site à l’index, en l’associant aux termes qui ont été trouvés.
� L’index est actualisé constamment afin de tenir compte des modifications des pages web
Indexation
� Quand on publie une page web :
� Si elle est déconnectée du web (aucune autre page ne contient un hyperlien vers elle), elle risque de ne jamais être indexée, et donc rester totalement invisible pour les moteurs de recherche.
� Plus il y a de pages qui pointent vers elle, plus vite elle sera
Paris-Sorbonne, Master LFA 2011/201216
� Plus il y a de pages qui pointent vers elle, plus vite elle sera indexée.
� L’indexation par un moteur de recherche n’est jamais garantie (sauf si on paye bien sur), mais on peut soumettre un URL à Google afin qu’il prenne en compte cette page.
� Il existe des moyens de bloquer l’indexation si l’on le souhaite (aucune garantie légale).
Indexation : analyses linguistiques
rudimentaires
� Lemmatisation : une analyse morpho-syntaxique des termes du document permet retrouver leurs formes de base (infinitif pour les verbes, forme en singulier pour le noms, etc.). C’est le formes de base (lemmes) qui sont indexées.
� Par exemple, si on pose la requête « voiture », non seulement
Paris-Sorbonne, Master LFA 2011/201217
� Par exemple, si on pose la requête « voiture », non seulement les documents qui contiennent « voiture » seront retrouvés, mais également ceux qui contiennent le mot en pluriel « voitures ».
� Elimination des « mots vides » : ce sont les articles (le, la, les, …), les conjonctions (et, ou, …), le verbe être, … Ces « mots vides » sont jugés inutiles pour l’index. Pourquoi ?
Indexation
� En fait, l’indexation est un changement de représentation : du document textuel (site web) on passe à un ensemble de mots.
� Problématique du TAL (Traitement Automatique de la Langue) : comment représenter le contenu sémantique d’un texte afin que la machine puisse « comprendre » ce
Paris-Sorbonne, Master LFA 2011/201218
d’un texte afin que la machine puisse « comprendre » ce qui est dit, ce de quoi on parle dans ce document ? Or, dans un texte, l’information est « encodée » en langue naturelle.
Comment sont obtenus les résultats ?
Le moteur compare la requête à un index
Il extrait un certain nombre de documents qui vont figurer parmi les réponses
Paris-Sorbonne, Master LFA 2011/201219
Chaque document obtient un score, c’est-à-dire un nombre qui reflète son degré de pertinence par rapport à la requête
Les réponses sont ordonnées par rapport à leurs scores
Affichage Google
Paris-Sorbonne, Master LFA 2011/201220
Affichage Google
Paris-Sorbonne, Master LFA 2011/201221
� Les annonces : sites dont le propriétaire a payé pour apparaître parmi les résultats.
� Il ne sont par extraits parce qu’il correspondent à la requête, mais parce que leur propriétaire a « acheté » les mots clés que vous avez tapés
� Peuvent être utiles si vous recherchez des offres commerciales
� C’est le principal revenu du moteur de recherche
� On peut visiter une page « en cache » (voir la partie droite
Paris-Sorbonne, Master LFA 2011/201222
On peut visiter une page « en cache » (voir la partie droite de la diapo précédente) – cela va dire la version de la page qui est stockée dans les archives du moteur de recherche :
� c’est la page telle qu’elle était lors de la dernière indexation
� cette version est accessible même pour des sites qui n’existent plus depuis un certain temps
� il n’est pratiquement pas possible d’effacer une information qui a été publiée sur Internet
Paris-Sorbonne, Master LFA 2011/201223
RequêtesRequêtes
Paris-Sorbonne, Master LFA 2011/201224
Eléments de requête
� Mots clés
� Opérateurs booléens (voir diapos suivantes)
Paris-Sorbonne, Master LFA 2011/201225
� Guillemets : permettent de retrouver une expression exacte
� Dans Google : opérateur define
26 Paris-Sorbonne, Master LFA 2011/2012
27 Paris-Sorbonne, Master LFA 2011/2012
Expérimentation 1 : en utilisant Google …
� Pouvez-vous trouver :
1. Le nom du dernier film de Tom Cruise ?
2. Qu’est-ce qui peut provoquer une migraine ?
3. La distance entre l’université Paris-Sorbonne et le Panthéon ?
Paris-Sorbonne, Master LFA 2011/201228
� Construisez d’abord les requêtes.
� Parmi les premiers 10 résultats, combien vous semblent utiles ?
Expérimentation 2
� Utilisez l’opérateur de Google « define » pour trouver les définitions de :
� variable
� classe sociale
Comparez ce que vous avez trouvé avec les documents
Paris-Sorbonne, Master LFA 2011/201229
� Comparez ce que vous avez trouvé avec les documents suivants :
� http://msh.revues.org/2956?file=1
� http://bric.brac.free.fr/2010/50/RETOUR_DES_CLASSES_SOCIALES.pdf
Expérimentation 3
� Pouvez-vous trouver …
� Quels sont les grands philosophes qui ont travaillé sur la notion de la définition ?
� Qu’est-ce qu’une définition de point de vue de la logique mathématique, chez Pascal, chez Aristote, chez Robinson, chez Ginisti ?
Paris-Sorbonne, Master LFA 2011/201230
chez Ginisti ?
� Pourquoi le moteur de recherche ne donne pas de résultats satisfaisants ?
Ordonnancement des résultatsOrdonnancement des résultats
Paris-Sorbonne, Master LFA 2011/201231
Combien de réponses ?
Paris-Sorbonne, Master LFA 2011/201232
Combien de réponses ?
� Environ 37 millions de réponses pour le mot clé « migraine » !
� En fait, l’être humaine ne peut consulter que les premiers quelques dizaines.
Paris-Sorbonne, Master LFA 2011/201233
� De plus, les 37 millions de réponses ne sont qu’une illusion. Le moteur de recherche ne vous autorisera pas d’accéder au-delà des 1000 premiers résultats. Essayez !
Ordonnancement
� L’ordonnancement des réponses a pour but d’afficher les sites les plus « utiles » en premier.
� L’« utilité » d’un site (ou sa pertinence) est estimée par le moteur de recherche.
� Une grande partie du Web reste ainsi inaccessible, notamment les sites qui se retrouvent en fin de la liste
Paris-Sorbonne, Master LFA 2011/201234
notamment les sites qui se retrouvent en fin de la liste des réponses.
Ordonnancement des réponses
� Chaque moteur de recherche classe les résultats d’une façon différente.
� Ces algorithmes sont basés :
� sur la fréquence de présence et le nombre des mots clés de la requête dans les documents
sur d’autres critères, tels que la popularité du site, la fiabilité,
Paris-Sorbonne, Master LFA 2011/201235
� sur d’autres critères, tels que la popularité du site, la fiabilité, etc.
Fiabilité des informations
� Internet fluidifie la circulation des échanges aussi il est nécessaire de vérifier l'information car il est parfois difficile de mesurer la pertinence ou la validité des informations.
Outre la désinformation volontaire pratiquée par certains
Paris-Sorbonne, Master LFA 2011/201236
� Outre la désinformation volontaire pratiquée par certains sites envers les technologies concurrentes, il est fréquent de trouver des sites Web dont l'information n'est pas actualisée, voire des liens hypertextes non valides.
Un exemple
Recherche provoquer migraine
Paris-Sorbonne, Master LFA 2011/201237
Un autre exemple
� Quelqu’un vous dit que la tour Eiffel vient de tomber.
� Faites la recherche « la tour Eiffel tombe » avec Google.
� Regardez le premier résultat :
� http://gregdu67.over-blog.com/article-27658342.html
Paris-Sorbonne, Master LFA 2011/201238
� Lisez le début… puis lisez la fin.
� Qu’en pensez-vous ?
� Comment peut-on savoir si une information est fiable sur internet ?
Wikipédia
� Tout internaute peut modifier le contenu de n’importe quel article de Wikipédia à n’importe quel moment.
� Aucune fiabilité de l’information : quand on utilise Wikipédia on fait confiance à la « conscience collective » de tous les autres internautes.
� L’historique est sauvegardée : toute modification est
Paris-Sorbonne, Master LFA 2011/201239
� L’historique est sauvegardée : toute modification est réversible.
� Allez sur Wikipédia et essayez de modifier un article au choix.
� Vous avez également le droit d’ajouter de nouveaux articles, par ex. pour publier votre biographie, inventer de nouveaux mots, …
Google : PageRank
� Stanford 1999 : «The PageRank citation ranking: Bringing order to the web » Page, Brin, Motwani, et Winograd.
� PageRank : un algorithme qui permet d’ordonner les sites web selon leur « popularité »
Paris-Sorbonne, Master LFA 2011/201240
� Plus une page est citée par les autres pages (par la présence d’hyperliens qui pointent vers elle), plus cette page est considérée comme « importante », « utile », …
� Les pages les plus populaires obtiennent un score plus élevé et sont alors affichées en début de la liste des réponses par Google.
Parmi les sites les plus « populaires » :
� http://www.searchenginegenie.com/pagerank-10-sites.htm
Paris-Sorbonne, Master LFA 2011/201241
Connaître le PageRank d’un site
� Allez sur http://www.prchecker.info/check_page_rank.php
� Trouvez le PageRank de sites que vous connaissez.
� Par exemple : pour http://fr.wikipedia.org :
Paris-Sorbonne, Master LFA 2011/201242
� Par exemple : pour http://fr.wikipedia.org :
SEO : Search Engine Optimisation
� SEO, c’est un ensemble de techniques qui cherchent à améliorer le score d’un site web, afin qu’il s’affiche parmi les premiers résultats de recherche.
� Aujourd’hui, le SEO c’est également un profession : il existe des gens et des entreprises dont le travail consiste à essayer d’augmenter le PageRank d’un site.
Paris-Sorbonne, Master LFA 2011/201243
à essayer d’augmenter le PageRank d’un site.
� Techniques possibles :
� Travailler le contenu du site afin qu’il contienne le plus possible de mots clés que les internautes sont susceptibles de rechercher.
� Mais aussi, créer d’autres sites web, dans le seul but de générer des liens vers le site en question.
Le monopole de Google
� http://chiffres.abondance.com/ – moteurs de recherche en France (déc. 2010)
Paris-Sorbonne, Master LFA 2011/201244
Rechercher l’information : autres Rechercher l’information : autres
outils
45 Paris-Sorbonne, Master LFA 2011/2012
Types de outils de recherche d’informations
� Les annuaires, qui recensent des sites manuellement et les classent par domaines thématiques. Ils permettent une recherche par navigation dans les catégories ou par mots-clés.
� Les moteurs de recherche, qui indexent
Paris-Sorbonne, Master LFA 2011/201246
� Les moteurs de recherche, qui indexent automatiquement le web et permettent une recherche par mots-clés.
� Les méta-moteurs de recherche, qui interrogent simultanément plusieurs outils de recherche, par ex. MetaCrawler
Annuaires
� Historiquement, les annuaires sont les plus anciens des outils de recherche.
� Un annuaire est un outil de recherche qui recense des sites web. Il est constitué de rubriques (appelées aussi catégories), elles mêmes subdivisées en sous-rubriques..., chacune contenant une liste de sites Web.
Paris-Sorbonne, Master LFA 2011/201247
chacune contenant une liste de sites Web.
� Les informations sont manuellement hiérarchisées en rubriques et sous-rubriques � Yahoo! était l’annuaire par excellence
� http://www.webAnnuaire.org/
� http://www.webearth.fr/
� http://www.dmoz.org
Quelques moteurs de recherche
� In-extenso, sciences humaines et sociales : http://www.in-extenso.org/
� Science Research, sciences : http://www.scienceresearch.com/search/
� Scitopia, sciences et technologies : http://www.scitopia.org/scitopia/
Paris-Sorbonne, Master LFA 2011/201248
http://www.scitopia.org/scitopia/
� Spinoo, sites éducatifs français : http://www.cndp.fr/spinoo/
� Web 2.0 Search Engine : http://www.web20searchengine.com/
� Exalead : http://www.exalead.com/search/
La famille Google
� Google Scholar – recherche de publications scientifiques
� Google Books – recherche dans des livres numérisés
� Google Images
Paris-Sorbonne, Master LFA 2011/201249
Outils des bibliothèquesOutils des bibliothèques
Paris-Sorbonne, Master LFA 2011/201250
Un catalogue de bibliothèque …
� est une liste de tous les documents disponibles (livres, thèses, rapports, revues, CDs, ...)
� permet de savoir si la bibliothèque possède les documents correspondants à une référence
� permet des recherches des ouvrages ou des thèses selon un sujet particulier
Paris-Sorbonne, Master LFA 2011/201251
un sujet particulier
Le SUDOC (Système Universitaire de Documentation) http://www.sudoc.abes.fr/ , est un catalogue collectif des universités françaises (plus de 5 millions de références).
Quelques définitions
� Identifier un document : savoir qu'un document existe, après une recherche dans un catalogue.
� Localiser un document : après avoir identifié un document, savoir où il se trouve, dans quelle bibliothèque, à quel endroit dans la bibliothèque.
� Notice bibliographique : ensemble des éléments de description d'un document
Paris-Sorbonne, Master LFA 2011/201252
description d'un document
� Cote : ensemble de caractères alphanumériques attribué à un document et permettant de le retrouver sur les rayonnages de la bibliothèque.
� Index : liste élaborée à partir des éléments de description des documents.� Le SUDOC comprend de nombreux index, dont : les mots du titre ;
les sujets ; les auteurs ; la collection (Quadrige, Que Sais-je).
Quelques définitions
� ISBN (International Standard Book Number) : numéro international unique attribué à un livre.
� 2-02-005169-9 correspond à l'ouvrage : Duverger, C. La fleur létale : économie du sacrifice aztèque. Paris : éditions du Seuil, 1979.
Paris-Sorbonne, Master LFA 2011/201253
� ISSN (International Standard Serial Number) : numéro international unique attribué à un titre de revue.
� 0183-570X ; correspondant à la revue « L'Ordinateur individuel. »
� Un catalogue de bibliothèque contient des références à des documents.
� Dans sa fonction d'identification, le catalogue donne accès à la notice bibliographique du document : une fiche qui contient l'ensemble des éléments de description d'un document.
Paris-Sorbonne, Master LFA 2011/201254
Rechercher dans le SUDOC
� Recherche simple :
� porte sur les mots du titre et relie les termes de recherche avec l'opérateur booléen « et »
� Le SUDOC ne propose pas de suggestions en cas de saisie erronée. Avec les mots sujets, utilisez le français même si le document lui-même est écrit dans une autre langue.
Paris-Sorbonne, Master LFA 2011/201255
document lui-même est écrit dans une autre langue.
� On peut employer les opérateurs booléens (et, ou, sauf) et la troncature *.
SUDOC : recherche simple
Paris-Sorbonne, Master LFA 2011/201256
Recherche avancée
Paris-Sorbonne, Master LFA 2011/201257
Résultats d’une recherche
Paris-Sorbonne, Master LFA 2011/201258
Accès à une notice
Paris-Sorbonne, Master LFA 2011/201259
Expérimentation avec SUDOC
� Dans le portail SUDOC (http://www.sudoc.abes.fr) :
� Comparez le nombre de résultats retournés après les recherches sur l'index « tous les mots » pour :
recherche documentaire et "recherche documentaire"
� Rechercher les ouvrages de la collection « Que sais je ? » sur la recherche documentaire. Combien de résultats avez-vous
Paris-Sorbonne, Master LFA 2011/201260
recherche documentaire. Combien de résultats avez-vous trouvé ? Quel est le premier résultat ?
� Rechercher les thèses dont le sujet est la recherche documentaire. Combien de résultats avez-vous trouvé ? Quel est le premier résultat ?
� Vous recherchez un article de 1892 paru dans « The SewaneeReview » ; où le trouverez-vous ?