Du bon usage de GoogleVers une meilleure utilisation des outils de recherche pour le Web
Plan de la formation
Le Word Wide Web : évolution, avantages & limites
Des outils de recherche nombreux et complexes
Quelques éléments de méthodologie de recherche
Annuaires et portails
La « folksonomie », vers des annuaires Web 2.0 ?
Moteurs de recherche
Métamoteurs
Autres outils
Bibliothèque Michel Serres : 4 mars 2008
Le Web révolutionne notre utilisation de l’information
Bibliothèque Michel Serres : 4 mars 2008
Du Web 1.0…
Le Word Wide Web (www) = une composante d’Internet
Changement de support de l’information
Dématérialisation de l’information, multiplication des flux
Lecture hypertexte, notion d’hypermédia
… au Web 2.0
Auto-publication (blogs, wikis…) : aujourd’hui tout le monde peut devenir producteur d’informations sur le Web
Quelle évolution pour le web ?
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres : 4 mars 2008
Le Web, un espace documentaire ?
Une des 1ères utilisations = outil de communication du savoir scientifique
Aujourd’hui explosion documentaire : 7,3 millions de pages nouvelles chaque jour
Un espace de production et de diffusion de l’information
Démocratisation de l’accès à l’information
Utopie de la mémoire collective, de l’encyclopédie universelle (cf Wikipédia)
Bibliothèque Michel Serres : 4 mars 2008
Les limites et les dangers du Web
Les risques d’« infobésité » : impossibilité de cerner l’étendue du web Comment filtrer et exploiter la surabondance des résultats ?
L’« info-pollution » : on y trouve le pire comme le meilleur D’où la question de la validité et de la fiabilité de l’information
L’« info-zapping » : l’instabilité, le renouvellement continu
La gratuité VS une sphère commerciale (publicités, achat de mots-clés, liens sponsorisés, positionnement payant)
Bibliothèque Michel Serres : 4 mars 2008
C’est aussi le web invisible « the deep web »
Selon une étude de BrightPlanet (juillet 2001) : le Web invisible est 500 fois plus vaste que le Web indexé par les moteurs de recherche Or ces ressources, en plus d'être volumineuses, sont souvent de
très bonne qualité !
Les causes : Les pages générées dynamiquement (formulaires de recherche,
bases de données)
Les sites nécessitant une authentification, avec un accès payant Certains formats de données (Flash, Javascript)
Les pages interdites de référencement
Bibliothèque Michel Serres : 4 mars 2008
Des outils de recherche nombreux et complexes (1/3)
Impossibilité de tous les connaître, de tous les maîtriser
Le danger : céder à la facilité devant la simplicité apparente
75% des internautes passent ¾ de leur temps à chercher
Une nécessité : connaître la typologie des outils existant pour mieux les appréhender
Voir la page de JP Lardy « Tous les outils en une page » http://urfist.univ-lyon1.fr/risi/outils.htm
Bibliothèque Michel Serres : 4 mars 2008
Des outils de recherche nombreux et complexes (2/3)
1ère distinction : quel corpus ? Les outils propres au Web (interrogeant l’ensemble ou une partie du web)
Ceux qui possèdent leur propre base, index et interface de recherche (moteurs de recherche, annuaires)
Ceux qui possèdent un module d’interrogation exploitant les bases d’autres outils (métamoteurs)
Les outils disponibles via le Web (bases de données spécialisées, catalogues de bibliothèque…)
2e distinction : quelle indexation ? Les outils humains (annuaires, signets…) Les outils automatiques (moteurs de recherche, métamoteurs…)
3e distinction : quelle couverture ? Les outils généralistes (Google, Yahoo!, Exalead…) Les outils spécialisés (Google Scholar, Scirus, In-Extenso…)
Bibliothèque Michel Serres : 4 mars 2008
4e distinction : les modalités de recherche de ces outils sur le Web La recherche par critères sur le plein texte (mono ou multicritères, ex :
moteurs de recherche) La navigation par arborescence ou hypertexte : l’utilisateur répond à des
propositions (ex : annuaires) La recherche basée sur une logique statistique / linguistique : prise en
compte du sens et du contexte des termes de la requête La recherche par associations de mots, d’objets (grâce aux ontologies, index,
thésaurus) La recherche par citations : part de l’hypothèse que si un document cite un
autre document, alors implicitement il existe un lien entre les deux (ex : Pagerank de Google + Google Scholar)
La « sérendipité » : reproduit les mécanismes de la découverte scientifique, basés sur le hasard, l’intuition et l’association d’idées
Aujourd’hui : hybridation des outils de recherche, mixité des fonctionnalités
Bibliothèque Michel Serres : 4 mars 2008
Des outils de recherche nombreux et complexes (3/3)
Construire une véritable stratégie de recherche :
Choisir les mots-clés et les expressions de recherche appropriés : S'aider de dictionnaires, encyclopédies ou thésaurus Trouver les synonymes, faire attention à la polysémie Traduire les termes en plusieurs langues
Construire ses requêtes, utiliser les opérateurs booléens et les parenthèses pour combiner les mots-clés
Multiplier et confronter les sources, ne pas s’arrêter à un outil !
Toujours consulter l’aide et utiliser le mode « recherche avancée» des outils
Restreindre ou élargir sa recherche, en utilisant de nouveaux termes qui sont apparus dans les premiers résultats de recherche
Vérifier et contrôler la véracité des sources : privilégier les sources officielles
Bibliothèque Michel Serres : 4 mars 2008
Quelques éléments de méthodologie de recherche (1/3)
Les opérateurs booléens, de proximité…
Opérateur par défaut : opérateur booléen utilisé implicitement dans la recherche. Il peut varier selon l’outil (bien consulter l’aide)
ET/AND : les deux mots saisis apparaissent dans les résultats OU/OR : l’un des deux mots ou les deux apparaissent dans les résultats SAUF/NOT : le terme saisi ne doit pas apparaître NEAR : les deux termes doivent apparaître l’un près de l’autre Les guillemets : la recherche s’effectue sur l’expression exacte saisie
entre guillemets Troncatures et joker *, ?, $, ou + : la troncature finale « * » peut remplacer
la fin d’un mot. Le caractère joker « ? » sert à remplacer un caractère et un seul au sein d’un mot (varie selon l’outil)
Consulter le comparatif des règles d’interrogation des moteurs Google, Yahoo et Exalead : http://bibli.ec-lyon.fr/documents/comparatif_moteurs_recherche.pdf
Bibliothèque Michel Serres : 4 mars 2008
Quelques éléments de méthodologie de recherche (2/3)
Quelques éléments de méthodologie de recherche (3/3)
Trois notions à retenir quant aux résultats de la recherche :
Pertinence : « adéquation entre une question posée et les réponses fournies lors de la recherche d'information ».
Le silence : « se définit par une perte d'information ; cette notion fait référence aux documents pertinents qui n’ont pas été retrouvés pendant le processus de recherche ».
Le bruit : « ensemble de documents non pertinents trouvés en réponse à une question, lors d’une recherche d’information ».
Bibliothèque Michel Serres : 4 mars 2008
Annuaires et portails
Spécialisés, thématiques ou généralistes : Sciseek (sciences), DMOZ l’Open Directory (généraliste, utilisé par Google) , Intute (ressources académiques)…
Indexation des sites faite par des professionnels selon une classification validée
Recherche par arborescence, navigation dans des catégories
Avantages : limitation du bruit, choix des informations, classement raisonné par catégories et sous-catégories. Recherche dans le web invisible. Outils qualitatifs.
Inconvénients : silence, moins d'exhaustivité et mise à jour moins rapide
A utiliser pour explorer un sujet, trouver des sites ressources dans un domaine ou des sites similaires.
Bibliothèque Michel Serres : 4 mars 2008
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
« La folksonomie », vers des annuaires 2.0 ? (1/2)
Folksonomie : combinaison des termes « folks » (usagers) et « taxinomie » (règle de classification)
Système s’appuyant sur les réseaux sociaux et l’intelligence collective, permettant aux utilisateurs (non initiés à l’indexation) de donner des indications de contenu aux ressources (sites web, signets, blogs, références bibliographiques…) qu’ils rencontrent, sous la forme de tags (mot-clés)
Esprit collaboratif, notion de partage, ouverture d’esprit, simplicité d’utilisation…
Exemples: Signets partagés (social bookmarking) : del.icio.us, digg Références bibliographiques partagées : Connotea, Citeulike
Cf Atelier libre du 29/04/08
Bibliothèque Michel Serres : 4 mars 2008
« La folksonomie », vers des annuaires 2.0 ? (2/2)
Avantages : Permet un classement des ressources mais aussi une navigation et un
accès à d'autres informations via les tags (par ex dans les blogs)
Fonctions innovantes de tri ou de classement et de visualisation : nuages de tags
Les tags sont plus précis et répondent mieux au vocabulaire et aux attentes des utilisateurs
Permet de parcourir des sources faisant partie du web invisible
Inconvénients : Mots-clés détournés ou « Folks Bombing » Problèmes de validité, de cohérence (doublons) et de pérennisation
A utiliser pour : Un accès rapide à l’information Pour mettre en place une veille en utilisant la technique de « tracking »
(repérage de termes (tags) précis) qui consiste à suivre les ressources annotées avec un mot-clé (tag) précis
Bibliothèque Michel Serres : 4 mars 2008
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Moteurs de recherche : le marché (1/4)
Malgré une situation d’oligopole dans les usages (Google, Yahoo, Live Search) de nombreux moteurs de recherche existent : Exalead (fr), Ask, Lexxe (interrogation en langage naturel), Searchmash (moteur Web 2.0 de Google)…
Chacun d’eux offre des fonctionnalités différentes
Une adresse à retenir : http://search.docinfos.com/
comparatif des grands moteurs de recherche : Google, Live, Yahoo, Exalead, Ask, Seekport
Succès de Google = interface épurée + taille de l’index + Pageranking
Bibliothèque Michel Serres : 4 mars 2008
Moteurs de recherche : le marché (2/4)
Source: http://www.xitimonitor.com/fr-fr/barometre-des-moteurs/barometre-des-moteurs-novembre-
2007/index-1-1-6-113.html
Bibliothèque Michel Serres : 4 mars 2008
Moteurs de recherche : fonctionnement (3/4)
L'exploration ou crawl : le Web est systématiquement exploré par un robot (crawler, spider) qui suit tous
les hyperliens et repère les ressources jugées intéressantes
L'indexation : consiste à extraire et à enregistrer dans une base (sous la forme d’un
gigantesque index) les mots considérés comme significatifs de chaque ressource repérée
permet au moteur de retrouver rapidement où se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides de sens (« de », « le »…)
La recherche : correspond à la partie requête du moteur, restitue les résultats. Un algorithme est
appliqué afin de présenter les résultats des recherches par ordre de pertinence
L'algorithme tient généralement compte du contexte du mot-clé (titre, paragraphe, hyperlien...) et de la ressource elle-même (ressources liées, popularité du site...)
Bibliothèque Michel Serres : 4 mars 2008
Moteurs de recherche (4/4)
Inconvénients : Sélection automatique de l’information Hétérogénéité des sources, des formats Bruit documentaire, pertinence variable, publicités Fonctionnalités variables selon les moteurs (utiliser les supports/aides)
Avantages : Richesse de l’interrogation, recherche en texte intégral Plus d'exhaustivité, mise à jour plus rapide Rapidité, immédiateté
A utiliser pour : Une première approche Effectuer des recherches complexes (requêtes construites) Repérer des sites récents
Bibliothèque Michel Serres : 4 mars 2008
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Métamoteurs de recherche (1/2)
Permettent d’effectuer une requête dans plusieurs moteurs de recherche à la fois
Ils sont de deux types:
Ceux qui intègrent et fusionnent les résultats obtenus, éliminent les doublons et classent les résultats par ordre de pertinence ou par catégorie
Ex : Ixquick
Ceux qui donnent les résultats en listes séparées selon le moteur interrogé
Ex : GoshMe (spécialisé dans la recherche sur le web invisible)
Bibliothèque Michel Serres : 4 mars 2008
Métamoteurs de recherche (2/2)
Valeur ajoutée : ajouts de fonctionnalités innovantes (affichage et tri des résultats, sélection en amont…) KartOO fournit une représentation cartographique des résultats de la
recherche
Avantages : gain de temps et élargissement du champ de recherche
Inconvénients : pas de syntaxe commune, impossible d’utiliser les fonctionnalités avancées des moteurs de recherche
A utiliser pour : Débroussailler rapidement un sujet Repérer les outils qui répondent le mieux à un sujet
Bibliothèque Michel Serres : 4 mars 2008
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Et bien d’autres outils…
Bibliothèque Michel Serres : 4 mars 2008
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Remplacer ce texte-ci par le votre si vous souhaitez utiliser la police Arial.
Bibliothèque Michel Serres :: 12 décembre 2007
Pour aller plus loin
Andrieu O. Abondance, "Le" site sur l'actualité des annuaires et des moteurs de recherche, http://www.abondance.com/
Doc’Info. SearchEngines Matrix, comparer les fonctionnalités des différents moteurs de recherche. http://search.docinfos.com/
Doc’INSA. Sentiers d'Accès et des Pistes de Recherche d'Informations Scientifiques et Techniques sur Internet, (maj 2007) http://docinsa.insa-lyon.fr/sapristi/
Formist, Ressources Electroniques Pour les Etudiants, la Recherche et l’Enseignement (maj 2007) http://repere.enssib.fr
Lardy J.P. Recherche d'Information sur l'Internet, Urfist de Lyon, (maj 2002) http://urfist.univ-lyon1.fr/risi/risi.htm
Serres, A. Panorama de la recherche d'information sur Internet, Urfist de Bretagne et Pays de Loire, (maj 2004) http://www.uhb.fr/urfist/Supports/EvolRechinfo/Rechinfo2_cadre.htm
Serres, A. Recherche d’information sur Internet : où en sommes-nous, où allons-nous ? SavoirCDI, juin 2004 http://savoirscdi.cndp.fr/CulturePro/actualisation/Serres/Serres.htm
Bibliothèque Michel Serres : 4 mars 2008