17
Domaine B2 B2 : Rechercher l'information Version du 11 octobre 2009 KARINE SILINI UNIVERSITÉ DU LITTORAL CÔTE D'OPALE SUPPORT DE COURS EN LIBRE DIFFUSION

Domaine B2 B2 : Rechercher l'informationdata.over-blog-kiwi.com/0/17/93/78/201302/ob_d1f85c2d9a989cc4e... · Le web invisible ... Il existe deux méthodes différentes pour rechercher

  • Upload
    volien

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Dom

aine

B2

B2 : Rechercher l'information

Version du 11 octobre 2009

KARINE SILINIUNIVERSITÉ DU LITTORAL CÔTE D'OPALE

SUPPORT DE COURS EN LIBRE DIFFUSION

Table des matières

B2 : Rechercher l'information 5

B2.1 : Distinguer les différents types d'outils de recherche..........................5 1. Le fonctionnement du Web....................................................................5 2. La mise en place d'un site.....................................................................8 3. Les outils de recherche.......................................................................11

B2.2 : Formaliser les requêtes de recherche............................................14 1. Le web invisible.................................................................................14 2. La recherche avancée.........................................................................14 3. Qu'avez-vous retenu ?........................................................................15

B2.3 : Récupérer et savoir utiliser les informations...................................15 1. La fiabilité.........................................................................................15 2. La récupération sur le Web..................................................................16 3. L'utilisation.......................................................................................16 4. Qu'avez-vous retenu ?........................................................................17

3

- B2 : Rechercherl'information

. B2.1 : Distinguer les différents types d'outils de recherche

1. Le fonctionnement du Web

L'hypertexte

Définition : Un système hypertexteUn système hypertexte est un système contenant des documents liés entre eux par des liens hypertextes (ou hyperliens).Lorsque ces documents sont audiovisuels, on parle de documents hypermédias.

Une page web comme celle-ci1 est un document hypermédia contenant du texte, des images et des hyperliens vers d'autres pages.

Définition : Le langage HTMLLe langage HTML (HyperText Markup Language) est un langage de balisage permettant d'écrire de l'hypertexte.

Les pages web sont écrites en HTML.

Image 1 : Code HTML d'une page web

1 - http://c2i.univ-littoral.fr/site/

5

Le site Web

Définition : Une page WebUne page Web est un document hypertexte écrit en langage HTML.Elle s'affiche à l'aide d'un navigateur web et peut contenir du texte, des images, du son, ... et des liens hypertextes vers d'autres documents.

Définition : Un site WebUn site Web est un ensemble de pages web reliées entre elles par des hyperliens.

Voici un exemple de site Web composé de 4 pages reliées entre elles.Pour voir le site, suivre ce lien2

Le serveur Web

Définition : Un serveur webUn serveur web est un ordinateur hôte qui contient des pages web et les met à la disposition du net.

Message "Impossible d'afficher la page"Si lors de votre navigation, vous obtenez le message «impossible d'afficher la page», réactualiser le chargement de la page.Si ce message persiste, c'est que la page web n'est plus accessible :

soit la page n'existe plus soit le serveur web est éteint ou déconnecté d'Internet

2 - http://c2i.univ-littoral.fr/site

Image 2 : Serveur web

6

B2 : Rechercher l'information

Le World Wide Web

Définition : Le World Wide WebLes liens hypertextes des pages web peuvent référencer des pages du même ordinateur ou des pages de serveurs web distants. On peut ainsi parcourir le monde en quelques clics. C'est ce que l'on appelle surfer sur la toile.Cet ensemble de liens qui parcourent la planète peut être comparé à une toile d'araignée mondiale : c'est le World Wide Web ou www.

Temps de téléchargement d'une page webQuand vous téléchargez une page pour la première fois, le temps de téléchargement dépend de la taille des objets présents sur la page (images, sons, ...).Lors de votre prochaine visite sur cette page, l'affichage sera beaucoup plus rapide car un certain nombre de fichiers sont temporairement conservés sur votre disque.

La mise à jour des sites

Définition Il existe 2 types de site web :

Les sites statiques sont constitués de pages web dont le contenu est constant sauf si le concepteur du site fait une modification

Les sites dynamiques sont constitués de pages dont le contenu dépend d'une base de données qui peut se mettre à jour automatiquement

Exemple d'un site statique

Ce site3 est un site statique.Les informations qu'il contient ont été placé dans les pages par le webmaster.Attention, un site statique peut avoir des animations !

Image 3 : La toile

7

B2 : Rechercher l'information

Exemple d'un site dynamique

Un site de réservation en ligne comme http://www.voyages-sncf.com4 est un site dynamique. Dès que vous avez validé votre réservation, cette place n'est plus disponible à la vente !

Qu'avez-vous retenu ?Que signifie www ?

Habituellement appelée la en français, c'est l'ensemble des liens qui relient les web entre elles.

Ces pages sont hébergées sur des qui doivent être en permanence allumés et connectés à Internet pour être accessibles.

Certains sites affichent des informations provenant de bases de données : ce sont des sites .

2. La mise en place d'un site

Le principe

Pour créer un site web, il faut procéder en deux étapes : il faut d'abord créer et tester le site sur votre ordinateur c'est à dire

concevoir les pages web, les relier entre elles et tester la navigation Puis, il faut le publier chez un hébergeur c'est à dire recopier le site sur

un ordinateur hôte à l'aide d'un logiciel client de transfert ftp.

3 - http://c2i.univ-littoral.fr/site4 - http://www.voyages-sncf.com

Image 4 : La publication

8

B2 : Rechercher l'information

La conception du site

En général, un site web est composé de : plusieurs pages web reliées entre elles d'images de documents (pdf, ...) de feuilles de style, ...

Les fichiers sont organisés ainsi : En général, le fichier de la première page du

site s'appelle «index» Les images sont des fichiers indépendants qui

sont affichées en même temps que la page Web

Une même image peut être présente sur plusieurs pages Web

La publication

Vous devez disposer d'un espace de publication chez un hébergeur : Votre entreprise dispose peut-être de serveurs Web Votre FAI peut vous proposer ce service (Orange, Free, ...) Vous pouvez prendre un abonnement chez un hébergeur spécialisé (Amen,

OVH, ...) dont le coût est minime (à partir de 10 € par an) Vous pouvez vous inscrire chez un hébergeur gratuit mais attention à la

publicité ...Dès que vous possédez un compte chez un hébergeur, celui-ci vous communique des identifiants de connexion : nom du serveur, nom d'utilisateur et mot de passe ...

Vous devez transférer votre site : Il s'agit de recopier votre site complet (tous les fichiers : pages web, images, ...) vers votre espace de publication à l'aide d'un logiciel client de transfert FTPDès que la connexion est établie, il suffit de faire glisser les fichiers vers le site distant.Exemple : FileZilla est un logiciel client FTP libre

Le nom de domaine

Une solution pour accéder à un site web, est d'indiquer l'adresse IP du serveur.Par exemple : http://213.41.30.169/5 est l'adresse du serveur Web de la CNIL. Mais ce n'est pas très facile à retenir !

5 - http://213.41.30.169/

9

B2 : Rechercher l'information

Définition : Un nom de domainePour faciliter l'accès aux sites Web, on peut «louer» un nom de domaine.Il s'agit d'un nom composé de deux parties : un nom d'usage et un suffixe caractérisant la nature du domaine.

Lorsqu'un internaute saisit un nom de domaine, le navigateur envoie d'abord une requête à un serveur DNS (Domain Name System) qui contient la liste des noms de domaines associés à leur adresse IP avant de pouvoir demander le téléchargement de la page.Exemples de noms de domaines :

«wikipedia.org» : le suffixe org pour des projets communautaires «commentcamarche.net» : le suffixe net pour des sites relatifs à l'internet «microsoft.com» : le suffixe com pour des sites à vocation commerciale «univ-littoral.fr» : le suffixe fr pour les sites français

L'adresse Web

Les sous-domainesIl est possible de déclarer des sous-domaines pour une branche spécifique du domaine.Le domaine principal est caractérisé par le préfixe «www».

www.wikipedia.org6 est le domaine principal de wikipediafr.wikipedia.org7 est le sous-domaine pour la version française.

www.univ-littoral.fr8 est le domaine principal de l'ULCOc2i.univ-littoral.fr9 est le sous-domaine pour le C2i à l'ULCO.portail.univ-littoral10 est le sous-domaine pour le portail de l'ULCO

Définition : Une adresse WebUne adresse Web identifie de façon unique une page du Web. Elle est composée :

du protocole (http, https) suivi de «://» du nom de domaine (précédé éventuellement d'un nom de sous-domaine) et éventuellement de la désignation d'une page web particulière (chemin

d'accès + nom de la page). Par défaut, c'est la page «index» qui sera chargée ...

6 - http://www.wikipedia.org7 - http://fr.wikipedia.org/8 - http://www.univ-littoral.fr/9 - http://c2i.univ-littoral.fr/10 - http://portail.univ-littoral.fr/

Image 5 : Nom de domaine

10

B2 : Rechercher l'information

Exemples d'adresses Web : http://www.univ-littoral.fr http://www.univ-littoral.fr/form/formation.htm http://c2i.univ-littoral.fr/site https://opale.univ-littoral.fr

L'URL

Définition : URLD'une façon plus générale, une information du web est identifiée de façon unique pour son URL (Uniform Resource Locator) composée :

du protocole (http, ftp, file, mailto, ...) suivi de «://» de la localisation de la ressource (nom de domaine, adresse IP, ...) du nom de la ressource (chemin d'accès et nom du fichier, ...)

Exemples d'URL : http://c2i.univ-

littoral.fr/documents/modalites2009.pdf ftp://ftp.microsoft.com/ mailto://[email protected]

Qu'avez-vous retenu ?Un site web est composé de web reliées entre elles par des liens hypertextes. Elles sont écrites en langage .

Une fois le site testé sur votre ordinateur, vous devrez le transférer chez un à l'aide d'un logiciel client de transfert .

Vous ne devrez pas seulement transférer les pages web de votre site, mais également les des images référencées.

Pour consulter un site web, il faut saisir son Web dans le navigateur. Si celle-ci contient un nom de , un serveur sera consulté pour récupérer l'adresse du serveur Web correspondant.

D'une façon générale, toute ressource du Web est identifiée par son .

3. Les outils de recherche

Les deux méthodes

11

B2 : Rechercher l'information

La toile est l'ensemble de toutes les pages web mises à disposition du net par des personnes du monde entier.Ces pages peuvent être mises à jour régulièrement.C'est une immense source d'informations à quelques clics de chez vous. Mais comment trouver la bonne page dans cette gigantesque toile d'araignée mondiale ?

Définition : La recherche sur le webIl existe deux méthodes différentes pour rechercher de l'information sur le web :

en interrogeant un moteur de recherche en consultant un annuaire de recherche

Les moteurs de recherche

Définition : Moteur de rechercheUn moteur de recherche est un site web dont la principale fonctionnalité est la recherche de ressources par mots clés.Il fonctionne ainsi :

1. Il explore régulièrement la toile à l'aide de robots qui parcourent les sites de façon automatique (sans intervention humaine) et suivent tous les liens rencontrés

2. Il indexe les pages visitées en rangeant les mots significatifs de la page dans une base de données

3. Il répond à la requête d'un internaute en affichant par ordre de pertinence les pages indexées dans sa base de données qui correspondent le mieux à la requête

Concernant les requêtes

Chaque moteur a ses propres règles pour établir la pertinence d'une page par rapport à une requête. Mais on peut quand même citer ces quelques règles :

Les mots clés doivent être voisins sur la page Les mots clés non significatifs (le, la une,

à, ...) sont exclus de la recherchePour optimiser l'indexation des pages web, les concepteurs de sites placent des mots clés dans l'en-tête de leur code HTML. Ces informations ne sont pas visibles mais guident les moteurs de recherche dans leur indexation.

Les annuaires de recherche

Définition : Annuaire de rechercheUn annuaire de recherche est un site web proposant un référencement de pages web classées par thème de façon arborescente.La mise à jour de cet annuaire est faite manuellement par des ressources humaines.

12

B2 : Rechercher l'information

Un annuaire recense moins de pages qu'un moteur de recherche automatisé mais elles sont théoriquement plus pertinentes.

Les autres outils

On peut également utiliser : Un métamoteur : site web qui interroge

plusieurs moteurs de recherche et présente une liste fusionnée des résultats.

Un moteur de recherche qui présente ses résultats sous forme de carte heuristique

...

Image 7 : Wikimindmap

Image 6 : Annuaire de recherche

13

B2 : Rechercher l'information

Qu'avez-vous retenu ?Pour trouver une information sur le web, on peut par exemple utiliser Google qui est un de recherche connu. Vous indiquez une liste de mots et il recherche dans ses bases de données les pages qui ont été visitées automatiquement par ses .

Si vous ne savez pas sur quels mots faire une recherche, vous pouvez parcourir l'arborescence d'un de recherche qui classe ses pages par thèmes.

Pour avoir le maximum de résultats, vous pourrez avoir recours à un qui consulte simultanément plusieurs moteurs de recherche.

. B2.2 : Formaliser les requêtes de recherche

1. Le web invisible

Tout est-il indexé et accessible via les moteurs de recherche classique ?Non. Les moteurs de recherche classiques indexent des pages en parcourant les hyperliens. Certaines ressources ne peuvent pas être atteintes de cette façon. C'est le cas des :

Pages dynamiques qui sont générées en réponse à un formulaire. Pages non pointées par des hyperliens Pages à accès limité, ...

On estime que moins de 10% des ressources du web sont accessibles par les moteurs de recherche classique !

Définition : Le Web invisible ou Web profondLe Web invisible est la partie du web accessible en ligne mais non indexée par les moteurs de recherche classiques.

Le Web invisible comprend entre autres les bases de données, les bibliothèques en ligne, ...On peut y accéder en interrogeant des catalogues spécifiques ...

Exemple SUDOC (Système Universitaire de Documentation) est le catalogue collectif des Universités françaises.

2. La recherche avancée

Concernant la partie du Web indexée par les moteurs de recherche classiques, il est possible de formuler des requêtes spécifiques pour affiner la recherche.

14

B2 : Rechercher l'information

La recherche par mots clés

En général, quand vous indiquez plusieurs mots clés pour votre recherche :

il exclut les mots non significatifs (le, la, une, à, ...)

il recherche les pages contenant tous les mots clés relativement proches sur la page.

La recherche avancée

Il est possible d'affiner la recherche : Soit en passant par la recherche avancée ... Soit en personnalisant votre requête :

-> en mettant un - devant les mots à exclure-> en mettant les expressions exactes entre guillemets-> en proposant une liste de mots au choix séparés par OR

3. Qu'avez-vous retenu ?

Une petite recherche sur le Web ? Pas de problème ...

On tape quelques mots dans Google, et c'est parti ...

Pour affiner sa recherche, on peut même passer par la recherche .

Mais tout le Web est-il accessible ainsi ?

, près de 90% des ressources accessibles en ligne font partie du Web ou profond. Elles ne sont pas référencées par les moteurs de classiques.

Certaines ressources comme celles des bibliothèques sont répertoriées dans des .

. B2.3 : Récupérer et savoir utiliser les informations

1. La fiabilité

Vous venez de trouver une information sur le Web. Est-elle fiable ?Il est difficile de répondre avec certitude mais on peut se poser quelques questions qui peuvent aider à se faire une opinion ...

Concernant la ressource et son auteur L'auteur est-il identifié ?

Connaît-on sa fonction ou ses compétences ? L'article est-il daté ?

Est-il rédigé correctement ?

15

B2 : Rechercher l'information

Concernant le site S'agit-il d'un site officiel ?

Une organisation identifiée, une université, un site du gouvernement, un blog, des pages perso, ...

Peut-on identifier à qui appartient le nom de domaine ?En consultant le Whois ...

Le site semble-t-il de qualité et à jour ?Y- a-t-il des liens inactifs, des publicités, ...

Remarque : WikipédiaWikipédia est une encyclopédie libre. Tout le monde peut y contribuer. Est-ce une source d'information fiable ?En règle générale, on peut dire que l'information y est fiable. Ayant de nombreux lecteurs pouvant intervenir, une information fausse ne devrait pas rester longtemps en ligne ...

2. La récupération sur le Web

Pour récupérer simplement du texte : Faire un copier/coller

Pour récupérer une image : Faire un clic droit sur l'image et choisir "Enregistrer l'image sous ..."

Pour récupérer un fichier pointé : Faire un clic droit sur le lien et choisir "Enregistrer la cible du lien sous ..."

Pour récupérer une page web : Choisir la commande "Enregistrer sous" dans le navigateur

Si vous précisez "Page Web complète", il enregistrera la page web sur votre disque et créera un dossier contenant les images ( et autres ressources éventuelles de la page)

Si vous précisez "Page Web, HTML uniquement", il enregistrera la page web mais vous n'aurez pas les images ...

Dans tous les cas, vous n'aurez pas les autres pages du site ...

3. L'utilisation

Attention Ce n'est pas parce que vous avez réussi à récupérer une ressource sur la toile que vous pouvez l'exploiter !

Vous avez trouvé un site web très intéressant !Vous avez réussi à en récupérer un texte, un schéma, une image, une notice, ...

16

B2 : Rechercher l'information

Que pouvez-vous en faire ? S'il s'agit d'une ressource libre, vous pouvez l'utiliser en citant l'auteur. Sinon, vous devez demander l'autorisation à l'auteur pour l'utiliser.

Remarque : Comment citer un document ?Il y a des règles à respecter pour citer un document. Elles vous seront présentées dans le module de méthodologie documentaire ...

4. Qu'avez-vous retenu ?

Vous avez trouvé une page Web intéressante et vous voulez l'enregistrer sur votre disque.

Si vous voulez récupérer les images avec, il faut l'enregistrer en tant que page web .

Si vous voulez simplement récupérer une image ou un pdf en téléchargement, il suffit de faire apparaître le menu et de choisir l'action adéquate.

Mais attention ! Tout ce que vous récupérez sur la toile ne peut pas forcément être exploiter librement.

Dans tous les cas, vous devez au minimum citer l' .

17

B2 : Rechercher l'information