Découvrir et exploiter le web invisible pour la veille ... ?· veille stratégique Accédez à des…

  • View
    215

  • Download
    0

Embed Size (px)

Transcript

  • w h i t e p a p e r

    b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

    Dcouvrir et exploiter le web invisible pour la veille stratgiqueAccdez des milliers de ressources caches de haute qualit

  • b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

    AvertissementCe document a t ralis par la socit Digimind.

    Le contenu de ce document est protg par le droit dauteur. Son contenu est la proprit de Digimind et de ses auteurs respectifs. Il peut tre reproduit en partie

    sous forme dextraits la condition expresse de citer Digimind comme auteur et dindiquer ladresse http://www.digimind.com. Pour toute information compl-

    mentaire, vous pouvez contacter Digimind par mail ladresse contact@digimind.com ou par tlphone au 01 53 34 08 08.

    Digimind, mai 2008.

  • digimind Whitepaper - Dcouvrir et exploiter le web invisible pour la veille stratgique | page digimind - tous droits rservs

    SommaireLe weB iNViSiBLe : CONCeptS et DeFiNitiON .......................................................05

    Linternet nest pas le web .......................................................................................................................05

    Le Web Visible ...................................................................................................................................................05

    Le Web Invisible : Dfinition et structure ....................................................................................05

    Un Web Invisible, Cach ou Profond ?..........................................................................................09

    CaraCteriStiQUeS DU weB iNViSiBLe : taiLLe et QUaLite ...............10

    La taille du web visible et invisible : estimations ..................................................................10

    Contenu et qualit du web invisible ............................................................................................12

    COMMeNt iDeNtiFier DeS SiteS DU weB iNViSiBLe.....................................15

    Identifier des sources via les rpertoires et annuaires spcialiss .........................15

    Rechercher des ressources spcialises via votre requte ..........................................23

    Exemple de ressources du Web Invisible ...................................................................................24

    DiGiMiND et La VeiLLe SUr Le weB iNViSiBLe .....................................................26

    Les spcificits dune veille automatise sur le Web Invisible ..................................26

    Comparatif des principaux outils de recherche / surveillance du web

    invisible ..................................................................................................................................................................30

    Les avantages de lapproche de Digimind pour la surveillance du Web

    Invisible ..................................................................................................................................................................30

    a prOpOS DeS aUteUrS ................................................................................................................32

    Digimind Consulting ..................................................................................................................................32

    Christophe ASSELIN .....................................................................................................................................32

    NOteS .............................................................................................................................................................33

  • b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

    Pour rechercher des informations et effectuer votre veille sur le web, lutilisation des seuls moteurs et annuaires gnralistes vous privera de lidentifica-

    tion de centaines de milliers de sources. Pourquoi ?

    Parce que des moteurs comme Google, MSN ou Yahoo! Search1 ou des rpertoires tels que Yahoo! Directory2 ne vous donnent accs qu une petite

    partie (infrieure 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas daccder une zone immense du web,

    le Web Invisible, espace beaucoup plus important que le web visible.

    Lors dune navigation en Antarctique pour prlever des chantillons de glace sur des icebergs, si vous vous limitez leur partie merge, vous vous

    privez de la surface immerge, en moyenne 50 fois plus importante.

    Sur le web, cest la mme chose ! Se contenter du web visible pour votre veille revient ne pas explorer une zone invisible environ 500 fois plus

    volumineuse, comportant des centaines de milliers de ressources de grande valeur.

    Les ressources du Web Invisible sont en effet en moyenne de plus grande qualit, plus pertinentes que celles du web de surface. Pourquoi ? Parce quelles

    sont labores ou valides par des experts, faisant autorit dans leurs domaines.

    Ce document vous prsente le concept de Web Invisible ainsi que ses caractristiques. Par ailleurs, il vous explique comment trouver des sites apparte-

    nant ce web profond.

    Enfin, il vous montre pourquoi lapproche choisie par Digimind, travers ses nouvelles technologies et son service conseil, vous permet de mettre en

    uvre un vritable processus de veille industrielle sur les ressources du Web Invisible.

  • digimind Whitepaper - Dcouvrir et exploiter le web invisible pour la veille stratgique | page digimind - tous droits rservs

    Le Web Invisible : concepts et dfinition Pourquoi un web invisible ?

    Pour comprendre le web invisible, Il convient dabord de rappeler ce

    que sont le web et sa zone visible.

    linternet nest pas le Web Il existe souvent une confusion et un amalgame smantique entre le

    web et linternet. Ce sont pourtant 2 concepts diffrents. Linternet, ou

    Net, est un rseau informatique mondial constitu dun ensemble de

    rseaux nationaux, rgionaux et privs, interconnects entre eux (INTER-

    connected NETworks). Il relie des ressources de tlcommunication et

    des ordinateurs serveurs et clients.

    Sur ce rseau, vous pouvez accder un certain nombre de services via

    des protocoles de communication spcifiques :

    - le World Wide Web (protocole http://www)

    - le Mail (smtp)

    - Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med.

    oncology

    - le P2P (via des logiciels clients).

    et galement le FTP, Gopher,

    le Web Visible

    Pour apprhender la notion de Web Visible, il est ncessaire de com-

    prendre le fonctionnement dun moteur de recherche.

    Un moteur de recherche aspire puis indexe des pages web. Pour ce

    faire, ses robots (ou spider) vont parcourir les pages web en naviguant

    de liens en liens, et passer ainsi dune page une autre. Ce robot va

    archiver sur les serveurs du moteur une version de chaque page web

    rencontre.

    Ainsi, Google dispose de plus de 10 000 serveurs rpartis sur plusieurs

    tats (Californie, Irlande, Suisse) et installs dans des salles ddies.

    Ces serveurs connects entre eux hbergent notamment les milliards

    de pages web aspires.

    Cette version archive des pages au moment du passage du robot est

    dailleurs disponible via la fonction Cache disponible sur certains mo-

    teurs comme Google, Yahoo!, Clusty ou Gigablast (copies dcran ci-des-

    sous).

    Lors dune recherche sur un moteur, linternaute lance une requte sur

    les bases de donnes de ces serveurs.

    le Web inVisible : deFinition et strUCtUre

    Le Web Invisible est constitu des documents web mal ou non indexs

    par les moteurs de recherche gnralistes conventionnels.

    les fonctions Cache du moteur Yahoo!

  • b o s t o n - l o n d o n - p a r i s - g r e n o b l e - r a b a t w w w . d i g i m i n d . f r

    En effet, le fonctionnement des moteurs pour aspirer le web implique

    que, dune part, les pages soient bien lies entre elles via les liens

    hypertexte (http://) quelles contiennent et que, dautre part, elles

    soient identifiables par les robots du moteur. Or dans

    certains cas, ce parcours de liens en liens et cette

    identification de pages est difficile, voire impossible.

    Une partie du web est en effet peu ou non accessible

    aux moteurs de recherche pour plusieurs raisons :

    1- Les documents ou bases de donnes sont trop

    volumineux pour tre entirement indexs.

    Prenons lexemple de lIMDB3 . LInternet Movie

    Database, une base de donne en libre accs

    consacre au cinma rpertorie plus de 7 millions de pages descriptives

    consacres aux films et acteurs, reprsentant chacune une page web.

    Soit plus de 7 millions de pages. Les moteurs conventionnels nindexent

    pas la totalit de ce contenu (son indexation varie entre 5 et 60 % selon

    les moteurs). Cest aussi le cas de plusieurs milliers de bases de donnes

    professionnelles en ligne comme PubMed, certaines ntant pas

    indexes du tout. Dautre part, les moteurs nindexent

    pas la totalit du contenu dune page lorsque celle-ci

    est trs volumineuse : Google et Yahoo! archivent les

    pages dans une limite de 500k et 505k.

    2- les pages sont protges par lauteur (balise

    meta qui stoppe le robot des moteurs)

    Certains sites sont protgs par leur crateur ou

    gestionnaire (webmaster), qui, grce un fichier