37
Sophie Derrot Dépôt légal numérique Bibliothèque nationale de France Mémoires numériques Publics, ressources et bibliothèques en mutation Journée d’étude Vendredi 10 octobre 2014

Sophie Derrot Dépôt légal numérique Bibliothèque ...mediadix.parisnanterre.fr/brochure/documents/4-Derrot_Mediadix... · domaine, architecture d’un site) Démarche volontaire

  • Upload
    ledung

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Sophie DerrotDépôt légal numérique

Bibliothèque nationale de France

Mémoires numériquesPublics, ressources et bibliothèques en mutation

Journée d’étudeVendredi 10 octobre 2014

Le dépôt légal de l’internet

Cadres juridique et organisationnel

Une institution faite pour le temps long

Attachée aux supports des publications

Loi de 2006, inscrite dans le Code du patrimoine

Une obligation légale

Le périmètre concerné

Deux institutions dépositaires : la BnF et l’INA

S’applique aux « signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique »

Des modifications fondamentales par rapport au dépôt légal traditionnel

Qui fait quoi à la BnF ?

120 bibliothécaires spécialistes dans les départements

Des ingénieurs et développeurs du département des Systèmes d'information

6 personnes dans le service du Dépôt légal numérique

Au niveau national

Bibliothèques de dépôt légal imprimeur en région

Associations

Chercheurs et laboratoires

Au niveau international :

Des bibliothèques nationales ou universitaires

D’autres institutions patrimoniales (TNA, INA)

Des fondations à but non lucratif (Internet Archive)

Des entreprises (Hanzo, OIA)

Des partenaires externes

Une archive de l’instantanéité sur le temps long

Ça meurt vite, un site web ?

Oui !

Défaillances de support (machines, logiciels…)

Défaillances d’adressage (nom de domaine, architecture d’un site)

Démarche volontaire

70 robots de collecte

Qui parcourent le web à partir d’une liste d’adresses URL « graines »

et copient les éléments qu’ils trouvent et qui font partie du périmètre de la collecte.

Collecte des données

Les documents entrent par deux filières :

des échantillons annuels du domaine français depuis 2004 → la collecte large

des archives plus complètes et plus régulières d’un nombre limité de sites repérés par les bibliothécaires → les collectes ciblées

Les filières d’entrée des archives du web

Des collections qui reflètent les spécificités de l’internet…

… Mais qui se placent également dans la continuité des autres collections conservées

La richesse de l’archive

La complémentarité avec les collections traditionnelles

Des collections spécifiques à l’internet

Des sites de référence…

… des sites officiels…

… des sites d’actualité…

Des sites liés à un événement…

…ou liés à un corpus

Le Dépôt légal concerne tous les formats de

publications qui sont mis en ligne : PDF

Vidéos

Fichiers audios

Images

Textes

Contenus flash

Et bien d’autres !

Ainsi que tous les types de documents

Une archive aux formatstrès divers

Les rapports d’entreprises…

(PDF)

… l’édition en ligne…

(Flash)

dont les livresnumériques

(EPUB)

… les contenus multimédias…

… les profils publics

Les défis du web

La masse

Des contenus inaccessibles ou introuvables

Le trop-plein

Faut-il respecter le protocole robots.txt?

Le web de l’instantané

Les contenus payants et soumis à identification

Presse abonnés et livres numériques

Conserver et communiquer des archives du web

Des acquisitions rétrospectives de 1996 à 2005 auprès d’Internet Archive

Des collectes menées en interne depuis 2010

Historique de la constitution des archives

Les archives de l’internet représentent (janvier 2014)

21,2 milliards de fichiers,

soit 470 To de données.

Conservation des données

Les données sont stockées sur des disques durs pour

l’accès…

… et dans le Système d’archivage de la BnF

(SPAR) pour une conservation pérenne

Sur accréditation, selon les mêmes principes que ceux appliqués aux autres collections de dépôt légal

Dans toutes espaces de niveau Recherche (de tous les sites de la BnF)

Depuis septembre 2014, consultation ouverte aux BDLI

Une interface dédiée pour accéder aux collections sous leur forme d’origine

Consultation des collections

Les parcours guidés

Des chercheurs travaillent sur des corpus définis (élections, jeux olympiques, presse)

Des actions pédagogiques

Une mise en valeur comme objet patrimonial : l’exposition « La Presse à la Une » (2012)

Des modes de valorisation divers

Les archives et le chercheur

Citer l’archive comme source : le permalien

http://archivesinternet.bnf.fr/20120515123705/http://www.villeschinoises.com/site/index.php/tianditu-le-google-maps-chinois/

L’archive comme objet de recherche:

Data mining, Link mining

Encore des usages à explorer qui nécessitent souvent que le chercheur construise lui-même ses propres outils logiciels

Merci de votre attention!

@DLWebBnF

[email protected]