44
Comment numériser de la presse ancienne Journée d’études « Numériser les publications en série » CRL Midi-Pyrénnées 6 décembre 2012 Catherine Angevelle Mocellin Bibliothèque municipale à vocation régionale d’Orléans [email protected]

Comment numériser de la presse ancienne Journée … · • Principes de la numérisation ... • Le choix de la définition et de la résolution est lié aux dimensions que devra

  • Upload
    votu

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Comment numériser de la presse ancienne

Journée d’études « Numériser les publications en sér ie »

CRL Midi-Pyrénnées

6 décembre 2012

Catherine Angevelle Mocellin

Bibliothèque municipale à vocation régionaled’Orléans

[email protected]

6/12/12 2

Bibliothèque(s) physique et numérique

Sélection

Acquisition

Catalogage

Équipement

Magasinage

Conservation

Mise à disposition

Valorisation

Sélection

Capture/production

Identification, indexation

Empaquetage

Gestion

Préservation (données, accès)

Mise en ligne/consultation

Valorisation

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 3

Capture de l’image• Principes de la numérisation

À partir des capteurs de lumière de l’appareil, transformer la représentation analogique d’un document en représentation codée en mode binaire (0, 1)

– La numérisation est basée sur l’analyse de l’image : elle est fictivement découpée en éléments de surface (« picture elements », ou pixels, ou points)

– Cette analyse consiste à mesurer point par point la quantité de lumière transmise ou réfléchie– Ces capteurs (cellules photoélectriques) transforment l’énergie lumineuse de chaque point en

énergie électrique– Puis un convertisseur transforme ces impulsions électriques en données numériques

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/2 4

Structure• L’image numérique est donc une juxtaposition d’éléments d’images (pixels)

disposés en rangées et en colonnes dont la valeur est générée par les photosites

• La luminosité du pixel est quantifiée par une valeur numérique

• L’image initiale est ainsi transformée en un ensemble de nombres sur lequel un ordinateur peut effectuer des traitements à fins d’exploitation

• Profondeur d’acquisition : nombre de couleurs d’un pixel (dynamique de l’image)– Mode bitonal (noir et blanc) : codage sur 1 bit, 21 soit 2 valeurs possibles pour chaque

pixel : 0 et 1

– Mode niveaux de gris : codage sur 8 bits = 28, soit 256 valeurs de gris

– Mode couleurs : codage de chaque couche sur 8 bits, = 224 = 16,7 millions de couleurs

– Plus le nombre de bits est important, plus le poids informatique de l’image est lourd

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 5

Définition / Résolution / Taille

• Définition : nombre de pixels que contient une image en hauteur et en largeur (= le nombre total de pixels) :

2 048 x 3 072 par ex.

• Résolution : nombre de pixels par mm ou par pouce (un pouce = 2.54 cm) – Unité : point par pouce : ppi ; ou dots per inch : dpi– La résolution exprime une valeur d’échantillonnage– Plus l’échantillonnage est fin plus le niveau de détail capturé est fin

• Le choix de la définition et de la résolution est lié aux dimensions que devra prendre l’image numérique finale selon l’utilisation voulue, et aux caractéristiques du document original

Quelques grandeurs standard :– 72 dpi : diffusion en ligne (Web)– 150 dpi : impression bureautique standard– 300 dpi : substitution et imprimerie à l'échelle originale– 400 dpi : permet de capturer avec un niveau de détails plus fins– 600 dpi : si l’usage et la dimension des motifs ou caractères le justifient

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 6

Définition/Résolution/Taille

• La résolution doit être pertinente et adaptée au type de document et d’utilisation prévu

• La résolution et la profondeur d’acquisition impactent le poids des fichiers (donc les capacités de sauvegarde à prévoir et les modalités de diffusion)

• Tableau des poids de fichier pour 1 page de presse numérisée en niveaux de gris à 300 dpi, sans aucune compression :

poids informatique du fichier, pouvant être différent du poids final de l’image lié au format et à une éventuelle compression.

En Mo (méga-octets) :

835,2

278,4

34,8

A1

417,6

139,2

17,4

A2 A0A3A4A5

Noir et blanc 2,18 4,35 8,7 69,6

Niv. Gris 17.4 34,8 69,6 556,8

Couleur 52,2 104,4 208,8 1670,5

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 7

Noir et blanc / Niveaux de gris

• Privilégier le noir et blanc pour tout support composé exclusivement de noir sur fond blanc

– Imprimés courants

– Dessins, gravures au trait et/ou à hachures délimitées, traits nets sans modelécontinu

• Niveaux de gris pour des documents présentant des demi-teintes– documents contenant des photos, encarts– Lavis, fusain… et tous dessins à modelés continus

– Tous types de photographies

– Documents faiblement contrastés, tachés, dont l’impression est irrégulière, abîmée, et/ou à report d’encre entre les pages

– Documents imprimés contenant un grand nombre de photographies ou d’images à traiter en niveaux de gris

– La presse doit en général être traitée en niveaux d e gris

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 8

Caractéristiques des originaux

• Support :– Nature et fragilité : papier, film,… papier restauré,…support opaque ou

transparent

– Degré d’ouvrabilité (conditionne le matériel à adopter)

– Présentation : dimensions, reliure, feuillets montés sur onglet, dépliants et paperoles, etc

– Microformes : échelle d’agrandissement nécessaire pour visualiser une image àl’échelle 1 en ligne, doublons de vues, recollages, logos, variation de densité…

• Contenu :– Type : photo, texte, graphiques, cartes, etc

– Qualité : graphie, contraste, taches éventuelles, transparence…

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 9

Caractéristiques des originaux

• Plus un document/un fonds est hétérogène plus la numérisation est complexe et coûteuse car nécessite des réglages particuliers

• Numériser des microfilms donne des images de bien moindre qualité que la numérisation à partir des originaux papier

• La presse ancienne originale étant très fragile (grands formats, papier acide, etc), il est souvent indispensable de dérelier pour numériser les pages à plat et de consolider les pages (comblement de lacunes, aplatissement)

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 10

Caractéristiques des originaux et prix à la page

• Caractéristiques des originaux conditionnant les prix– Format : traduire les dimensions en formats normalisés (A4, A2, etc)– Degré d’ouverture : à plat, 90-120 °, moins de 90°

– Exemple : pour le Journal du Loiret, 5 prix au BPU• A plat inférieur à A4• A plat entre A4 et A3• A plat entre A3 et A2• A plat entre A2 et A1• Entre 90 et 120 °

• En cas de reconnaissance du texte (OCR), le prix peut être fortement influencé par le niveau de qualité requis (voir infra)

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 11

Recommandations

Profondeur d’acquisition

Type de documents (transparents et opaques)

Résolution (pour les marchés)

Formats d’archivage / de diffusion

Noir et blanc imprimés, dessins au trait, graphiques 300 dpi (jusqu’à400)

TIFF v6 compression UIT Gr4 / PDF

Niveaux de gris PresseGravures et photos noir et blanc, certains manuscrits et imprimés peu contrastés et/ou très tachés

300 - 400 dpi TIFF v6 non compressé / PNG ou PDF (pour l’OCR, PDF multicouche)

Couleur Documents iconographiques, manuscrits et imprimés de Réserve, documents contenant plusieurs couleurs

< A6 : 400 dpi> A6, petits caractères : 600

TIFF v6 non compressé / PNG ou JPEG

BnF : http://www.bnf.fr/documents/charte_numerisation.pdf

• 300 dpi suffisent amplement pour la presse, quel qu e soit le format• OCR : schéma ALTO (développement conjoint avec LoC)

• SLL : Guide pour la rédaction d’un cahier des charg es de numérisation de la presse,

http://www.culture.gouv.fr/culture/mrt/numerisation/fr/f_04.htmJournée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 12

Quelques recommandations de prise de vue• Fidélité à l’original

– Reproduire au plus près l’original sans l’améliorer, assurer sa lisibilité– Pas de rééchantillonnage après capture (ajout artificiel de pixels)

– Pas de retouche colorimétrique

– Réglages optimisés lors de la prise de vue (éclairage, contraste, marges, etc)– Une page / image, dans son intégralité, sans vue de détail

– Insertion de fonds de couleur neutre pour les projets iconographie

• Traitements post-numérisation– Détourage jusqu’au bord extérieur des pages (recadrage)

– Redressement

– Remise dans l’ordre des images– Ajout de métadonnées et constitution de la table de correspondance

– Ajout d’une mire en niveaux de gris si besoin

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 13

Chaîne et matériels selon les supports

• Scanners de documents opaques– Papier : monographies, périodiques, presse– Iconographie : cartes, plans, estampes, photographies…

– Manuscrits

– Attention aux dimensions, à l’épaisseur, au poids et à la reliure : dérelier ? Porte modèle ajustable sur le scanner ? Quelles manipulations ?

– Les appareils peuvent numériser à plat ou à ouverture réduite (90-120, moins de 120 °sur certains modèles)

• Scanners de documents transparents– Microformes (microfilms, fiches)

– ektas

– Diapositives– Cartes à fenêtres

– Transparents originaux (plaques de verre…)

– Attention au taux de réduction pour la résolution choisie

– Très forte productivité � coûts unitaires moins élevés

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 14

Formats

• Distinction format d’archivage – format de diffusion– Assurer l’indépendance du système de conservation par

rapport aux outils et standards de consultation– Contraintes d’accès (temps d’affichage, droits, etc)– Assurer de bonnes conditions de consultation du document

numérique

• Formats préconisés pour l’archivage– TIFF– JFIF : format pour les images compressées JPEG– PNG

• Choisir des formats ouverts reposant sur des normes et standards, dont les spécifications sont publiques, et indépendants des logiciels, plateformes

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 15

TIFF

• TIFF (Tagged Image File Format)

– Norme ISO 12639:2004

– Format permettant de documenter les images (tags) : dimensions, nombre de couleurs, matériel utilisé, données d’indexation (cote, copyright…)

– Permet de stocker des images de taille importante sans déperdition de qualité et indépendamment des plateformes et des périphériques

– Permet l’usage de plusieurs espaces de couleur

– Très bon pour l’archivage

– Supporte plusieurs algorithmes de compression– Ex. : Centres de service de conservation de l’OCLC

– http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 16

PNG

• Portable Networks Graphics ; ISO/IEC 15948:2004

• Format ouvert et documenté, recommandé par le W3C

• Indépendant de tous droits, licences, matériels et systèmes d’exploitation• Compression sans perte, algorithme non breveté

• Gère plusieurs espaces de couleur

• Supporte images en niveaux de gris et jusqu’à 16 bits par couleur• Gère la transparence

• Supporté par les versions récentes des navigateurs mais encore peu répandu

• Utile pour la diffusion

• Encore peu répandu• Spécifications et informations : http://www.libpng.org

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 17

JPEG 2000

• Ensemble de méthodes de compression avec ou sans perte, et de formats de fichiers

– Compression de meilleure qualité que le JPEG

– Dégradation sélective de certaines zones moins stratégiques de l’image : définition de « régions d’intérêt »

– Génère des « tuiles » de résolution différentes, utiles pour la diffusion

– Nécessite des capacités de stockage moins importantes pour un volume identique en TIFF non compressé

– Métadonnées variées

– Gère la transparence– Ex : BN Norvège : format d’archivage à long terme – à l’étude à la BnF

– http://www.jpeg.org/jpeg2000/index.html

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 18

La compression des images

• Elle permet de réduire la taille des fichiers en supprimant la redondance d’informations : pixels de même valeur ou de valeur proche

– Compression sans perte

– Compression avec perte

• En aucun cas les algorithmes engendrant des pertes irréversibles de données ne doivent être utilisés si l’on veut sauve garder à long terme les images

• Compression JPEG : images en couleur

• Compression UIT Groupe 4 : images en noir et blanc• Tous les formats de fichier ne supportent pas tous les algorithmes de

compression

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 19

Numérisation avec restitution du texte

• On s’intéresse au contenu et aux services

• Il s’agit d’exploiter l’image pour y reconnaître les caractères et pouvoir les restituer lors de la diffusion

• Le contenu très riche mais peu structuré de la presse nécessite un OCR

+ -

- Recherche plein texte, manipulations multiples

-Amélioration du niveau de services : navigabilité, facilité de consultation, annotations…

- La publication en ligne du texte issu de la conversion permet l’accessibilité du contenu pour les personnes handicapées

-Lourdeur (main d’œuvre, conformité à un standard, contrôles, gestion de plusieurs prix…)

- Coût de réalisation pour la haute qualité

-Chaîne et outils de contrôle à développer

- le standard XML ALTO n’est pas gérépar la plupart des gestionnaires de bibliothèque numérique du marché

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 20

Reconnaissance optique des caractères

• Distinction OCR brut et OCR corrigé (« optical character recognition »)

– OCR brut : pas de reprise manuelle sur le texte reconnu– OCR corrigé : reprise manuelle pour atteindre un taux qualité précis

demandé par la maîtrise d’ouvrage, sur 100 %– L’OCR haute qualité est bien plus coûteux que le brut

• Fonctionnement– Automatique : plusieurs logiciels du marché (ABBYY, Omnipage, Readiris

essentiellement)

– 1. Segmentation : • découpage de la page et de chaque bloc de texte en « boîtes », jusqu’au niveau

d’information le plus fin

• Ce découpage est fait à partir des variations de couleur des pixels (identification des zones blanches ou noires)

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 21

Reconnaissance optique des caractères

– 2. Reconnaissance• Identification des coordonnées de chaque boîte en fonction de sa position

dans l’image

• Identification du type de contenu : chaîne de caractères, illustration, tableau• Identification des caractéristiques du contenu : type et taille de la police,

graisse, forme de l’illustration• Identification du texte par comparaison des formes des caractères avec des

outils linguistiques (dictionnaires généraux ou particuliers)

– 3. Qualification de la qualité de reconnaissance : définition du taux de confiance du logiciel dans la reconnaissance du texte par une valeur entre entre 0 et 1)

• 0 : le logiciel n’est pas du tout sûr du résultat

• 1 : le logiciel est tout-à-fait sûr que le texte restitué est bien celui écrit

• Ce taux peut être indiqué pour chaque caractère et chaque boîte contenant du texte

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 22

Reconnaissance optique des caractères

– 4. Une reprise manuelle est nécessaire

• Toujours pour la remise en ordre des blocs de lecture• Lorsqu’il faut atteindre un niveau de qualité spécifié : reprise de la

segmentation, reprise de la reconnaissance

• Indiquer au CCTP– La disposition du texte sur la page (colonnes, sens de lecture…)– Les caractéristiques de la typographie, de l’alphabet, et les éventuelles

évolutions sur la durée de publication– La présence d’informations manuscrites, dans la zone imprimée et/ou les

marges– La présence de zones non textuelles (illustrations, publicités, pages

blanches…)– La présence de tableaux et de graphiques– Voir en particulier la charte de la BnF pour la conversion :

http://www.bnf.fr/pages/infopro/numerisation/pdf/charte_ocr.pdf

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 23

Obstacles pour un bon OCR

• Qualité de l’impression de l’original papier– Courbures et inclinaisons de lignes– caractères déformés, mal imprimés– Report d’encre d’une page à l’autre, papier transparent

• Qualité de la numérisation et des traitements post-numérisation– Image non redressée (toutes les lignes sont de travers)– Netteté insuffisante, flou– Résolution insuffisante :

• Polices de caractères– Trop resserrées, trop irrégulières, caractères trop gras, trop grands : risques de

confusion entre les caractères

– Caractères non latins ou non ISO sont mal reconnus (grec, fraktur, manuscrits,…)Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

6/12/12 24

Reconnaissance optique des caractères

• Structure du texte– Structure en colonne type presse : nécessité de définir un ordre de lecture

– Éléments non textuels imbriqués (graphiques, illustrations…)

• Effort de R&D pour améliorer les outils de reconnaissance pour les ouvrages anciens– Projet IMPACT (Improve acess to text) : financement par l’Union

Européenne

– Partenaires : plusieurs grandes bibliothèques européennes (dont la BnF), des centres de recherche, les sociétés ABBYY et IBM

– Résultats : intégrés dans la dernière version d’ABBYY ; création d’un centre de compétence proposant des outils, des services, des tutoriels : http://www.digitisation.eu

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

25

Reconnaissance optique des caractères

• Restitution : 2 méthodes principales

• Création d’un fichier texte simple, pouvant être intégré dans un PDF avec l’image :– Avantages :

• simplicité de gestion ; • coût inférieur ; • Si création d’un PDF, tous avantages liés à ce format, et possibilité d’affichage

du texte en transparence de l’image

– Inconvénients : perte de toute possibilité d’amélioration ou de correction futures :

• Perte de l’emplacement des zones dans l’image• Perte du taux de confiance dans la reconnaissance

• Création d’un fichier en XML permettant de conserver de manière pérenne toutes les informations

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

26

Reconnaissance optique des caractères : ALTO

• Analyzed Layout and Text Object

• ALTO est un schéma de document XML, mis au point par la bibliothèque du Congrès et utilisé notamment par la BnF et d’autres grandes bibliothèques dans le monde

• http://www.loc.gov/standards/alto/

• Schéma qui détaille les métadonnées techniques permettant de décrire la disposition du texte et les caractéristiques de mise en forme

• Le texte issu de l’OCR est également contenu dans le fichier

• Avantages : format pérenne, permet de nombreuses réutilisations • Inconvénients : encore peu de logiciels de recherche et consultation le

gèrent nativement ; fichiers très lourds et verbeux ; contrôle manuel difficile

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

27

Reconnaissance optique des caractères : ALTO

• Fonctionnement– Segmentation des marges, et de la zone de texte principale (« printspace »)

– Segmentation et reconnaissance de chaque zone en distinguant les zones de texte (paragraphe > ligne > chaîne de caractères > espace) des zones d’illustrations

– Chaque zone est décrite par un ensemble de métadonnées

TopMargin

LeftMargin

PrintSpace

BottomMargin

RightMargin

TextBlockTextLine

SP

String

GraphicalElement

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

28

Granularité et accès à l’information

• Dans l’environnement numérique la manière d’accéder à l’information est différente de celle valable pour le papier :

– Plus riche : le numérique permet de fournir directement des accès profonds au contenu, de démultiplier le type d’accès (plein texte, tables des matières, etc)

– Plus pauvre : la notion de volume physique est relativisée, celle de rangement sur une étagère aussi

• Or les périodiques anciens sont très souvent reliés par semestre ou année, pour des raisons d’archivage

• Pour les périodiques, il faudra définir la granularité du niveau d’accès àl’information : que représente un document numérique ?

– Un fascicule tel que paru ?

– Un article ?– Comment gère-t-on les suppléments ? Les éditions du matin, du soir ? Les index

multivolumes ?

– etc

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

29

Le fichier de récolement

• En général, un document numérique = un fascicule

• Il faut donc faire un récolement précis de chaque volume de presse, permettant de signaler chaque fascicule et son/ses éventuel(s) supplément(s)

• Par ailleurs la presse présente des particularités qu’il peut être utile de signaler

– Numéro manquant– Page lacunaire– Page tronquée au massicot avant reliure– Etc

• Ce récolement permettra au prestataire de – Repérer chaque fascicule et les particularités éventuelles – Créer les documents numériques en tant que tels– Créer pour chaque document numérique un fichier d’identification permettant le

signalement en ligne et la gestion du document numérique à long terme dans le système d’archivage

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

16/10/12 Aspects techniques d’un projet de numérisation Enssib – BU Grenoble

30

Le fichier de récolement : exemple

31

Structuration et informations d’identification

• Numériser n’est pas scannerLa prise de vue déconstruit le document

� Reconstituer le document par des métadonnées descriptives permettant aussi de le conserver à long terme

Structure Bibliographiques Administratives

001.TIF 002.TIF 003.TIF 004.TIF 005.TIF

-Reconstituer la structure de l’original : correspondance page logique/page physique

- identification de pages particulières pour des accès

-Identifier la version numérique

-Associer cette version à la notice de l’original

- Conditions et outils de production, liste et historique des traitements, type de numérisation, nombre de vues …

- droits

- données de livraison

Illustration

p.4

p.3

p.2

Non paginé

Page de titre

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

32

Informations de description externes

• Au préalable, définir les besoins– Pour la recherche, la consultation, la coopération avec d’autres

établissements : connaître le(s) format(s) de fichier d’identification que le logiciel de gestion et de consultation peut gérer

– Pour l’archivage à long terme

� privilégier des formats pérennes se basant sur XML

– Pour le suivi de la production : Excel par exemple

• En fonction de ces besoins, définir le type et le contenu des métadonnées (informations de description)

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

16/10/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées 33

Métadonnées externes

• Transmettre au prestataire les données sous forme de fichiers de récolement et dee fiches d’état physique

– Données bibliographiques – Identifiants des ouvrages, codes-barre…– Caractéristiques physiques– Règles de pagination ou de foliotation– …

• Demander l’ajout d’informations de production et de post-production– Date de numérisation– Appareil(s) et logiciel(s) utilisé(s)– Informations techniques pour chaque image (résolution, profondeur de codage, dimensions

en pixels)– …

• Contrôler la conformité des données, et la conformité des fichiers aux standards requis

6/12/12 34

Métadonnées internes aux images

• Identifier chaque constituant du document numérique pour assurer sa préservation, donc chaque image

• Ces métadonnées sont intégrées lors de la numérisation– Indiquer au prestataire les type et contenu de ces métadonnées

• Différents types :– EXIF :

• métadonnées techniques relatives à la prise de vue• Pas un standard mais bien supporté par les logiciels• Images TIFF et JPEG• www.exif.org

– IPTC/IIM : • métadonnées de type sémantique (titre, auteur…) : • modèle de base pour la création des métadonnées internes dans les images

gérées par Adobe® Photoshop®• Convergence en cours avec XMP, format d’échange créé par Adobe®

Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

25.01.11 35

Nommer les documents d’archive et en ligne

• Définir des règles de nommage des fichiers et des répertoires– Signifiant : fondé par exemple sur la cote des originaux, sur les dates

de publication, etc.

– Non signifiant : numérotation séquentielle par exemple, de 1 à n sur une longueur donnée (n caractères)

– C’est un choix de long terme, impactant tant l’archivage que la diffusion

Signifiant non signifiant (ou opaque)

Avantages - Rapidement compréhensible- Simple à mettre en œuvre- Adapté pour de petits programmes

- Indépendant du plan de classement des originaux- Extensible à de nouveaux documents ou programmes - Adapté pour tous types de programmes

Inconvénients - Peu extensible (rapidement fermé)- Très long en général (programme+cote+sous-cote, etc)- Sa maîtrise par les utilisateurs leur impose de connaître l’organisation du fonds initial

- Les noms doivent suivre une certaine logique - Doit être formalisé et décrit dans un document annexe pour être maîtrisé à long terme

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

36

Organisation de la livraison

• Plus ou moins complexe selon le type de prestation• En général un répertoire par document numérique• Un fichier d’identification par document numérique

Arborescence au document Arborescence à la prestation

Répertoire document JDD19852

Répertoire document JDD19852

Répertoire PDF JDD19850701PDF

Répertoire TIFF JDD19850701TIFF

Répertoire PDF JDD19850702PDF

Répertoire TIFF JDD19850702TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002.TIFF

Fichier 0003.TIFF

Répertoire volume JDD19852

Répertoire volume JDD19853

Répertoire document JDD19850701

Répertoire TIFF

Répertoire document JDD19850702

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002.TIFF

Fichier 0003.TIFF

Répertoire PDF

Répertoire document JDD19850801

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Répertoire volume JDD19852

Répertoire volume JDD19853

Répertoire document JDD19850701

Répertoire document JDD19850702

Répertoire document JDD19850801

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

37

Identifier les documents en ligne

• Les URL pérennes– Permettent de citer l’URL d’un document en ligne, tout en étant assuré que

ce lien ne risque pas de changer dans le temps

– Ce type d’URL permet donc d’accéder à long terme aux documents numérisés

– Indépendamment de l’emplacement physique du document sur le serveur ou des changements d’architecture

• Exemple :– ARK : Archival Ressource Key : Californian Digital Library– http://www.cdlib.org/services/uc3/curation/ark.html

– Commence à être répandue en France : BnF, AD de la Somme, BM Toulouse, etc

– D’autres possibilités : DOI, PURL par exemple

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

38

Contrôle qualité

• Règles à établir avec soin car le niveau de qualité conditionne le travail du prestataire, et la latitude du commanditaire pour rejeter les livraisons

• Chaque type de prestation doit être l’objet de vérification

• Le niveau de qualité doit être défini en tenant compte :– De l’ampleur du projet, du type de documents et des spécifications techniques– Des moyens à disposition de la bibliothèque

• Indiquer au CCTP– Étape(s) et délais de contrôle par le commanditaire– Caractéristiques du lot de contrôle (nombre et types d’objets)

– Pour chaque type de prestation, critères de contrôle et définition des erreurs éventuellement classées par gravité (erreur majeure / mineure)

– Modalités et délais de réfection pour le titulaire du marché

– La mise à disposition éventuelle d’une station de contrôle par le prestataire pour la bibliothèque

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

39

Contrôle qualité

• Exemples de critères d’évaluation des images– Respect des règles de prise de vue et optimisation des réglages du scanner :

éclairage uniforme, netteté, absence de halos sur l’image, de travers, de troncature, de traits parasites, de déformation de caractères, …

• Qualité des métadonnées– Conformité du fichier d’identification aux règles techniques

– Conformité des informations internes (pour les images) aux règles définies dans le projet

• Conformité de la structure et de la composition de livraison– Noms (cohérence et conformité de la structure des noms de fichiers, des

répertoires, etc)– Arborescence (bons fichiers dans les bons répertoires, organisation des

répertoires entre eux, etc)– Autres fichiers de suivi

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

40

Contrôle qualité : quelques exemples d’erreursMauvaise profondeur de codage

(couleur abusive)Troncature d’informationTravers

Polarité inversée

Binarisation trop forte (visibilité insuffisante, pixellisation de caractères)

-> pb lisibilité et pour l’OCRNiv. Gris non justifié

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

41

Numérisation et conservation

• Une numérisation de qualité permet la conservation– Non communication des originaux – Remplacer des originaux manquants et/ou permettre des sorties COM

(microfilms), des fac-similés– Préservation : on ne peut conserver à long terme les fichiers numériques que

lorsqu’ils sont de bonne qualité et bien documentés– Faire la distinction version d’archivage / version de diffusion

• Document numérique « de qualité »– Choix optimal de la résolution (ni trop haute, ni trop basse)– Documentation de chaque image, de chaque document numérique, des procédés

de production– Structuration du document numérique (liens entre image et page originale)– Métadonnées techniques riches, pour l’archivage et la consultation des images– Fidélité rigoureuse à l’original et qualité de la prise de vue– Exhaustivité de prise de vue (pas de numérisation partielle)– Non compression, ou compression réversible– Format(s) le(s) plus ouvert(s) possible(s) supportant plusieurs espaces de

couleur

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

42

Quelques références (liens visités le 4/12/12)

• Ministère de la Culture :– Guide pour la rédaction d’un cahier des charges de numérisation de la pressehttp://www.culture.gouv.fr/culture/mrt/numerisation/fr/f_04.htmhttp://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/cahier_charges

_numerisation_presse.pdfhttp://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/cahier_charges

_numerisation_presse_annexes.pdf

– Mission Recherche et Technologie (MRT) : http://www.culture.gouv.fr/culture/mrt/numerisation/

– Direction des Archives de France : http://www.archivesdefrance.culture.gouv.fr/gerer/numerisation/

• Manuels : – Numériser et mettre en ligne / Th. Claerr, I. Westeel (Dir.). Villeurbanne : Presses de

l’Enssib., 2010. Coll. « La boîte à outils ».

Pour aller plus loin :– L’archivage numérique à long terme. Les débuts de la maturité ? / Direction des

Archives de France ; [rédigé par] Claude Huc, Francoise Bannat-Berger, Laurent Duplouy. [Paris] : La Documentation Française, 2009. Coll. Manuels et guides pratiques

– Manuel de la numérisation/ Th. Claerr, I. Westeel (Dir.). Paris : Cercle de la Librairie, 2010. Coll. « Bibliothèques »

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

43

Quelques références (liens visités le 4/12/12)

• Pages professionnelles de la BnF et documents à télécharger

- http://www.bnf.fr/fr/professionnels/numerisation.html

• Cours et tutoriaux en ligne :

– Portail international Archives francophones : http://www.piaf-archives.org

• module 9 « Reproduction par microfilmage et numérisation »• Section 2 « Numériser les documents » par Anne Debant et Patrick Perrot

– Tutoriel sur la numérisation de l’Université de Cornell (en français) : http://www.library.cornell.edu/preservation/tutorial-french/contents.html

• Centre de compétence IMPACT pour l’OCR : http://www.digitisation.eu

6/12/12 Journée d’études « Numériser les publications en série » - CRL Midi-Pyrénnées

44

Merci pour votre attention,

Place aux questions…