211
Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online- Publikationen digitaler Repositorien Untersuchung am Beispiel der Publikationssoftware OPUS zur Erlangung des akademischen Grades Diplom-Dokumentar (FH) eingereicht am Fachbereich Informationswissenschaften von Marco Winkler Matrikelnummer: 6353 Dekan: Prof. Dr. Hans-Christoph Hobohm Gutachter: 1. Prof. Dr. Günther Neher, Fachhochschule Potsdam 2. Dipl.-Inform. Susanne Dobratz, Humboldt-Universität zu Berlin Potsdam, 5. August 2008

Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

  • Upload
    others

  • View
    14

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

F a c h h o c h s c h u l e P o t s d a m

Diplomarbeit

Langzeitarchivierung von Online-Publikationen digitaler Repositorien

Untersuchung am Beispiel der Publikationssoftware OPUS

zur Erlangung des akademischen Grades Diplom-Dokumentar (FH)

eingereicht am Fachbereich Informationswissenschaften

von Marco Winkler

Matrikelnummer: 6353

Dekan: Prof. Dr. Hans-Christoph Hobohm

Gutachter: 1. Prof. Dr. Günther Neher, Fachhochschule Potsdam 2. Dipl.-Inform. Susanne Dobratz, Humboldt-Universität zu Berlin

Potsdam, 5. August 2008

Page 2: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Zitation:

Winkler, Marco: Langzeitarchivierung von Online-Publikationen digitaler Reposito-rien : Untersuchung am Beispiel der Publikationssoftware OPUS / Marco Winkler. - Potsdam, Fachhochschule Potsdam, Fachbereich Informationswissenschaften, Diplomarbeit, 2008.

Diese Diplomarbeit ist unter einer Creative Commons Lizenz veröffentlicht: Namensnennung - Keine kommerzielle Nutzung - Weitergabe unter gleichen Bedingungen 2.0 Deutschland Um den Vertragstext der Lizenz einzusehen, folgen Sie bitte dem Hyperlink: http://creativecommons.org/licenses/by-nc-sa/2.0/de/

@mastersthesis{ winkler2008, author = {Winkler, Marco}, title = {Langzeitarchivierung von Online-Publikationen digitaler Repositorien : Untersuchung am Beispiel der Publikationssoftware OPUS}, school = {Fachhochschule Potsdam}, type = {Diplomarbeit}, address = {Potsdam}, keywords = {digitales Repositorium, Online-Publikation, digitale Langzeitarchivie-rung, Metadaten, OAIS, elektronisches Dokument, OPUS, Persistent Identifier}, year = {2008}, note = {Advisers: Neher, Günther ; Dobratz, Susanne} }

Page 3: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

„Also Weiß ist da und soll Schritt für Schritt bekämpft werden!“

Paul Klee: Pädagogisches Skizzenbuch (Neue Bauhausbücher)

Page 4: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

iv

Kurzreferat

In der vorliegenden Diplomarbeit werden die wesentlichen Faktoren und organisato-

rischen sowie technischen Rahmenbedingungen für die digitale Langzeitarchivierung

von auf digitalen Repositorien veröffentlichten wissenschaftlichen Dokumenten iden-

tifiziert und beschrieben. Die Darstellung orientiert sich am OAIS-Referenzmodell

sowie nationalen und internationalen Standards und Kriterienkatalogen, aus denen in

den ersten drei Kapiteln ein klar determiniertes, komplexes Begriffsnetzwerk abgelei-

tet und zur Diskussion gestellt wird. Als Bezugssystem für die Implementierung der

technischen Anforderungen wird der Umsetzungsstand der Publikationssoftware

OPUS herangezogen. Darauf aufbauend wird für die beteiligten Akteure ein Hand-

lungsrahmen für die durchzuführenden, notwendigen nächsten Schritte eröffnet.

Schlagwörter:

digitales Repositorium, Online-Publikation, digitale Langzeitarchivierung, Metadaten,

OAIS, elektronisches Dokument, OPUS, Persistent Identifier

Abstract

This diploma thesis identifies and depicts the essential factors and organizational as

well as technical conditions for a digital long-term preservation of academic docu-

ments published on digital repositories. The description is guided by the OAIS refer-

ence model and by national and international standards and criteria catalogues on

the basis of which a clearly determined and complex network of terms was being

derived and displayed in the first three chapters. The state of realization of the re-

pository software OPUS was brought in reference to the implementation of the

technical requirements. Based on these results an operational framework is being

opened to all parties concerned within which they can take the next necessary steps.

Keywords:

digital repository, online publication, digital long-term preservation, metadata, OAIS,

digital document, OPUS, persistent identifier

Page 5: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

v

Inhaltsverzeichnis

Kurzreferat iv

Abstract iv

Inhaltsverzeichnis v

Abbildungsverzeichnis ix

Tabellenverzeichnis x

Verzeichnis der Beispiele x

Verzeichnis der Handlungsszenarien x

Abkürzungsverzeichnis xi

1 Zielstellung der Arbeit 1

2 Grundlagen des elektronischen wissenschaftlichen Publizierens 3

2.1 Begriffsbestimmung 3 2.1.1 Daten, Information, digitales Objekt, Informationsressource 3 2.1.2 Datenmodellierung 7 2.1.3 Werk und Repräsentation 7 2.1.4 Elektronisches Publizieren, Online-Publikation und elektronisches Dokument 11 2.1.5 Digitales Repositorium 13 Typologie digitaler Repositorien 15 2.1.6 Digitale Langzeitarchivierung, Langzeit, digitales Langzeitarchiv 16 2.2 Notwendigkeit langfristiger Aufbewahrung wissenschaftlicher Fachinformation 20 2.3 Strukturwandel der wissenschaftlichen Informationsversorgung 21 2.4 Problemaufriss: Verlust von Information durch Digitalisierung 29 2.4.1 Besonderheiten von in digitaler Form vorliegender Information 30 2.4.2 Definition: Informationsverlust im digitalen Kontext 32 2.4.3 Kosten des Informationsverlusts 34 2.4.4 Lösungsansätze: Langzeitarchivierungsstrategien 36 Szenarien für die Umsetzung von Archivierungsstrategien in digitalen Repositorien38

Page 6: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

vi

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien 42

3.1 Kernaufgaben im Hinblick auf die digitale Langzeitarchivierung 42 3.2 Die technische Infrastruktur eines digitalen Repositoriums 43 3.3 Die technische Implementierung: Repositoriumsoftware 44 3.3.1 Installationen in Deutschland 46 3.3.2 Konzeption von OPUS 47 3.4 Organisation und Konzeption eines Archivs: OAIS 52 3.4.1 Das OAIS-Informationsmodell 53 3.4.2 Akteure, Prozesse und Funktionsmodule im OAIS 56 3.4.2.1 Umgebung eines OAIS 56 3.4.2.2 Informationspakete und Funktionsmodule 57 3.4.3 Pflichten eines OAIS-konformen Archivs 64 3.4.4 Anwendbarkeit des OAIS-Modells auf digitale Repositorien 65 Zwischenergebnis 71 3.5 Kriterienkataloge und Zertifizierungsverfahren 71 3.5.1 Qualitätssicherung durch das DINI-Zertifikat 2007 71 3.5.1.1 Kriterien im DINI-Zertifikat zur Sicherung der Langzeitverfügbarkeit 73 3.5.1.2 Schlussfolgerungen aus der OAIS-geprägten Perspektive der DINI-Kriterien 92 3.5.2 Kriterien für vertrauenswürdige digitale Archive 93 3.6 Kooperation mit digitalen Langzeitarchiven 95 3.6.1 Überblick über Softwaresysteme für die Langzeitarchivierung 95 3.6.2 kopal 96 koLibRI 97 3.6.3 BABS 100

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung 103

4.1 Anforderungen an die Identifikation von elektronischen Dokumenten 103 4.1.1 Grundlagen der Identifikation von Ressourcen 103 4.1.2 Zitation im wissenschaftlichen Kontext 105 4.1.3 Die Identifikation von Informationsressourcen 106 4.1.3.1 Uniform Resource Locator (URL) 106 4.1.3.2 Uniform Resource Name (URN) 108 4.1.3.2.1 National Bibliographic Numbers 111 4.1.3.2.2 Das URN-Konzept von OPUS 116 4.1.3.2.3 Exkurs: Open Archives Initiative - Object Reuse and Exchange (OAI-ORE) 118 4.1.3.2.4 Lösung des URN-Problems 119 4.1.3.3 Der Einsatz von ARKs als alternatives Bezeichnungssystem 123 4.1.4 Zwischenergebnis 126

Page 7: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

vii

4.2 Metadaten zur Dokumentation vertrauenswürdiger digitaler Objekte 126 4.2.1 Abbildung von Beziehungen in Metadatenformaten 128 4.2.2 Abbildung von Objektrelationen in UOF und koLibRI 133 4.2.3 Abbildung von Objektrelationen in XMetaDiss 135 4.2.4 Ergebnis 136

5 Resümee und Ausblick 137

5.1 Fortschreibung der Kriterien des DINI-Zertifikats 137 5.2 Vorschläge bezüglich der OPUS-Entwicklung 138 5.3 Ausblick 138

Literaturverzeichnis 140

Referenzen 140 Gesetze und Normen 151 Bildquellen 151

Anhang I

A Glossar II

B Datenmodelle VI

B.I Datenbankmodell von OPUS VI

B.II Modell der koLibRI-Datenbank VII

C Das OAIS Reference Model: Functional Entities (vollständig) VIII

D Metadatenformate: Beispiele IX

D.I PREMIS und METS: Minimales Beispiel IX

D.II MPEG-21 DIDL: Minimales Beispiel (LANL aDORe) XX

D.III DARE DIDL XXII

D.IV XMetaDiss: Vollbeispiel XXV

D.V EPrints Application Profile (EPDCX) XXXI

Page 8: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

viii

D.VI Dublin Core Simple via SRU/SRW XXXV

E Vergleich struktureller Markupformate XXXVI

F Beispieldatensätze aus Format Registries XXXVIII

F.I Beispiele aus der PRONOM Technical Format Registry XXXVIII

F.II Beispiel aus der GDFR XL

F.III File Format Registry von koLibRI (Auszug) XLII

G Inhalt der CD-Beilage XLIII

Erklärung XLIV

Page 9: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

ix

Abbildungsverzeichnis

Abbildung 1: Informationsobjekte im OAIS: Content Information ______________________ 6

Abbildung 2: Entitäten der Gruppe 1 der FRBR und ihre Primärbeziehungen_____________ 8

Abbildung 3: Datenmodell von PREMIS ___________________________________________ 9

Abbildung 4: Entwicklung der Zahl der registrierten Repositorien und der Datensätze in

ROAR von 1990 - 2008________________________________________________________ 27

Abbildung 5: Entwicklung der Zahl der registrierten Repositorien in OpenDOAR von

2006-2008 __________________________________________________________________ 27

Abbildung 6: Bestandteile der Content Information nach OAIS _______________________ 53

Abbildung 7: Bestandteile eines Informationspaketes im OAIS________________________ 55

Abbildung 8: OAIS-Informationsobjekte __________________________________________ 56

Abbildung 9: Umfeld eines OAIS ________________________________________________ 57

Abbildung 10: Bestandteile und Relationen eines AIPs ______________________________ 58

Abbildung 11: Funktionsmodule, Akteure und Informationsflüsse eines OAIS (Basismodell)59

Abbildung 12: Prozesse innerhalb des OAIS-Funktionsmoduls Ingest __________________ 60

Abbildung 13: OAIS: Arten von Information innerhalb des Funktionsmoduls

Metadatenverwaltung _________________________________________________________ 61

Abbildung 14: Informationsflüsse im OAIS auf oberster Ebene _______________________ 63

Abbildung 15: OAIS-konformes Modell verteilter Dienste gemäß SHERPA DP __________ 68

Abbildung 16: SHERPA DP: Lebenszyklus digitaler Publikationen in einem verteilten Modell

____________________________________________________________________________ 69

Abbildung 17: Datenmodell des FRBR-orientierten EPrints Application Profiles __________ 89

Abbildung 18: kopal Workflow__________________________________________________ 97

Abbildung 19: Konkordanz LMER-PREMIS (schematische Darstellung) ________________ 98

Abbildung 20: BABS Workflow_________________________________________________ 102

Abbildung 21: OAI-ORE Aggregation von Informationsressourcen___________________ 118

Abbildung 22: Schematische Darstellung einer OAI-ORE Aggregation am Beispiel einer

Online-Publikation ___________________________________________________________ 119

Abbildung 23: OAI-ORE Resource Map einer Online-Publikation

(Verwendung von ARK und URN) ______________________________________________ 125

Abbildung 24: Struktur eines METS-Dokumentes _________________________________ 129

Abbildung 25: Struktur eines DIDL-Dokuments ___________________________________ 129

Abbildung 26: Abbildung von Repräsentationen in einem METS-Dokument ___________ 130

Abbildung 27: Datenbankmodell von OPUS________________________________________VI

Abbildung 28: Modell der koLibRI-Datenbank _____________________________________ VII

Page 10: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

x

Tabellenverzeichnis

Tabelle 1: Typologie digitaler Repositorien ________________________________________ 16

Tabelle 2: Phasen des traditionellen wissenschaftlichen Publizierens ___________________ 23

Tabelle 3: Kostenverteilung hinsichtlich der wesentlichen Funktionsmodule eines digitalen

Archivs ______________________________________________________________________ 36

Tabelle 4: Aufteilung der in Deutschland für digitale Repositorien verwendeten

Softwaresysteme______________________________________________________________ 48

Tabelle 5: A comparison of encoding options for structural metadata_______________ XXXVI

Tabelle 6: Tabelle 7: Datensatz aus PRONOM: Beschreibung eines JPEG-Formates

(Exif Compressed Image (2.2)) ______________________________________________XXXVIII

Tabelle 8: Datensatz aus PRONOM: Beschreibung eines JPEG-Formates

(Raw JPEG Stream)_________________________________________________________ XXXIX

Tabelle 9: Datensatz aus der GDFR: Beschreibung eines XHTML-Formates (XHTML 1.0) _ XL

Verzeichnis der Beispiele

Beispiel 1: Daten, Information und Wissen _________________________________________ 4

Beispiel 2: Werk und Repräsentation _____________________________________________ 11

Beispiel 3: Abgrenzung von digitaler Langzeitarchivierung und digitaler Bestandspflege __ 19

Beispiel 4: Die Entzifferung der ägyptischen Hieroglyphen ___________________________ 30

Beispiel 5: Reale Verluste von digitalen Informationen ______________________________ 32

Beispiel 6: Andocken eines digitalen Repositoriums an ein Langzeitarchiv der NASA _____ 40

Beispiel 7: Datenobjekt und Representation Information_____________________________ 54

Beispiel 8: Beispielausgabe für einen Datensatz im xepicur-Format aus OPUS __________ 114

Beispiel 9: Resolving einer Ressource, die auf einem OPUS-Server veröffentlicht wurde _ 115

Beispiel 10: Identifikation und Resolving eines Werkes beim edoc-Server der HU zu Berlin120

Beispiel 11: Zitation von Informationsressourcen __________________________________ 120

Verzeichnis der Handlungsszenarien Szenario 1 ___________________________________________________________________ 39

Szenario 2 ___________________________________________________________________ 39

Szenario 3 ___________________________________________________________________ 40

Szenario 4 ___________________________________________________________________ 40

Page 11: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

xi

Abkürzungsverzeichnis

AIP Archival Information Package

API Application Programming Interface

APP Atom Publishing Protocol

ARK Archival Resource Key

ASF Atom Syndication Format

BABS Bibliothekarisches Archivierungs- und Bereitstellungssystem

BSZ Bibliotheksservicezentrum Baden-Württemberg

CS-TR Computer Science Technical Report

CNRI Corporation for National Research Initiatives

CCSDS Consultative Committee for Space Data Systems

CQL Contextual Query Language (SRU Version 1.2 Specifications, in version 1.1 CQL stands for: Common Query Language)

DAITSS Dark Archive In The Sunshine State

DARE Digital Academic Repositories

DBMS Datenbankmanagementsystem

DBS Datenbanksystem

DCES Dublin Core Element Set

DCMI Dublin Core Metadata Initiative

DDC Dewey Decimal Classification

DSEP Deposit Systems for Electronic Publications

DFG Deutsche Forschungsgemeinschaft

DFN Deutsches Forschungsnetz

DIAS Digital Information Archiving System

DIDL Digital Item Declaration Language

DINI Deutsche Initiative für Netzwerkinformation e.V.

DIP Dissemination Information Package

DLR Deutsches Zentrum für Luft- und Raumfahrt

DNBG Gesetz über die Deutsche Nationalbibliothek

DRM Digital Rights Management

DROID Digital Record Object Identification

EPDCX EPrints Dublin Core XML

FCLA Florida Center for Library Automation

Fedora Flexible Extensible Digital Object Repository Architecture

FRBR Functional Requirements for Bibliographic Records

GDFR Global Digital Format Registry

Page 12: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

xii

GIF Graphics Interchange Format

HTTP Hypertext Transfer Protocol

IANA Internet Assigned Numbers Authority

IETF Internet Engineering Task Force

ISBN International Standard Book Number

ISI Institute for Scientific Information

JHOVE JSTOR/Harvard Object Validation Environment

JIF Journal Impact Factor

JPEG Joint Photographic Experts Group

KIM Kompetenzzentrum Interoperable Metadaten

KOBV Kooperativer Bibliotheksverbund Berlin-Brandenburg

koLibRI kopal Library for Retrieval and Ingest

kopal Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen

KWF Kahn-Wilensky Framework

LANL Los Alamos National Laboratory

LaTeX Lamport TeX.

LMER Langzeitarchivierungsmetadaten für elektronische Ressourcen

LOCKSS Lots of Copies Keep Stuff Safe

MARCXML Machine-Readable Catalog in XML

METS Metadata Encoding and Transmission Standard

MODS Metadata Object Description Schema

MPG Max-Planck-Gesellschaft zur Förderung der Wissenschaften e. V.

NCSA National Center for Supercomputing Applications

NCSTRL Networked Computer Science Technical Reference Library

NDLP National Digital Library Program

NEDLIB Networked European Deposit Library

nestor Network of Expertise in Long-Term Storage of Digital Resources

NLNZ National Library of New Zealand

N2T Name-to-Thing

OAI-ORE Open Archives Initiative - Object Reuse and Exchange

OAI-PMH Open Archives Initiative - Protocol for Metadata Harvesting

OAIS Open Archival Information System

OCLC Online Computer Library Center

ODF Open Document Format

ODT Open Document Text

ONIX Online Information eXchange

OOXML Office Open XML

Page 13: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

xiii

OPAC Online Public Access Catalogue

OpenDOAR Directory of Open Access Repositories

OPUS Online-Publikationssystem der Universität Stuttgart

PAIMAS Producer-Archive Interface Methodology Abstract Standard

PDF Portable Document Format

PDI Preservation Description Information

PGP Pretty Good Privacy

PKI Public Key Infrastructure

PNG Portable Networks Graphics

PREMIS Preservation Metadata: Implementation Strategies

RAID Redundant Array of Independent Disks

RAP Repository Access Protocol

RDF Resource Description Framework

RDFa Resource Description Framework attributes

RFC Request for Comments

REST Representational State Transfer Architecture

ROAR Registry of Open Access Repositories

RSS Really Simple Syndication (in RSS 2.0)

SAN Storage Area Network

SIP Submission Information Package

SOAP ursprünglich: Simple Object Access Protocol (seit V 1.2 nicht mehr als Akronym sondern als Eigenname verwendet)

RPC Remote Procedure Call

SRU Search/Retrieve via URL

SRW Search/Retrieve Web Service

STM International Association of Scientific, Technical and Medical Publishers

TIFF Tagged Image File Format

TSM Tivoli Storage Manager

UOF Universelles Objektformat

UrhG Gesetz über Urheberrecht und verwandte Schutzrechte

URI Uniform Resource Identifier

URL Uniform Resource Locator

URN Uniform Resource Name

WWW World Wide Web

XML Extensible Markup Language

XSL-FO Extensible Stylesheet Language - Formatting Objects

XSLT Extensible Stylesheet Language Transformation

Page 14: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen
Page 15: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

1

“Because of the critical importance of data and information in the global scientific

enterprise, the international research community must address a series of new chal-

lenges if it is to take full advantage of the data and information resources available

for research today. Equally, if not more important than its own data and information

needs, today’s research community must also assume responsibility for building a

robust data and information infrastructure for the future.”

(International Council for Science 2004 – Scientific data and information, S. 7)

1 Zielstellung der Arbeit

“In a very short time, preservation has developed into a critically important part of

managing a library's most precious assets, its collections.”

(Smith 1998 – Preservation in the future tense)

Diese Arbeit soll unter Beachtung der nachfolgenden Prämissen klären, wie die digi-

tale Langzeitarchivierung der auf einem digitalen Repositorium publizierten elek-

tronischen Dokumente zu veranstalten ist.

Besonderer Wert wird zunächst auf die möglichst präzise Definition relevanter Begrif-

fe und derer Beziehungen und die Einordnung digitaler Repositorien in die wissen-

schaftliche Publikationslandschaft gelegt, die die Grundlage für die weiteren Überle-

gungen bilden. Anhand vorhandener Anforderungskataloge und Referenzmodelle

soll hernach ermittelt werden, welche Aufgaben zu erfüllen und wie diese sinnvoll

zwischen den identifizierten Akteuren aufzuteilen sind. Es wird zu klären sein, wie die

Informationsinfrastruktur einer kooperativ organisierten Langzeitarchivierung be-

schaffen sein muss.

Dabei wird von dem Betreiber des digitalen Repositoriums ein hohes Maß an Ver-

antwortungsübernahme zur Sicherung der Langzeitverfügbarkeit der eingebrachten

elektronischen Dokumente verlangt, z.B. durch die Garantie bestimmter Archivie-

rungszeiträume oder den Ausbau des Dienstes zu einem vertrauenswürdigen digita-

len Langzeitarchiv. Der Betreiber des Repositoriums soll die teilweise Übertragung der

Verantwortung jedoch nicht scheuen, wo dies angebracht ist, um Handlungsfreiräu-

me zur Erfüllung der Kernaufgaben eines Repositoriums zu schaffen, nämlich der

Förderung des Open-Access-Gedankens durch Akquise von Dokumenten und Erhö-

hung des Bekanntheitsgrades der Publikationsdienstleistung bei den Wissenschaft-

lern. Die konzeptionelle Beschreibung der Kooperation mit einem digitalen Langzeit-

archiv wird deshalb im Mittelpunkt der Arbeit stehen, die die Organisation sinnvoller

Arbeitsteilung und effektiver Arbeitsabläufe zum Ziel hat.

Untersucht wird anschließend inwieweit ein Bestand elektronischer Dokumente, der

in einem digitalen Repositorium und insbesondere mit der Repositoriumsoftware

OPUS verwaltet wird, den Anforderungen einer kooperativen Lösung gegenwärtig

gewachsen ist und es werden Bedingungen für die Erweiterung des Systems heraus-

gearbeitet. Das heißt jedoch nicht, dass gewonnene Erkenntnisse auf dieses System

Page 16: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

1 Zielstellung der Arbeit

2

begrenzt sind. Auch die Anwender anderer Standardsoftware oder selbst entwickelter

Systeme sollen durch die Arbeit angesprochen werden. Digitale Repositorien sind qua

Definition auf Kooperation und Vernetzung angewiesen und zeichnen sich unab-

hängig von ihrer konkreten technischen Umsetzung durch ein offenes Architektur-

prinzip, die Unterstützung von Standards und die Interoperabilität1 der Dienste aus.

Vor allem eine gelingende digitale Langzeitarchivierung erfordert gemeinsame An-

strengungen und kooperative Lösungen.

Lupprian schreibt dazu:

„Was wir brauchen, das sind Standards und Modelle. Diese müssen zum

einen hinreichend abstrakt sein, damit sie nach Möglichkeit überall heran-

gezogen werden können, zum anderen aber auch differenziert genug, um

für den jeweiligen Einzelfall konkrete Praxislösungen aus ihnen ableiten zu

können[…]“.2

Dabei sollen neben den Bedingungen für die technische Implementierung neuer in-

ternationaler Standards auch die Projekte einiger internationaler Akteure der Lang-

zeitarchivierung überblicksartig untersucht und im Hinblick auf ihre Nachnutzbarkeit

bewertet. Best Practises sollen identifiziert werden.

Berücksichtigt wird die Auswahl und der Umgang mit digitalen Objekten. Die Anfor-

derungen an die personelle und finanzielle Absicherung der Dienstleistung digitaler

Repositorien durch die Trägerinstitution werden jedoch nicht näher betrachtet. Das

Vorhandensein einer derartigen Nachhaltigkeitsgarantie wird jedoch unterstellt, da

jeglicher Betrieb und die verbindliche Planung und Organisation der technischen Ba-

sis eines vertrauenswürdigen Repositoriums auf institutionellen Bestandsgarantien

aufbaut. Fehlt die organisatorische Unterstützung des Dienstleistungsträgers ist die

Verfügbarkeit des Bestandes akut gefährdet.

Der Erfolg der Bemühungen um eine effektive, digitale Langzeitarchivierung kann

durch ein im Zuge einer Zertifizierung des digitalen Repositoriums verliehenes allge-

mein anerkanntes Gütesiegel transparent nach außen und innerhalb der Trägerinsti-

tution vermittelt werden. Die ermittelten Ergebnisse sollen daher als Diskussions-

grundlage für die Anwendergemeinde dienen und Vorschläge für einen gemeinsa-

men Katalog von Anforderungen und Empfehlungen im Rahmen des DINI-Zertifikats

für Dokumenten- und Publikationsservices unterbreitet werden. Der Rahmen einer

Diplomarbeit erlaubt allerdings lediglich eine kursorische Betrachtung der grundle-

genden Konzepte der überaus komplexen Thematik.

1 Definition: „Als Interoperabilität bezeichnet man die Fähigkeit zur Zusammenarbeit von verschiede-nen Systemen, Techniken oder Organisationen. Dazu ist in der Regel die Einhaltung gemeinsamer Standards notwendig. Wenn zwei Systeme miteinander vereinbar sind, nennt man sie auch kompatibel.“. - http://de.wikipedia.org/wiki/Interoperabilit%C3%A4t [07.07.2008]. 2 Lupprian 2000.

Page 17: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

2.1 Begriffsbestimmung

Im Rahmen dieser Arbeit werden die folgenden Begriffe dergestalt definiert.

2.1.1 Daten, Information, digitales Objekt, Informationsressource

Die Begriffe „Daten“, „Information“ und „digitales Objekt“ stellen Schlüsselbegriffe

für das Verständnis der digitalen Informationstechnologie dar, die die Grundlage

elektronischer Publizierens bildet.

Daten:

Gemäß DIN 44300 sind Daten als Zeichen oder kontinuierliche Funktionen definiert,

die aufgrund von bekannten oder unterstellten Vereinbarungen dem Zweck der Ver-

arbeitung dienen.3 Daten lassen sich semiotisch gesehen der syntaktischen Ebene

zuordnen4 und sind in digitaler und analoger Form darstellbar.

Im nestor Kriterienkatalog für vertrauenswürdige digitale Langzeitarchive sind Daten

als „maschinenlesbare und –bearbeitbare Repräsentationen von Information in digi-

taler Form“ definiert.5

Die digitale Form bezeichnet dabei eine Darstellung von Daten als diskrete Ziffern,

wobei der Digitalwert für eine bestimmbare Zeit durch einen festen Wert repräsen-

tiert wird. Jede Aktion eines Computers ist einen Prozess digitaler Elektronischer Da-

tenverarbeitung. In Computern wird auf physischer Ebene das binäre Zahlensystem

verwendet, d.h. eine Information wird als Folge von zwei unterschiedlichen binären

Zuständen kodiert, dessen kleinste Einheit ein Bit, d.h. ein zweiwertiger, dimensions-

loser Zustand mit einem Wert von 0 oder 1, darstellt.

Auf der logischen Ebene bestehen Daten aus Zeichenfolgen, d.h. aus Buchstaben,

Zahlen oder Symbolen, die in Dateien für die Verarbeitung durch Computer gespei-

chert sind.

3 vgl. IT Wissen. - http://www.itwissen.info/definition/lexikon/Daten-data.html [04.07.2008]; DIN 44300 (Informationsverarbeitung) wurde zurückgezogen und durch DIN ISO/IEC 2382 (im Ori-ginal auf engl. und fr. erhältlich) ersetzt. Die in ihr enthaltenen Definitionen können für den deutschen Sprachraum jedoch weiterhin zur Orientierung für die Bedeutungsklärung des Fachvokabulars genutzt werden. 4 vgl. Kuhlen 2004, S. 11f. 5 nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006, S. 2

Page 18: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

4

Information:

Der Rang des Informationsbegriffes für die gegenwärtige Zeit wird durch die Charak-

terisierung der Gesellschaftsform als Informationsgesellschaft deutlich, deren Leitbild

eine auf Informations- und Kommunikationstechnologien basierende Transformati-

onsgesellschaft und Informationsökonomie ist.

Die Bedeutung des Informationsbegriffes ist in den einzelnen Wissenschaftsdomänen

sehr unterschiedlich besetzt.6

Das Verb „informieren“ wurde im 15. Jahrhundert aus dem Lateinischen „in-

formare“ in der Bedeutung „eine Gestalt geben“, „formen“, „unterrichten“, „be-

nachrichtigen“ in die deutsche Sprache übernommen.7

Kuhlen hat den Informationsbegriff informationslinguistisch pragmatisch ausgedeutet

als Wissen in Aktion und Kontext.8 Wissen ist dabei als besondere persönliche Dispo-

sition stets an ein Subjekt gebunden und bezeichnet die in einer Person angelegte,

kognitive Struktur, aufgrund derer die Person über individuelle Problemlösungspo-

tenziale verfügt. Die Kodierung und Übersetzung dieser Wissensbasis in eine medial

gebundene oder nichtmediale, kommunizierbare Form wird als Information bezeich-

net. Information ist somit repräsentiertes Wissen.

Informationstechnisch wird als Information der Inhalt einer Nachricht verstanden, die

in textueller, grafischer oder audiovisueller Form kodiert sein kann. Informationen

können durch Daten manifestiert, auf Datenträgern (Medien) gespeichert, in Com-

putern verarbeitet und über Ausgabegeräte ausgegeben werden. 9

Beispiel 1: Daten, Information und Wissen

Metamorphose und Relationen der Verdinglichungsformen Information und Daten und des Abstrak-

tums Wissen lassen sich anhand der Besonderheiten der wissenschaftlichen Fachkommunikation erläu-

tern. Eine wissenschaftliche Publikation setzt einen Arbeitsprozess der Wissensproduktion voraus, der

auf der vorhandenen Wissensbasis aufbaut. Wissenschaft ist demzufolge auf den freien Informations-

austausch angewiesen.10

Diesen Kreislauf verdeutlicht folgendes Szenario: Wissenschaftler A liest in einem Preprint, das er von

einem fachlichen Repositorium auf seinem PC als digitale Kopie bezogen hat, die neuesten For-

schungsergebnisse des Forschers B. Die Ergebnisse des Forschers B fußen auf den theoretischen Er-

kenntnissen von Wissenschaftler C, die B durch Experimente belegen konnte. B hat somit durch einen

Kommunikationsprozess das Wissen von C durch die Rezeption der publizierten Information in die

eigene Wissensbasis transferiert und daraus neues Wissen produziert. Er hat die neu gewonnenen

Erkenntnisse mit Hilfe eines Texteditors unter Verwendung der englischen Sprache und deren schriftli-

ches Kodiersystem, der lateinischen Schrift, in Information umgewandelt. Diese Information wird

6 siehe zur Vielfalt der Deutungsversuche: Kuhlen 2004, S. 4f. 7 Drosdowski 1997. 8 vgl. Kuhlen 2004, S. 15. 9 vgl. IT Wissen. - http://www.itwissen.info/definition/lexikon/Information-information.html [04.07.2008]. 10 vgl. Riehm et al. 2004, S. 550.

Page 19: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

5

technisch repräsentiert in Form digitaler Daten in einer Textdatei, die in einem Zeichensatz, z.B. ASC II,

kodiert sind. Im einfachsten Fall hat B diese Datei dann auf demselben Fachrepositorium wie C publi-

ziert, wo A die Ergebnisse recherchiert und auf die eigene Festplatte herunterlädt. Da er über ein ge-

eignetes Abspielgerät samt passender Software für die herunter geladene Datei verfügt und auch des

Lesens lateinischer Buchstaben und der englischen Sprache mächtig ist, kann er nun in einen mittelba-

ren Kommunikationsprozess mit B eintreten und da dieser den C ordnungsgemäß zitiert hat, auch

dessen Grundlagenartikel in seine Wissensbasis aufnehmen.

Digitales Objekt:

Ein Objekt ist ein abstraktes Element, das die wirkliche Dingwelt in der menschlichen

Vorstellung repräsentiert. „Objekte können zueinander in Beziehung gestellt werden,

wobei das Zusammenwirken zwischen den Objekten nach einem funktionalen Plan

erfolgt“.11

Aus informationstechnologischer Sicht spiegelt ein Objekt eine Realität aus der An-

wendungsumgebung mitsamt allen relevanten Zusammenhängen wider. Bei dem

Objekt selbst handelt es sich um die modellartige Nachbildung von Strukturen ge-

mäß einer Softwareanforderung.12 Im nestor Kriterienkatalog wird der Begriff „digi-

tales Objekt“ definiert als „eine logisch abgegrenzte Informationseinheit in der Form

digitaler Daten“.13

Die logische Abgrenzung wird qua Konvention für eine Domäne festgelegt. Neben

den Daten, die den Inhalt repräsentieren, kann das Objekt auch aus weiteren Daten

(Metadaten) bestehen, die der formalen und inhaltlichen Beschreibung, der Struktur-

beschreibung, der Interpretierbarkeit oder der Abbildung administrativer Prozesse,

die das Referenzobjekt durchlaufen hat, dienen.

Im PREMIS Data Dictionary erfolgt die logische Abgrenzung auf drei Ebenen. Es

werden die Objekttypen Repräsentation (engl.: representation), Datei (engl.: file) und

Binärdatenstrom (engl.: bitstream bzw. filestream) unterschieden.14 Die PREservation

Metadata: Implementation Strategies (PREMIS) working group ist eine ursprünglich

von OCLC and RLG eingesetzte Arbeitsgruppe, mit dem Ziel ein Datenmodell für einen

Kernsatz an Metadaten für die Langzeitarchivierung digitaler Objekte und einen

Handlungsleitfaden zu dessen Implementierung in digitalen Langzeitarchiven zu krei-

eren. Das PREMIS-Datenmodell wird im Data Dictionary beschrieben.

Das Referenzmodell für Offene Archivische Informationssysteme (Open Archival In-

formation Systems, OAIS) unterscheidet dagegen zwischen Daten- und Informati-

11 IT Wissen. - http://www.itwissen.info/definition/lexikon/Objekt-O-object.html [04.07.2008]. 12 vgl. IT Wissen. - http://www.itwissen.info/definition/lexikon/Objekt-O-object.html [04.07.2008]. 13 nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006, S. 2; wobei diese Definition freilich eine Tautologie hinsichtlich der „digitalen Daten“ darstellt, da Daten bereits als „Repräsentati-onen von Information in digitaler Form“ definiert sind. 14 PREMIS 2008, S. S. 7; siehe auch PREMIS 2008, Glossar, S. 211.

Page 20: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

6

onsobjekten.15 Dabei bezeichnet das Datenobjekt (engl.: content data object) den

eigentlichen Gegenstand der Archivierung, also das Objekt, dessen Informationsge-

halt es zu bewahren gilt. Ein Informationsobjekt entsteht demgegenüber erst aus ei-

ner Einheit von Datenobjekt und zusätzlichen Informationen, die seiner Interpretier-

barkeit dienen, der so genannten Representation Information (siehe Abbildung 1).

Das OAIS-Referenzmodell ist ein ISO-Standard, der den Aufbau und die Organisati-

on eines Archivs anhand seiner Funktionen und Prozesse modelliert. Das Modell wird

in Kapitel 3 näher behandelt.

Abbildung 1: Informationsobjekte im OAIS: Content Information

Informationsressource

In der Webarchitektur wird alles, was eine Identität besitzt, als Ressource bezeich-

net.16 Identität besitzt, was Quelle einer Beschreibung seiner selbst sein kann, ein-

schließlich Menschen, Unternehmen oder Gegenstände der Alltagswelt. Ressourcen

müssen deshalb nicht notwendig netzbasiert zugänglich sein.

Netzfähige Ressourcen sind Ressourcen, die sich dadurch auszeichnen, dass alle we-

sentlichen Eigenschaften in einer Nachricht (mithin als Information) übermittelt wer-

den können, d.h. der Gegenstand selbst (das Datenobjekt) und die Beschreibung des

Gegenstands (die Representation Information im OAIS-Modell).17 Eine derartige Res-

source wird als Informationsressource (engl.: information resource) bezeichnet. In-

formationsressourcen müssen adressierbar sein und einen Bezeichner (engl.: identi-

fier) besitzen. Die Beschreibung einer Ressource, die selbst keine Informationsres-

source ist, kann dagegen eine Informationsressource sein, z.B. die Metadaten eines

gedruckten Buches in einem Onlinekatalog.

Die Qualifizierung eines Gegenstands als Informationsressource sagt noch nichts

über die tatsächliche Bereitstellung einer vollständigen Informationsübermittlung aus,

sondern nur über das potentielle Vermögen, sämtliche Informationen netzbasiert be-

reitzustellen. Da letztlich jedes Objekt conditio sine qua non auf die Anfangsbedin-

gungen des Universums zurückgeführt werden könnte, ist faktisch eine vollständige

Bereitstellung der Representation Information eines Objektes nicht möglich und muss

auf ein angemessenes Maß reduziert werden. Logisch begrenzt wird der Umfang der

Representation Information durch die Wissensbasis, die für das Verständnis der Res-

15 vgl. ISO 14721:2003 - OAIS Reference Model, S. 2-4. 16 vgl. RFC 2396 1998, Punkt 1.1. 17 vgl. World Wide Web Consortium (W3C) 2004. - http://www.w3.org/TR/webarch/#def-information-resource [22.07.2008].

Page 21: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

7

source beim Empfänger der Nachricht domänenspezifisch vorauszusetzen ist. Diese

logische Begrenzung ist bereits in der Definition eines digitalen Objektes bzw. des zur

Beschreibung des Objektes genutzten Formates enthalten.

Eine Informationsressource ist somit verallgemeinernd eine Gesamtheit aus einem

digitalen Objekt und einem definierten Zugang zu diesem Objekt.

2.1.2 Datenmodellierung

Datenmodellierung bezeichnet in der Informatik Methoden, von konkreten Gegen-

ständen oder Vorgängen der komplexen Lebenswirklichkeit zu abstrahieren und ein

Objekt anhand seiner signifikanten, logischen Eigenschaften und Abhängigkeiten

hinreichend konkret zu beschreiben. Als Ergebnis der Datenmodellierung entsteht

durch eine formalisierte Beschreibung unter Verwendung einer Modellierungssprache

ein Datenmodell, das einer technischen Implementierung zugänglich ist. Es wird die

konzeptuelle, logische und physische Ebene der Datenmodellierung voneinander un-

terschieden.

2.1.3 Werk und Repräsentation

Die Unterscheidung der Begriffe „Werk“ und „Repräsentation“ knüpft an das Prin-

zip der Datenmodelle im PREMIS Data Dictionary (Version 2.0) und der Functional

Requirements for Bibliographic Records (FRBR)18 an, zwischen einem geistigen Infor-

mationsgehalt und seiner Verkörperung zu differenzieren. Die Functional Require-

ments for Bibliographic Records (FRBR) sind ein bibliothekswissenschaftliches Da-

tenmodell für bibliographische Metadaten, die die Anforderungen an bibliografische

Titelaufnahmen aus den Nutzerinteressen ableiten. Die dem Datenmodell zugrunde

liegenden Konzepte lassen sich in Entitäten, Beziehungen und Attribute unterteilen.

„Als Entität (engl.: entitiy) wird ein existierendes Objekt bezeichnet, das sich durch

die Wertausprägungen seiner Attribute von allen anderen gleichartig strukturierten

Objekten unterscheidet. Gleichartig strukturierte Entitäten werden in einem Entitäts-

typ zusammengefasst“.19 Die Wechselwirkungen zwischen Entitäten werden durch

formalisierte Beziehungen ausgedrückt.

In den FRBR werden vier Entitätstypen bezogen auf die Informationsobjekte, die Ge-

genstand einer bibliographischen Beschreibung sein können, voneinander unter-

schieden: Werk (engl.: work), Expression, Manifestation und Exemplar (engl.: item).

Diese Entitätstypen stehen wie in Abbildung 2 dargestellt in Beziehung zueinander.

18 In deutscher Übersetzung erhältlich: Oehlschläger 2006. 19 vgl. Strauch et al. 2004.

Page 22: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

8

Abbildung 2: Entitäten der Gruppe 1 der FRBR und ihre Primärbeziehungen

Dabei steht der Entitätstyp „Werk“ für eine individuelle geistige bzw. künstlerische

Schöpfung. Der abstrakten Entität entspricht kein materielles Werkstück in der realen

Welt. Ein Werk kann somit unter die Entität Wissen subsumiert werden. Das Werk

wird erst durch individuelle Realisierungen, d.h. Expressionen gleichen Informations-

gehalts für die Außenwelt wahrnehmbar.20 Eine Entität setzt jedoch das tatsächliche

Vorhandensein einer physischen Verkörperung denknotwendig voraus.

Der Entitätstyp „Expression“ steht für die intellektuelle bzw. künstlerische Realisie-

rung eines Werkes in Form von Buchstaben, Zahlen, Bildern, Gegenständen oder

dergleichen bzw. einer Kombination dieser Formen, durch die ein Werk verkörpert

wird. Dabei führt jede inhaltliche Abänderung, Bearbeitung oder Modifikation zu

einer neuen Expression. Ebenso führen Veränderungen an formellen Konventionen,

die verwendet werden, um ein Werk auszudrücken (z.B. eine Übersetzung in eine

andere Sprache) zur Schaffung einer neuen Expression. Eine Expression erfüllt die

Merkmale des Informationsbegriffs.

Der Entitätstyp „Manifestation“ bezeichnet die physische Verkörperung der Expres-

sion eines Werkes in einer bestimmten Form, z.B. ein elektronisches PDF-Dokument.

Als Entität stellt die Manifestation alle physischen Objekte dar, die sowohl im Hin-

blick auf den Inhalt als auch auf die physische Form dieselben Eigenschaften haben.

Folglich handelt es sich bei einem auf CD und auf einem digitalen Repositorium ver-

öffentlichten elektronischen Dokument um zwei Manifestationen einer Expression

eines Werkes.

Der Entitätstyp „Exemplar“ (engl.: item) verkörpert ein konkretes Element einer Ma-

nifestation, z.B. ein konkretes Buch, eine CD oder der auf einer bestimmten Festplat-

te gespeicherte Binärdatenstrom der Dateien eines elektronischen Dokumentes. Das

Exemplar ist eine Einheit aus Information und Informationsträger (Medium). Eine En-

20 vgl. Oehlschläger 2006, S. 16ff. (Quelle für diese, sowie alle weiteren Definitionen aus dem FRBR).

Page 23: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

9

tität des Typs Exemplar ist im Hinblick auf die Anknüpfung an die digitale Langzeitar-

chivierung insofern bedeutend, als die Erhaltung der korrekten Bitfolge die Grundla-

ge für sämtliche Erhaltungsstrategien der höheren Ebene darstellt. Dabei ist der kon-

krete Datenträger, z.B. ein Magnetband auf dem die digitalen Daten gespeichert

sind, jedoch austauschbar. Durch die beliebige Reproduzierbarkeit digitaler Daten-

ströme verändert sich demzufolge die Relevanz dieses Entitätstyps.

Im PREMIS Data Dictionary wird das, was im FRBR in Bezug auf den Informations-

gegenstand modelliert ist, nur noch durch die beiden Entitäten „Werk“ (engl.: intel-

lectual entity)21 und „Repräsentation“ (engl.: representation) ausgedrückt. Die Rela-

tionen zwischen den in PREMIS definierten Entitäten sind in Abbildung 3 dargestellt.

Abbildung 3: Datenmodell von PREMIS

Nach PREMIS bezeichnet ein Werk einen zusammenhängenden, abstrakten, geisti-

gen Informationsgehalt, der als logisch abgegrenzte „Sach- bzw. Informationsge-

samtheit“ (engl.: unit) beschrieben wird. Es steht für das, was man als die geistige

Schöpfung oder das geistige Werk an sich verstehen kann. Die Definition des inhaltli-

chen Umfangs dieser Informationsgesamtheit beruht auf Vereinbarungen innerhalb

einer Anwendergemeinde. Im PREMIS Data Dictionary geht die feine Unterschei-

dung zwischen Werk und Expression der FRBR jedoch verloren. Im Kontext der Iden-

tifikation wissenschaftlicher Werke spricht jedoch einiges dafür, Werk hier im Sinne

von Expression zu verstehen, d.h. jede inhaltliche Änderung sowie die Übertragung

in eine andere Sprache ist eine neue Ausprägung des Entitätstyps Werk im Sinne von

PREMIS. Ein Werk kann andere logisch abgeschlossene Informationseinheiten mit

21 Man könnte “intellectual entity” genauer mit „geistige Informationseinheit“ übersetzen. Dieses sprachlich allerdings ungelenk wirkende Konstrukt würde gegenüber der hier gewählten Übersetzung kaum Abgrenzungsvorteile aufweisen.

Page 24: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

10

Werkcharakter umfassen und wird von einer oder mehreren Repräsentationen in-

stanziert. Erst die Repräsentation verkörpert den Informationsgehalt des Werkes. An-

stelle des Begriffs „Werk“ wird in dieser Arbeit auch der Begriff „Informationsob-

jekt“ verwendet, wenn es um eine exakte Abgrenzung zwischen den Wertausprä-

gungen des Entitätstyps Werk in Relation zu dem Objekt, auf das sich die Entität be-

zieht ankommt.

Eine digitale Repräsentation stellt die Verdinglichung eines Abstraktums (des geisti-

gen Werkes) dar und besteht aus allen notwendigen Informationen, die für eine an-

gemessene Darstellung des Werkes erforderlich sind.22 In PREMIS stellt die Repräsen-

tation eine Ausprägung bzw. einen Subtyp des Entitätstyps „digitales Objekt“ dar.

Sie besteht aus dem Datenobjekt in Form einer oder mehrerer Dateien und den

Strukturmetadaten, die den Aufbau der Daten und die Abfolge des Renderingprozes-

ses beschreiben, sowie weiterer zusätzlicher Informationen in Form von Metadaten,

die für eine angemessene Interpretierbarkeit des digitalen Objekts erforderlich sind

(Representation Information gemäß OAIS).23 Eine digitale Repräsentation wird im

Rahmen dieser Arbeit auch als digitales Informationsbezugsobjekt bezeichnet. Damit

soll der Informationsträger möglichst eindeutig identifiziert werden, der den Informa-

tionsgehalt eines geistigen Werkes vollständig verkörpert, also das Objekt, das sich

hauptsächlich auf den definierten geistigen Informationsgehalt bezieht. Dieser Begriff

wird insbesondere dann verwendet, wenn es Verwechselungen mit der „Representa-

tion Information“ im OAIS-Referenzmodell zu vermeiden gilt. Die Representation

Information bezeichnet lediglich den Teil einer digitalen Repräsentation, der in Form

von Metadaten ausgedrückt wird. Eine Konkordanz der Repräsentation bezüglich der

Qualifizierung des Datenobjekts zu den FRBR herzustellen ist nicht ganz leicht, da

sowohl Merkmalsausprägungen der Entitätstypen Expression und Manifestation do-

minieren können. So ist z.B. ein in einem Textverarbeitungsformat verkörpertes Werk

eher eine Ausprägung der Entität Expression, da die Worddatei eventuell selbst kei-

nen Manifestationscharakter aufweist, sondern erst mit der Konvertierung in ein Prä-

sentations- und ein Archivierungsformat manifest wird. Ob man das Erstellungsfor-

mat eines Werkes bereits als Manifestation betrachten kann, hängt von der konkre-

ten Anwendungsumgebung ab, z.B. davon, ob das Erstellungsformat selbst Gegens-

tand von Maßnahmen der Langzeitarchivierung ist. Selbst wenn man das Objekt im

Erstellungsformat lediglich als Expression des Werks in das FRBR-Modell einordnet,

sollte es trotzdem als gültige Repräsentation eines Werks betrachtet werden. Der

Repräsentationsbegriff umfasst nach Ansicht des Verfassers deshalb sowohl den Enti-

tätstyp Expression als auch den Entitätstyp Manifestation nach FRBR.

22 vgl. PREMIS 2008, Glossar, S. 212f. 23 In der Projektbeschreibung von JHOVE2 definiert: A representation is„a set of files [each containing one or more formatted bit streams] … needed for a complete and reasonable rendition of an Intellec-tual Entity” JHOVE 2 2006. - , S. 2.

Page 25: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

11

Exkurs

Datei (engl.: file) und Binärdatenstrom (engl.: bitstream) sind weitere Unterausprä-

gungen des Entitätstyps „digitales Objekt“ im PREMIS Data Dictionary, die sich da-

durch auszeichnen, dass die Entitäten selbst sinntragende Informationen enthalten

müssen, die eine separate Beschreibung erfordern, z.B. technische Metadaten einer

Datei oder eines Teil einer Datei.24 Diese Objekttypen haben keine Entsprechung in

den FRBR, da sie für sich gesehen, keine vollständige Ausprägung eines bibliogaphie-

fähigen Objekts darstellen.

Beispiel 2: Werk und Repräsentation

Ein Beispiel soll diese abstrakten Begrifflichkeiten veranschaulichen. Ein Werk kann eine Diplomarbeit

sein. Solange die Arbeit vom Verfasser nicht niedergeschrieben wurde, existiert der geistige Gehalt

nicht als Repräsentation, es sei denn man würde das Gehirn des Bearbeiters als Datenträger verstehen,

der das Werk repräsentiert. Selbst wenn man diesen Datenträger in Zukunft womöglich auslesen

könnte, würde das Gehirn als Assoziativspeicher keinen beständigen Informationsgehalt in sich tragen.

Es ist deshalb fraglich, ob ein derart dynamischer Informationsgehalt eine gültige Entität des Entitäts-

typs Repräsentation im Sinne der Definition darstellt. In Konsequenz heißt das jedoch auch, dass in

diesem Fall auch noch keine Ausprägung des Entitätstyps Werk vorhanden ist, da sowohl das FRBR-

Datenmodell als auch PREMIS die Existenz eines konkreten Informationsobjektes als Anknüpfungs-

punkt einer Qualifizierung in Entitäten voraussetzen. Dies gilt auch für die von einer konkreten Ver-

körperung abstrahierenden Entität Werk. Setzt der Diplomand die in seinem Gehirn präsenten, intel-

lektuellen Vorstellungen mit Hilfe von Textverarbeitungs- und Graphikprogrammen um, entsteht eine

Repräsentation des Werkes, z.B. eine Fassung im Open Document Format (ODF), die aus einer ent-

sprechenden ODF-Datei besteht. Erst mit der Perpetuierung des geistigen Informationsgehaltes ist die

Diplomarbeit zu einer Entität der Entitätstypen Werk und Repräsentation geworden. Die Repräsentati-

on in ODF ist einer odt-Datei verkörpert, die aus vielen, in zip-komprimierter Form gespeicherten

XML- und Bilddateien besteht. Jede dieser Dateien besteht wiederum aus digitalen Daten. Um die

Daten sinnvoll darzustellen, braucht ein Rezipient Informationen, wie die Daten der Repräsentation zu

interpretieren sind, also eine Hardware und eine Software, die die Daten des Dateiformats korrekt

interpretiert.25 Zur Benotung muss der Bearbeiter die Arbeit in gedruckter Form einreichen sowie ein

elektronisches Präsentationsformat für die Bibliothek erstellen. Dazu wird das ODF-Dokument durch

Formatmigration in Papierdokumente und eine PDF-Datei konvertiert. Es entstehen mithin neue Rep-

räsentationen des Werkes in Form der Druckexemplare (analoge Repräsentationen) und einer PDF-

Datei (ein digitales Informationsbezugsobjekt), die gleichzeitig als Manifestationen des Werkes be-

schrieben werden können. Die Bibliothek erstellt aus dem eingereichten PDF ein Archivierungsformat,

das wiederum eine digitale Repräsentation und Manifestation des Werkes darstellt.

2.1.4 Elektronisches Publizieren, Online-Publikation und elektroni-sches Dokument

Das Substantiv Publikation wurde im 16. Jahrhundert im Sinne von „öffentliche Be-

kanntmachung“ aus dem gleich bedeutenden Französischen „publication“ entlehnt,

dass aus dem Lateinischen für Einziehung in die Staatskasse zurückgeht. Diese Bil-

24 vgl. PREMIS 2008. - Glossary, S. 209ff. 25 Man spricht in diesem Zusammenhang auch vom Rendern (Auslesen bzw. Wiedergeben) der Daten.

Page 26: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

12

dung geht auf das lateinische Verb „publicare” in der Bedeutung „zum Staatseigen-

tum machen, veröffentlichen“ zurück, das im 15. Jahrhundert in die deutsche Spra-

che als „publizieren“ im Sinne von „(ein Schriftwerk) veröffentlichen“ rezipiert wur-

de.26 Implizit ist dem Begriff mithin die Bedeutung „öffentlich machen“ als grund-

sätzlich ungehinderter und allgemeiner Zugang zu Informationen.27

Publizieren bezeichnet „einen indirekten, räumlich und zeitlich entkoppelten Kom-

munikationsprozess, der über ein Artefakt, die Publikation, vermittelt wird“28 Die zeit-

liche Entkoppelung suggeriert, dass einmal publizierte Informationen dem Rezipien-

ten grundsätzlich auf Dauer zur Verfügung stehen und der Allgemeinheit nicht wie-

der entzogen werden dürfen.29 Eine Publikation ist demzufolge ein öffentlicher Kanal

für die Übertragung von Informationen.30

Für den Begriff elektronisches Publizieren wird dem Definitionsvorschlag von -

Scholze/Stephan gefolgt:

„Elektronisches Publizieren umfasst die öffentlichen Formen der zeitpunktunabhän-

gigen Kommunikation mittels digital vorliegender Dokumente zwischen einem über

seine Funktionen definierten Hersteller (Kommunikator) und einem Empfänger (Rezi-

pient)“.31

Eine weiterer Definitionsansatz bezieht sich eher auf den Publikationsprozess und

versteht elektronisches Publizieren als eine elektronisch integrierte Publikationskette,

in der alle arbeitsteilig vollzogenen Stadien des Publizierens ohne Medienbrüche voll-

zogen werden.32

Eine Online-Publikation oder Netzpublikation bezeichnet eine elektronische Publika-

tion, die im Wege des Elektronischen Publizierens nicht auf einem physikalischem

Datenträger, sondern über das Internet angeboten wird.

Der Begriff elektronisches Dokument33 wird in dieser Arbeit in einer an Schol-

ze/Stephan angelehnten Bedeutung verwendet:

„Der Begriff elektronisches Dokument (lat.: docere = lehren) bezeichnet im Unter-

schied zum Medium eine abgeschlossene und für den Rezipienten ausgeformte In-

26 vgl. zur Etymologie: Drosdowski 1997. 27 vgl. Scholze et al. 2007, S. 1. 28 Riehm et al. 2004, S. 549. 29 vgl. Scholze et al. 2007, S. 1. 30 Anders als z.B. das Verschicken einer E-Mail an einen begrenzten Personenkreis. 31 Scholze et al. 2007, S. 8. 32 vgl. Ohme 2003, S. 6. 33 Für Dokumente, die in digitalen Repositorien veröffentlicht werden, ist im englischen Sprachraum die Bezeichnung „e-prints“ gebräuchlich.

Page 27: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

13

formationseinheit, d.h. eine konkrete“, perpetuierte Repräsentation eines geistigen

Werkes, die in digitaler Form auf einem elektronischen Datenträger gespeichert ist.34,

Es lassen sich zwei Formen elektronischer Dokumente unterscheiden. Ein Digitalisat

ist ein elektronisches Dokument, das durch Retrodigitalisierung einer analogen Vor-

lage entstanden ist. Ein Born Digital ist ein elektronisches Dokument, das keine funk-

tional gleichwertige Entsprechung in analoger Form besitzt.35

Datentypen von Dokumenten

Dokumente setzen sich aus fundamentalen Datentypen zusammen. „Datentypen

[…] im Sinne der Informatik [sind] bestimmt durch die Eigenschaften, welche die ein-

zelnen damit zusammengefassten Datenelemente besitzen und die Operationen, die

auf die Datenelemente angewandt werden können“.36

Der größte Teil der publizierten, wissenschaftlichen Dokumente basiert auf den dis-

kreten Datentypen Text und Bild. Relevant sind auch die Datentypen formatierte Da-

ten (Bit, Zahl, Zeichenfolge) und Zeichnung. Elektronische Dokumente können auch

in den kontinuierlichen Datentypen Ton, Film und Animation vorliegen. Multimedia-

dokumente in Form kontinuierlicher Datentypen werden in dieser Arbeit jedoch nicht

berücksichtigt.

Ein elektronisches Dokument kann aus einer oder mehreren Dateien bestehen, die in

unterschiedlichen Dateiformaten vorliegen und mehrere Datentypen umfassen kön-

nen.

Dokumenttyp

Ein Dokumenttyp fasst eine Klasse von Dokumenten mit gleichen Eigenschaften zu-

sammen.37

2.1.5 Digitales Repositorium

Der Begriff Repositorium entlehnt sich dem englischen „repository“ und bedeutet

Lager oder Depot.

Ein digitales Repositorium stellt primär ein Publikationssystem für wissenschaftliche

elektronische Dokumente dar. Die wesentlichen Komponenten eines Repositoriums

wurden erstmals 1995 im Zuge eines Projektes der CNRI und der University of Cali-

fornia (Berkeley) beschrieben, das den Aufbau einer Systemarchitektur zur netzba-

34 vgl. Scholze et al. 2007, S. 10; statt des im Original verwendeten Begriffs „Instanz“ im zweiten Halbsatz „d.h. eine konkrete Instanz innerhalb eines Mediums.“ wurden jedoch zugunsten der Kon-kordanz des Vokabulars mit dem PREMIS Data Dictionary V2.0 die Begriffe „Repräsentation“ und „Werk“ in die Definition eingeführt. 35 vgl. The digital preservation coalition et al. o. J.. - http://www.dpconline.org/graphics/intro/definitions.html [07.07.2008]. 36 Scholze et al. 2007, S. 9. 37 vgl. Scholze et al. 2007, S. 11.

Page 28: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

14

sierten Verteilung von technischen Berichten (Computer Science Technical Report

Project (CS-TR)) zum Gegenstand hatte.38 In diesem Dokument wird Repositorium

wie folgt definiert:

„A repository is a network-accessible storage system in which digital ob-

jects may be stored for possible subsequent access or retrieval. The reposi-

tory has mechanisms for adding new digital objects to its collection (de-

positing) and for making them available (accessing), using, at a mini-

mum, the repository access protocol. The repository may contain other

related information, services and management systems.

Repositories have official, unique names, assigned or approved to assure

uniqueness by a global naming authority“.

Die endgültige Namensfindung für die relativ junge Publikationsform ist für den

deutschen Sprachraum noch nicht abgeschlossen.39 Vorgeschlagen werden daneben -

teilweise weiter differenzierend bzw. extensiv auslegend - die Begriffe Dokumenten-

und Publikationsservice40, Dokumentenserver, Hochschulschriftenserver, Digitale Bib-

liothek oder edoc-Server.

Der Begriff „Digitale Bibliothek“ dürfte jedenfalls zu weit gefasst sein, da er auch

andere Arten von digitalen Kollektionen, wie die Sammlung von Digitalisaten oder

digitalen Medienserver- und E-Learningobjekten, umfasst.

Es wird vorgeschlagen digitale Repositorien von anderen digitalen Sammlungen

durch folgende Kriterien abzugrenzen:

− der Inhalt (Metadaten und Dokumente wissenschaftlichen Inhalts) wird durch den

Urheber, Rechteinhaber oder eine dritte Person via Online-Anmeldung in das digi-

tale Repositorium eingebracht

− die Systemarchitektur des Repositoriums verwaltet Dokumente und Metadaten

− ein Repositorium bietet als ein datenbankgestütztes System einen definierten Spei-

cher und einen definierten Zugriff auf die Daten; das Repositorium unterstützt ei-

ne minimale Menge an standardisierten Services, z.B. PUT, GET, Suche, Zugangs-

kontrolle

− das Repositorium muss eine nachhaltige, organisatorische Bestandsgrundlage auf-

weisen und vertrauenswürdige, dokumentierte Dienstleistungen anbieten; es muss

finanziell, organisatorisch und technisch nachhaltig unterstützt und verwaltet wer-

den

38 vgl. das als Kahn-Wilensky Framework (KWF) bekannte Modell. - Kahn et al. 1995 39 siehe den Thread der Inetbib-Mailingliste zum Stand der Diskussion: http://www.ub.uni-dortmund.de/listen/inetbib/msg36720.html [03.07.2008]. 40 so die Bezeichnung im Anforderungskatalog der Deutschen Initiative für Netzwerkinformation (DINI). - DINI-Zertifikat 2007.

Page 29: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

15

− das Repositorium sollte die veröffentlichten Dokumente ohne finanzielle, rechtli-

che oder technische Barrieren zur Nutzung bereitstellen und Open Access-

Publikationen fördern41; Open Access-Publikationen sind Preprints, Postprints und

wissenschaftliche Primärpublikationen

− ein digitales Repositorium stellt die Metadaten über eine standardisierte Schnitt-

stelle frei für das Sammeln von Daten (Harvesting) durch agglomerierende Servi-

cedienste zur Verfügung.42

Ein digitales Repositorium ist mithin ein technisches und organisatorisches System

zur rechtlich und technisch barrierefreien, entgeltfreien Bereitstellung von wissen-

schaftlichen Online-Publikationen in vernetzten Infrastrukturen für die wissenschaftli-

che Fachöffentlichkeit, wobei die elektronischen Dokumente selbständig durch die

Autoren in das System eingebracht werden können und einen zumindest technischen

Qualitätssicherungsprozess durchlaufen. Den Schwerpunkt bildet die endnutzerorien-

tierte elektronische Publikation von elektronischen Dokumenten bzw. dokumentähn-

lichen Objekten. Digitale Repositorien werden regelmäßig von den Universitäts-

bibliotheken teilweise in Kooperation mit einem internen oder externen Partner für

den technischen Betrieb des Servers43 oder in Verantwortung einzelner Institute bzw.

Fachbereiche wissenschaftlicher Einrichtungen betrieben. Teilweise werden auch or-

ganisatorische Einheiten zur Bündelung von elektronischen oder Publikationsdienst-

leistungen, z.B. durch die Gründung von Universitätsverlagen44 oder Computer- und

Medienzentren gebildet.

Ein digitales Repositorium kooperiert gegebenenfalls mit einem Langzeitarchiv, um

die Langzeitverfügbarkeit der bereitgestellten Objekte zu gewährleisten.

Typologie digitaler Repositorien

Je nach Perspektive lassen sich Repositorien hinsichtlich der archivierten Bestände

oder sachlichen oder räumlichen Abdeckung vielschichtig typisieren (siehe Tabelle 1).

41 Mit der Budapest Open Access Initiative (BOAI) aus dem Jahr 2001 liegt eine Forderung von Wis-senschaftlern und Vertretern wissenschaftlicher Institutionen nach einem weltweiten freien Zugang (Open Access) zu elektronischen Archiven und wissenschaftlicher Zeitschriftenliteratur in allen akade-mischen Bereichen vor. (Andermann 2004, S. 562); siehe auch die Berliner Erklärung über den offenen Zugang zu wissenschaftlichem Wissen, 2003. - http://oa.mpg.de/openaccess-berlin/berlindeclaration.html [04.07.2008]; Ball 2004. 42 vgl. Heery et al. 2005, S. 1f. 43 siehe etwa das Angebot des Kooperativen Bibliotheksverbunds Berlin-Brandenburg (KOBV) für den Betrieb lokaler Publikations- und Archivierungsdienste in konsortialer Umgebung. - http://www.kobv.de/bib_opus_archvierung.html [08.07.2008]. 44 siehe die AG Universitätsverlage: http://www.ubka.uni-karlsruhe.de/portale/ag_univerlage/verlage.html [08.07.2008]

Page 30: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

16

Tabelle 1: Typologie digitaler Repositorien

Nach dem Inhalt: Nach der Funktion

− Forschungsdaten − Forschungsergebnisse − Hochschulschriften − Lehrmaterialien − Multimedia − Assessmentmaterialien − Corporate records

− Einzelzugriff auf die Informationsressourcen − erweiterter Zugriff auf die Informationsres-

sourcen − Langzeitarchivierung der digitalen Objekte − neue Publikationsarten, Methoden der In-

formationsverteilung − gemeinsame Nutzung und Weiterverwertung

von Information

Nach der Abdeckung: Nach der Zielgruppe

− persönlich / informell − Zeitschriften − institutionell / abteilungsbezogen − überinstitutionell − national − regional, raum- bzw. ortsbezogen

− Studenten − Professoren − Forscher, Wissenschaftler

Aufgrund unterschiedlich definierter Zuständigkeiten sind fachliche bzw. diszipli-

näre45 von institutionellen Repositorien zu unterscheiden.

Ein institutionelles Repositorium ist ein digitales Repositorium, das die elektronische

Publikation und dauerhafte Erhaltung von Dokumenten der Angehörigen einer be-

stimmten, in den Serviceleitlinien definierten Institution betreibt.

Ein fachliches Repositorium ist ein digitales Repositorium, das institutionsübergrei-

fend und themenspezifisch elektronische Dokumente einer wissenschaftlichen Diszip-

lin national oder international sammelt, archiviert und publiziert.

2.1.6 Digitale Langzeitarchivierung, Langzeit, digitales Langzeitarchiv

Digitale Langzeitarchivierung (engl.: long-term preservation) ist der etablierte Begriff

in der informationswissenschaftlichen Literatur zur Umschreibung der Maßnahmen

zur Erhaltung von digitalen Informationen über die Langzeit in einer Form, die aus

sich selbst heraus verstehbar und fehlerfrei sein muss.46 Gemeint ist die verantwortli-

che Entwicklung von Strategien, die den beständigen, vom Informationsmarkt verur-

sachten technologischen Wandel bewältigen können.47

45 Unter dieser Bezeichnung u. a. verwendet auf der Open Access Informationsplattform. - http://open-access.net/de/allgemeines/was_bedeutet_open_access/repositorien/ [03.07.2008] 46 Angelehnt an die Definition des ISO 14721:2003 - OAIS Reference Model, S. 1-11; die Definition lautet im englischen Original: „The act of maintaining information, in a correct and Independently Understandable form, over the Long Term.” und meint sowohl die Archivierung in digitaler wie ana-loger Form vorliegender Informationen. 47 Schwens et al. 2004, S. 567; so auch Jones / Beagrie: „Digital Preservation refers to the series of managed activities necessary to ensure continued access to digital materials for as long as necessary.“ - The digital preservation coalition et al. o. J.. - http://www.dpconline.org/graphics/intro/definitions.html [17.07.2008].

Page 31: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

17

Der Begriff „Langzeitarchivierung“ ist tautologisch. Im allgemeinen Sprachgebrauch

kann „Archivierung“ zwar sowohl das Anlegen einer Sammlung von Objekten als

auch die langfristige Aufbewahrung einer Sammlung bedeuten48 und wird in der In-

formationstechnologie oft auch in der ersten Bedeutung verwendet.49 Der Begriff

„Langzeitarchivierung“ wird deshalb in Abgrenzung zu dem Begriff „Archivierung“

in der Informationstechnologie benutzt.50 Da in der Informationswissenschaft der

Begriff Archivierung jedoch eindeutig mit der Bedeutung einer dauerhaften Aufbe-

wahrung in Frage kommender, d.h. bewahrungswürdiger, Dokumente oder Informa-

tionsobjekte, belegt ist51, wird zur Vermeidung des unerwünschten Pleonasmus vor-

geschlagen stattdessen auf Begriffe, wie „digitale Archivierung“ oder „digitale Be-

standserhaltung“ auszuweichen. In dieser Arbeit wird an dem etablierten Begriff „di-

gitale Langzeitarchivierung“ festgehalten.

Die digitale Archivierung umfasst Maßnahmen zur digitalen Langzeitarchivierung,

welche sicherstellen, dass die zu archivierenden digitalen Informationsbezugsobjekte52

sorgfältig ausgewählt, erschlossen und gespeichert werden, deren logische und phy-

sische Integrität einschließlich der Authentizität langfristig erhalten wird und die ar-

chivierten Informationen langfristig verfügbar sind.53 Dies impliziert, dass die archivie-

rende Institution Kriterien für die Bewahrungswürdigkeit von Informationen aufstellt.

Unter Integrität wird die Vollständigkeit der digitalen Objekte sowie der Ausschluss

unbeabsichtigter Modifikationen im Sinne der Erhaltungsregeln verstanden. Maßstab

für die Integrität sind die im Kontext ihrer möglichen Nutzung als erhaltenswert iden-

tifizierten Eigenschaften eines digitalen Objekts (signifikante Eigenschaften). Maß-

nahmen zur Erhaltung der Integrität umfassen z.B. die Sicherung des physischen Da-

tenstroms und der zugesicherten, wesentlichen Eigenschaften eines digitalen Ob-

jekts.

Authentizität ist ein besonderes Kriterium für eine vertrauenswürdige Langzeitarchi-

vierung, und bedeutet, dass das Objekt das darstellt, was es vorgibt darzustellen.54

Authentizität umfasst die nachprüfbare Belegbarkeit von Herkunft (Echtheit), Über-

lieferungsgeschichte und Inhalt sowie die technischen Eigenschaften des digitalen

Objekts. Dabei müssen fünf Aspekte berücksichtigt werden: Inhalt, Kontext, Struk-

48 Müller et al. 1985 (Archiv) 49 Im Rahmen der Open Archives Initiative (http://www.openarchives.org/ [04.07.2008]) ist z.B. mit dem Begriff „Archive“ ein digitales Repositorium gemeint, das über eine offene Schnittstelle zur Ab-frage der Metadaten verfügt. Da nicht jedes digitale Repositorium zwangsläufig geprüfte Maßnahmen der Langzeiterhaltung der publizierten Dokumente ergreift, wird „Archive“ hier eher als ein System zur Sammlung und Publikation wissenschaftlicher Dokumente verstanden. 50 Dobratz et al. 2008, Folie 3. 51 vgl. Strauch et al. 2004 (Archiv). 52 In der traditionellen Archivwissenschaft wird von Archivgut oder Archivalien gesprochen. 53 Lord et al. 2003, S. 12. 54 vgl. nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006, S. 17.

Page 32: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

18

tur, Erscheinungsbild und Verhalten.55 Der Grad der erforderlichen Authentizitäts-

wahrung kann für verschiedene Nutzergruppen unterschiedlich sein. Für bestimmte

Domänen ist es wichtig, dass das „Look and Feel“ des Dokumentes erhalten bleibt

(z.B. bei der Softwarearchivierung), oft wird es ausreichen, Inhalt, Kontext und

Struktur zu sichern. Die Herkunft und Echtheit eines elektronischen Dokumentes

kann zum Beispiel vom Ersteller, Urheber oder der publizierenden Einrichtung durch

Verwendung einer digitalen Signatur gesichert werden. Für die Authentizität des In-

halts muss sichergestellt sein, dass jegliche Referenz durch eine Zitation genau so

besteht, wie zum Zeitpunkt der Erstellung bzw. Publikation des Dokumentes, es sei

denn eine Veränderung wird in den Metadaten dokumentiert.56 Der technische As-

pekt der Authentizität eines digitalen Objektes meint, dass die in den Metadaten hin-

terlegten technischen Informationen korrekt sind, so dass Planungssicherheit bezüg-

lich der notwendigen Langzeiterhaltungsmaßnahmen und Veränderungen sowie der

Interpretierbarkeit besteht.57 Deshalb sind Maßnahmen der Bestandserhaltung, die

das digitale Objekt technisch verändern, in den Metadaten des Objektes nachzuwei-

sen.

Die digitale Langzeitverfügbarkeit meint die Sicherung des langfristigen Zugangs zu

den archivierten, digitalen Informationsbezugsobjekten und deren langfristige Nutz-

barkeit für eine definierte Gruppe von Nutzern.

Im englischen Sprachraum wird vermehrt auf den Begriff „digital curation“ rekur-

riert, der ein erweitertes, pragmatisches Verständnis für die Erhaltung der Nutzbarkeit

digitaler Informationen vermittelt.58 Digital curation kann man mit digitale Bestands-

pflege bzw. -fürsorge übersetzen und meint Maßnahmen zum Management und der

Mehrung des Nutzens von Informationsbeständen, um zu jeder Zeit ihre Einsatzmög-

lichkeit für Forschung und Wiederverwertung sicherzustellen.59 Der Ansatz baut als

Bottom-up-Approach auf den Bedürfnissen der wissenschaftlichen Fachgemeinschaft

im Hinblick auf die Konzeption der Informationsobjekte auf, während „digital preser-

vation“ eher top-down-orientiert die Konzeption notwendiger Infrastrukturen und

Zuständigkeitsverteilungen zu deren Bewahrung zum Gegenstand hat.60 Bei dynami-

schen Sammlungen würde die Bestandspflege umfassen, dass die verantwortliche

55 vgl. Verheul 2006, S. 54f. 56 vgl. The digital preservation coalition et al. o. J., http://www.dpconline.org/graphics/intro/definitions.html [04.07.2008]. 57 vgl. The digital preservation coalition et al. o. J., http://www.dpconline.org/graphics/intro/definitions.html [04.07.2008]. 58 vgl. Beagrie 2006, S. 4ff. 59 vgl. Lord et al. 2003, S. 12; hier übersetzt vom Verfasser, im englischen Wortlaut: „Curation: The activity of, managing and promoting the use of data from its point of creation, to ensure it is fit for contemporary purpose, and available for discovery and re-use. For dynamic datasets this may mean continuous enrichment or updating to keep it fit for purpose. Higher levels of curation will also involve maintaining links with annotation and with other published materials.” 60 vgl. van Horik 2008, S. 132.

Page 33: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

19

Institution für die ständige Aktualisierung der Informationsbasis Sorge trägt. Für den

Bereich der Langzeiterhaltung von statischen Dokumenten digitaler Repositorien ge-

hen Maßnahmen der Bestandspflege über die Maßnahmen der digitalen Langzeitar-

chivierung hinaus und umfassen auf einem höheren Level der Pflege auch das Nach-

halten von Hyperlinks mit Anmerkungen und die Verknüpfung mit später publizier-

tem Material. Es geht darum, der Information durch die Bestandspflege einen Mehr-

wert hinzuzufügen („adding value“), so dass deren Nützlichkeit auch für die Zukunft

gesichert wird.61

Beispiel 3: Abgrenzung von digitaler Langzeitarchivierung und digitaler Bestandspflege

Den Unterschied des Qualitätslevels mag folgendes Beispiel verdeutlichen. Die Migration eines Doku-

mentes von einem veralteten in ein aktuelles Dateiformat ist eine Maßnahme der digitalen Langzeitar-

chivierung und sichert die Lesbarkeit des Dokumentes in seinem Ursprungszustand. Es kann jedoch

sein, dass die Referenzen innerhalb des Dokuments durch nicht mehr gültige URLs (Uniform Resource

Locator) repräsentiert werden. Die Ersetzung von veralteten URLs in den Referenzen eines Dokuments

durch neue gültige URLs oder beständige Bezeichner (persistent identifiers) wäre eine Maßnahme der

digitalen Bestandspflege, da sie einen Mehrwert schafft, der über die reine Erhaltung des digitalen

Objektes in seiner ursprünglichen Form hinausreicht. Darüber hinaus wird eine höhere Authentizitäts-

stufe des ursprünglichen Informationsgehalts erzeugt. Eine Maßnahme der Bestandspflege wäre zum

Beispiel auch die Anreicherung der Metadaten eines digitalen Objektes mit der Information zu aktuel-

len Versionen des Ursprungsdokuments, z.B. durch Angebot einer Verknüpfung zu einer bearbeiteten

oder erweiterten Fassung.62

Langzeit ist ein Zeitraum, der über Veränderungen der Technik hinausreicht, sich z.B.

über Versionszyklen von Soft- und Hardware hinweg erstreckt, und auch mögliche

Änderungen der Zielgruppe berücksichtigt.63

Gebräuchlich ist auch die Definition:

„“Langzeit“ ist die Umschreibung eines nicht näher fixierten Zeitraumes, während-

dessen wesentliche, nicht vorhersehbare technologische und soziokulturelle Verände-

rungen eintreten; Veränderungen, die sowohl die Gestalt als auch die Nutzungs-

situation digitaler Ressourcen in rasanten Entwicklungszyklen vollständig umwälzen

können“.64

Zur Abgrenzung des zeitlichen Bezugsraums wird relativ zu einem Bezugsobjekt, das

durch Anwendung einer „Anfangstechnologie“ technisch repräsentiert wird, unter

einer kurzfristigen Zeitspanne verstanden, dass die ursprüngliche Technologie noch

aktuell ist und aktiv unterstützt wird (0 – 5 Jahre). Während einer mittelfristigen Zeit-

spanne wird die ursprünglich zur Erstellung oder Präsentation des Bezugsobjektes

61 Giaretta 2006, Kapitel 1.1. 62 Ein Beispiel wäre hier die Monographie Borghoff et al. 2003, die um eine ins Englische übersetzte und aktualisierte Fassung Borghoff et al. 2006 erweitert wurde. Diese Information müsste im Bereit-stellungssystem der ersten Monographie als Metadatum für den Endnutzer verzeichnet werden. 63 vgl. Dobratz et al. 2008, Folie 3. 64 Schwens et al. 2004, S. 567; Strauch et al. 2004; Liegmann et al. 2008, S. 1-2.

Page 34: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

20

genutzte Technik noch unterstützt und genutzt, jedoch nicht mehr zur Erstellung

neuer Objekte (5-10 Jahre) verwendet. Langfristig (mehr als 10 Jahre) wird die Ur-

sprungstechnologie nicht mehr unterstützt und genutzt, die Interpretierbarkeit des

Bezugsobjektes ist akut gefährdet oder ein Informationsverlust ist bereits eingetre-

ten.65 Langzeitarchivierungsstrategien setzen bereits bei der Erstellung und Publikati-

on des Informationsobjektes an. Die Unterscheidung der Zeiträume ist nur für die

aktuell anstehenden Handlungsoptionen und Langzeitarchivierungsstrategien rele-

vant.

Die digitale Langzeitarchivierung ist verortet in einem digitalen Langzeitarchiv (engl.:

digital preservation repository). Unter einem digitalen Langzeitarchiv wird eine Or-

ganisation bestehend aus einer Einheit von Personen und technischen Systemen ver-

standen, die die Verantwortung für die Langzeiterhaltung und die Langzeitverfüg-

barkeit digitaler Objekte sowie für ihre Interpretierbarkeit zum Zwecke der Nutzung

durch eine visierte Nutzergruppe übernommen hat.66

2.2 Notwendigkeit langfristiger Aufbewahrung wissenschaftlicher Fachinformation

Ob der Komplexität der Aufgabe und der anfallenden Kosten, die das langfristige

Vorhalten von Informationen verursacht, könnte man versucht sein, den Sinn der

Archivierungsbemühungen generell in Abrede zu stellen. Vielleicht mit der Einlas-

sung: wer benötigt überhaupt veraltete Informationen und überholte Daten? Wird

das Wissen von gestern nicht durch das „bessere“ Wissen von heute überschrieben?

Der in Beispiel 1 dargestellte Prozess eines Wissenstransfers kann als allgemeines

Funktionsprinzip von Forschung und Wissenschaft betrachtet werden. Wissenschaft

ist ein notwendigerweise auf Kritik und Kommunikation aufgebautes System.67 Die

wissenschaftliche Fachgemeinschaft bringt anhand der Neubewertung bereits vor-

handener Ergebnisse und Datenbasen neues Wissen hervor. So können selbst über

hundert Jahre alte Datensammlungen, die unter neuen Gesichtspunkten ausgewertet

werden, überraschend neue Erkenntnisse liefern.68 Die Langzeitverfügbarkeit digitaler

Informationsressourcen wird deshalb als essentiell für die Konkurrenzfähigkeit des

Bildungs- und Wissenschaftssystems eines Landes angesehen. 69 Ein angemessener

Aufwand zur Sicherung von Informationsressourcen ist deshalb gerechtfertigt und

erforderlich.

65 vgl. James 2003, S. 1. 66 vgl. nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006, S. 2 (angelehnt an die Definition im ISO 14721:2003 - OAIS Reference Model). 67 vgl. Steinhauer, Eric: http://www.ub.uni-dortmund.de/listen/inetbib/msg36912.html [22.07.2008]; Hering 2007, S. 37. 68 vgl. Lupprian 2000. 69 vgl. Schwens et al. 2004, S. 567.

Page 35: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

21

Die in einem digitalen Repositorium publizierten Dokumente sind von unterschiedli-

cher Qualität und deshalb nicht notwendig in jedem Fall einer Langzeiterhaltung zu-

zuführen. Es gibt jedoch Anhaltspunkte, die eine Entscheidung für die Langzeitarchi-

vierung präjudizieren. Eine Publikation sollte langfristig bewahrt werden, wenn

− ein Dokument einen umfangreicheren und leichteren Zugang als eine Veröffentli-

chung in einer kommerzielle Zeitschrift bietet

− ein Dokument von anderen Wissenschaftlern zitiert wurde

− ein Dokument einmalige Informationen enthält, die nirgendwo sonst publiziert

wurden oder es gerade auf die Nachvollziehbarkeit der Versionsgeschichte einer

Publikation ankommt

− ein Dokument Teil der Forschungsgeschichte ist, z.B. frühe Entwürfe von bedeu-

tenden Entdeckungen

− das Dokument Teil einer archivierungswürdigen Sammlung ist70

2.3 Strukturwandel der wissenschaftlichen Informationsversorgung

Die Fortschritte in der Informationstechnologie durch Digitalisierung und die Schaf-

fung vernetzter Strukturen des Internets haben in den letzten vier Jahrzehnten zu

einem Paradigmenwechsel in der Art der Verteilung und Rezeption wissenschaftlicher

Information geführt. Die vormals ausschließlich analoge, papiergebundene Informa-

tionsversorgung wurde Schritt für Schritt durch elektronische Informations- und

Kommunikationstechnologien abgelöst, zunächst durch den Ersatz analoger, biblio-

graphischer Nachweis- und Erschließungsmittel, durch digitale Informationssysteme,

z.B. der elektronische OPAC (Online Public Access Catalogue) in Bibliotheken als di-

gitales Korrelat des analogen Zettelkastenkatalogs, später durch den Aufbau einer

kostenintensiven, größtenteils öffentlich finanzierten Informationsinfrastruktur seit

Beginn der 1970er Jahre, deren fachspezifische, digitale Datenbasen neben akkumu-

lierten, bibliographischen Quellangaben wissenschaftlicher Literatur bereits relevante

Forschungsprimärdaten in Faktendatenbanken international und teilweise via Daten-

fernübertragung netzbasiert vorhielten.71 Ein Datensatz dieser hochgradig strukturier-

ten Datenbanken stellt dabei das beschreibende Extrakt eines Informationsobjektes

dar, das durch eine intellektuelle, inhaltliche Erschließung unter Anwendung von In-

dexierungssprachen generiert wurde. Diese in der Dokumentationswissenschaft als

Dokumentationseinheiten bezeichneten Sekundärinformationen können mittels einer

Retrievalsprache über Datenbanksysteme feldspezifisch abgefragt werden. Diese

klassischen Informationssysteme erlauben eine präzise Informationsrückgewinnung

70 vgl. James et al. 2003, S. 20f. 71 vgl. zur Entwicklung der Dokumentation und der Einrichtung von Fachinformationszentren zur elektronischen Informationsvermittlung in der Bundesrepublik Deutschland Rink 2005, S. 29ff.

Page 36: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

22

(Information Retrieval). Die Volltexte der Dokumente waren jedoch zunächst nicht

elektronisch verfügbar. Mit dem Fortschreiten der Computertechnologie durch Erhö-

hung der Speicherkapazität der Rechner und der Übertragungsbandbreite der Kom-

munikationsnetze sowie der Entwicklung des World Wide Web 1989 durch Tim Ber-

ners-Lee im Rahmen eines Projektes am Genfer CERN72 wurde es möglich, neben der

Dokumentbeschreibung, in der Internetterminologie als deskriptive Metadaten be-

zeichnet, auch die Volltexte der Dokumente netzbasiert zugänglich zu machen. D.h.

statt oder ergänzend zur Sekundärinformation steht auch die Primärinformation in

digitaler Form unabhängig von Raum und Zeit zur Verfügung. Dies trägt dem Bedarf

der Wissenschaftsgemeinschaft nach einem zügigen, effektiven Austausch von For-

schungsergebnissen besonders in naturwissenschaftlich-technischen Disziplinen und

der Medizin, dem so genannten STM-Bereich, Rechnung.

Aufgrund dieser Entwicklungen unterliegen auch die etablierten, wissenschaftlichen

Publikationsmodelle einem stetigen Veränderungsdruck und Strukturwandel, auf-

grund derer veränderte organisatorische und technische Verfahren notwendig und

den beteiligten Akteuren teils neue Aufgaben zugewiesen wurden.

Ein Informationszyklus, wie er in Beispiel 1 beschrieben wird, ist heutzutage nicht die

Ausnahme, sondern muss den Wissenschaftlern zur Unterstützung einer effektiven

Forschungsarbeit zur Verfügung stehen. Die Errichtung einer onlinebasierten Infor-

mationsinfrastruktur für Fachinformation wird deshalb vielfältig gefördert und durch

gemeinsame Initiativen der Informationseinrichtungen von Universitäten und außer-

universitären Forschungsinstitutionen umgesetzt.73

Um die veränderten Rahmenbedingungen des wissenschaftlichen Publikationsprozes-

ses zu verdeutlichen, sei hier kurz der traditionelle, printbasierte Ablauf dargestellt

(siehe Tabelle 2).74

72 Die erste Webpräsenz des WWW war unter der Adresse http://info.cern.ch/ [27.06.2008] einge-richtet, eine Momentaufnahme der historischen Seite wird unter http://www.w3.org/History/19921103-hypertext/hypertext/WWW/TheProject.html [27.06.2008] vom World Wide Web Consortium (W3C) vorgehalten. 73 Aktuelle Programme sind u.a. die Allianz-Initiative Digitale Information 2008 oder das DFG-Förderprogramm Elektronische Publikationen, DFG 2008. 74 vgl. Schlindwein et al. 1996, 2. Unterpunkt; Umlauf 2006, Rn. 15, 16

Page 37: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

23

Tabelle 2: Phasen des traditionellen wissenschaftlichen Publizierens

Phase Prozessschritt Akteure

Verfassen des Dokumentes

Entwurf

Diskussion mit Mitarbeitern und Kollegen

Endfassung

Phase 1

Einreichen

Autor(en)

(Produzenten von wissen-

schaftlichen Ergebnissen )

Begutachtung und Überarbeitung Autoren, Gutachter

Expertengutachten Gutachter

Änderungen Autoren

Phase 2

Annahme zur Publikation Gutachter

Aufbereitung zum Druck und Druck

Layout

Positionierung

Druck

Verlage Phase 3

Auslieferung Buchhandel

Archivierung, Dokumentation, Distribution

Katalogisierung

Archivierung

Indexierung

Phase 4

Aufnahme in Datenbanken

Bibliotheken, Datenbank-

produzenten

Die Publikationskette verläuft hier vom Autor (Produzent von wissenschaftlichen Er-

gebnissen) – Verlag – Buchhandel – (Bibliotheken) – Nutzer (Autor als Konsument

wissenschaftlicher Ergebnisse).75 Der Autor durchläuft ein von den Verlagen organi-

siertes Begutachtungsverfahren (Peer Review) und liefert nach erfolgreicher Annah-

me des Beitrages durch ein Gremium anerkannter Fachleute ein nach den Vorgaben

des Verlages formatiertes Dokument an den Verlag.76 Durch dieses über lange Zeit

erprobte und stabile Modell war die Erhaltung der Information relativ gesichert, da es

eine dezentrale Verteilung vieler Printexemplare gibt und zusätzliche Belegexemplare

in Depot-, Speicher- und zentralen Fachbibliotheken vorgehalten werden. Folglich

fällt die Aufgabe der Bestandserhaltung klassisch den Bibliotheken zu.

Jedoch sind im Verlauf der Publikation erhebliche zeitliche Hemmungen des Informa-

tionsflusses bei mehreren Prozessschritten zu verzeichnen. Die Zeitdauer vom Einrei-

chen eines Dokumentes bis zur Auslieferung einer gedruckten Zeitschrift beträgt in

ungünstigen Fällen bis zu zwei Jahre.77 Außerdem kann es sein, dass die Gutachter

75 vgl. Scholze et al. 2007, S. 14. 76 Zu der Bedeutung und den positiven Effekten des Peer Reviewings für das „faktengebundene Kon-sensprinzip“ in den Naturwissenschaften siehe Hering 2007, S. 38f. 77 Schlindwein et al. 1996, 2. Unterpunkt.

Page 38: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

24

sich im Peer Review irren oder durch eine benachteiligende Begutachtung wichtige

Forschungsergebnisse zurückgehalten werden. Der Zeitschriftenleser hat in diesem

Falle keine Möglichkeit abgelehnte Artikel trotzdem zu beziehen. Andererseits be-

steht ein starker Druck auf Wissenschaftler, in angesehenen, begutachteten Zeit-

schriften mit einem hohen Journal Impact Factor (JIF)78 bzw. in angesehenen Verla-

gen zu publizieren, denn nur so erlangt man in einem Fachgebiet Reputation und

kann eine erfolgreiche Forschungslaufbahn absolvieren, Fördermittel akquirieren etc.

Es gilt der Grundsatz: „publish or perish“, also „veröffentliche oder gehe unter“.79

Durch die starke Stellung konnten die Verlage durch Verträge häufig die Abtretung

exklusiver Nutzungsrechte für alle Zeit durch die wissenschaftlichen Urheber durch-

setzen, die sich damit gleichsam jeglicher Rechte am eigenen Werk kupierten.

Durch Digitalisierung und Publikation über das Internet sind viele Konstanten des

alten Systems zu fakultativen Optionen geworden. Theoretisch würde die kürzeste

Publikationskette nun vom Autor (Produzent von wissenschaftlichen Ergebnissen)

direkt zum Nutzer (Konsument und Autor wissenschaftlicher Ergebnisse) verlaufen,

und zwar insoweit, als ein Wissenschaftler seine Forschungspapiere auf der eigenen

Website oder der Website des Instituts veröffentlicht. Damit stünde die Information

kostenfrei, weltweit jedermann unter Umgehung der etablierten Akteure zur Verfü-

gung. Ein solches Vorgehen stößt auf mehrere Einwände. Zum einen zeichnet sich

das Internet durch eine erhebliche Informationsflut aus.80 Die Möglichkeit des Nutzers

die relevanten Dokumente seines Fachgebiets zu finden, stößt an die Grenzen der

herkömmlichen Suchmaschinentechnik.81 Des Weiteren ist der Bedarf an hoch spezia-

lisierter Fachinformation durch eine „zunehmende Differenzierung, Fragmentierung

und Verästelung der Wissenschaften in eine ständig wachsende Anzahl von Teildis-

ziplinen“82 gestiegen, so dass man sich einer Publikationsflut ausgesetzt sieht, selbst

wenn man nur die fachlich relevanten Informationsquellen ins Kalkül zieht.83,84 Des-

halb kann der spezialisierte Informationsbedarf nur durch eine differenzierte Informa-

tionsinfrastruktur befriedigt werden. Zweitens trüge in diesem Szenario der einzelne

78 Der Journal Impact Factor ist ein Indikator für die fachliche Reputation einer Zeitschrift, der sich aus der Zitationshäufigkeit der in einer Zeitschrift veröffentlichten Beiträge berechnet; siehe dazu Herb 2006. 79 vgl. Riehm et al. 2004, S. 549. 80 vgl. Lyman et al. 2003; Dabei ist der Anteil wissenschaftlicher Fachinformation im Verhältnis zur Gesamtinformationsmenge, die pro Jahr produziert wird, eher gering, siehe z.B. Table 2.3: World Ori-ginal Print Information Flow (2003). - http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/print.htm [11.07.2008]. 81 vgl. Sietmann 2001. 82 Keller 2005, S. 12. 83 So produzierten im Jahr 2004 7 Millionen Wissenschaftler etwa 30.000 Artikel pro Tag, dadurch hat sich die Zahl der in den Datenbanken des Institute for Scientific Information (ISI) in den letzten 20 Jahren verdoppelt. - vgl. Ball 2004, S. 414. 84 Die Problematik der Bewältigung der Publikationsflut durch Einführung von der bibliothekarischen Praxis abweichender Methoden von Erschließung und Retrieval gilt als Schlüsselmoment für die Be-gründung der Dokumentationswissenschaft; vgl. Seeger 2004, S. 25ff.

Page 39: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

25

Verfasser die Verantwortung für die digitale Langzeitarchivierung. Auch im Falle ei-

ner Veröffentlichung auf der Website eines Institutes wird die Übernahme von Ga-

rantien für klar definierte Archivierungszeiträume häufig nicht realisierbar sein. Es

müssten Lösungen für den Fall des Wechsels des Wissenschaftlers an eine andere

Institution bzw. Pensionierung und Tod geschaffen werden. Und selbst wenn es ein

klar definiertes Ablieferungsverfahren an eine Langzeitarchivierungsinstitution gäbe,

bestünde für eine Institution ein erhebliches, logistisches Problem alle Dokumente in

einem geordneten Verfahren zu erfassen, zu bewerten, zu erschließen und zu erhal-

ten. Kurz: eine derart gekürzte Informationskette würde nicht oder nur für einen äu-

ßerst kurzen Zeitraum funktionieren.

Die zweite Möglichkeit besteht darin, an der ursprünglichen Publikationskette festzu-

halten und lediglich die Aufgaben der Akteure an die veränderten Rahmenbedingun-

gen einer elektronischen, netzbasierten Distribution anzupassen. Auch dem stehen

allerdings mehrere Einwände entgegen, die hier nur kurz erwähnt werden sollen.85

Zum einen werden die Exklusivrechte der Verlage vor allem im Zeitschriftenbereich,

die als kommerzielle Unternehmen profitorientierte Eigeninteressen an der Publikati-

on verfolgen, durch erhebliche Preissteigerungen zunehmend in Frage gestellt.86 Es

wird eine Kostenexplosion konstatiert, deren Ursache in der oligopolistischen Stellung

weniger internationaler Verlagskonzerne vermutet werden kann. Durch diese markt-

verzerrenden Konzentrationsprozesse ist z.B. der Durchschnittspreis pro Zeitschrift

von 1986 - 2004 um 188 % angestiegen – mehr als doppelt so stark wie der Durch-

schnittspreis pro Monografie (77 %) und der Index der Verbraucherpreise (73 %).87

Viele Bibliotheken waren in der Folge zu Abbestellungen von Abonnements gezwun-

gen. Damit erlangen Wissenschaftler, die an finanziell leistungsfähigeren Einrichtun-

gen arbeiten, ungerechtfertigte Vorteile im kompetitiven Wettstreit um wissenschaft-

liche Exzellenz, während Forscher, die in weniger privilegierten Institutionen arbeiten,

vor allem in Entwicklungsländern wissenschaftlich tätig sind, durch dieses System

benachteiligt werden. Bereits seit langem bestehende globale Disparitäten werden so

in Form einer digitalen Spaltung (engl.: „digital divide“) fortgeschrieben.

Darüber hinaus erwerben Bibliotheken, die sich die erhöhten Preise für Verlagspubli-

kationen leisten können, im Falle digitaler Publikationen häufig lediglich zeitlich be-

fristete Lizenzen, so dass nach der Kündigung eines Abonnements die Informationen

für Wissenschaftler der Einrichtung nicht mehr zur Verfügung stehen. Dies ist eine

Verschlechterung im Vergleich zur analogen Welt, da erworbene Printprodukte auch

nach Auflösung von Verträgen weiterhin im Bestand der Bibliothek verbleiben. Eine

Langzeitarchivierung oder gar Bestandspflege im Sinne einer digital curation ist unter

85 dazu eingehender Ball 2004; Woll 2006; Rusch-Feja 2001. 86 Scholze et al. 2007, S. 14f.; Ball 2004, S. 414. 87 vgl. Woll 2006, S. 15.

Page 40: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

26

diesen Umständen durch die klassischen Träger der Informationsbewahrung nicht

gewährleistet. Die Verantwortung für die digitale Archivierung wird an Verlage aus-

gelagert, wobei nur die prosperierenden, großen Unternehmungen befähigt sind,

diese Aufgabe verlässlich zu erfüllen, und das auch nur so lange sie am Markt erfolg-

reich bestehen und eine Archivierung Gewinn verspricht. Es gibt Ansätze für eine

effektive, digitale Langzeitarchivierung durch den Erwerb von Nationallizenzen oder

kooperative Verlagslösungen zu sorgen.88 Allein die so genannte Zeitschriftenkrise

macht deutlich, dass ob der Unsicherheit kommerzieller Lösungen der öffentliche

Sektor selbst in der Pflicht steht, das wissenschaftliche Publikationswesen zumindest

organisatorisch entscheidend zu gestalten. Prioritär sind jedenfalls Lösungen, die die

Zugänglichkeit zu wissenschaftlichen Informationen am besten zu sichern vermögen.

Es liegt deshalb nahe, dass die etablierten Träger und Experten der Informationsbe-

wahrung, also die wissenschaftlichen Bibliotheken, auch den Publikationsprozess fe-

derführend begleiten und den Aufbau einer vertrauenswürdigen, digitalen Publikati-

onsinfrastruktur in eigener Verantwortung organisieren. Erste Initiativen begannen

diesbezüglich 1994 mit der amerikanischen „Digital Libraries Initiative“ der US-

National Science Foundation (1994-1998, Phase II 1998-2001), d.h. bereits ein Jahr

nachdem das WWW durch die Veröffentlichung des ersten Webbrowsers NCSA Mo-

saic überhaupt für größere Personenkreise nutzbar wurde.

Bereits drei Jahre zuvor wurden die ersten Preprint-Server entwickelt, insbesondere

der von dem Physiker Paul Ginsparg 1991 ins Leben gerufene LANL Preprint Server

für Hochenergiephysikaufsätze am Los Alamos National Laboratory, der später als

arXiv.org eines der weltweit wichtigsten Fachrepositorien für Physik und Mathematik

wurde und in Initiative des vorgenannten ab 1999 die ersten Vernetzungsbemühun-

gen dieser Dokumentenserver durch die Open Archives Initiative (OAI)89, die unter

der Bezeichnung „digitale Repositorien“ Gegenstand der vorliegenden Untersuchung

sind.

Inzwischen werden beim internationalen Registry of Open Access Repositories

(ROAR) 1093 digitale Repositorien mit 9.352.945 Datensätzen gelistet (siehe

Abbildung 4)90 und im Directory of Open Access Repositories (OpenDOAR) sind

1167 digitale Repositorien weltweit verzeichnet (siehe Abbildung 5).91

88 siehe dazu z.B. u. a. PORTICO - a digital preservation and electronic archiving service. - http://www.portico.org/ [05.07.2008]. 89 vgl. Rusch-Feja 2001, S. 292; Andermann 2004, S. 562. 90 Die Zahlen wurden am 5. Juli.2008 auf der Seite http://roar.eprints.org/index.php?action=browse ermittelt. Die Zahl der Datensätze wurde aus den Werten für die Auflistung nach der verwendeten Systemsoftware berechnet. Die Zahlen entfalten nur Gültigkeit für die bei ROAR registrierten Reposi-torien; nicht alle weltweit, existierenden Repositorien sind bei ROAR registriert. Auch gibt die Zahl der Datensätze nicht die Zahl der veröffentlichten, frei verfügbaren Dokumente wieder, da nur die über die OAI-Schnittstelle geharvesteten Metadaten ausgewertet werden. Es kann sein, dass für einige

Page 41: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

27

Abbildung 4: Entwicklung der Zahl der registrierten Repositorien und der Datensätze in ROAR von

1990 - 2008

Abbildung 5: Entwicklung der Zahl der registrierten Repositorien in OpenDOAR von 2006-2008

Dokumente durch die Repositorien aufgrund rechtlicher Hindernisse der Zugriff auf den Volltext nicht möglich ist. 91 http://www.opendoar.org/ [06.07.2008].

Page 42: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

28

Dem Ansatz, die Probleme der wissenschaftlichen Informationsversorgung durch

weltweiten, unbeschränkten Zugriff auf die in digitalen Repositorien publizierten

Volltexte digitaler Dokumente zu lösen, wird in der Literatur durch die damit einher-

gehende Veränderung in der Wertschöpfungskette wissenschaftlicher Information

mittelfristig das größte Potenzial zur Reformierung des wissenschaftlichen Publikati-

onswesens eingeräumt.92,93 Neben diesem Ansatz, der auch als der grüne Weg zum

Open Access bezeichnet wird, besteht der goldene Weg zum Open Access in der

primären Publikation in einer begutachteten Open Access-Zeitschrift. Diese verfügen

inzwischen in bestimmten Domänen über ein hohes Renommee und hohe JIF-Werte. 94Mit der Einrichtung digitaler Repositorien leisten Bibliotheken zumal einen substan-

tiellen Beitrag zum Ausbau ihrer Dienstleistung zu „universitären Informations- und

Servicezentren“, der durch die unmittelbare Außenwirkung der Publikationen auch

die Wahrnehmung der Trägerinstitution in der Fachöffentlichkeit als aktive Gestalte-

rin der Wissenschafts- und Forschungslandschaft positiv beeinflussen kann.95

Trotz der Vorteile einer dreigliedrigen Publikationskette von Autor - Bibliothek - Nut-

zer, sind auch hier Probleme zu gewärtigen. Die meisten veröffentlichten Dokumente

durchlaufen keinen kanalisierenden Qualitätssicherungsprozess über Herausgeber

und Gutachter, auf den wegen der Nachteile des klassischen Peer Reviewing Prozes-

ses (siehe S. 23) jedoch häufig bewusst verzichtet wird. Es wird stattdessen auf ein

sich selbst regulierendes System gesetzt, bei dem die in kleinen Domänen mögliche

Diskussion zwischen Autor und Nutzer Überarbeitungen und Korrekturen eines Do-

kumentes erlaubt.96,97 Auch Maßzahlen für die Gewichtung und den Rang einer Pub-

likation sind durch die Einführung neuer nutzungs- und zitationsspezifischer Indices

auf Dokumentebene (und dadurch sogar auf einer gerechteren Grundlage) prinzipiell

innerhalb eines Systems vernetzter digitaler Repositorien bestimmbar. Allerdings wird

der JIF, dort wo das Maß etabliert ist, mittelfristig als wichtiger Indikator nicht abzu-

lösen sein. Studien belegen inzwischen jedoch, dass Materialien, die parallel zur kon-

ventionellen Veröffentlichung in einer kommerziellen Zeitschrift auch auf einem Re-

positorium zugänglich gemacht werden, häufiger zitiert werden.98 Der Anstieg der

Zitationshäufigkeit, der zwischen den unterschiedlichen Disziplinen stark variiert, be-

trug zwischen 25 und 250 %.99

92 vgl. Sietmann 2006; sowie Wissenschaftsrat, Wissenschaftsrat 2001, S. 33f. 93 vgl. Andermann et al. 2004, S. 49, sowie ausführlich in Crow 2002. 94 Das E-Journal Biomed Central Biotechnology rangiert mit einem JIF von 2.75 auf Platz 41 von 138 im Bereich Biotechnologie beim ISI Web of Science gelisteten Zeitschriften; siehe http://www.biomedcentral.com/bmcbiotechnol/about/ [29.07.2008]. 95 vgl. Schulz 2001, S. 22. 96 vgl. Schlindwein et al. 1996, 2. Unterpunkt. 97 siehe zur praktischen Umsetzung eines kooperativen Qualitätssicherungsverfahrens auch die Open Access Publikationen der Living Reviews Journals. - http://www.livingreviews.org/ [05.07.2008]. 98 vgl. Herb 2006. 99 vgl. Hajjem et al. 2005, S.8.

Page 43: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

29

Rechtlich ist für eine Publikation auf einem digitalen Repositorium von Autorenseite

die Übertragung einfacher Nutzungsrechte zur Internetveröffentlichung des Werkes

als elektronisches Dokument in einem Präsentationsformat auf dem Server des Repo-

sitoriums bzw. migrierter Archivkopien nötig, sowie der zur Durchführung von Maß-

nahmen der digitalen Langzeitarchivierung und gegebenenfalls zur Weitergabe digi-

taler Kopien in einem geeigneten Archivierungsformat an ein digitales Langzeitarchiv

erforderlichen Nutzungsrechte.100 Die Bibliothek als Betreiberin des Repositoriums

wird damit Herrin über die digitale Langzeitarchivierung ihres Bestandes. Die Prämis-

sen für die Bestandserhaltung haben sich gegenüber der analogen Welt indes grund-

legend geändert.

Rothenberg konstatiert:

„Buchführen, Dokumentieren, Aufbewahren von Aufzeichnungen aller

Art sind durch die Informationstechnik so radikal verändert worden wie

zuvor nur durch die Buchdruckerkunst oder, in grauer Vorzeit, die Ent-

wicklung der Zahl- und Schriftzeichen überhaupt“.101

Eine Analyse der Bedingungen digital repräsentierter Information wird aufzeigen, wie

die Prozessschritte des Publikationsprozesses auszugestalten sind, damit digitale Ar-

chivierung möglichst ohne den Verlust relevanter Information gelingen kann.

2.4 Problemaufriss: Verlust von Information durch Digitalisierung

“Digital documents last forever - or five years, whichever comes first.”

(Rothenberg 1999 – Avoiding technological quicksand, S.2)

Im Prinzip ist Information nicht zerstörbar.102 Die dauerhafte Haltbarkeit von Informa-

tion ist abhängig vom Informationsträger (Medium) und der Interpretierbarkeit der

verwendeten Zeichen und Symbole. Die Wahl eines besonders haltbaren Informati-

onsträgers vorausgesetzt, transzendieren derart perpetuierte Informationen die Sterb-

lichkeit des einzelnen Menschen und überdauern den Untergang von Völkern. Diese

Fähigkeit des Menschen zur Informationsvermittlung über epochale Zeiten und

Räume hinweg ist wesentliches Charakteristikum für die Entstehung von Kultur und

Zivilisation.103

100 vgl. Borghoff et al. 2003, S. 21. 101 Rothenberg 1995, Abs. 4. 102 vgl. Rothenberg 1995, 7. Absatz. 103 vgl. Borghoff et al. 2003, S. v.

Page 44: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

30

Beispiel 4: Die Entzifferung der ägyptischen Hieroglyphen

Mit einem passenden Dechiffrierschlüssel kann auch die Bedeutung Jahrtausende alter Datenträger

verstanden werden. Aufgrund dessen ist es heute realisierbar, Botschaften aus dem Alten Ägypten zu

verstehen, die vor über 2200 Jahren niedergeschrieben wurden. Das Verständnis wurde durch die

Verwendung eines enorm haltbaren Datenträgers (Stein) und die Entdeckung eines Dechiffrierschlüs-

sels ermöglicht. Zur Dekodierung wurde der Stein von Rosetta genutzt, dessen Text in drei unter-

schiedlichen Schriften und zwei antiken Sprachen für drei unterschiedliche Nutzergruppen in den Stein

gemeißelt wurde, in Hieroglyphen auf Ägyptisch für die Priester, in demotischer Schrift auf Ägyptisch

für die Beamten und in altgriechischen Großbuchstaben auf Altgriechisch für die griechischen Besatzer

Ägyptens. Dem französischen Sprachwissenschaftler Jean-François Champollion gelang mit Hilfe des

Steins 1822 die Entzifferung der demotischen Schrift und der Hieroglyphen.

Für die Haltbarkeit von Information gilt dennoch:

Jeder durch die Modernisierung von Publikationsinfrastrukturen erlangte Gewinn an

Flexibilität der Informationsdistribution führte über die Zeitläufte zu einer dieser indi-

rekt proportional entgegenstehenden Entwicklung, die mit der Verringerung der

Haltbarkeit der Medien und Beständigkeit der Information einherging.

Diese These ist frappierend, da nicht unmittelbar einzusehen ist, warum durch ver-

besserte Technologien hergestellte Informationsträger zwangsläufig eine geringere

Haltbarkeit aufweisen sollen, zumal digitale Information sich durch ihre verlustfreie,

nicht verbrauchbare, technische Reproduzierbarkeit auszeichnet. Gleichwohl gibt es

eine Entwicklung, die sie belegt. Auf Steintafeln oder Pergament (Tierhäuten) hinter-

legte Informationen überdauern nachweislich bis zu mehreren Jahrtausenden. Papy-

rus oder die bis ins 18. Jahrhundert verwendeten Hadernpapiere aus Leinen, Hanf

oder Baumwolle überdauerten nur noch einige Jahrhunderte. Bei Dokumenten, die

ab dem 19. Jahrhundert auf industriell hergestellten Holzschliffpapieren erstellt wur-

den, ist bereits die Verfallszeit der Information durch chemische Zersetzungsprozesse

des Materials von wenigen Jahrzehnten determiniert, gesetzt den Fall, dass sie nicht

konservatorisch behandelt werden.104 Die Akteure der Bewahrung der Überliefe-

rungsgeschichte sind mithin schon immer mit der Gefährdung der ihrer Obhut über-

lassenen Informationsträger konfrontiert und auf die Entwicklung von Langzeiterhal-

tungsstrategien angewiesen. Im Falle von Papier sind biologischen (Schimmelbefall),

physikalischen (Feuer, Wasser, Lichteinwirkung) oder chemischen (Übersäuerung des

Materials) Gefahren zu begegnen.

2.4.1 Besonderheiten von in digitaler Form vorliegender Information

Digitalen Datenträgern haften prinzipiell dieselben Gefahren an wie analogen. Ob-

schon noch weitere hinzukommen. Digitale Informationen bzw. die zugehörigen In-

formationsträger unterscheiden sich wie folgt von analogen:

104 vgl. Borghoff et al. 2003, S. v.

Page 45: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

31

− Maschinenabhängigkeit: Digital vorliegende Information ist ihrer Art nach -

ätherisch und für den Menschen nicht direkt sinnlich wahrnehmbar. Zum Auslesen

digitaler Informationsträger sind technische Hilfsmittel nötig (Hardware und Soft-

ware), die in der Lage sind, die zu dekodierenden Daten zu prozessieren, um diese

in einer für den Menschen wahrnehmbaren Form als Information auf einem Gerät

auszugeben. Die auf einem Datenträger befindlichen Daten müssen in Bezug auf

die Anwendungsumgebung wie ein Schloss zum Schlüssel passen.

− die hohe Geschwindigkeit des technologischen Wandels: Technik (Hard- und

Software) altert rasant durch kurze Produktions- und Entwicklungszyklen

− Fragilität der Datenträger und geringe Haltbarkeit von Hardware: Speichermedien

für digitale Daten sind instabil und verschlechtern sich bei unsachgemäßen Lager-

bedingungen rasant (man geht von einer Haltbarkeit weniger Jahre bis maximal

weniger Jahrzehnte aus)105,106

− die unkomplizierte Manipulierbarkeit digitaler Daten und die Notwendigkeit, Da-

ten im Zuge von Erhaltungsmaßnahmen zu verändern erfordern große Anstreng-

ungen an die Sicherung von Integrität, Authentizität und eine exakte Dokumenta-

tion der vorgenommenen Änderungen in den Metadaten

− die Auswirkungen fehlerhafter Prioritätsentscheidungen sind viel schwerwiegender

als bei Druckmedien; ein digitales Objekt, das nicht zu einem frühen Zeitpunkt für

aktive Erhaltungsmaßnahmen vorgesehen wird, ist bereits in naher Zukunft durch

Verlust oder Unbrauchbarkeit bedroht

− es liegt in der Natur von Technologien, dass ihre Erhaltung eines aktiven Produkt-

lebenszyklusmanagements bedarf; nur eine fortgeführte Pflege schon zu Beginn

der Planungs- und Konstruktionsphase kann erfolgreich sein. Dadurch müssen alle

Beteiligten innerhalb einer Institution und über Institutionsgrenzen hinweg ar-

beitsteilig zusammenarbeiten und für die Probleme des jeweils anderen sensibili-

siert werden.107

Digital vorliegende Informationen sind folglich viel verderblicher als Aufzeichnungen

auf Papier und von Verlust bedroht:

"Digital materials, regardless of whether they are created initially in digital

form or converted to digital form, are threatened by technology obsoles-

cence and physical deterioration".108

105 vgl. Rothenberg 1995, S. 3. 106 Zu den Schwierigkeiten der Möglichkeit einer Computergeschichtsschreibung durch Hardwaremu-seen aufgrund der mangelnden Haltbarkeit elektronischer Bauteile siehe Friedewald 1995. 107 vgl. das Original der Auflistung in englischer Sprache: Beagrie 2002, S. A5; The digital preservation coalition et al. o. J. - http://www.dpconline.org/graphics/digpres/stratoverview.html#how [06.07.2008]. 108 Hedstrom et al. 1998.

Page 46: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

32

2.4.2 Definition: Informationsverlust im digitalen Kontext

Informationsverlust tritt ein, wenn keine effektiven Maßnahmen zum Schutz der digi-

talen Objekte ergriffen werden. Von Verlust spricht man gemeinhin, wenn etwas,

das vorher existiert hat, nicht mehr existiert. Ein faktischer Verlust kann jedoch auch

dann vorliegen, wenn etwas zwar noch existiert, aber nur noch durch einen unver-

hältnismäßig hohen Aufwand zugänglich ist, was bei in digitaler Form vorliegenden

Informationen wahrscheinlich der häufiger auftretende Fall sein dürfte.109 Des Weite-

ren tritt ein Verlust ein, wenn der Informationsgehalt eines digitalen Objektes redu-

ziert wurde, selbst wenn eine unmittelbare Wahrnehmung der Informationsreduktion

durch die Sinnesorgane des Menschen nicht möglich ist.

Festzuhalten ist außerdem, dass bereits jede Digitalisierung von in analoger, zeitkon-

tinuierlicher Form vorliegender Information denknotwendig einen Informationsver-

lust beinhaltet, da digitale Daten immer in zeitdiskreter Form vorliegen. Der Verlust

kann reduziert werden, je kleiner die zeitlichen Abstände der Messung bei der Digita-

lisierung der Information gewählt werden. Information ohne analoge Entsprechung,

so genanntes „Born Digital Material“110, erleidet dann einen Informationsverlust,

wenn sie von einem Format ohne oder mit verlustfreier Komprimierung in ein Format

mit verlustbehafteter Komprimierung konvertiert wird.111

Eine relevante, publizierte Information kann darüber hinaus als für den Nutzer verlo-

ren bzw. verschollen gelten, wenn sie zwar in einem nutzungsfähigen Zustand aktiv

gesichert ist, die Information oder ihr Nachweis aber nicht oder nur mit einem unver-

hältnismäßig hohen Aufwand in den in einer Nutzergruppe gewöhnlich genutzten

Informationssystemen auffindbar ist oder eine nachgewiesene Verknüpfung zum

Volltext des digitalen Informationsbezugsobjektes nicht oder nicht mehr gültig ist. Ein

Informationsverlust tritt folglich auch dann ein, wenn der Zugang zu prinzipiell ver-

fügbarer Information nicht adäquat gewährleistet wird.

Beispiel 5: Reale Verluste von digitalen Informationen

Durch digitale Datenhaltung verursachte Informationsverluste werden jedem Computeranwender aus

eigener Erfahrung geläufig sein. Die auf einer Diskette gespeicherten Daten einer vor über 15 Jahren

auf einem Commodore Amiga 500 verfassten Seminararbeit, deren brillante Gedankengänge noch

einmal nachvollzogen werden sollen, sind für einen Laien auf einem Windows PC nicht ohne weiteres

nutzbar. Zunächst z.B. weil der neue PC kein Diskettenlaufwerk mehr besitzt, mit der man die Diskette

auslesen könnte. Selbst wenn nun ein funktionsfähiges, altes Floppy-Lesegerät aufgetrieben und in

den PC montiert wird, was absehbar von aktueller Hardware nicht mehr lange unterstützt werden

dürfte, ist die Diskette vielleicht nicht mehr lesbar, weil der Datenträger durch schlechte Lagerbedin-

109 vgl. Bárány 2006, S. 6. 110 definiert in The digital preservation coalition et al. o. J.. - http://www.dpconline.org/graphics/intro/definitions.html [07.07.2008]. 111 Z.B. die Konvertierung eines in unkomprimiertem TIFF vorliegenden Bildes nach JPEG, das immer verlustbehaftet ist. Der dabei erlittene Informationsverlust ist irreversibel.

Page 47: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

33

gungen entmagnetisiert ist. Oder, falls die Daten noch intakt sind, die Daten sind nicht lesbar, weil das

Amiga-Dateisystem vom MS-DOS-Diskettencontroller technisch nicht interpretiert werden kann.

Selbst wenn diese Hürde genommen ist, die Daten von einem Amiga-Laufwerk auf ein MS-DOS-

Laufwerk kopiert sind und sich wohlbehalten auf der Festplatte des PCs befinden (Migration des Da-

teisystems), können sie nur mit Hilfe einer Softwareumgebung genutzt werden, die im Zweifel das

gesamte AmigaDOS emulieren muss. Außerdem muss eine lauffähige Version des damals verwende-

ten Textverarbeitungsprogramms (Final Writer) beschafft werden. Hier wird der Retter der Information

mit neuen Herausforderungen konfrontiert, denn das Emulationsprogramm (WinUAE) ist zwar eine

freie Open Source Software, aber die alten Routinen für den Betriebsstart (Kickstart ROM) und das

Betriebssystem (AmigaDos und Workbench) sind noch urheberrechtlich geschützt und müssen vom

Rechteinhaber erst erworben werden. 112 Das Textverarbeitungsprogramm ist in der damals verwende-

ten Version gar nicht mehr erhältlich. Auch ein Importfilter für Final Writer-Dokumente in ein aktuell

gebräuchliches Textverarbeitungssystem, wie MS Word 2003 oder Open Office 2.4.1 ist nicht auf-

findbar. Zum Glück wird nun auf dem Dachboden ein gedrucktes Exemplar der Arbeit entdeckt, das

ohne weiteres lesbar ist. Es ist mithin großer technischer Sachverstand und die Überwindung einer

Vielzahl rechtlicher und finanzieller Hemmnisse (engl. inhibitors) erforderlich, um eine reelle Chance zu

erhalten, die auf der Diskette gespeicherten und vormals sicher archiviert geglaubten Informationen

zurück zu gewinnen. Schon dieses kleine Beispiel lässt die Tragweite des Problems erahnen. Auch wird

nahezu jeder Nutzer bereits mit unfreiwilligen Löschungen von Daten durch Programm- oder Compu-

tersystemabstürze konfrontiert gewesen sein.

Diese Verluste im privaten Bereich mögen ärgerlich und im Einzelfall mit schweren Folgen für den

Einzelnen verbunden sein, aber es gibt auch Beispiele hinsichtlich des Verlustes wichtiger Forschungs-

daten, die erhebliche volkswirtschaftliche oder gesellschaftliche Einbußen zur Folge hatten. Exempla-

risch wird immer wieder der Report „Taking a byte out of history: the archival preservation of federal

computer records“ aus dem Jahr 1990 angeführt113, der im Auftrag des US Repräsentantenhauses

einen Überblick über den Stand der Archivierung elektronischer Akten gibt. Der Report listet viele

Beispiele für eingetretene Informationsverluste auf, u.a. die Volkszählungsdaten aus 1960, die in den

1970er Jahren nicht mehr lesbar waren, unlesbaren Listen von im Vietnamkrieg getöteten und ver-

missten US-Soldaten, Schwierigkeiten bei der Lesbarkeit einer wichtigen Herbizid-Datenbank zur Auf-

klärung von Auswirkungen des Sprühkampfgiftes Agent Orange etc.114 Darunter befindet sich auch

der Fall unlesbarer Magnetbänder der US Raumfahrtbehörde NASA, die Daten diverser Missionen mit

teils wichtigen Protokollen nicht wiederholbarer Experimente enthielten. Bezeichnend war dabei, dass

diese Daten häufig nicht per se unlesbar waren, sondern in veralteten, nicht mehr interpretierbaren

Formaten vorlagen, deren Kodierungsschema nicht mehr bekannt war. Es mussten für die Dekodie-

rung teilweise bereits pensionierte, ehemalige Mitarbeiter zur Hilfe gerufen werden oder es wurde auf

die Dechiffrierung aus Kostengründen verzichtet.115 Rothenberg kommentiert diese Tatsache lakonisch:

„Old bit streams never die - they just become unreadable“.116 Da ähnliche Informationsverluste gro-

112 Der technisch versierte Anwender hat natürlich die Möglichkeit die Kickstart ROMs aus dem alten Computer auszulesen, was voraussetzt, dass sich die Hardware noch in einem funktionsfähigen Zu-stand und in dessen Besitz befindet. 113 vgl. Rothenberg 1995; S.1; Rothenberg 1995; Bárány 2006, S. 13f. (mit weiteren Nachweisen). 114 Conyers 1990. 115 vgl. Bárány 2006, S. 14. 116 Rothenberg 1999, S. 2.

Page 48: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

34

ßen Maßstabs befürchtet werden, sprechen einige Beobachter gar von einem „digitalen, dunklen Mit-

telalter“,117 „digitalem Alzheimer“118 oder einem „digitalen Desaster“.119

Die in Beispiel 5 dargestellte Problematik beruht demzufolge häufig nicht auf dem

Versagen technischer Systeme, sondern auf einem Organisations- und Dokumentati-

onsmangel des Archivs bzw. der archivierten Informationsressourcen, der geradezu

prädestiniert erscheint, von den Informationswissenschaften mit dem Erfahrungsho-

rizont und den Methoden der klassischen Dokumentationswissenschaft als Heraus-

forderung erkannt und gelöst zu werden. Dies sollte kooperativ unter Beteiligung der

involvierten Akteure unterschiedlicher Fachrichtungen und der Betroffenen (Informa-

tiker, Ökonomen, Wissenschaftshistoriker, Nutzer) erfolgen.

2.4.3 Kosten des Informationsverlusts

Die Kosten des Informationsverlusts, die durch unzureichende Erhaltungsmaß-

nahmen und mangelhaften Zugang entstehen, werden für den Wirtschaftsraum der

Europäischen Union auf 618.750.000 € pro Jahr geschätzt.120

Die diesem Wert zugrunde liegende Formel lautet:

DDLDDAp VffNT λ/)2(lnexp−××××=

wobei

Np: Anzahl der jährlich produzierten Dokumente

fA: Anteil der bewahrungswürdigen Dokumente

fD: Anteil der Dokumente in gefährdeten, obsoleten Formaten

VD: der durchschnittliche kommerzielle Wert eines Dokuments gemessen an den Produkti-

onskosten (in €)

LD: Eintritt des erwarteten Informationsverlusts (in Jahren)

λD: „Halbwertzeit“ der Information eines Dokumentes, wenn man davon ausgeht dass der

Informationswert sich über die Zeit verringert.

117 zitiert nach Bárány 2006, S. 4; Originalquelle: Emberton, D.: The digital dark age. In: Shift magazi-ne, 2002, 5. Juli. - http://www.shift.com/content/web/385/1.html (nicht mehr verfügbar) 118 Sietmann 2002. 119 Abraham 2006. 120 vgl. King 2007.

Page 49: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

35

Der oben genannte Betrag ergibt sich, wenn

Np = 5.000.000.000

fA = 0,02

fD = 0,66

VD = 300

LD = 10 Jahre

λD = 2 Jahre

Eine Studie zeigte, dass der größte Kostenfaktor die Erzeugung des intellektuellen

Informationswertes eines Dokumentes darstellt und drei Viertel der wirtschaftlichen

Vorteile einer konsequent betriebenen Informationserhaltung aus der Tatsache resul-

tieren, dass die Kosten für eine bereits erzeugte geistige Schöpfung nicht noch ein-

mal aufgewendet werden müssen.121 So unterstützt z.B. der verbesserte Zugang zu

Informationen, die in bereits erzeugten Dokumenten gespeichert sind und die in Wis-

sens- oder Dokumentmanagementsystemen verwaltet werden, eine effizientere Ent-

scheidungsfindung. Der informationelle Nutzen lässt sich als ersparte Aufwendung

pekuniär bemessen. Diese für betriebswirtschaftliche Zusammenhänge festgestellte

Wertung lässt sich auch auf die Kosten wissenschaftlicher Wissensproduktion über-

tragen. Hier ergeben sich volkswirtschaftliche Vorteile hinsichtlich der überwiegend

öffentlich-rechtlich finanzierten Wissenschaftsinfrastruktur, wenn dieselben Ergebnis-

se und Daten nicht mehrfach Gegenstand öffentlicher Förderung sind.

Die Kosten für die digitale Langzeitarchivierung sind dann wirtschaftlich gerecht-

fertigt, wenn sie niedriger oder gleich hoch sind wie die Kosten, die aus dem Infor-

mationsverlust durch die Aufwendungen für Wiederbeschaffung oder erneute Erstel-

lung resultieren. Neben rein ökonomischen Motiven ist jedoch zudem der ideelle

Wert der Information zu berücksichtigen, die häufig zudem durch die charismatische

Persönlichkeit ihres Erzeugers geprägt ist. Wissenschaftliche Information ist deshalb

stets auch als Teil der kulturellen Überlieferungsgeschichte zu betrachten.

Kostenfaktoren der digitalen Langzeitarchivierung sind unter anderem:

− Dateiformate (Reduktion der Anzahl unterschiedlicher Formate, Verwendung von

Formaten, deren Spezifikation offen gelegt ist und die frei von rechtlichen Hinder-

nissen implementiert werden können)

− technische Strategien für Erhaltung und Zugang

− Produktionswerkzeuge (z.B. Scanner für die Retrodigitalisierung, Konvertierungs-

und Validierungswerkzeuge)

− Werkzeuge für die Metadatenerzeugung

121 vgl. Bergman 2005, S. 32.

Page 50: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

36

− Langzeitarchivierungs-Management System (für Migration, Emulation)

− Storage (mindestens vierfach redundant) 122

− der Grad der Automatisierung der Prozesse (größtmögliche Reduktion von not-

wendigen menschlichen Eingriffen)123

− Personal

− Selektion bewahrungswürdiger Inhalte

Die Kalkulation künftig entstehender Kosten ist schwierig, aber es lassen sich Aussa-

gen bezüglich Kosten reduzierender Faktoren treffen, vor allem hinsichtlich der Ar-

chivierungsfähigkeit der Dateiformate, in denen ein elektronisches Dokument zur

Langzeitarchivierung vorliegt.124

In einer JISC-Studie wurde unter Berücksichtigung der vorgenannten Grundlagen

folgende Kostenverteilung bezogen auf die wesentlichen Funktionsmodule eines di-

gitalen Langzeitarchivs ermittelt (siehe Tabelle 3).125

Tabelle 3: Kostenverteilung hinsichtlich der wesentlichen Funktionsmodule eines digitalen Archivs

Erfassung und Ingest Speicherung und

Erhaltungsmaßnahmen

Zugang

ca. 42% ca. 23% ca. 35%

Die Maßnahmen der digitalen Langzeitarchivierung müssen mithin bereits bei der

Aufnahme von Informationsobjekten in ein digitales Langzeitarchiv (Ingest) ansetzen,

um erzielbare Einsparpotenziale auf der Kostenseite auszuschöpfen.

2.4.4 Lösungsansätze: Langzeitarchivierungsstrategien

Um Informationen über lange Zeiträume hinweg zu erhalten, sind grundsätzlich zwei

Erhaltungsstrategien einsetzbar. Hier soll nur skizzenhaft das Prinzip der jeweiligen

Methode benannt werden. Eine eingehende Darstellung und Bewertung der Metho-

den ist der einschlägigen Fachliteratur zu entnehmen.126

1. Migration

Unter Migration versteht man Maßnahmen, die Informationsobjekte möglichst fort-

laufend dem neuesten Stand der Technik anzupassen versuchen. Dies gilt sowohl für

analoge wie für digitale Objekte.

122 vgl. Stockmann 2008, S. 6. 123 vgl. Hedstrom et al. 2003, S. 16f. 124 vgl. James et al. 2003, S. 47 (Table 9.1: E-Print Cost Drivers). 125 vgl. Beagrie et al. 2008, S. 4f. 126 vgl. Borghoff et al. 2006, Kapitel 3, 4, 9, 10; Gladney 2007; Funk 2008; instruktiv dazu auch die beiden Diplomarbeiten: Bárány 2006 und Ohme 2003, Kapitel 4.

Page 51: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

37

Migrationen digitaler Objekte dienen dabei einerseits der Erhaltung des physischen

Datenstroms durch:

− Migration durch Wechsel des Datenträgers (Substanzerhaltung):

− Daten werden von einem digitalen Medium auf ein anderes Medium des-

selben Medientyps ohne Veränderung des Datenformats kopiert (engl.:

refreshment); meistens problemlos möglich, da die logische Struktur der Daten

unverändert bleibt, z.B. kopieren von einer Festplatte auf eine andere.

− Daten werden von einem digitalen Medium auf ein Medium eines anderen

Medientyps kopiert (engl. replication); die logische Struktur bleibt weitgehend

erhalten, aber es sind Informationsverluste bei Verwendung unterschiedlicher

Dateisysteme (z.B. durch andere Konventionen des verwendeten Dateisystems

für Dateinamen) möglich, z.B. kopieren von einer Festplatte auf ein Magnet-

band.

Migrationen dienen andererseits der Erhaltung der Interpretierbarkeit der kodierten

Information durch:

− Migration durch Änderung der logischen Struktur (Erhaltung der Benutzbarkeit):

meint die Umwandlung der Daten von einem Format in ein anderes (engl.: trans-

formation)

Unterschieden werden:

− Upgrading: ist die Transformation von einem Datenformat in eine aktuellere

Version desselben Datenformats durch eine Konversionssoftware.

− Transformation von Daten von einem Dateiformat in ein anderes durch eine

Konversionssoftware; dabei ist die verfälschungsfreie Erhaltung der Originalin-

formation aufgrund des unterschiedlichen logischen Aufbaus von Formaten

nahezu unmöglich. Als Ergebnis einer Formatmigration entsteht eine neue

Repräsentation als Version der ursprünglichen Repräsentation, die einer erneu-

ten Eingangsbearbeitung bedarf. Gemäß dem OAIS-Referenzmodell erstellt

das Archiv in diesem Fall ein neues AIP (Archival Information Package).

− Transformation der digitalen Information in analoge Formen, z.B. Mikrofilm

oder Papier; dieser Ansatz ist nur auf Dokumente mit statischen Text und Bild-

informationen umsetzbar und bedeutet schwerwiegende Einbußen an Au-

thentizität und Benutzbarkeit des digitalen Originals.127 Auch in diesem Fall ist

die Erstellung eines neuen AIPs notwendig.

127 vgl. ISO 14721:2003 - OAIS Reference Model, S. 5-4ff.

Page 52: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

38

2. Emulation

Unter Emulation versteht man Maßnahmen, die ein Informationsobjekt weitgehend

physisch unverändert und möglichst nahe am originalen Nutzungskontext erhalten.

Dies kann erfolgen durch:

− Erhaltung der originalen Hard- und Softwareumgebung: Die Erhaltung der ur-

sprünglichen Nutzungssituation und Originalabspielumgebung ist teuer und durch

die begrenzte Haltbarkeit elektronischer Bauteile nicht für lange Zeiträume reali-

sierbar. Außerdem gibt es hohe rechtliche Hürden, da sämtliche technische Spezi-

fikationen der verwendeten Hard- und Software dem digitalen Langzeitarchiv of-

fen gelegt werden müssten. Diese Spezifikationen sind jedoch bei proprietären Lö-

sungen nahezu immer Gegenstand restriktiver urheber-, patent- oder leistungs-

schutzrechtlicher Nutzungsbeschränkungen.

− Simulation des ursprünglichen Programmablaufs in einer Universal Virtual Compu-

ter (UVC)-Umgebung: Die Simulation der ursprünglichen Abspielumgebung setzt

eine detaillierte Beschreibung der Ausgangsanwendung in einem standardisierten

Vokabular voraus, um eine fehlerfreie Simulation zu gewährleisten. Auch hierfür ist

die Offenlegung sämtlicher technischer Spezifikationen erforderlich.

Es ist festzuhalten, dass die Erhaltung der Benutzbarkeit digitaler Informationsres-

sourcen eine vielfach komplexere Aufgabe gegenüber der Erhaltung des physischen

Datenstroms darstellt.128

Szenarien für die Umsetzung von Archivierungsstrategien in digitalen -

Repositorien

Die in digitalen Repositorien vorgehaltenen, elektronischen Dokumente sollen für

die Nutzer inhaltlich unverändert und zitierfähig in Datenformaten abrufbar sein, die

mit einer aktuellen Präsentationssoftware darstellbar sein müssen. Im Hinblick auf die

Authentizität des Dokumentes kommt es besonders auf die Erhaltung von Inhalt,

Struktur und Kontext der Information an. Das konkrete Erscheinungsbild (Layout)

und das Verhalten des Informationsobjektes können in Einzelfällen und in Abhängig-

keit der Nutzungssituation des Objektes ebenfalls bewahrungswürdig sein. Die signi-

fikanten Eigenschaften sind deshalb für jedes Objekt bzw. den Objekttyp eigenstän-

dig zu bestimmen und in den Metadaten zu dokumentieren. Bei Betrachtung der

strategischen Möglichkeiten kommt für digitale Repositorien vor allem ein migrati-

onsbasierter Ansatz sowohl für die Substanzerhaltung der Dokumente (Refreshment)

als auch für die Sicherung der Interpretierbarkeit in Betracht. Im Hinblick auf die Er-

haltung der Benutzbarkeit ist die Gefahr der bei Formatmigrationen auftretenden

Informationsverluste zu berücksichtigen. Notwendige Formatmigrationen sind des-

128 vgl. Schwens et al. 2004, S. 568.

Page 53: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

39

halb durch Verwendung langzeitstabiler Archivierungsformate auf ein Mindestmaß

zu begrenzen. Primär geht die Erfolg versprechendste Strategie auf die Vermeidung

der Erforderlichkeit, Format ändernde Langzeiterhaltungsstrategien überhaupt an-

wenden zu müssen.

Prinzipiell sind vier Wege vorstellbar, wie ein digitales Repositorium die digitale Lang-

zeitarchivierung realisieren kann.

Szenario 1

Der Ausbau des digitalen Repositoriums zu einem vertrauenswürdigen, digitalen

Langzeitarchiv. Dieser Weg stößt wegen der Komplexität und Fülle der Aufgaben für

das einzelne Repositorium an die Grenzen der Machbarkeit einer einzelnen Organisa-

tion und wird als „wenig ratsam“ angesehen.129

Lupprian gibt zu bedenken:

„Die Probleme der langfristigen oder gar der unbefristeten Aufbewahrung

digitaler Daten und ihrer ständigen Nutzbarmachung sind so schwerwie-

gend, dass sie nur in internationaler Kooperation gelöst werden können.

Wer glaubt, diese immense Arbeit allein leisten zu können, wird über kurz

oder lang vor den Kosten kapitulieren“.130

Dieselbe Auffassung vertritt auch Barbara Sierman:

„Digital preservation is not an activity one repository can fulfil on its own.

It requires permanent research, as the digital world is constantly changing.

It is important to keep up with the developments everywhere in the

world”.131

Letztlich ist dieser Weg jedoch nicht unmöglich, wenn das Repositorium seine sachli-

che und organisatorische Zuständigkeit klar begrenzt und sich z.B. bei der Auswahl

der akzeptierten Dateiformate auf wenige, archivierungsfähige Formate beschränkt.

Trotzdem wird in dieser Arbeit der Fokus eher auf kooperative Strategien gelegt, die

soweit ersichtlich von den meisten Repositoriumverwaltern in Deutschland bevorzugt

verfolgt werden.

Szenario 2

Die Kooperation mit einer nationalen Archivierungsinstitution durch Einbringung der

elektronischen Dokumente in ein digitales Langzeitarchiv. In der Bundesrepublik be-

steht gemäß § 14 DNBG i.V.m. §§ 2, 3 Abs. 1 und 3 DNBG eine gesetzliche Abga-

bepflicht von Netzpublikationen an die Deutsche Nationalbibliothek (DNB). Eine Ko-

129 vgl. Stockmann 2008, Folie 12. 130 Lupprian 2000. 131 Sierman 2008, S. 184; Das Kapitel trägt explizit den Titel “Cooperation and preservation watch”.

Page 54: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

40

operation im Bereich der digitalen Langzeitarchivierung mit der DNB läge deshalb

nahe. Bedenken könnten hier aufgrund der Heterogenität der eingebrachten digita-

len Objekte bestehen, da grundsätzlich jegliche elektronische Publikation der Abga-

bepflicht unterliegt, d.h. auch sämtliche deutsche Webseiten nichtwissenschaftlichen

Inhalts mit Publikationscharakter. Dabei sieht der Verfasser die Gefahr, dass das Ar-

chiv sich zu einem technisch kaum noch beherrschbaren „Gemischtwarenladen“ un-

terschiedlichster Dokumentarten und Dateiformate mit einer zerfaserten Infrastruktur

entwickelt.

Szenario 3

Die Kooperation mit einer Archivierungsinstitution durch Einbringung der elektroni-

schen Dokumente in ein digitales Langzeitarchiv, das auf einem Zusammenschluss

von digitalen Repositorien beruht. Dies kann regional oder überregional organisiert

sein und die Teilnahme kann an die Erfüllung bestimmter Qualitätskriterien geknüpft

sein, z.B. ein Netzwerk DINI-zertifizierter Server oder eine Anbindung des digitalen

Archivs an die regionalen Bibliotheksverbünde. Grundsätzlich könnte man diesen An-

satz auch bei der DNB verorten, wenn gesichert ist, dass der Dokumentenpool des

digitalen Archivs sich auf den Inhalt der teilnehmenden Repositorien beschränkt. Die

qualitative und sachliche Eingrenzung würde eine homogene Masse gleich zu be-

handelnder Objekte schaffen und eine einheitliche Infrastruktur zur Einbringung, Er-

haltung und Verteilung digitaler, wissenschaftlicher Informationsressourcen ermögli-

chen, inklusive der semantischen Abbildung von Relationen zu Versionen, Zitationen

und Primärdaten. Dieses Szenario unterscheidet sich deshalb eklatant von Szenario 2.

Szenario 4

Das letzte Szenario beschreibt den Sonderfall, dass einzelne Dokumente oder ausge-

wählte Dokumentkollektionen, die primär auf einem institutionellen Repositorium

veröffentlicht wurden, in ein fachspezifisches Langzeitarchiv überführt werden sollen.

Hier begründet sich die Anforderung, international standardisierte Metadatenformate

für den Austausch digitaler Objekte zu verwenden. Außerdem muss die Schnittstelle,

über die der übernehmende Dienst auf die Metadaten zugreift, in diesem Fall eine

rechercheartige Abfrage zur Filterung der Ausgabe der relevanten Datensätze zulas-

sen.

Beispiel 6: Andocken eines digitalen Repositoriums an ein Langzeitarchiv der NASA

Die Idee für Szenario 4 entstammt einem konkreten praktischen Problem. Bei der Übertragung einer

Dokumentkollektion bestehend aus den Einzelbeiträgen der Tagung "Clumping in hot-star winds“, die

primär auf dem Publikationsserver der Universität Potsdam veröffentlicht wurde132, an eine Informati-

onseinrichtung der NASA zum Zweck der digitalen Langzeitarchivierung ergaben sich Schwierigkeiten.

Der Publikationsserver setzt das Publikationssystem OPUS ein. Dabei bestand vor allem das Problem,

132 http://opus.kobv.de/ubp/abfrage_collections.php?coll_id=36 [15.07.2008].

Page 55: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

2 Grundlagen des elektronischen wissenschaftlichen Publizierens

41

dass die OAI-Schnittstelle definitionsgemäß keine rechercheartige Abfrage des Repositoriums erlaubt.

Eine automatische Selektion der Datensätze war für ein OAI-basiertes Harvesting deshalb nicht zu

realisieren. Außerdem ist von den über OPUS momentan auslieferbaren Metadatenformaten für das

NASA-Archiv einzig der international genormte DC Simple Metadatensatz nützlich und unmittelbar

verarbeitbar, der allerdings nahezu keine für die Langzeitarchivierung erheblichen Informationen be-

reithält. Informationsreichere Metadatenformate, die das Publikationssystem aufgrund von in einer

integrierten Datenbank gespeicherten Informationen durchaus erzeugen könnte, z.B. im XMeta-

DissPlus-Format, wären für den Datenaustausch zwar weitaus besser geeignet, sie sind allerdings für

einen spezifisch deutschen Anwendungszusammenhang konzipiert. Die Interoperabilität des Systems

zur Unterstützung von Informationsflüssen innerhalb internationaler Anwendungskontexte ist deshalb

lediglich rudimentär gewährleistet.

Zudem weist dieser Fall auf Desiderate der Ausgabeformate im Hinblick auf die mangelhafte Abbil-

dung der Dokumentbeziehungen hin. Ein Einzeldokument der Proceedings ist entweder ein Bestand-

teil der Kategorien „Talks and Discussions“ oder von „Posters“. Ein Einzelbeitrag der Kategorie „Talks

and Discussions“ ist wiederum einer „Section“ zugeordnet. Die Kategorien „Section“ und „Poster“

sind Teil der gesamten Proceedings, also der Hierarchiestufe „Gesamtausgabe des Tagungsbandes“.

Diese hierarchischen Beziehungen sind im relationalen Modell des Publikationssystems OPUS zwar als

Collections umgesetzt, finden aber keinen Niederschlag in den Metadatenformaten, die über OAI

ausgeliefert werden. Ein akkumulierender Serviceprovider ist deshalb nicht in der Lage, diese Bezie-

hungen zwischen den Dokumenten im eigenen Serviceangebot widerzuspiegeln. Diese Strukturinfor-

mation ist für einen Nutzer jedoch wesentlich, entspricht sie doch dem browsenden Zugang eines

Inhaltsverzeichnisses in der analogen Welt, der z.B. eine Orientierung über den Verlauf und die the-

matische Bandbreite des Kongresses und das Inbeziehungsetzen eines recherchierten Textes ermög-

licht. Die fehlenden Verknüpfungsinformationen liegen nicht unbedingt daran, dass diese von den

verwendeten Ausgabeformaten nicht unterstützt werden, sondern an Fehlstellen bei der konkreten

Implementierung des Formates in OPUS. Das bereits angesprochene Metadatenformat XMetaDissPlus

unterstützt z.B. die Abbildung von hierarchischen Dokumentbeziehungen.

Das Beispiel 6 zeigt zudem wie wichtig die Verwendung von Standards und die kor-

rekte Implementierung der wesentlichen Teile dieser Standards in technische Systeme

sein können, um praktische Probleme der Kooperation zügig und effizient lösen zu

können.

Eine sorgfältige Planung der Verfahren und der Erlass von Leitlinien zur digitalen

Langzeitarchivierung durch die Betreiber des digitalen Repositoriums erscheinen für

die Umsetzung der genannten Strategien und Szenarien unerlässlich. Dies schließt

eine organisatorische Selbstverpflichtung zur Übernahme der Verantwortung für die

archivierten elektronischen Dokumente ein.

Page 56: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

42

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

Der Betrieb eines digitalen Repositoriums erfordert die Erfüllung bestimmter Anforde-

rungen, wenn die Dienstleistung ein nachhaltiges Angebot darstellt und sich in eine

bestehende oder zu schaffende Infrastruktur der digitalen Langzeitarchivierung integ-

rieren soll.

3.1 Kernaufgaben im Hinblick auf die digitale Langzeitarchivierung

Der Arts and Humanities Data Service hat im Rahmen des SHERPA DP-Projektes133 im

Hinblick auf Langzeitarchivierung und Langzeitverfügbarkeit neun Kernaufgaben für

ein digitales Repositorium in einer vernetzten Umgebung benannt:

1. Implementierung einer angemessenen Publikationssoftwarelösung zur An-

nahme, Verwaltung und Verteilung elektronischer Dokumente.

2. Entwicklung von Leitlinien zur Ermittlung bevorzugter Dokument- bzw. Datei-

formate und Weitergabe dieser Leitlinien an die Autoren bzw. Produzenten

(diejenigen, die ein elektronisches Dokument in ein Repositorium einbringen

wollen, (engl.: depositors)) und das digitale Langzeitarchiv.

3. Entwicklung und Verwendung einer Lizenz für die digitale Langzeitarchivie-

rung, die

a) die Konvertierung der eingebrachten digitalen Objekte zum Zweck der

Langzeitarchivierung und -verfügbarkeit,

b) die Weitergabe der Langzeitarchivierungskompetenz an ein digitales Lang-

zeitarchiv

erlaubt.

4. Einrichtung einer Metadatenverwaltung zur Sicherstellung der Auffindbarkeit

der elektronischen Dokumente innerhalb des digitalen Repositoriums.

5. Zuweisung eines eindeutigen Bezeichners (Identifiers) zur Adressierung der

elektronischen Dokumente innerhalb des digitalen Repositoriums.

6. Übernahme der Verantwortung für die Erstellung von Transferpaketen zur

Übertragung an ein digitales Langzeitarchiv (Dissemination Information Pa-

ckage (im Folgenden: DIP)), das aus dem Transferpaket abgeleitet ist, das der

Produzent bei dem digitalen Repositorium eingeliefert hat (Submission Infor-

mation Package (im Folgenden: SIP)).

133 siehe http://www.sherpadp.org.uk/ [07.07.2008].

Page 57: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

43

7. Unterstützung technischer Einrichtungen zur Überwachung und Übergabe der

digitalen Objekte in Form von Informationspaketen an ein digitales Langzeit-

archiv durch:

a) Angebot eines Verfahrens für den Zugriff auf das Repositorium durch ein

digitales Langzeitarchiv und die Bereitstellung von Informationspaketen

zum Download,

b) Implementierung von Mechanismen zur Übertragung von Informationspa-

keten an ein digitales Archiv,

c) Angebot einer detaillierten Beschreibung des verwendeten Metadaten-

schemas, inklusive einer Liste der verwendeten Elemente und des Vokabu-

lars.

8. Einrichtung technischer Dienste in Zusammenarbeit mit dem digitalen Lang-

zeitarchiv zur automatisierten Identifikation neu eingegangener Dokumente

und Extraktion der für die weitere Bearbeitung erforderlichen Informationen.

Neben diesen obligatorischen Aufgaben kann ein digitales Repositorium zusätzlich

die folgenden empfohlenen Maßnahmen umsetzen:

9. Dokumentation aller wesentlichen Maßnahmen, die in Bezug auf die digitalen

Objekte eines elektronischen Dokuments oder die Metadaten zwischen dem

Eingang und der Auslieferung durchgeführt wurden, in einem definierten Me-

tadatenschema und Übergabe dieser Metadaten zur Aufbewahrung an das

digitale Langzeitarchiv.

10. Implementierung von technischen Mechanismen und Verfahren für eine akti-

ve Übertragung von Informationspaketen an ein digitales Langzeitarchiv

(Sendung der Archivpakete anstatt deren Bereitstellung).134

Dieses elementare Anforderungsprofil dient als Grundlage für die weitere Gliederung

der Arbeit.

3.2 Die technische Infrastruktur eines digitalen Repositoriums

Anknüpfungspunkt für die wesentlichen Entwicklungen der technischen Infrastruktur

digitaler Repositorien ist das als Kahn-Wilensky Framework (KWF) bezeichnete Archi-

tekturmodell (zur KWF-Definition von Repositorium, siehe Kapitel 2.1.5).135 In diesem

Rahmenwerk wird ein gespeichertes digitales Objekt vor allem durch die Verbindung

mit einem eindeutigen Persistent Identifier unter Verwendung eines registrierten

Handles136 und den definierten Zugriff über ein bewusst einfach gehaltenes Reposito-

ry Access Protocol (RAP) spezifiziert. Das RAP enthält lediglich Basisfunktionen für

134 Knight 2005, S. 3. 135 vgl. Kahn et al. 1995. 136 siehe http://www.handle.net/ [12.07.2008].

Page 58: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

44

die Aufnahme weiterer Dokumente (depositing) und den Zugang zu gespeicherten,

registrierten Objekten (access). Außerdem erhält jedes digitale Objekt einen be-

schreibenden Datensatz (properties record), der aus einem Set an verpflichtenden

(key-metadata) und fakultativen Metadaten besteht. Bereits im KWF wird zudem

neben der Interoperabilität auch die Nachhaltigkeit der Infrastruktur als essentielle

Anforderung an die Systemarchitektur aufgeführt.

Auf diesem Modell beruhte das Dienst protocol137 und das Networked Computer

Science Technical Reference Library (NCSTRL) Project138, deren Design später das

OAI-PMH wesentlich beeinflusste, das gegenwärtig in der Version 2.0 weltweit das

Standardprotokoll für die Verteilung von Metadatensätzen digitaler Repositorien

(Harvesting) ist. Das KWF beeinflusste ebenso die Definition des Dublin Core Ele-

ment Sets (DCES)139, welches ein Schema für einen Kernmetadatensatz (set of key-

metadata) für die Beschreibung von Internetressourcen definiert. Das in Dublin Core

(DC) enthaltene Prinzip der aktiven Relationen zwischen verteilt vorliegenden digita-

len Objekten erscheint auch in der Flexible Extensible Digital Object Repository Ar-

chitecture (Fedora), das gegenwärtig ein mögliches und komplexes System zur tech-

nischen Umsetzung eines digitalen Repositoriums bereitstellt. Das KWF fungierte

darüber hinaus als technische Basis für das Library of Congress National Digital Libra-

ry Program (NDLP), in dessen Rahmen der Metadata Encoding and Transmission

Standard (METS) entwickelt wurde.140 METS ist ein Containerformat, in dem deskrip-

tive, administrative und Strukturmetadaten sowie die digitalen Objekte selbst, einge-

bettet als Binärdatenstrom, für die netzbasierte Übertragung zusammengefasst wer-

den können.

Das Architekturmodell des KWF für Repositorien in Einheit mit den oben beschriebe-

nen Entwicklungen bildet die konzeptionelle Basis für die Technologien einer koope-

rativen Infrastruktur der digitalen Langzeitarchivierung, wie sie in den Szenarien 2 - 4

im zweiten Kapitel beschrieben wurden.

3.3 Die technische Implementierung: Repositoriumsoftware

Zur praktischen Umsetzung der Online-Publikation elektronischer Dokumente mittels

der oben beschriebenen Repositorienarchitektur ist der Betrieb eines Publikationssys-

tems erforderlich, mit dessen Hilfe sich die genannten Voraussetzungen technisch

umsetzen lassen. Die konkreten Anforderungen an die Software können dabei je

137 siehe näher Lagoze et al. 1995. 138 http://www.ncstrl.org/ [10.07.2008]; Der Zugriff auf die technischen Berichte ist über diese Seite nicht mehr möglich; inzwischen wurde der Bestand in die Collection EECS Technical Reports der Uni-versity of California, Berkley integriert. - http://techreports.lib.berkeley.edu/ [10.07.2008]. 139 Akzeptiert als internationaler Standard: ISO 15836:2003. 140 vgl. Lagoze et al. 2008, S. 3.

Page 59: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

45

nach Zielsetzung des Dienstes, länderspezifischen Besonderheiten141 oder der Art der

Einrichtung sehr unterschiedlich sein. Ausschlaggebend kann auch sein, ob die Soft-

ware die technischen Mindeststandards eines Kriterienkataloges erfüllt, wenn der

Betreiber die Zertifizierung des Publikationsservice im Rahmen eines Qualitäts-

sicherungsverfahrens oder Audits anstrebt.142 Dabei hat ein Betreiber prinzipiell die

Möglichkeit ein eigenes System zu entwickeln oder sich für den Einsatz einer Stan-

dardsoftware zu entscheiden.

Der Einsatz einer Standardsoftware hat den Vorteil, dass die Weiterentwicklung und

Unterstützung umfangreicher gesichert ist als bei einer Eigenentwicklung; und zwar

umso mehr, je größer die Anwendergemeinschaft der Software ist. Eine Standard-

software kann sowohl auf einem freien bzw. Open-Source-Modell oder einem prop-

rietären Geschäftsmodell basieren, wobei der Großteil der für digitale Repositorien

eingesetzten Softwaresysteme freie Software ist. Besonders vorteilhaft ist ein Open-

Source-Modell, das von einer kooperativ arbeitenden Entwicklungsgemeinde aus

dem Anwenderkreis der Software vorangetrieben wird. Hierbei können erhebliche

Synergieeffekte erzielt werden und die Entwicklungskosten der einzelnen Akteure

minimiert werden. Entscheidend ist in jedem Fall die aktive Beteiligung der Anwender

an der Entwicklungsarbeit nach den finanziellen, organisatorischen und technischen

Fähigkeiten der jeweiligen Einrichtung. Nur so können institutionseigene Vorstellun-

gen und Anforderungen in die Entwicklungsgemeinschaft hineingetragen und umge-

setzt werden.

Eine Eigenentwicklung bietet sich nur noch in seltenen Fällen an, wenn keine der an-

gebotenen Lösungen die eigenen Anforderungen erfüllt und die Einrichtung bereit

ist, das notwendige personelle Entwicklungs-Know-how zu akquirieren und die fi-

nanziellen Mittel für eine nachhaltige Systempflege und -aktualisierung bereitzustel-

len. Selbst dann wird man gegenwärtig auf bereits vorhandene Frameworks, wie z.B.

Fedora, zurückgreifen, die man den eigenen Bedürfnissen entsprechend ausbaut.143

Anzumerken ist, dass die Systeme, die gegenwärtig als Standardsoftware genutzt

werden, häufig ebenso als lokale Einzellösungen im Rahmen von Projekten entstan-

den sind; schlicht weil es Standardlösungen noch nicht gab. Ob ein System unter die-

sen Umständen eine größere Verbreitung finden kann, hängt davon ab, wie sehr die

Architektur durch die lokalen Anforderungen des Entwicklers bestimmt wird und ob

der Entwickler das System überhaupt und zu welchen Bedingungen zur Nachnutzung

an Dritte weitergibt. Eine offene, modularisierte und skalierbare Systemmodellierung

141 Z.B. die Bereitstellung spezieller Datenformate oder Schnittstellen aufgrund von Pflichtexemplarre-gelungen zur Abgabe digitaler Netzpublikationen an eine nationale Archivierungsinstitution. In der Bundesrepublik Deutschland besteht eine Abgabepflicht an die Deutsche Nationalbibliothek gemäß § 14 DNBG i.V.m. §§ 2, 3 Abs. 1 und 3 DNBG. 142 z.B. das DINI-Zertifikat 2007. 143 z.B. das Projekt eSciDoc der Max Planck Gesellschaft. - http://www.escidoc-project.de/ [12.07.2008].

Page 60: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

46

und gründliche technische Dokumentation, sowie die kostenlose Weiterverbreitung

mit der Einräumung einer freien Lizenz, die es erlaubt, die Software an die lokalen

Bedürfnisse des Übernehmers anzupassen, trägt deshalb erheblich zur Weiterverbrei-

tung einer Software bei.

Auf eine ausführliche Beschreibung der verfügbaren Softwaresysteme wird hier ver-

zichtet und diesbezüglich auf die einschlägige Fachliteratur verwiesen.144 Bezogen auf

einen Vergleich international sich im Einsatz befindlicher Publikationssysteme gibt es

Leitfäden und Evaluationen nach Maßgabe allgemeingültiger Kriterienkataloge oder

ad hoc entworfener Anforderungsprofile.145 Ein Überblick über Repositoriumsysteme,

die sich in der Bundesrepublik Deutschland in Produktion befinden und der die deut-

schen Besonderheiten und Anforderungen berücksichtigt, bietet ein Aufsatz, der die

Open-Source-Systeme Opus, DSpace, EPrints, MyCoRe und Fedora vorstellt.146

3.3.1 Installationen in Deutschland

Eine Website der Deutschen Initiative für Netzwerkinformation (DINI) listet derzeit

126 digitale Repositorien in der Bundesrepublik auf.147 Darunter befinden sich

24 qualitätsgeprüfte Repositorien, denen das DINI-Zertifikat Dokumenten- und Pub-

likationsservices zugeteilt wurde (19-mal das DINI-Zertifikat 2004 und 5-mal das

DINI-Zertifikat 2007).148

Eine Auflistung der am häufigsten verwendeten Publikationssysteme ist der Tabelle 4

zu entnehmen. Es ist zu konstatieren, dass die einzelnen Systeme im Hinblick auf das

zugrunde liegende Datenmodell oder die Priorität, mit der Maßnahmen der digitalen

Langzeitarchivierung unterstützt werden, unterschiedlich günstige Voraussetzungen

zur Anknüpfung von Langzeitstrategien digitaler Repositorien bieten können. So be-

steht für DSpace die Entwicklungsdirektive des Ausbaus zu einem vollwertigen OAIS-

konformen Langzeitarchivierungssystem, die bisher allerdings noch nicht vollständig

umgesetzt wurde.149 Trotzdem unterstützen Systeme wie DSpace, EPrints und Fedora

den Export und teilweise den Import von international gebräuchlichen Langzeitarchi-

vierungs-Metadatenformaten, wie METS oder MPEG-21 DIDL.150

144 Diese Leitfäden beziehen sich oft auf Systeme für institutionelle Repositorien. Der Begriff wurde in dieser Arbeit allerdings im Hinblick auf die fachlichen Repositorien erweitert, da deren Anforderungen sich nach Ansicht des Verfassers nicht grundsätzlich von denen institutioneller Anwender unterschei-den. Deshalb wird in dieser Arbeit der Oberbegriff „digitales Repositorium“ verwendet. 145 siehe Crow 2002; Crow 2004; Wyles 2006. 146 Dobratz 2007. 147 http://www.dini.de/no_cache/wiss-publizieren/repository/ [25.06.2008]. 148 http://www.dini.de/no_cache/service/dini-zertifikat/zertifizierte-server/ [25.06.2008]. 149 vgl. Dobratz 2007, S. 202. 150 vgl. http://www.loc.gov/standards/mets/mets-tools.html [07.07.2008] (METS compatible software).

Page 61: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

47

DSpace und Fedora sind aufgrund der Verwendung von fortgeschrittenen JAVA-

Technologien anderen Systemen, die auf einer Skriptsprache wie PHP basieren, über-

legen. Andererseits basieren die Systeme, die z.B. das LAMP-Stack einsetzen, auf

soliden und erprobten Webtechnologien. Derartige Erwägungen sollten bei der Imp-

lementierung eines neu zu begründenden, digitalen Repositoriums ins Kalkül gezo-

gen werden, können jedoch für bestehende Publikationsdienste dahinstehen bleiben,

insoweit als durch den Verbreitungsgrad einer Software eine normative Kraft des

Faktischen zur Verbesserung der bereits genutzten Anwendungen wirkt.

OPUS ist - die Daten aus Tabelle 4 zugrunde legend - mit einem Anteil von 66,4%

das in Deutschland am häufigsten verwendete Publikationssystem für digitale Repo-

sitorien. Folglich ist eine angemessene Langzeitarchivierungslösung für OPUS -

virulent. Darüber hinaus wird OPUS in Brandenburg und Berlin vom regionalen Bib-

liotheksverbund, dem KOBV, als Hosting-Lösung für die KOBV-Mitglieds-

bibliotheken angeboten, die vielfach wahrgenommen wird. So nutzen z.B. die TU

Berlin und die Universität Potsdam, aber auch die Fachhochschule Potsdam den Ser-

vice für ihr institutionelles Repositorium, die es der organisatorisch verantwortlichen

Einheit erlaubt, sich allein auf die inhaltliche Administration des Repositoriums zu

konzentrieren. Beim KOBV wird auch Entwicklungsarbeit für das System geleistet

und für die Region koordiniert. Es wird deshalb als wichtig erachtet, die mit OPUS

gegenwärtig technisch erreichbaren Langzeitarchivierungsstrategien zu untersuchen

und gegebenenfalls Fehlstellen zu identifizieren, die der Entwicklungsagenda zur

künftigen Lösung zuzufügen sind.

3.3.2 Konzeption von OPUS

Die Entwicklung des durch den DFN-Verein geförderten Online-Publikationssystems

der Universität Stuttgart (OPUS) begann 1997 als Projekt der Universitätsbibliothek

und des Rechenzentrums der Universität Stuttgart. 151 Eine bemerkenswerte Querver-

bindung entsteht durch die Teilnahme der Fakultät Informatik der Stuttgarter Univer-

sität am NCSTRL-Projekt (siehe Kapitel 3.2), deren Erfahrungen von den OPUS-

Entwicklern aufgegriffen wurden.152 Die Software ist seit 1998 an der Universität

Stuttgart produktiv im Einsatz. Der Fokus lag zu dieser Zeit auf der Publikation von

Online-Hochschulschriften (Dissertationen und Habilitationen), aber auch die elek-

tronische Veröffentlichung von Pre- und Postprints war von Beginn an vorgesehen.

151 vgl. Dobratz 2007, S. 201. 152 vgl. http://elib.uni-stuttgart.de/opus/doku/about.php [12.07.2008].

Page 62: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

48

Tabelle 4: Aufteilung der in Deutschland für digitale Repositorien verwendeten Softwaresysteme153

OPUS:1) 83 registrierte Installationen2) (Anzahl der archivierten Dokumente: 164.265)3)

MyCoRe:4) 16 registrierte Installationen5)

EPrints:6) 11 Installationen (darunter 4-mal an der LMU München und 2-mal am DLR)7)

DSpace:8) 6 wissenschaftliche Anwendungen9)

Fedora:10) 3 Installationen (Anwender: Digital Peer Publishing (DIPP-NRW), eSciDoc (Max-Planck-Gesellschaft) und das AWI Bremerhaven)11)

Eigenentwicklungen mindestens 7 Installationen (z.B. die Software MONARCH, verwen-det für das institutionelle Repositorium der TU Chemnitz,12) die Soft-ware Dresden Enterprise Document Server (DEDS), verwendet für den Dokumenten- und Publikationsserver der SLUB Dresden (HSSS),13) das System für den edoc-Server der Humboldt-Universität zu Berlin14) (hostet auch den edoc-Server der BBAW), die elib der Uni-versität Bremen, ask23: das Archivsystem der HFBK Hamburg und der Webdoc-Server der Georg-August-Universität Göttingen)

1) Beschreibung des Systems unter: http://elib.uni-stuttgart.de/opus/doku/about.php?la=de [25.06.2008]

2) Wert entnommen der Liste unter http://elib.uni-stuttgart.de/opus/gemeinsame_suche.php [25.06.2008] 3) Abfrage der registrierten Repositorien, 25.06.2008 4) Dokumentation unter:

http://www.mycore.de/content/main/documentation.xml [25.06.2008] 5) http://www.mycore.de/content/main/anwendungen.xml [25.06.2008] 6) Dokumentation:

http://www.eprints.org/documentation/tech/php/intro.php [25.06.2008] 7) http://www.eprints.org/software/archives/ [25.06.2008], vgl. (Dobratz 2007 – Open-Source-Software zur

Realisierung von Institutionellen), S. 203 8) Dokumentation unter:

(The DSpace Foundation 16.05.2008 – DSpace Manual) 9) http://www.dspace.org/index.php?option=com_content&task=view&id=596&Itemid=180 [25.06.2008] 10) Dokumentation:

http://www.fedora.info/download/2.2.1/userdocs/ [25.06.2008] 11) http://fedora.info/wiki/index.php/Fedora_Commons_Community_Registry [25.06.2008] 12) Beschreibung:

http://archiv.tu-chemnitz.de/cgi-monarch/loader.pl?page=technologie [25.06.2008] 13) Dokumentation: (Wendel, Rothe 16.06.2008 – Der Dokumenten- und Publikationsserver) 14) Dokumentation: http://edoc.hu-berlin.de/e_info/dokumentation.php [25.06.2008] (Hier noch nicht genannte Systeme, die in Deutschland verwendet werden oder wurden, sind die CERN Docu-

ment Server Software (CDSware), die ETD-DB der Virginia Polytechnic Institute and State University (VT), das Living Reviews ePublishing Toolkit der Max-Planck-Institut für Gravitationsphysik und das Open Journal Sys-tem vom kanadischen Public Knowledge Project. Das einzige proprietäre System, mit dem ein digitales Reposi-torium realisiert werden kann, ist DigiTool von Ex Libris; DigiTool wird jedoch in Deutschland nicht für den Be-trieb eines Repositoriums verwendet, jedoch nutzt die Bayerische Staatsbibliothek das System im Rahmen des Bibliothekarischen Archivierungs- und Bereitstellungssystems (BABS) für den Betrieb eines Langzeitarchivs.)

153 Die Werte beruhen auf Angaben, die auf den Webseiten der Entwickler zu finden sind. Dort regist-rieren sich die Nutzer meistens freiwillig. Deshalb kann es sein, dass darüber hinaus weitere Installatio-nen vorhanden sind. Eigenentwicklungen sind des Weiteren die vielen, selbst programmierten Web-anwendungen zur Publikation von Preprints bzw. so genannter „grauer Literatur“ durch Institute und Lehrstühle an Universitäten oder Abteilungen an Forschungseinrichtungen, die jedoch in den aller-meisten Fällen nicht den Mindeststandards eines digitalen Repositoriums entsprechen. Schwierigkeiten wird die Integration dieser Collections in die digitalen Repositorien bereiten, insbesondere wenn es keine standardisierten Exportschnittstellen für diese Systeme gibt.

Page 63: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

49

Das System basiert auf dem LAMP-Stack freier Softwarekompomenten bestehend

aus Linux, Apache, MySQL und PHP 4. Die Metadatenverwaltung erfolgt in einer

relationalen Datenbank (das Datenmodell ist im Anhang B. I abgebildet). OPUS ist

ein einfaches und offenes Containersystem für beliebige Objekte und Formate. Zur

eigenständigen Publikation vorgesehen sind jedoch nur die in der Tabelle format

über die File Extension und den MIME Type identifizierten Dateiformate PDF, PostSc-

ript, HTML, SVG, PNG, JPEG, GIF, MP3, MP4 und lediglich zu Archivierungszwecken

das Dokument im Originalformat. Die Relation format kann allerdings beliebig er-

gänzt werden, z.B. um die Formate ODT, XPS oder ein weiteres XML-

Ausgabeformat (DocBook, TEI, XDiML).

Die digitalen Objekte können vom Autor selbst über eine Webschnittstelle zusam-

men mit beschreibenden Metadaten in das System eingebracht werden. Dabei unter-

stützt die Schnittstelle in der neuesten Version von OPUS den Import von Metadaten

im BibTeX-Format. Der Administrator des Systems wird über neu angemeldete Do-

kumente informiert, die zunächst in einem zugangsgeschützten Administrationsbe-

reich zur Eingangsbearbeitung vorgehalten werden. Erst nach einer Qualitätskontrolle

durch Mitarbeiter des Repositoriums einschließlich der Korrektur und Ergänzung der

Metadaten wird das Dokument für den Onlinezugriff für jedermann freigeschaltet.

OPUS verfügt über eine standardkonforme OAI-PMH-Schnittstelle (Open Archives

Initiative - Protocol for Metadata Harvesting) der aktuellen Version 2.0. Das System

generiert zudem Uniform Ressource Names (URN) in Form der National Bibliographic

Number (NBN) entsprechend den Richtlinien der DNB zur dauerhaften und stabilen

Adressierung von Dokumenten.154 Dabei wird pro Datensatz jeweils ein URN erzeugt.

Die URNs werden über die XEPICUR-Schnittstelle via OAI-PMH (epicur) bei der DNB

registriert. Weitere Metadatenformate, die standardmäßig über die OAI-Schnittstelle

ausgeliefert werden, sind:

− DC simple (oai_dc): für OAI obligatorisches Basis-Datenformat,

− XMETADISS (xMetaDiss): für den automatisierten Datenaustausch mit der DNB,

− XMETADISSPLUS (XMetaDissPlus): Lieferung von Daten an die DNB, Datenaus-

tausch mit der Verbunddatenbank des BSZ und halbautomatischer Datenaus-

tausch über den PICA-Katalogisierungsclienten WinIBW,

− Proprint (oai_pp): automatischer Datenaustausch mit dem kooperativen Print-on-

Demand-Dienstleister ProPrint.155

154 vgl. http://www.persistent-identifier.de/ [22.07.2008]. 155 Die Zeichenkette in Parenthese ist der Wert für das Attribut metadataPrefix, der der Schnittstelle zur Auslieferung eines entsprechenden Ausgabeformats via URL übergeben werden muss, z.B. http://opus.kobv.de/ubp/oai2/oai2.php?verb=GetRecord&metadataPrefix=xMetaDiss&identifier=oai:kobv.de-opus-ubp:1319 [22.07.2008].

Page 64: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

50

Ab Version 3.1 von OPUS ist eine Trennung von Inhalt und Programmteilen bei allen

externen Seiten realisiert, so dass das Frontend ohne größeren Aufwand mehrspra-

chig und den Erfordernissen der jeweiligen Institution entsprechend ausgestaltet

werden kann. Außerdem verfügt OPUS über ein Lizenzmodul, mit dem unterschied-

liche Nutzungslizenzen (DIPP, Creative Commons etc.) für Objekte eingerichtet wer-

den können.156

Inzwischen liegt die Verantwortung für Weiterentwicklung und Herausgabe neuer

Versionen der freien Open-Source-Software bei der Universität Stuttgart und dem

Bibliotheksservicezentrum Baden-Württemberg (BSZ). Die Entwicklung selbst erfolgt

über eine Entwicklungsplattform.157 Dieses auf der Software „Trac“ basierende Pro-

jektmanagement-System beinhaltet ein Wiki, ein Ticketing-System und eine Entwick-

lungsumgebung in Form eines Subversion-Repositorys (SVN), über das autorisierte

Nutzer Änderungen einspielen können. Eine Roadmap bezeichnet die sich in Ent-

wicklung befindlichen Versionen mit den wesentlichen Programmfeatures. Der

Quellcode kann von jedermann eingesehen werden. Ein Issue-Tracker erfasst und

verwaltet Programmfehler und Erweiterungswünsche.

Die aktuelle Version ist das am 2. Juni 2008 veröffentlichte, einer GNU General Pub-

lic License unterstellte Release OPUS 3.2. Die auf einer Webseite noch aufgeführte,

einmalige Nutzungsgebühr in Höhe von 250 EUR ist damit faktisch hinfällig.158

Die Entwicklung der folgenden Version OPUS 4 wird im Rahmen eines DFG-

Projektes gefördert.159 Der Fokus liegt dabei auf der Erweiterung von OPUS als Bau-

stein nationaler und internationaler Netzwerke. Projektträger sind die Universitätsbib-

liothek Stuttgart, das BSZ, der KOBV, die Saarländische Universitäts- und Landesbiblio-

thek, die Universitätsbibliothek Bielefeld und die Universitätsbibliothek der Technischen

Universität Hamburg-Harburg.

Die Roadmap verzeichnet zur Umsetzung des Projektes folgende Entwicklungs-

schwerpunkte:

− Modulares Datenmodell (Hochschulbibliographie),

− Import-Schnittstellen (RIS, BibTeX, ASCII, Datenbanken),

− Schnittstellen zu METIS (VG Wort),

− OpenURL-Fähigkeit als Source und Target,

− Umstellung der Zeichencodierung auf Unicode (UTF-8),

− Anbindung an Forschungsinformationssysteme,

156 Ein konsequent auf Creative Commons Lizenzen basierendes Modul kann beim Publikationsserver der Universität Potsdam besichtigt werden. - http://opus.kobv.de/ubp/uni/index.php [12.07.2008]. 157 http://opusdev.bsz-bw.de/trac [10.07.2008]. 158 vgl. http://elib.uni-stuttgart.de/opus/doku/opus_sw.php [10.07.2008]; Zur Erhebung von Nut-zungsgebühren von GPL-Software siehe ifrOSS 2005, S. 23. 159 vgl. DFG-Projekt OPUS 4 2008.

Page 65: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

51

− Verknüpfung mit Primärdaten,

− Schnittstellen zur Langzeitarchivierung.

Das Arbeitspaket 7 (AP) des Projektes beinhaltet den Ausbau der Langzeitarchivie-

rungsfähigkeit von OPUS. Das Arbeitspaket wurde im Projektantrag wie folgt be-

schrieben:

„Publikationen in Institutional Repositories sind zukünftig den Methoden und Werk-

zeugen zur Sicherung der langfristigen Verfügbarkeit und Nutzbarkeit zu unterzie-

hen. In Deutschland entstehen besonders im Projekt kopal unter konsequenter Be-

achtung der internationalen Entwicklung Schnittstellen, Spezifikationen notwendiger

Metadaten und Werkzeuge, die auf den Aufbau einer kooperativ angelegten Spei-

cherlösung hin orientiert sind. Es ist davon auszugehen, dass hier die künftig zu erfül-

lenden Standards definiert werden. Für OPUS wird in diesem Arbeitspaket eine

Schnittstelle geschaffen, um aus den OPUS-Systemen nach den bekannten Standards

Publikationen auslesen und in eine Installation zur dauerhaften Sicherung der Ver-

fügbarkeit und Nutzbarkeit überführen zu können. Es wird die im KOPAL-Projekt in

Java programmierte und kostenfrei zur Verfügung gestellte kolibri-Software (“kopal

Library for Retrieval and Ingest“) verwendet werden, da davon auszugehen ist, dass

sie die künftigen Standards vorwegnimmt bzw. schon erfüllt. Das optionale Pro-

grammpaket kann besonders von denjenigen OPUS-Anwendern eingebunden wer-

den, die eine KOPAL-Teilnahme (KOPAL Partner) anstreben“.160

Diese Vorgaben sind mithin im Folgenden daraufhin zu untersuchen, ob sie ziel-

führend und umsetzbar sind, insbesondere im Hinblick auf die Integration der Soft-

ware koLibRI in OPUS und inwieweit die enge Anbindung an ein konkretes Langzeit-

archivierungssystem in Form von kopal die Interoperabilität des Systems überhaupt

erweitern kann.

Weitere Projektplanungen, die die Langzeitarchivierung berühren, sind die Anbin-

dung von OPUS-Servern an das europäische DRIVER-Netzwerk.161 Für die Einbin-

dung in die DRIVER-Infrasruktur wird die OAI-Schnittstelle von OPUS um das Aus-

gabeformat DRIVER_didl (Digital Item Identification Language) erweitert (AP 4), das

möglicherweise ein taugliches Austauschformat für die digitale Langzeitarchivierung

ist. Außerdem könnte die Kopplung der OPUS-Dokumente mit Forschungsinformati-

onssystemen (AP 5) und Primärdaten (AP 6) Auswirkungen auf die von einem Lang-

zeitarchivierungsformat sinnvoll abzubildenden Relationen haben.

Der Rückbezug zu OPUS wird in der folgenden Darstellung methodisch im Wege der

Subsumtion erfolgen, um zu prüfen, ob das System die Anforderungen eines techni-

160 DFG-Projekt OPUS 4 2008, S. 16. 161 http://www.driver-repository.eu/ [10.07.2008].

Page 66: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

52

schen Kriteriums erfüllt.162 Bei der aus der Rechtswissenschaft stammenden Methode

wird geprüft, ob ein konkreter Sachverhalt einem durch Auslegung näher bestimm-

ten Merkmal unterfällt, hier demnach, ob OPUS die Anforderungen eines Kriterien-

kataloges sinn- und zweckentsprechend erfüllt.

Zunächst soll jedoch der grundlegende Aufbau und die Funktionsmodule eines Ar-

chivs anhand des OAIS-Referenzmodells erläutert werden.

3.4 Organisation und Konzeption eines Archivs: OAIS

Jeder Akteur, der an einem Prozess zur Aufbewahrung von Objekten gleich welcher

Art beteiligt ist, sollte sich mit den Grundprinzipien der Funktionsweise des Prozesses

„Archivierung“ und den damit verbundenen Anforderungen vertraut machen. Eine

gültige Basis für den internationalen Erfahrungsaustausch auf dem Gebiet der Archi-

vierung bietet das Referenzmodell für ein Open Archival Information System (OAIS).

Innerhalb des Modells werden die grundlegenden Begriffe und Funktionsmodule ei-

nes Archivs auf einer konzeptionellen Ebene definiert und die Informationsflüsse be-

schrieben, die innerhalb und zwischen den Funktionsmodulen ablaufen. Gegenstand

ist zudem die Kompetenzabgrenzung zwischen den beteiligten Akteuren.

Verantwortlich für die Erarbeitung und Redaktion des Modells ist das Consultative

Committee for Space Data Systems (CCSDS), das 1982 von mehreren Raumfahrtor-

ganisationen mit dem Ziel der Verbesserung des Datenaustausches in der Weltraum-

forschung gegründet wurde und formal der NASA untersteht. Nach den in Beispiel 5

geschilderten negativen Erfahrungen der NASA mit der Archivierung digitaler Daten

hat die US-Weltraumorganisation die Entwicklung verlässlicher Archivierungsmetho-

den digitaler Daten angestoßen. Im Zuge dieser Bemühungen wurde das CCSDS

1995 von der ISO mit der Ausarbeitung eines für eine Normierung hinreichend abs-

trakten Modells beauftragt. Dies führte 1999 zur Herausgabe einer ersten Fassung

des OAIS-Referenzmodells, das nach mehrfacher Überarbeitung im Jahr 2003 zum

internationalen Standard ISO 14721:2003 erhoben wurde.163,164 Damit ist das OAIS-

Modell 2007/2008 Gegenstand der routinemäßigen Bestandsprüfung von ISO-

Normen, bei der regelmäßig fünf Jahre nach Einführung einer Norm untersucht wird,

inwieweit sie sich in der Praxis bewährt hat. Dieses Verfahren bietet die Gelegenheit

für die Einarbeitung in der Zwischenzeit gewonnener Erfahrungen und Revisionen.165

Obwohl in dem Dokument explizit die Erhaltung digitaler Information zum Gegens-

tand des Modells erklärt wird, kann es analog und unabhängig von konkreten Imp-

162 vgl. zur Methode Duden, Recht A - Z 2007; „Subsumtion, Unterordnung eines Sachverhaltes unter einen Rechtssatz. Dies ist kein formallogisch exakter Vorgang, sondern ein wechselseitiger Annähe-rungs- und Abwägungsprozess“. 163 vgl. Borghoff et al. 2003, S. 26; Lupprian 2000. 164 vgl. die textgleiche Entwurfsfassung (Blue Book). - ISO 14721:2003 - OAIS Reference Model. 165 vgl. Sierman 2008, S. 165.

Page 67: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

53

lementierungen sowie unabhängig von Art und Inhalt der zu archivierenden Objekte

als allgemeines, theoretisches Modell auf konventionelle und digitale Archive glei-

chermaßen angewendet werden.166

Neben der Bestimmung wichtiger Begriffe, wie Langzeitarchiv, Langzeit und Lang-

zeitarchivierung (siehe Kapitel 2.1.6), enthält das Modell Aussagen über die für Ar-

chivierung und Erschließung notwendigen Informationen. Dies erfolgt über eine Ka-

tegorisierung der verschiedenen Arten von Informationen in einem Informationsmo-

dell.

3.4.1 Das OAIS-Informationsmodell

Im OAIS-Modell wird eine grundlegende Unterscheidung zwischen Datenobjekt

(engl.: data object) und Informationsobjekt (engl.: information object)167 getroffen.

Das Datenobjekt bezeichnet zunächst das zu archivierende Objekt selbst. Datenob-

jekte können alle Arten von analogen oder digitalen Objekten sein. Um das Daten-

objekt benutzen zu können, sind weitere Informationen notwendig. Jede korrekte

Interpretation eines konkret vorliegenden Objekts, das einen bestimmten Informati-

onsgehalt repräsentiert, setzt eine Wissensbasis (engl.: knowledge base) hinsichtlich

der Informationskodierung voraus. Diese Information wird als Representation Infor-

mation bezeichnet.

Erst Datenobjekt und Representation Information bilden die eigentliche Inhaltsinfor-

mation (engl.: Content Information) und ergeben gemeinsam ein Informationsobjekt

(siehe Abbildung 6).

Abbildung 6: Bestandteile der Content Information nach OAIS

166 Borghoff et al. 2003, S. 26. 167 In dieser Arbeit wird anstatt des Begriffes “Informationsobjekt” ansonsten in Anlehnung an das PREMIS Data Dictionary der nach Ansicht des Verfassers genauere Begriff „Repräsentation“ eines Werks verwendet.

Page 68: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

54

Beispiel 7: Datenobjekt und Representation Information

Das Datenobjekt sei ein Buch in Papierform. Die Representation Information eines Buches wäre zum

Beispiel die Information, welches Schriftsystem und welche Sprache zur Dekodierung des Informati-

onsgehaltes verwendet werden muss. Für den Umfang der einem Datenobjekt konkret beizufügenden

Representation Information ist der Erfahrungshorizont und die Wissensbasis der künftigen Nutzer-

gruppe als Maßstab anzulegen. Wenn z.B. davon auszugehen ist, dass zukünftige Nutzer die verwen-

dete Sprache des Buches nicht mehr verstehen werden, so ist dem Buch ein Wörterbuch bzw. die Re-

ferenz zu einem Wörterbuch als Representation Information beizugeben. In der digitalen Welt ist der

Umfang der benötigten Information, um ein Objekt zu interpretieren ungleich höher. Um ein einfa-

ches Textdokument, das in dem Dokumentformat einer Textverarbeitung wie MS Word vorliegt, zu

interpretieren bedarf es z.B. Informationen über das verwendete Dateiformat (Name und Version), die

Kodierung der Daten, Name und Version der erzeugenden Applikation, Informationen zur Laufzeit-

umgebung der Anwendung (Betriebssystem) etc.

Für die standardisierte Beschreibung der Representation Information digitaler Objekte

kann man auf eine Format Registry, wie dem Representation Information Registry

Repository zurückgreifen.168

Des Weiteren sind der Erschließung Informationen über den Erhaltungszustand und

Erhaltungsmaßnahmen zuzufügen. Diese werden im OAIS-Modell als Preservation

Description Information (PDI) bezeichnet und sind eng mit der Content Information

verbunden.

Die unterschiedlichen Arten der PDI lassen sich folgendermaßen klassifizieren:

− Provenienzinformationen,

− Kontextinformationen,

− Referenzinformationen,

− Informationen über die Unversehrtheit der Archivobjekte.

Die PDI umfasst eine genaue Beschreibung aller erhaltenswerten Merkmale des Da-

tenobjektes, der wesentlichen, die Integrität des Objektes betreffenden, physischen

Eigenschaften, die für die Erhaltung relevant sind, Provenienzinformationen, sowie

der bereits durchgeführten konservatorischen Maßnahmen und wer diese vorge-

nommen hat (z.B. belegt durch digitale Signaturen). Die PDI enthält Nachweisinfor-

mationen, die die Unversehrtheit des Archivobjekts, z.B. durch Prüfsummenverglei-

che, belegen. Außerdem werden hier ein oder mehrere Persistent Indentifiers gespei-

chert, die das Archivobjekt eindeutig und zuverlässig innerhalb und außerhalb des

OAIS referenzieren. Neben diesen Informationen, die notwendig sind, um die Con-

168 siehe http://registry.dcc.ac.uk/omar/ [21.07.2008]; „This registry repository curates OAIS refer-ence model (ISO:14721:2002) defined Representation Information which is intended to add meaning to data and aid its long-term preservation. Objectives: 1. to create a centralized site for the sharing of OAIS defined Representation Information 2. to promote the use of Representation Information in digital curation and long-term reservation of data.”

Page 69: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

55

tent Information angemessen zu bewahren oder dauerhaft darauf zuzugreifen, wird

auch die Dokumentation der Beziehungen des Objektes zu anderen Objekten im Ar-

chiv oder außerhalb des Archivs zur PDI gezählt. Das Beispiel 7 aufgreifend würden

bezogen auf das Buch Informationen über den vorherigen Eigentümer, den Erhal-

tungszustand, die zu beachtenden Lagerbedingungen (Temperatur und Luftfeuchtig-

keit), eine durchgeführte Entsäuerung, die Speicherung der ISBN und der Verweis auf

weitere Exemplare derselben Ausgabe oder früherer bzw. späterer Auflagen des Bu-

ches im Archiv zur PDI zählen.

Die Content Information wird mit der PDI in einem Informationspaket (engl.: Infor-

mation Package) zu einer logischen Einheit zusammengefasst (siehe Abbildung 7).

Dieses Informationspaket kann, muss aber nicht als physische Einheit existieren. In

der Praxis wird eine physische Trennung eher die Regel sein bzw. nur für den Trans-

fer oder die Speicherung des Objektes in einem fixen Zustand zu einem fixen Zeit-

punkt realisiert. Zur Beschreibung der tatsächlichen Verknüpfung von Content In-

formation und PDI ist deshalb eine Packaging Information erforderlich. Die Packa-

ging Information ist ein Informationsobjekt.

Abbildung 7: Bestandteile eines Informationspaketes im OAIS

Davon zu unterscheiden sind die beschreibenden Metadaten über den Inhalt eines

Informationspaketes, die als Descriptive Information das Auffinden des Informati-

onspaketes im Archiv und Bestimmung der Beziehungen von Informationsobjekten in

einem Informationspaket ermöglichen. Die Deskriptive Information ist wiederum

selbst ein Informationsobjekt.

Page 70: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

56

Abbildung 8: OAIS-Informationsobjekte

3.4.2 Akteure, Prozesse und Funktionsmodule im OAIS

Das OAIS-Modell beschreibt auf Grundlage des entworfenen Informationsmodells

die Archivierungsprozesse als Abfolge von Informationsflüssen, die sich auf einem

konzeptionellen Tableau von sechs Funktionsmodulen vollziehen, durch die die Auf-

gaben des OAIS in funktionale Gruppen aufgegliedert werden. Das OAIS kann dabei

nicht als in sich geschlossenes, hermetisches System betrachtet werden. Die interne

Organisation eines Archivs ist vielmehr von Bedingungen abhängig, die von Akteu-

ren außerhalb des OAIS gesetzt oder entscheidend beeinflusst werden.

3.4.2.1 Umgebung eines OAIS

Die wesentliche Aufgabe eines Archivs besteht darin Informationen zu bewahren, die

es von außen erhält, um sie zukünftigen Nutzern zur Verfügung zu stellen.169 Die

Umgebung eines OAIS wird deshalb im Wesentlichen von drei Akteuren geprägt:

Erzeuger (engl.: producer)

Die Erzeugung von archivierungsfähiger und bewahrungswürdiger Information ist

schlichtweg konstituierend für den Bestand eines Archivs. Erzeuger sind Autoren,

Verlage, Institutionen etc. Auch ein anderes OAIS oder interne Mitarbeiter oder Sys-

teme des Archives können als Erzeuger des OAIS fungieren.170 Mit den Erzeugern

schließt das OAIS Einlieferungsverträge ab und trifft Vereinbarungen über die Be-

schaffenheit der Einlieferungspakete (SIPs) und Ablieferungsfristen.

Nutzer (engl.: consumer)

Die Erhaltung von Information, die später nicht genutzt wird oder aufgrund von Zu-

gangshindernissen faktisch nicht nutzbar ist, würde die Legitimität des Archivs in Fra-

ge stellen. Die archivierten Objekte sind deshalb der visierten Zielgruppe zur Verfü-

169 vgl. Borghoff et al. 2003, S. 29. 170 vgl. Sierman 2008, S. 165.

Page 71: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

57

gung zu stellen. Um die bedarfsgerechte Nutzung sicherzustellen, sind potenzielle

Nutzer möglichst bereits im Vorfeld in spezifische Nutzergruppen (engl.: designated

(user) community) einzuteilen, um die Erhaltungsmaßnahmen an deren spezifischen

Informationsbedürfnissen auszurichten. Die archivierten Objekte müssen immer in

einem Zustand erhalten werden, der ihre Benutzbarkeit für die visierte Nutzergruppe

sicherstellt.

Management des OAIS

Schließlich muss eine Instanz, die außerhalb des routinemäßigen Archivbetriebs an-

gesiedelt ist, die wesentlichen Leitlinien entwerfen und koordinieren. Dazu zählt die

kontinuierliche Beobachtung der Informationsbedürfnisse der Stakeholder, um ent-

scheiden zu können, welche Information mit welcher Priorität archivierungswürdig

ist. Auf dieser Ebene ist auch die organisatorische Absicherung angesiedelt. Das Ma-

nagement darf nicht mit dem internen Funktionsmodul Administration verwechselt

werden, das die administrativen Funktionen innerhalb des OAIS ausübt. Die Aufga-

ben des Managements werden außerhalb des OAIS näher spezifiziert, z.B. in den

Anforderungskatalogen für vertrauenswürdige Archive.171 Persönlich zuständig für

Managementaufgaben kann die Trägerorganisation, der gesetzliche Träger oder

auch Mitarbeiter des Archivs sein.

Abbildung 9: Umfeld eines OAIS

3.4.2.2 Informationspakete und Funktionsmodule

Es gibt im OAIS-Modell drei Typen der in Kapitel 3.4.1 beschriebenen Informations-

pakete. Das Eingangspaket (SIP) und das Auslieferungspaket (DIP) dienen dem In-

formationsaustausch des OAIS mit der Außenwelt. Dazu bedarf es organisatorischer

Verfahren und technischer Schnittstellen. Demgegenüber ist das Archivierungspaket

(Archival Information Package (AIP)) das wesentliche interne Bezugsobjekt, in dem

die zu erhaltene Information vollständig gespeichert ist.

171 Sierman 2008, S. 166.

Page 72: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

58

Submission Information Package (SIP)

Das SIP ist das Informationspaket, das der Erzeuger beim OAIS anliefert. Dieses Pa-

ket sollte möglichst viele Teile der Content Information und PDI enthalten. Die ge-

naue Form des SIPs ist Gegenstand von Vereinbarungen zwischen Erzeuger und Ar-

chiv.

Dissemination Information Package (DIP)

Das Auslieferungspaket bezeichnet ein aus einem oder mehreren AIPs abgeleitetes

Informationspaket, das an einen Nutzer als Ergebnis einer Abfrage ausgeliefert wird.

Dieses Paket enthält zumindest die Content Information und die Packaging Informa-

tion sowie Teile oder die komplette PDI. In Abhängigkeit des Verbreitungsmediums

und der Bedürfnisse des Nutzers kann die Packaging Information variieren. Soll das

Informationspaket direkt für einen menschlichen Nutzer verwendbar sein, muss das

DIP anders aufbereitet sein als für Abfragen automatischer Harvestingservices, die

eine maschinenprozessierbare Datenaufbereitung benötigen.

Archival Information Package (AIP)

Ein AIP ist ein Informationsobjekt, das grundsätzlich alle Informationen zur dauerhaf-

ten Erhaltung eines bestimmten Informationsobjektes, d.h. der Content Information

und der PDI, enthält. Das AIP fungiert als Container für andere Informationsobjekte

und steht mit anderen Informationsobjekten in Beziehung (siehe Abbildung 10). Das

AIP wird von der Package Descriptive Information beschrieben, d.h. der Inhalt der

Package Descriptive Information leitet sich aus dem Inhalt eines AIPs ab. Ein AIP wird

sachlogisch abgegrenzt durch ein Packaging Information Object, d.h. die Packaging

Information identifiziert ein AIP. Ein AIP wird innerhalb des Funktionsmoduls Objekt-

speicher (archival storage) verwaltet. Die Descriptive Information und Packaging In-

formation werden im Funktionsmodul Metadatenverwaltung (data management)

gepflegt. Diese Informationsflüsse sind in Abbildung 14 graphisch dargestellt.

Abbildung 10: Bestandteile und Relationen eines AIPs

Page 73: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

59

Die verschiedenen Informationspakete dienen als Eingabedaten der Prozesse, die in

einem OAIS ablaufen. Das OAIS-Referenzmodell modelliert die Prozesse anhand der

Funktionsmodule Ingest (Eingangsbearbeitung), Datenverwaltung (data manage-

ment), Objektspeicherung (archival storage), Administration, Planung der Langzeit-

erhaltungsmaßnahmen (preservation planning) und Bereitstellung (access) (siehe

Abbildung 11 und Anhang C für einen kompletten Plan der OAIS-Funktionsmodule).

Abbildung 11: Funktionsmodule, Akteure und Informationsflüsse eines OAIS (Basismodell)

Ingest (Eingangsbearbeitung)

Die Entität Ingest beschreibt die Überführung von Daten- und Informationsobjekten

vom Erzeuger in das OAIS und die Vorbereitung ihrer Speicherung. Der Ingest ist ein

hochkomplexer Prozess, dessen Umsetzung den Erfolg oder Misserfolg der Archivie-

rungsbemühungen bestimmt, da an diesem Punkt bereits wesentliche Merkmale der

Datenobjekte determiniert sind und spätere Nutzungsszenarien und Prozesse zu be-

rücksichtigen sind. Es ist z.B. zu klären, wer die archivierten Daten auf welche Weise

und in welchem Umfang nutzen darf, ob das OAIS überhaupt Änderungen in der

Folge von Langzeiterhaltungsmaßnahmen an den eingebrachten Objekten vorneh-

men darf oder welche die erhaltenswerten Eigenschaften der archivierten Objekte

sind. Der wichtigste Aspekt ist jedoch die Übereinkunft über die technische Beschaf-

fenheit und Qualität der zu archivierenden Objekte. Für jede Form von Archivmateri-

al, insbesondere aber für digitale Informationen, gilt, dass die Objekte in der einge-

brachten Qualität höchstens erhalten und nur selten verbessert werden können. Feh-

ler können nur selten korrigiert werden. Eine griffige Faustformel dafür lautet: „Gar-

bage in - Garbage out“.172 Deshalb ist an dieser neuralgischen Stelle der Langzeiter-

haltung eine sorgfältige organisatorische Planung der Abläufe, die Klärung rechtlicher

172 vgl. Ludwig 2008, Folie 5.

Page 74: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

60

Rahmenbedingungen, Vereinbarungen über die Qualität des Archivgutes und die

Implementierung standardisierter Schnittstellen unentbehrlich. Diese Zusammenhän-

ge erklären auch, weshalb die in Kapitel 2.4.3 erwähnten JISC-Studie die Kosten für

den Ingestprozess auf etwa 42% der Gesamtkosten für den Betrieb eines OAIS an-

setzt (siehe Tabelle 3).

Abbildung 12: Prozesse innerhalb des OAIS-Funktionsmoduls Ingest

Die Prozesse innerhalb des Ingest sind in der Abbildung 12 dargestellt. Über eine

Schnittstelle Erzeuger-Archiv geht das SIP in das OAIS ein und durchläuft eine Quali-

tätskontrolle, an deren Abschluss die Annahme oder die Zurückweisung steht. Der

Erzeuger erhält eine Lieferbestätigung oder die Aufforderung einer erneuten Einspei-

sung. Nach der Annahme des SIPs wird ein AIP erstellt und weitere Metadaten (Pa-

ckaging Information, Deskriptive Information) erzeugt. Es werden ein Content In-

formation Identifier und ein AIP Identifier erzeugt, die notwendig sind, um getrennt

verwaltete Informationsobjekte referenzieren zu können.173 Das AIP wird an das

Funktionsmodul Objektspeicher und die Deskriptive bzw. Packaging Information an

die Metadatenverwaltung weitergeleitet. Datenaktualisierungen führen zur Erzeu-

gung eines neuen SIPs.

Die zu treffenden Vereinbarungen und Regeln zwischen Erzeuger und Archiv werden

in dem OAIS-Ingest-Standard „Producer-Archive Interface Methodology Abstract

Standard“ (PAIMAS) des CCSDS spezifiziert.174 Geplant ist auch die Herausgabe eines

Praxis orientierten Leitfadens „Wege ins Archiv“ der nestor AG Standards.175

173 vgl. ISO 14721:2003 - OAIS Reference Model, S. 5-3. 174 vgl. PAIMAS 2004. 175 vgl. Ludwig 2008.

Page 75: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

61

Die Funktionsmodule Ingest und Access benötigen standardisierte Schnittstellen und

Austauschformate, die den automatisierten Austausch von Daten zwischen kooperie-

renden Archiven ermöglichen. Die Verwendung von derartigen Standards erhöht

zudem die Marktfähigkeit von Langzeitarchivierungssystemen und erlaubt einen An-

bieterwechsel des Produzenten oder die Einbringung bestimmter Kollektionen in ver-

schiedene Langzeitarchive auf Anforderung (siehe Beispiel 6).176

Metadatenverwaltung (data management)

Die Entität Metadatenverwaltung sorgt für die Speicherung der aus dem Ingest

stammenden, deskriptiven Informationen und der administrativen Informationen, die

das Archiv betreffen (siehe Abbildung 13). Die Speicherung deskriptiver Daten er-

folgt in einem Datenbanksystem (DBS), über welches die Informationsobjekte identi-

fiziert und verwaltet werden können. Die Speicherung administrativer Informationen

kann ebenso in einem DBS oder in Dokumenten in einem Filesystem erfolgen. Die

Metadatenverwaltung enthält darüber hinaus Funktionen zur Übernahme neuer Da-

ten aus dem Ingest und der Entgegennahme und Bearbeitung von Anfragen (engl.:

queries) aus dem Nutzungsbereich, aus denen Ergebnislisten und Berichte für das

Funktionsmodul Bereitstellung generiert und ausgeliefert werden.

Abbildung 13: OAIS: Arten von Information innerhalb des Funktionsmoduls Metadatenverwaltung

176 vgl. Ludwig 2008, Seite 6.

Page 76: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

62

Objektspeicherung (archival storage)

Die Entität Objektspeicherung beschreibt Prozesse, die die Aufbewahrung und Erhal-

tung der AIPs betreffen. Das Modul empfängt AIPs aus dem Ingestprozess und fügt

sie dem dauerhaften Speicher hinzu, verwaltet die Speicherhierarchie, prüft regelmä-

ßig die Integrität der Daten, sorgt für das Refreshing der Daten und stellt Wiederher-

stellungsmechanismen für Notfälle sowie die AIPs oder Teile davon für das Modul

Bereitstellung zur Verfügung.

Bereitstellung (access)

Das Funktionsmodul Bereitstellung enthält Dienste und Funktionen, die die Nutzer,

insbesondere die identifizierten Zielgruppen, beim Eruieren von Bestandsinformatio-

nen, sowie von Beschreibungen, der Lokalisation und Verfügbarkeit der in einem

OAIS gespeicherten Informationsobjekte unterstützen. Die Bereitstellung dient des-

halb als Kommunikationsschnittstelle zur Entgegennahme und Verarbeitung von An-

fragen der Nutzer an das System, der Überprüfung von Zugriffsrechten, der Erzeu-

gung von Informationsprodukten (DIPs, Ergebnislisten, Berichte) und deren Überga-

be an die Nutzer über definierte Schnittstellen und in den vereinbarten Ausgabefor-

maten. Das Modul verfügt insbesondere über Verbindungen zur Metadatenverwal-

tung, an die es die Nutzeranfragen weiterleitet, und den Objektspeicher. Der Zugriff

für den Nutzer auf Bereitstellungsinformationen kann über einen Katalog oder eine

Webdatenbank bzw. einen automatisierten Dienst unter Nutzung eines standardisier-

ten Netzprotokolls erfolgen.

Planung der Langzeiterhaltungsmaßnahmen (preservation planning)

Diese Entität war im ursprünglichen Entwurf des OAIS-Referenzmodells von 1999

nicht vorgesehen. Das Funktionsspektrum gehörte eigentlich zum Aufgabenbereich

des Moduls Administration. Aufgrund der Erfahrungen, die bei ersten praktischen

Umsetzungsversuchen des Modells in Projekten wie der Networked European Depo-

sit Library (NEDLIB)177 gesammelt wurden, ist jedoch die Einführung einer gesonder-

ten Funktionseinheit für die Aufgabe der Langzeitarchivierung als zweckmäßig erach-

tet worden. Dies ist insofern angemessen, als es sich in diesem Modul um die Ein-

schätzung zukünftiger Entwicklungen und um substantielle und langfristig fortwir-

kende Entscheidungen und Eingriffe von erheblicher Tragweite für die Benutzbarkeit

des Archivmaterials handelt, die sich von den täglichen Aufgaben der Administration

zur Aufrechterhaltung eines ordnungsgemäßen Betriebs signifikant unterscheiden.

177 http://nedlib.kb.nl/ [25.07.2008]; In NEDLIB wurde das Prozessmodell Deposit Systems for Elect-ronic Publications (DSEP) entwickelt, bei dem die Funktionen und Informationsflüsse des OAIS-Modells in den konventionellen Geschäftsgang einer Bibliothek eingebunden wurden. DSEP wurde als eigenständiges Modul konzipiert, das in bereits bestehende Bibliothekssysteme vollständig integrierbar ist, siehe Näheres unter van der Werf-Davelaar, Titia 1999; Borghoff et al. 2003, S. 32ff.

Page 77: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

63

Abbildung 14: Informationsflüsse im OAIS auf oberster Ebene

Das Modul beschreibt Funktionen zur Beobachtung der Umgebung des OAIS, um

die Nutzbarkeit und Verfügbarkeit der gespeicherten Informationspakete für die

visierten Nutzergruppen sicherzustellen. Hier werden die Entwicklungen auf dem

Hard- und Softwaremarkt überwacht, indem die verwendeten Technologien auf ihre

Verbreitung und Unterstützung geprüft und an der Konformität mit den künftigen

Anforderungen der Zielgruppe gemessen werden. Veränderte Rahmenbedingungen

sind in der PDI zu dokumentieren. Im Falle der Identifikation gespeicherter Informa-

tionen, die auf neu entwickelten Systemen nicht mehr ablauffähig sind, müssen Stra-

tegien entwickelt werden, die die Benutzbarkeit auch unter veränderten Bedingun-

gen garantieren, z.B. durch die Erstellung von Migrationsplänen für obsolete Forma-

te. Sollte die Prüfung der Wissensbasis der Nutzer ergeben, das Ergänzungen der

Representation Information erforderlich sind, müssen die Metadaten vervollständigt

und unter Umständen der Aufbau der Informationspakete neu konzipiert werden.178

Es werden weiterhin eigene Archivstandards und Erhaltungsstrategien entwickelt und

implementiert bzw. verbreitete allgemeingültige Standards, z.B. PREMIS und METS,

178 vgl. Lavoie 2004, S. 9.

Page 78: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

64

integriert. Archivierungspläne werden aufgestellt und die Leitlinien der Bestandser-

haltung fortgeschrieben.

Administration

Im Modul Administration werden die routinemäßigen Gesamtabläufe im OAIS und

seinen Außenbeziehungen gesteuert. Die Aktivitäten der anderen Funktionsmodule

der obersten Ebene werden koordiniert und die Verantwortlichkeiten festgelegt. Au-

ßerdem ist der Prozess für die technische Systemarchitektur des Archivs verantwort-

lich. Dazu gehört u.a. die Konfiguration von Hard- und Software einschließlich der

Überwachung von Systemfunktionen. Zu den Aufgaben gehört ferner das Aushan-

deln von Vereinbarungen mit den Produzenten, unter welchen Bedingungen und in

welchem Zustand das Archivmaterial dem Modul Ingest zu übergeben ist, z.B. die

Einigung über Transferwege und -zeiten sowie über Format und den Informations-

umfang der SIPs.

Die administrativen Prozesse sind zu dokumentieren und die dabei entstehenden In-

formationen im Modul Metadatenverwaltung zu speichern. Zu den administrativen

Informationen gehören zunächst technische Informationen über das Datenbankma-

nagementsystem (DBMS) der Metadatenverwaltung, d.h. über das verwendete

DBMS-System inklusive Version und Updates, die Struktur der Daten, Schemata, Da-

tenmodelle und die referentielle Integrität der Daten, und die verwalteten Daten

selbst, also die eigentliche Datenbank, z.B. die Dokumentation von Speicherung,

Backups etc. Außerdem gehören zu den administrativen Informationen, die techni-

sche Dokumentation des Objektspeichers, die Dokumentation der Abläufe und Ver-

fahren innerhalb des Archivs, der vorgenommenen Erhaltungsmaßnahmen, der

Schnittstellen für Ingest und Access, die Nutzerprofilverwaltung, das Führen von Sta-

tistiken, die Leitlinien des Archivs, Sicherungs- und Zugriffsbestimmungen und die

Rechnungsverwaltung.

3.4.3 Pflichten eines OAIS-konformen Archivs

Im OAIS-Referenzmodell wird die Erfüllung einiger der beschriebenen Funktionen als

Minimalanforderung für OAIS-konforme Archive zwingend vorgeschrieben:

1. die Aufstellung von Kriterien über Art und Beschaffenheit von Informationen,

die ins Archiv aufgenommen werden sollen und Aushandeln entsprechender

Verträge mit den Produzenten,

2. die Erlangung hinreichender faktischer und rechtlicher Einflussmöglichkeiten,

um die erforderlichen Erhaltungsmaßnahmen auf die archivierten Objekte

anwenden zu können,

3. die Identifikation der Zielgruppen, für die die archivierten Informationen in

nutzbarer Form erhalten bleiben sollen,

Page 79: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

65

4. Sicherstellung der Authentizität der archivierten Information, d.h. die Erhal-

tung der archivierten Information in einem Zustand, der garantiert, dass ihre

Bedeutung für die visierte Nutzergruppe aus sich selbst heraus, also ohne Hil-

festellung durch Experten, verständlich ist. Der Nutzer muss darauf vertrauen

können, dass das gelieferte Objekt inhaltlich dem Objekt entspricht, das ur-

sprünglich gespeichert wurde.

5. Beachtung der dokumentierten Leitlinien und Vorkehrungen, welche die ar-

chivierte Information vor vermeidbaren Schäden schützen, um auch in Zu-

kunft möglichst originalgetreue Kopien an den anvisierten Nutzerkreis auszu-

liefern,

6. Zugänglichmachung der archivierten Information in einer Form, die die Auf-

findbarkeit der Archivobjekte für die visierte Nutzergruppe sicherstellt.179

3.4.4 Anwendbarkeit des OAIS-Modells auf digitale Repositorien

"The first line of defense against loss of valuable digital information rests with the

creators, providers and owners of digital information."

(Garrett, Waters (Hg.) 30.05.1996 – Preserving digital information, S. 40)

Die Existenz einer ISO-Norm für die Konzeption von Archivsystemen wirft die Frage

auf, ob die Begriffe und getroffenen Wertungen des OAIS-Referenzmodells auch für

die Organisation von digitalen Repositorien nutzbringend und übertragbar sind. Das

Referenzmodell richtet sich zunächst primär an Archive im ursprünglichen Sinn, also

Organisationen, deren Hauptaufgabe die Bewahrung von Objekten gleich welcher

Art ist. Im digitalen Bereich sind demnach die digitalen Langzeitarchive angespro-

chen.

Digitale Repositorien sind zumindest dann unmittelbar zur Umsetzung des Modells

aufgerufen, wenn das Repositorium selbst zu einem digitalen Langzeitarchiv ausge-

baut werden soll, wie dies u.a. von den Betreibern des edoc-Servers der HU zu Berlin

geplant ist (siehe Szenario 1).180

In kooperativen Umgebungen fungiert das digitale Repositorium als Produzent eines

digitalen Langzeitarchivs. Es erstellt SIPs im vereinbarten Format und überträgt die

Informationspakete über die Ingestschnittstelle zum OAIS bzw. hält die Informatio-

nen über eine standardisierte Schnittstelle zum Harvesting durch das Archiv bereit.

Aus der Perspektive des Langzeitarchivs stellen sich die Aufgaben eines digitalen Re-

positoriums damit als Beitrag im Pre-Ingestbereich dar. Der Pre-Ingest bezeichnet

den Zeitraum im Lebenszyklus eines digitalen Objekts bis zum Ingest in ein digitales

179 vgl. Sierman 2008, S. 169f.; Knight 2005, S. 6. 180 siehe Dobratz 2005.

Page 80: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

66

Langzeitarchiv, also von der Erstellung des Objekts bis zum Eingang beim Archiv.181

Für das Repositorium könnte die Verantwortlichkeit für den Bestand und die weitere

Benutzbarkeit mit der Übergabe des Archivexemplars enden. Und zwar dann, wenn

das Langzeitarchiv in der Lage ist, neben den Maßnahmen zur Langzeiterhaltung

auch eine aktive Bestandspflege der digitalen Daten anzubieten und einen adäquaten

Informationszugang für die wissenschaftlichen Endnutzer zu gewährleisten. So kön-

nen z.B. bei der DNB abgelieferte Netzpublikationen über den Online-Katalog der

DNB recherchiert und das elektronische Dokument direkt über den Depositarchivser-

ver bezogen werden, wenn und soweit dies rechtlich zulässig ist.182 In diesem Fall

müsste das Langzeitarchiv das Funktionsmodul Bereitstellung zu einem vollwertigen

Publikationssystem für Endnutzer ausbauen.

Es ist fraglich, ob eine derartige Aufgabenteilung sinnvoll wäre. Es sprechen jedenfalls

gewichtige Gründe gegen ein derartiges Modell. Zunächst würde die vollständige

Übernahme der Verantwortung einen Eingriff in die Zuständigkeitsprärogative der

Bibliothek bedeuten, die ein institutionelles oder fachliches Repositorium betreibt.

Dabei wird die Kernkompetenz einer Bibliothek tangiert, den Erhaltungszustand des

eigenen Bestandes durch Schutz- und Erhaltungsmaßnahmen positiv beeinflussen zu

können und über dessen Verwendung zum Wohle der Nutzerinteressen selbst zu

entscheiden.

Des Weiteren ist die Publikation von Dokumenten gerade die originäre Aufgabe ei-

nes digitalen Repositoriums, d.h. es stellt die Infrastruktur für die Recherche und In-

formationsverteilung in Endnutzersysteme bereits von Haus aus zur Verfügung. Das

Personal ist auch näher an der visierten Nutzergruppe als das Archiv, da die Produ-

zenten der wissenschaftlichen Publikationen und deren Nutzer derselben Fachge-

meinschaft angehören. Es kennt die Informationsbedürfnisse der Nutzer deshalb sehr

genau und kann die Dienstleistungen des Repositoriums relativ schnell durch Rekon-

figurationen des Publikationssystems an geänderte Nutzungssituationen anpassen.

Außerdem aggregiert das Publikationssystem Mehrwertdienste, wie vergleichende

Nutzungsstatistiken und verknüpft in Zukunft die publizierten Dokumente mit den

zitierten Dokumenten und kann somit an ein System zur Durchführung von Zita-

tionsanalysen ankoppeln. Als weitere Dienstleistung ist die Einrichtung von moderier-

ten Kommentarbereichen sinnvoll, die die unmittelbare Reaktion der Fachkollegen als

Alternative zum herkömmlichen Peer Reviewing auf eine Publikation ermöglichen.

Derartige Diskussionen können in günstigen Konstellationen zur kollektiven Erarbei-

tung neuer Erkenntnisse führen, die sich in aktualisierten Dokumentversionen nieder-

schlagen, die wiederum auf dem Repositorium veröffentlicht werden.

181 vgl. PREMIS 2008, Glossary, S. 213. 182 Unter folgendem URL ist z.B. eine elektronische Publikation des Publikationsservers der Universität Potsdam abrufbar: http://deposit.d-nb.de/cgi-bin/dokserv?idn=976724537 [22.07.2008].

Page 81: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

67

Die Betreuer einer Publikation sind aufgrund der Nähe zu den Verfassern auch eher

in der Lage die Verknüpfungen eines publizierten Dokumentes zu anderen Versionen

oder weiteren Standorten herzustellen, wenn das Dokument bereits an anderer Stelle

veröffentlicht wurde, z.B. im Falle der Publikation von Postprints. Das Endnutzersys-

tem hat die Aufgabe diese Informationsressourcen über die Metadaten logisch mit-

einander zu verknüpfen. Das Repositorium verfügt folglich über einen Informations-

und Wissensvorsprung im Hinblick auf die Publikationsanforderungen. Das Langzeit-

archiv könnte aus eigener Kraft diesen Wissensstand entweder gar nicht oder nur

durch enormen Aufwand erlangen bzw. diese Daten kontinuierlich pflegen und er-

gänzen. Ihm würden dann wichtige Teile der Representation Information und der

PDI über die Archivobjekte fehlen. Darüber hinaus setzt das Repositorium die Bedin-

gungen für die Güte des Ausgangsmaterials, das später in das Archiv eingeht. Dem

steht die spezifische Kompetenz des Langzeitarchivs in Bezug auf die Informations-

bewahrung gegenüber.

Um diese Situation einer angemessenen Lösung zuzuführen, bietet es sich an, als

Wertungsmaßstab das Subsidiaritätsprinzip aus dem Bereich der Kompetenzabgren-

zung von Organisationen unterschiedlicher Hierarchiestufen heranzuziehen. Subsidia-

rität bezeichnet im öffentlichen Recht den Grundsatz, dass eine höher gestellte orga-

nisatorische Einheit nur dann zur Erfüllung einer Funktion herangezogen werden soll,

wenn diese von der Einheit der niedrigeren Ebene nicht effizient erfüllt werden kann.

Erst wenn die kleinere Einheit die Aufgabe nicht zu erfüllen vermag, soll die nächst-

höhere Ebene eingreifen.183 Hinter dieser Wertung steht die Überlegung, dass in einer

Hierarchie die niedrigsten Ebenen auch dem Verwaltungsgegenstand sachlich, fach-

lich und örtlich am nahesten sind. Im Kontext der Langzeitarchivierung geht es zwar

eher um die fachliche Ausdifferenzierung von Kompetenzen. Nichtsdestotrotz ist die

Situation insofern vergleichbar, als das Archiv dem konkreten Gegenstand, also dem

wissenschaftlichen Dokument und seinem Ersteller, ferner gegenübersteht als das

Repositorium. Das Archiv kann nicht denselben Aufwand leisten, den das Repositori-

um bei der Autorenbetreuung und der Anreicherung der Metadaten aufbringt, da es

digitale Objekte zumindest bei kooperativen Modellen aus verschiedenen Quellen

bündelt. Es steht damit einer sehr viel größeren Masse an Objekten gegenüber, die

nur durch automatisierte Verarbeitung sinnvoll zu bewältigen ist. Das Archiv sollte

sich deshalb auf die Erfüllung seiner eigentlichen Aufgaben konzentrieren und keine

Kompetenzen an sich ziehen, die das Subsystem effektiver wahrnehmen kann.

Damit ist die Frage in dem Sinne geklärt, dass ein Langzeitarchiv im Falle digitaler

Publikationen von Dokumentenservices nicht primär den Endnutzerzugang sichern

sollte. Vielmehr müssen Produkte, die das Langzeitarchiv im Rahmen seiner Aufga-

183 vgl. Creifelds et al. 1996; Duden, Recht A - Z 2007.

Page 82: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

68

benerfüllung erstellt und die dem Endnutzer zugute kommen sollen, in einem geord-

neten Verfahren in das Repositorium zurückgespeist werden.

Es wurde jedoch noch nicht erörtert, ob das Repositorium selbst nach dem OAIS-

Modell organisiert sein sollte. Hierfür spricht zunächst, dass im Vorwort des OAIS-

Standards der Anwendungsbereich des Modells betont offen gehalten wurde. Jedes

Archiv, d.h. jede Organisation die die Verantwortung für die dauerhafte Verfügbar-

keit von Informationen übernommen hat, kann den Standard sinnvoll zur Selbstkon-

trolle ihrer Abläufe nutzen.184 Ein digitales Repositorium hat neben der kurzfristigen

Bereitstellung möglichst aktueller Forschungsinformationen auch die Aufgabe die

wissenschaftlichen Ergebnisse seiner Fachdomäne bzw. der Angehörigen der eigenen

Institution für zukünftige Wissenschaftsgenerationen zu bewahren. Dafür spricht das

Wesen einer Publikation als grundsätzlich zeitlich unbefristetes, wissenschaftliches

Kommunikationsinstrument. Außerdem lassen sich die wesentlichen Funktionsmodu-

le eines OAIS weitgehend problemlos auf die Struktur eines Repositoriums abbilden.

Die Funktionen Ingest und Access sind bereits durch das KWF als notwendige Be-

standteile eines Repositoriumsystems (RAP) konzipiert worden. Die Metadaten müs-

sen in einem Datenbanksystem verwaltet werden. Die elektronischen Dokumente

müssen in einem Objektspeicher aufbewahrt und zur Auslieferung an den Endnutzer

bereitgehalten werden. Um die Bereitstellung über möglichst lange Zeiträume zu

gewährleisten müssen planende Maßnahmen getroffen werden, z.B. die Kooperation

mit einem Langzeitarchiv. Und alle Aufgaben werden von einer Administrations-

schicht verwaltet und koordiniert. Die Frage ist somit nur, wie gut diese Funktionen

im Einzelfall erfüllt werden.

Abbildung 15: OAIS-konformes Modell verteilter Dienste gemäß SHERPA DP

184 vgl. ISO 14721:2003 - OAIS Reference Model, S. 1-2.

Page 83: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

69

Im Rahmen des SHERPA DP-Projektes wurde deshalb ein Modell zweier durch einen

Informationskreislauf miteinander verbundener OAIS entworfen (siehe Abbildung

15).185 Das digitale Repositorium fungiert als Content Provider. Das Langzeitarchiv

wird als Preservation Service bezeichnet und fungiert als Service Provider. Diese Be-

zeichnungen lehnen sich stark an das OAI-Strukturmodell einer verteilten Publikati-

onsinfrastruktur an, in dem viele Data Provider über eine Schnittstelle gemäß dem

OAI-Protocol for Metadata Harvesting Informationen für die Sammlung eines Servi-

ceproviders zur Verfügung stellen, der aus den aggregierten Daten Mehrwertdienste

für den Endnutzer generiert.

Interessant ist die Doppelwertigkeit der Informationspakete für beide Archive. Das

digitale Repositorium erhält im Ingestbereich neben den SIPs von Autoren, Heraus-

gebern etc. über ein Webformular auch migrierte Versionen der Dokumente vom

digitalen Langzeitarchiv, die dort als DIP ausgeliefert wurden. Umgekehrt stellt das

SIP, das ein Langzeitarchiv von einem Repositorium zur Langzeitarchivierung erhält,

gleichzeitig ein DIP im OAIS des Content Providers dar.

In dem Modell wird folgende Arbeitsteilung der beiden Archivsysteme beschrieben.

Abbildung 16: SHERPA DP: Lebenszyklus digitaler Publikationen in einem verteilten Modell

185 vgl. Knight et al. 2007.

Page 84: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

70

Digitales Repositorium

Das digitale Repositorium ist eine Einrichtung, die ein Autor nutzen kann, um seine

Forschungsergebnisse einem größeren Kreis von Lesern zugänglich zu machen. Dazu

entwickelt das Repositorium Leitlinien und Regeln, z.B. in Bezug auf die akzeptierten

Datenformate, an denen sich ein Informationsproduzent orientieren muss, um auf

dem Repositorium zu publizieren.186

Im Lebenszyklusmodell elektronischer Dokumente von James et. al. (siehe Abbildung

16) werden sieben Stufen beschrieben, die ein digitales Objekt innerhalb seiner Exis-

tenz durchläuft. Ein digitales Repositorium hat in diesem Kontext bestimmte Arbeits-

gänge obligatorisch auszuführen:187

1. Zuteilung eines Persistent Identifiers, um ein elektronisches Dokument im Re-

positorium lokalisieren zu können bzw. um eine von einem Langzeitarchiv

migrierte Fassung der ursprünglichen Repräsentation des archivierten Werks

zuordnen zu können,

2. Implementierung eines Versionenkontrollsystems, dass nachfolgende Revisio-

nen eines Forschungspapiers oder Postprints zuordnet und in den Metadaten

dokumentiert,

3. Erstellung und Ergänzung der deskriptiven Metadaten für ein effektives In-

formation Retrieval und die bessere Lokalisation der Informationsressourcen,

4. Erstellung oder Ergänzung rechtlicher Metadaten,

5. Validierung der eingereichten Dateien, wenn erforderlich die Konvertierung

des eingereichten Dokumentes in ein Präsentations- und ein Archivierungs-

format,

6. Bereitstellung der Metadaten (und der digitalen Objekte) in einem mit dem

Langzeitarchiv abgestimmten Format über eine Schnittstelle, die OAI-PMH

oder ein anderes geeignetes Protokoll unterstützt, sowie Bereitstellung einer

Schnittstelle, über die das Langzeitarchiv seinerseits Metadaten oder Objekte

in das Repositorium einbringen kann (z.B. indem das Repositorium die Daten

nach Benachrichtigung aktiv vom Archiv einsammelt),

7. kurz- und mittelfristige Maßnahmen zur Sicherung von Integrität und Au-

thentizität der Informationsobjekte (Refreshment, Datenbank-Backups, Un-

versehrtheitsnachweise, Verwendung digitaler Signaturen).

Langzeitarchiv

Das Langzeitarchiv ist dagegen verantwortlich für die Substanzerhaltung der Infor-

mationsobjekte, die fortlaufende Überwachung der Lesbarkeit, die Aufstellung von

186 vgl. Knight 2006, S. 4f. 187 vgl. James et al. 2003, S. 19f. (hier leicht modifiziert).

Page 85: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

71

Erhaltungsplänen einschließlich Migrationszeitplänen, Durchführung von Migrationen

und schließlich die Übertragung migrierter Fassungen an das Repositorium zur Publi-

kation.

Zwischenergebnis

Die Aufgaben eines Repositoriums und eines Langzeitarchivs unterscheiden sich auf-

grund der spezifischen Systemanforderungen. Beide Systeme können jedoch mit Hil-

fe des OAIS-Modells beschrieben und ausgestaltet werden. Eine konzeptionelle Ver-

zahnung in einem kooperativen Modell lässt sich weitaus besser realisieren, wenn

beide Akteure nach denselben Prinzipien verfasst sind. Das Publikationssystem sollte

deshalb nicht isoliert als Pre-Ingest-Komponente des Archivs betrachtet werden,

sondern seinerseits OAIS-konform organisiert sein.

Neben der Beschreibung der Eigenschaften eines Archivs wurden in Ausgestaltung

des OAIS-Referenzmodells Kriterienkataloge geschaffen, die die Anforderungen in

konkrete Handlungsanweisungen übersetzen, deren Einhaltung durch Zertifizie-

rungsverfahren überprüft werden können.

3.5 Kriterienkataloge und Zertifizierungsverfahren

Ein Kriterienkatalog wird als Handlungsleitfaden für eine Zielgruppe ausgestaltet und

stellt ein Instrument zur Auflistung technischer und qualitativer Merkmale und Ver-

fahren dar, das die Etablierung von Standards befördert und die Vergleichbarkeit von

Diensten und eine Selbstkontrolle des Dienstes ermöglicht. Besonders sinnvoll sind

Kriterienkataloge dann, wenn im Wege eines Audits, einer Evaluierung bzw. eines

Begutachtungsverfahrens eine Zertifizierung des Dienstes erfolgt. Für digitale Reposi-

torien steht in Deutschland das DINI-Zertifikat als Anforderungskatalog zur Verfü-

gung. Ein Repositorium, das die internen Abläufe OAIS-konform ausgestalten möch-

te, kann seine Langzeitarchivierungsbemühungen jedoch auch anhand von Kriterien-

katalogen für vertrauenswürdige, digitale Archive überprüfen.

3.5.1 Qualitätssicherung durch das DINI-Zertifikat 2007

Die Arbeitsgruppe „Elektronisches Publizieren“ der Deutschen Initiative für Netz-

werkinformation e.V. hat im April 2007 mit dem „DINI-Zertifikat Dokumenten- und

Publikationsservice 2007“ die zweite Auflage eines Kriterienkatalogs in Form von

Mindeststandards und Empfehlungen herausgegeben, der als Handlungsleitfaden für

die inhaltliche, organisatorische und technische Qualitätssicherung elektronischer

Publikationsdienstleistungen digitaler Repositorien dient.188 Die Mindeststandards

beschreiben dabei die Anforderungen, die ein Repositorium erfüllen muss, um ein

Zertifikat zugeteilt zu bekommen, welches zum Führen des Gütesiegels „zertifizierter

188 DINI-Zertifikat 2007.

Page 86: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

72

Dokumenten- und Publikationsservice 2007“ berechtigt. Dies erfolgt auf Antrag des

Dienstes im Wege der Begutachtung durch bestellte DINI-Gutachter, die neben der

Begutachtung eine Beratungsfunktion für das Repositorium innehaben.189 Die Emp-

fehlungen beschreiben Anforderungen, die noch nicht allgemein unterstützt werden,

deren Umsetzung jedoch vernünftigerweise anzustreben ist. Das Zertifikat trifft ein

Qualitätsurteil über die Dienstleistung des Repositoriums und nicht über die Güte der

publizierten, wissenschaftlichen Dokumente.190

Die Vorteile einer Zertifizierung bestehen darin, dass die Vertrauenswürdigkeit der

Dienstleistung durch das Begutachtungsverfahren auf einer verlässlichen und nach-

prüfbaren Basis festgestellt wird und das Qualitätsurteil nach außen und innen durch

das Siegel dokumentiert wird. Gewissermaßen kann man in der Zertifizierung eine

Bestätigung des durch das Repositorium geschaffenen „Mehrwertes“ sehen. Und

zwar des Zugewinns an Wert, den die digitale Information durch die Publikation auf

einem Repositorium durch größere Verbreitung, längere Erhaltung etc. anstatt an-

dernorts erlangt. Damit wird zunächst ein Äquivalent für die Reputationsbasis des

kommerziellen Publikationssektors geschaffen, die unter anderem in der organisatori-

schen Verlässlichkeit eines Verlages bei der Betreuung von Publikationsvorhaben

gründet und sich dann womöglich in dem Preis ausdrückt, den ein Marktteilnehmer

für ein Informationsprodukt zu zahlen bereit ist bzw. den der Verlag am Markt

durchzusetzen in der Lage ist. Ein Open-Access-Repositorium, das seine Leistung

entgeltfrei zur Verfügung stellt, verfügt jedoch nicht über das Instrument, seinen

Wert durch einen Marktpreis auszudrücken und kann dieses Manko durch die Zertifi-

zierung kompensieren.

Ein zertifiziertes Repositorium erhält damit die Möglichkeit nach außen an Reputation

zu gewinnen und von den Nutzern stärker wahrgenommen zu werden. Die Zertifizie-

rung trägt dazu bei, das Open-Access-Modell mit seinen qualitativen Stärken als fes-

ten Bestandteil der Publikationskultur und Alternative zur hergebrachten Publikati-

onskette im Bewusstsein der Stakeholder zu etablieren. Innerhalb der Trägerorganisa-

tion kann die Position eines zertifizierten Repositoriums gefestigt oder der Stellenwert

sogar erhöht werden. Daneben erlaubt das Zertifizierungsverfahren eine interne Re-

vision des Repositoriumverwalters, inwieweit der bislang erreichte Stand den eigenen

Zielsetzungen entspricht und an welchen Stellen Nachbesserungen erforderlich sind.

Der Aspekt der kritischen Selbstkontrolle ist als wesentliches Ziel der Zertifizierung

nicht zu unterschätzen. Die Antragsteller sind gezwungen, sich mit den Anforde-

rungskriterien dezidiert auseinanderzusetzen und diese an der eigenen Arbeitsweise

zu messen. In diesem Sinne wäre eine zu nachlässige Handhabung der Zertifizierung

- abgesehen vom allgemeinen Ansehensverlust des Instruments - kontraproduktiv im

189 vgl. Scholze et al. 2005. 190 vgl. Scholze et al. 2005.

Page 87: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

73

Hinblick auf realisierbare Verbesserungen, da die Zuteilung als Honorierung besonde-

rer Anstrengungen dann innovationshemmend wirken kann, wenn sie zur Bestäti-

gung und Verfestigung konventioneller, bestenfalls halbrichtiger Praktiken führt.

Richtig verstanden, sollte der Qualitätsausweis der Zertifizierung eher Anreiz sein,

sich weiterhin um die Einhaltung der Kriterien und möglichst aktiv um die Umset-

zung aller Empfehlungen zu bemühen.

Technisch sichert die Zertifizierung die Kompatibilität des Dienstes innerhalb des Ser-

vernetzwerkes ab.

3.5.1.1 Kriterien im DINI-Zertifikat zur Sicherung der Langzeitverfügbarkeit

Aspekte, die die Nachhaltigkeit und Langzeitverfügbarkeit der in ein Repositorium

eingebrachten elektronischen Dokumente betreffen, sind im Anforderungskatalog an

mehreren Stellen verstreut untergebracht, im Wesentlichen jedoch in den Abschnit-

ten 2.5 und 2.8 zu finden. Erläuterungen und Beispiele dazu werden in den Abschnit-

ten 4.5.2 und 4.8 geliefert.

Da ein digitales Repositorium den Prinzipien des OAIS entsprechend organisiert sein

sollte, können diese Anforderungen auch nach den Funktionsmodulen des Refe-

renzmodells entsprechend sortiert werden. Die technische Implementierung des je-

weiligen Kriteriums in OPUS wird an geeigneter Stelle berücksichtigt.

Ingest

Mindeststandards:

− Punkt 2.3 Autorenbetreuung

− “Unterstützung des gesamten Publikationsprozesses (einschließlich rechtlicher

und technischer Aspekte) ist gegeben“.

Dieses organisatorische Kriterium tangiert die Langzeiterhaltung im Hinblick auf die

Erstellung archivfähiger Formate. Das Repositorium muss den Produzenten möglichst

frühzeitig in den Publikationsprozess einbeziehen und über die technischen Anforde-

rungen informieren.

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− „Kontrollierte und nachweisbare Aufnahme von Dokumenten aus technischer

Sicht“.

Im System müssen Vorkehrungen getroffen werden, die sicherstellen, dass nur auto-

risierte Personen Dokumente anmelden und die Daten während der Übertragung

nicht manipuliert werden können. Dies kann durch die Einrichtung zugangsgeschütz-

ter Anmeldeformulare und die Verwendung von Hypertext Transfer Protocol Secure

(https) als Übertragungsprotokoll erfolgen. In diesem Falle ist eine SSL- bzw. TLS-

Zertifizierung (engl.: secure sockets layer, transport layer security) erforderlich. Derar-

Page 88: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

74

tige Absicherungsmethoden sind nicht Teil von OPUS, sondern müssen vom jeweili-

gen Systemadministrator umgesetzt werden.

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.2 Dokumente

− „Verwendung von Persistent Identifiers, dazu zählen Systeme, die einen -

Resolver-Dienst besitzen, z. B. urn:nbn oder DOI.

− Ein inhaltlich verändertes Dokument ist wie ein neues Dokument zu behandeln

(neuer Persistent Identifier).

− Archivierung der eingereichten Originaldateien des Autors auch im Abliefe-

rungsformat (zu anderen Formaten vgl. Abschnitt 2.8)“.

Persistent Identifier: Ein Persistent Identifier (dt. in etwa: beständiger Bezeichner oder

Name, dauerhafte Kennung) ist ein Identifikator in Form einer nach definierten Re-

geln gebildeten, alphanumerischen Zeichenkette, der es erlaubt ein digitales Objekt

unabhängig vom Speicherort und über Systemwechsel hinweg innerhalb eines loka-

len Systems oder global eindeutig dauerhaft zu identifizieren und zu adressieren. Ein

Identifikator (auch Kennung oder kurz ID) ist ein künstlich zugewiesenes Merkmal

zur eindeutigen Identifizierung eines Objektes. Die DINI-Vorgabe verlangt die Erzeu-

gung eines Persistent Identifiers für jedes inhaltlich geänderte Werk, d.h. eine dem

Bestand hinzugefügte Expression des Werkes, durch die als Manifestation ein neues

Dokument entsteht. In der analogen Buchwelt entspricht dieser Fall einer neuen Auf-

lage. In OPUS werden Persistent Identifier in Form von URNs gemäß dem Namens-

raum urn:nbn:de der DNB genutzt. Das System erzeugt für jeden neuen Datensatz

einen URN, der als Bezugsidentifikator die OPUS-ID source_opus nutzt. Diese OPUS-

ID ist der Primärschlüssel der Relation opus, die in der Relation temp beim Anmelden

des Dokumentes erzeugt wurde. Die URN wird gemäß den Regeln der RFC 2141191,192

und RFC 3188193 gebildet. URNs, die von der Deutschen Nationalbibliothek administ-

riert werden, haben die folgende allgemeine Struktur:194

urn:nbn:de:[Verbundabk.]:[Sigelnummer]-[Nummer][Prüfziffer]

Die Nummer ist im Falle der Verwendung von OPUS der entsprechende Wert des

Attributs source_opus. Die Prüfziffer wird durch einen definierten Algorithmus mit

Hilfe eines PHP-Skriptes berechnet.

191 RFC 2141 1997. 192 Einschlägige Entwicklungen des Internets werden durch die Internet Assigned Numbers Authority (IANA) kontrolliert. Die Arbeitsgruppen der Internet Engineering Task Force (IETF), eine Organisation, die IANA zugeordnet ist, treiben die Weiterentwicklung voran und legen die de facto-Standards fest. Beschreibungen und Empfehlungen sind in der Form so genannter Requests for Comments (RFCs) veröffentlicht. 193 RFC 3188 2001. 194 siehe http://www.persistent-identifier.de/?link=400 [22.07.2008].

Page 89: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

75

Die Administratoren des Repositoriums melden ein inhaltlich geändertes Dokument

im System neu an. Es wird somit ein weiterer Datensatz angelegt und ein neuer Per-

sistent Identifier erzeugt. Damit erfüllt OPUS technisch die DINI-Vorgabe. Ob dieses

Vorgehen auch den Anforderungen der digitalen Langzeitarchivierung gerecht wird,

ist Gegenstand des Kapitels 4.2.

Dokumente im Erstellungsformat: Aktuelle Dokumentformate, wie das Open Docu-

ment Format (ODF) oder Office Open XML (OOXML), sind teilweise standardisiert

und XML-basiert und kommen als Archivierungsformat in Betracht. Die Autoren

müssen deshalb bereits bei der Anmeldung der Publikation beim Repositorium die

Dateien im Erstellungsformat übertragen können. Standard-OPUS bietet diese Funk-

tion auch in der aktuellen Version 3.2 nur für bestimmte Dokumentarten (Dissertati-

on, Habilitation) an. Um dieses Desiderat zu beseitigen, ist eine lokale Anpassung

durch eine Ergänzung eines PHP-Skriptes nötig.

− 2.8 Langzeitverfügbarkeit

− „Die gegebenenfalls zusätzlich zu den eingereichten Originaldateien des Autors

erstellten Archivkopien sind frei von Schutzmaßnahmen (DRM), die eine An-

wendung von Strategien zur Langzeitverfügbarkeit (Migration, Emulation) ver-

hindern“.

Ein wichtiges Kriterium zur Sicherung der technischen Barrierefreiheit für Erhaltungs-

maßnahmen des Langzeitarchivs ist die Freiheit der Archivkopien von Verfahren und

Techniken der Digitale Rechteverwaltung (engl.: digital rights management (DRM).

DRM wird von den Inhabern von Urheber- und Leistungsschutzrechten verwendet,

um die Einhaltung vertraglich vereinbarter Nutzungsbeschränkungen technisch zu

erzwingen. Dies erfolgt durch den Einsatz kryptographischer Technologien, die die

Daten eines digitalen Objektes dergestalt verschlüsseln, dass der Informationsinhalt

nur durch den Inhaber eines passenden Lizenzschlüssels freigegeben wird. Derart

verschlüsselte Daten sind nicht oder nur schwierig für ein digitales Langzeitarchiv

handhabbar und der Einsatz deshalb für DINI-zertifizierte Dienste verboten.

Empfehlungen:

− Punkt 2.2 Leitlinien (Policy)

“Wenn der Service in eine Open Access Politik der Institution eingebunden sein

soll, ist diese Policy um eine Reihe von Elementen zu erweitern. Neben einer Defi-

nition des jeweiligen Verständnisses von ‚Open Access‘ muss die Policy dann Aus-

sagen zu drei Bereichen enthalten:

− Je nach beabsichtigter Publikationsform und Handlungsrichtlinie werden unter-

schiedliche Umsetzungsinstrumente als Teil des Dokumentenservice bzw. in

dessen Umfeld benötigt; die Spanne reicht dabei von einem einfachen Reposi-

tory und entsprechenden ‚Upload-Tools‘ bis hin zu Verfahren für die Versionie-

Page 90: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

76

rung und Dokument-Authentifizierung sowie für die automatisierte Lizenzdefi-

nition im Falle der genuinen elektronischen Publikation“.

Diese Anforderungen sind zwar bei der Erstellung von Leitlinien für den Betrieb des

Repositoriums angesiedelt, betreffen jedoch Funktionen, die bei der Erstellung der

AIPs im Ingestmodul auszuführen sind und werden deshalb an dieser Stelle behan-

delt.

Versionierung: Der Punkt der Versionierung behandelt die für die Langzeitarchivie-

rung erhebliche Einordnung der Information in einen größeren Zusammenhang. Die

Publikation betrifft gerade nicht nur den Lebenszyklus eines elektronischen Doku-

mentes, sondern gleichsam den Lebenszyklus einer bestimmten geistesgeschichtli-

chen Idee, deren Informationsgehalt sich in einer Kette sich inhaltlich fortentwickeln-

der Expressionen und Manifestationen niederschlägt. Diese Kette sollte durch die

Verknüpfung von Informationsressourcen erfolgen. Die Empfehlung einer Versionie-

rung muss sich im technischen System strukturiert durch definierte Relationen abbil-

den lassen. Das Datenmodell von OPUS enthält allerdings bislang kein Versionie-

rungssystem, um innerhalb einer OPUS-Instanz oder extern Verknüpfungen zu

Werkversionen herzustellen. Behelfsmäßig lassen sich derartige Verknüpfungen in

unstrukturierter Form als „externe Bemerkung“ im Datenbankfeld bem_extern in der

Relation opus einfügen, die dann allerdings nicht strukturiert verarbeitet werden oder

als strukturiertes Metadatum an einen Serviceprovider übergeben werden können.

Dokument-Authentifizierung: Dieser Aspekt berührt die Authentizität des veröffent-

lichten, elektronischen Dokumentes. Die höchste Form der Authentizität wäre ein

Nachweis, den der Urheber dem Dokument beigibt, der garantiert, dass das publi-

zierte Dokument unumstößlich und für alle Zeit das Werk unverändert repräsentiert.

Der Urheber könnte z.B. das Dokument vor der Übertragung an das Repositorium

mit einer digital signierten Versicherung des vorgenannten Inhalts versehen. Da der

Urheber allerdings nach der Einbringung die tatsächliche Herrschaft über das digitale

Objekt an die Anbieter des Dokumentenservice überträgt, kann er selbst die Authen-

tizität nicht mehr garantieren. Der Anbieter selbst kann jedoch mit einer digitalen

Signatur versichern, dass die veröffentlichte Fassung dem eingereichten Dokument

des Autors inhaltlich entspricht und zwar dergestalt, dass sich die digitale Signatur

auf eine Datei bezieht, die den Prüfsummenwert des Dokumentes enthält. Die Prüf-

summe einer Datei ist eine nach einem bestimmten Verfahren erstellte Zeichenkette,

die sich bei jeder Veränderung der binären Struktur der Datei ebenfalls ändert. Die

Wahrscheinlichkeit, dass eine veränderte Datei dieselbe Prüfsumme wie die Ur-

sprungsversion hat, ist verschwindend gering, es sei denn das Prüfsummenverfahren

ist kompromittiert. Dieses Vorgehen sichert die Integrität als auch eine relative Au-

thentizität des Dokumentes. Relativ, weil die Authentizität nicht originär sondern

vom ursprünglichen Ersteller abgeleitet ist. Diese Derivation kann dann als vertrau-

Page 91: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

77

enswürdig gelten, wenn die Einrichtung selbst nach Auffassung aller Beteiligten, also

von Autor, Nutzer und sonstigen interessierten Dritten, vertrauenswürdig ist. In der

Konsequenz wird die Vertrauenswürdigkeit durch eine Zertifizierung des Anbieters

durch ein verlässliches Verfahren untermauert. Eine daran anschließende Frage ist,

wie die Authentizität nach Übergabe der Verantwortung an ein Langzeitarchiv durch

eine Kette derivativer Übertragungen von Vertrauen gewahrt bleiben kann. Und

zwar letztlich in Bezug auf migrierte Fassungen, die das Repositorium vom Langzeit-

archiv erhält. Zunächst muss jedoch die Dokument-Authentizität der ursprünglichen

Fassung garantiert werden. Ein Weg, der in OPUS ab der Version 3.2 unterstützt

wird, ist ein Modul, mit dem automatisiert erstellte Prüfsummendateien aller zu ei-

nem elektronischen Dokument gehörenden Dateien mit einer elektronischen Signatur

eines Mitarbeiters nach dem OpenPGP (Open Pretty Good Privacy)-Standard verse-

hen werden können. Dazu wird das Programm GNU Privacy Guard (GnuPG) ver-

wendet. Das Verfahren zur Erzeugung der elektronischen Signatur basiert auf einer

symmetrisch-asymmetrischen Verschlüsselung und erfüllt die Anforderungen an eine

elektronische Signatur gemäß § 2 Nr. 1 SigG.195 Eine fortgeschrittene elektronische

Signatur gemäß § 2 Nr. 2 SigG erfordert dagegen, dass die Signatur ausschließlich

dem Signaturschlüssel-Inhaber zugeordnet ist und mit Mitteln erzeugt wird, die der

Signaturschlüssel-Inhaber unter seiner alleinigen Kontrolle halten kann. An diesen

Tatbestandsmerkmalen mangelt es bei einer OpenPGP-Lösung, da das System auf

Vertrauen aufgebaut ist, welches einem Erzeuger eines Schlüssels gutgläubig entge-

gengebracht wird, ohne dass dieser gute Glaube durch einen begründeten, äußeren

Rechtsschein abgesichert ist. Ein solcher äußerer Rechtsschein wird erst durch die

Verwendung eines digitalen PKI (Public Key Infrastructure)-Zertifikats gesetzt. Dabei

wird die Identität des Schlüssel-Inhabers von einer vertrauenswürdigen Zertifizie-

rungsstelle (engl.: certificate authority, CA) bescheinigt. Derartige Zertifikate werden

zumeist auf Chipkarten gespeichert und an die Person ausgegeben.

Die Verwendung von Hashwerten und digitalen Signaturen verhindern selbst keine

Manipulationen von außen, ermöglichen aber die Entdeckung von Manipulationen.

Für eine fortgeschrittene elektronische Signatur muss deshalb mindestens ein PGP-

PKI-Verfahren angewendet werden.

Automatisierte Lizenzdefinition: Dieser Punkt betrifft die Einräumung von Nutzungs-

rechten an dem Werk gemäß § 31 UrhG zugunsten der Allgemeinheit, z.B. durch die

Lizenzierung mit einer Creative-Commons-Lizenz.196 Dies berührt die digitale Lang-

195 Ohst 2004, S. 31; Ursprünglich war eine mit dem PGP-Verfahren erstellte Signatur in der Gesetzes-begründung als Beispiel für eine fortgeschrittene elektronische Signatur nach § 2 Nr. 2 SigG genannt worden, was allerdings inzwischen in der Jurisprudenz mit guten Gründen verneint wird, siehe Roßna-gel 2003, S. 164ff. 196 siehe http://creativecommons.org/ [22.07.2008]; Creative Commons Lizenzen sind Standardlizen-zen, die dem Urheber nach dem Baukastenprinzip die Übertragung von Nutzungsrechten unterschied-licher Art und unterschiedlichen Umfangs an jedermann erlauben.

Page 92: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

78

zeitarchivierung insoweit, als die Vergabe bestimmter Lizenzen alle Maßnahmen der

digitalen Langzeitarchivierung rechtlich abdecken. Zum Beispiel würde die Vergabe

der Lizenz Creative Commons - Namensnennung - keine kommerzielle Nutzung -

Weitergabe zu gleichen Bedingungen 2.0 Deutschland (cc-by-nc-sa)197 die Anferti-

gung von Archivkopien, das Refreshment, Formatmigrationen und die Veröffentli-

chung der migrierten Fassung im Internet erlauben. OPUS verfügt über ein Lizenz-

modul, mit dem der Autor bei der Anmeldung des Dokumentes eine Lizenz vergeben

kann. Die standardisierten Lizenzverträge müssen von jedem Repositorium angepasst

werden. Ein Beispiel, bei dem dieses Modul konsequent auf die Nutzung von Creati-

ve Commons Lizenzen umgestellt wurde, ist der Publikationsserver der Universität

Potsdam.198

Die Anforderungen sind in den Leitlinien (Policy) des Publikationsservice zu doku-

mentieren. Die Leitlinien sind gleichsam die Verfassung oder Satzung eines digitalen

Repositoriums. Maßnahmen unter diesem Punkt betreffen vor allem Ergänzungen

der Metadaten, und zwar die PDI, die im Objektspeicher und der Metadatenverwal-

tung zu speichern sind.

− Punkt 2.3 Autorenbetreuung

− „Kursangebot zum elektronischen Publizieren mindestens einmal im Semester

− Angebote zum strukturierten Schreiben für Autoren

− Bereitstellung von Style-Sheets oder Mustervorlagen

− Angebot von Hilfetexten (z. B. zur PDF-Erstellung) zum Herunterladen

− Bereitstellung von Hinweisen zur Nutzung und Zitierung von Dokumenten“.

Die organisatorischen Empfehlungen bauen die Anforderung des Mindeststandards

aus. Durch Kursangebote zum elektronischen Publizieren und strukturierten Schrei-

ben wird ein früher Kontakt zum Verfasser der Texte hergestellt. Je früher der Autor

von den Anforderungen Kenntnis erlangt, z.B. hinsichtlich der Konvertierung von

Dokumenten in das Archivierungsformat PDF/A, desto größer ist die Chance anfor-

derungsgerechte Dokumente einzuwerben. Die Verwendung strukturierter Doku-

mentbeschreibungssprachen (engl.: document markup language) ist eine Grundvor-

aussetzung für höherwertige Erhaltungsstufen digitaler Objekte, die auf einer seman-

tischen Ebene ansetzen können. Derartige Strategien setzen die Verwendung stan-

dardisierter Dokumentvorlagen bei der Erstellung der Dokumente voraus, wie sie z.B.

über das Projekt DissOnline für die weit verbreiteten Dokumenterstellungssysteme

Microsoft Word, StarOffice/OpenOffice oder LaTeX angeboten werden.199

197 http://creativecommons.org/licenses/by-nc-sa/2.0/de/ [22.07.2008]. 198 siehe http://opus.kobv.de/ubp/uni/licenses.php?la=de [22.07.2008]. 199 siehe http://www.dissonline.de/service/autoren/dokumentvorlagen.htm [22.07.2008].

Page 93: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

79

Der letzte Punkt beinhaltet Hinweise für Autoren und Nutzer, die die Zitation elek-

tronischer Dokumente unter Verwendung seines Persistent Identifiers erklären, um

die langfristige Identifikation und Adressierung der zitierten Fassung zu erleichtern,

z.B. bei Änderungen des URLs oder dem Ersatz eines Dokumentes durch eine

migrierte Version.

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− „SSL-Zertifizierung mit vertrauenswürdigem Zertifikat für verschlüsselte Kom-

munikation wird eingesetzt“.

SSL- bzw. TSL-Zertifizierung sind Verschlüsselungsverfahren für die sichere Daten-

übertragung im Internet. TSL ist der neuere Standard, die die Authentizität der Daten

während des Transfers vom Produzenten zum Repositorium schützt.

− 2.5 Sicherheit, Authentizität und Integrität

2.5.2 Dokumente

− „Einsatz eines Verfahrens zum Nachweis der Unversehrtheit der Dokumente

(Hash-Wert) sowie Veröffentlichung von Verfahren und Hash-Werten.

− Fortgeschrittene digitale Signatur nach § 2 Nr. 2 SigG 2001 [Korrektur von Abs.

nach Nr., Anm. d. Verf.] wird verwendet.

− Erstellung von Archivierungsformaten im Hinblick auf den Export in Langzeitar-

chivierungssysteme (vgl. Abschnitt 2.8 und 4.7)“.

Zu den ersten beiden Punkten siehe oben Empfehlungen, Punkt 2.2 Leitlinien, Do-

kument-Authentizität, insbesondere die Ausführungen zur fortgeschrittenen elektro-

nischen Signatur. Zu prüfen ist jedoch, ob in OPUS eine PGP-PKI-Lösung integriert

werden kann.

Archivierungsformate: Die Konvertierung der Dokumente von den eingereichten

Formaten in Archivierungsformate ist mit dem konkreten, digitalen Langzeitarchiv

abzustimmen, insbesondere welche Formate bevorzugt archiviert werden. Es sollte

dabei beachtet werden, dass es sich um Formatmigrationen handelt, bei der immer

mit dem Verlust oder der unbeabsichtigten Veränderung des Inhalts der Information

gerechnet werden muss. Es dürfen für die Konvertierung deshalb nur geprüfte Ver-

fahren zum Einsatz kommen, um eine zusätzliche Gefährdung der Dokumente durch

das Personal möglichst auszuschließen.

− 2.8 Langzeitverfügbarkeit

− „Nutzung von offenen Dateiformaten, die zur Langzeitarchivierung geeignet

(z.B. PDF/A, ODF, TXT, HTML, TEX) und frei von Schutzmaßnahmen (DRM)

sind.

− Erstellung von technischen Metadaten zur Langzeitarchivierung (z. B. mit dem

Tool JHOVE).

Page 94: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

80

− Eindeutige Identifizierung des jeweiligen Dateiformats in den Metadaten mit

Referenzen zu öffentlich zugänglichen File Format Registries.

− Unterstützung des Imports und Exports von Objektpaketen, die neben den ei-

gentlichen Dokumenten auch Metadaten (bibliografische und technische Daten

zur Langzeitarchivierung) enthalten (z. B. im Universellen Objektformat)“.

Archivierungsformate: Zum Verbot der Verwendung von DRM-Verfahren und zur

Konvertierung in Archivierungsformate siehe die Ausführungen oben Mindeststan-

dards, Punkt 2.8 und Empfehlungen, Punkt 2.5.2.

Erstellung technischer Metadaten: Technische Metadaten dienen der Dokumentation

der technischen Eigenschaften digitaler Objekte und werden automatisiert mit Hilfe

von Werkzeugen extrahiert, z.B. die Bezeichnung des genauen Formats der Datei

oder Strukturinformationen. Dies ist notwendig, weil die Kenntnis über die genaue

Beschaffenheit und die technischen Eigenschaften eines digitalen Objektes aus-

schlaggebend für die Entscheidung ist, welche Erhaltungsmaßnahmen für das Objekt

notwendig sind und eine Prognose über die voraussichtliche Lebensdauer des Objek-

tes in der derzeitigen Form zulässt. Je weniger ein Archiv über die archivierten Objek-

te weiß, desto geringer sind die Erfolgsaussichten für die Erhaltung der Information:

„Das Feststellen des Formats einer komplett unbekannten Datei kann ex-

trem aufwendig oder unmöglich sein, je nachdem, wie sehr die Konventi-

onen, die bei ihrer Entstehung zeitlich und räumlich gültig waren, von den

heutigen abweichen.“200

Einige der Werkzeuge validieren das Objekt gleichzeitig, d.h. es wird geprüft, ob das

Objekt den Anforderungen entspricht, die es selbst an sich stellt. Ein XML-Dokument

kann in seiner Deklaration z.B. die Übereinstimmung mit einem bestimmten XML-

Schema (XSD) oder einer Dokumenttypdefinition (DTD) ankündigen. Ein Validie-

rungsprogramm prüft dann, ob das Dokument gültig im Rahmen dieses Schemas ist.

Die Validierung ist ein Aspekt, der die Authentizität des digitalen Objektes betrifft.

Zur Anwendung kommen Werkzeuge wie JHOVE (JSTOR/Harvard Object Validation

Environment) oder der NLNZ (National Library of New Zealand) Metadata Extractor.

OPUS unterstützt derartige Werkzeuge nicht. Die Betreiber des Publikationsservers

Potsdam archivieren jedoch einen aus JHOVE erzeugten Bericht im XML-Format in

einem Container zusammen mit dem Datenobjekt. OPUS wird mit der Anbindung

von koLibRI in der Version 4.0 über die automatisierte Extraktion technischer Meta-

daten verfügen. KoLibRI verwendet JHOVE für die Extraktion.

Referenzierung von Format Registries: Format Registries sind ein Instrument zur all-

gemeinen Beschreibung und Überwachung von Dateiformaten. Ein Dateiformat wird

200 Bárány 2006, S. 13)

Page 95: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

81

über einen Persistent Identifier referenziert. Momentan kommen die PRONOM

Technical Registry201 und die Global Digital Format Registry (GDFR)202 für die Anbin-

dung in Betracht (siehe die Beispiele im Anhang F). Für die korrekte Identifizierung

des PRONOM Format Identifiers kann die Applikation DROID (Digital Record Object

Identification) verwendet werden. Durch die Referenzierung der Format Registry ist

eine Benachrichtigung bezüglich drohender Gefahren für den Bestand möglich, z.B.

das Auslaufen der Unterstützung eines Herstellers für ein Format. Diese Information

ist für das Langzeitarchiv wichtig, um die Erhaltungsmaßnahmen planen zu können.

Die Aufgabe wird jedoch erleichtert, wenn das digitale Repositorium diese Informati-

on beim Ingest erhebt und in den Metadaten dokumentiert, so dass das Langzeitar-

chiv bereits zum Zeitpunkt der Übergabe der elektronischen Dokumente Kenntnis

über die genaue Beschaffenheit der Objekte hat. Das gleiche gilt im Übrigen für alle

technischen Metadaten. In OPUS wird mit der Anbindung an koLibRI die koLibRI-

eigene Format Registry genutzt. Von koLibRI wird während der Prozessierung ein

Format Identifier aus integrierten File Format Registry ermittelt (siehe Anhang F. III).

Import von Objektdaten: Diese Empfehlung fordert das Repositorium zur Implemen-

tierung einer Schnittstelle auf, über die ein digitales Langzeitarchiv Informationspake-

te an das Repositorium übertragen kann, z.B. migrierte Fassungen der elektronischen

Dokumente oder Ergänzungen der Representation Information. Neben der Web-

schnittstelle für diejenigen, die ein Dokument manuell beim System anmelden wol-

len, ist dies ein zweiter Weg, wie Informationen in den Ingestbereich des Repositori-

ums eingehen können. In OPUS ist die Schaffung einer derartigen Schnittstelle noch

nicht ersichtlich, aber momentan auch nicht zwingend erforderlich.

Metadatenverwaltung

Mindeststandards:

− 2.8 Langzeitverfügbarkeit

− „Dauerhafte Verbindung der Metadaten mit den Dokumenten (z. B. Verbin-

dung über Persistent Identifier oder zusammen in einem Container)“.

Dieses Kriterium betrifft soweit ersichtlich als einziges die Metadatenverwaltung und

zwar in der ersten Alternative, also der Verbindung der Metadaten mit einem Per-

sistent Identifier. OPUS benutzt hierfür kein standardisiertes System, wie URNs oder

Handles. Die Verbindung der Metadaten mit den Dokumenten erfolgt vielmehr über

die OPUS-ID. Diese ID ist im Datenmodell von OPUS (siehe Anhang B. I.) der Wert

des Primärschlüssels source_opus der Relation opus. Die ID wird daneben als Name

des Ordners verwendet, der das elektronische Dokument physisch enthält, den der

Datensatz anhand von Metadaten (Packaging Information, Deskriptive Information)

201 http://www.nationalarchives.gov.uk/PRONOM/ [22.07.2008]. 202 http://hul.harvard.edu/gdfr/ [22.07.2008].

Page 96: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

82

beschreibt. Die Verbindung wird hergestellt, indem OPUS feste Pfade für die Objekt-

speicherung vorsieht, die in der Datenbank in den Relationen bereich_de bzw. be-

reich_en in Form des Dateipfades und dem URL gespeichert werden.

Objektspeicher

Mindeststandards:

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− „Einsatz einer Technologie zur Sicherung und Wiederherstellung der Server-

Software, der Metadaten und der Dokumente mit täglicher Sicherung“.

Ein Kriterium zur Sicherung der Dokumente im OAIS durch Refreshing und Daten-

trägermigration.

− 2.8 Langzeitverfügbarkeit

− „Dauerhafte Verbindung der Metadaten mit den Dokumenten (z. B. Verbin-

dung über Persistent Identifier oder zusammen in einem Container)“.

Die Vorgabe beschreibt in seiner ersten Alternative die Möglichkeit die Metadaten

zusammen mit den Objekten im Objektspeicher zu speichern, um deren feste Ver-

bindung abzusichern. Dem OAIS-Modell gemäß ist diese Verbindung der Datenob-

jekte mit der Representation Information und PDI sogar verpflichtend. Momentan

unterstützt OPUS noch keine derartige Containerlösung. Der einzelne Anbieter ent-

scheidet selbst, ob er einen Metadatensatz zusammen mit dem Objekt z.B. im Origi-

nalordner abspeichert und in welchem Format dies erfolgt. Mit der Anbindung von

koLibRI an OPUS 4.0 wird es jedoch eine Containerlösung geben, in der das Daten-

objekt zusammen mit einem Metadatensatz im Universellen Objektformat (UOF),

das im Rahmen des Projektes kopal entwickelt wurde, gespeichert wird.

Empfehlungen:

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− „Havarieszenarien sind vorhanden“.

Administration

Mindeststandards:

− Punkt 2.2 Leitlinien (Policy)

„Der Anbieter des Dokumenten- und Publikationsservice veröffentlicht Leitlinien für

inhaltliche Kriterien sowie den Betrieb[...]

Die Policy muss enthalten:

− Eine Garantie für bestimmte Archivierungszeiträume in Abhängigkeit von

der inhaltlichen, funktionalen und technischen Qualität der Dokumente“.

Page 97: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

83

Bei dieser organisatorischen Anforderung geht es zum einen darum, den Anbieter

des Dienstes zu einer realistischen Kalkulation der Haltbarkeit seines Bestandes zu

zwingen und zwar anhand verlässlicher Informationen externer Anbieter, wie dem

Kompetenznetzwerk Langzeitarchivierung nestor, über die Archivierungsfähigkeit der

eingebrachten Dateiformate. Erst danach kann überhaupt ein fundiertes Garantiever-

sprechen abgegeben werden. Außerdem wird für den Erzeuger transparent, wie lan-

ge die Dokumente, die er in das Repositorium einzubringen gedenkt, wahrscheinlich

erhalten werden können und welche Maßnahmen er selbst treffen muss, um die

Haltbarkeit zu erhöhen.

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− “Es existiert eine Dokumentation des technischen Systems mit

1. relevanten Versionsangaben und technischen Parametern zu allen Kompo-

nenten

2. Zugangsregelung zum Server

− räumlich

− auf das System bezogen

− personell (Verantwortlichkeit und Vertretung)

3. Regelung der Wartung des Systems

− Einsatz einer Technologie zur Sicherung und Wiederherstellung der Server-

Software, der Metadaten und der Dokumente mit täglicher Sicherung.

− Sichere Installation des Systems und der Software-Komponenten.

− Regelmäßige Wartung des Systems“.

Hierbei handelt es sich um typische Administrationsaufgaben, wie die Dokumentati-

on des technischen Systems und der Abläufe, sowie Datensicherungsmaßnahmen.

Maßnahmen des zweiten Punktes intendieren, dass nur vertrauenswürdige Personen

Zugang zum Server besitzen, um tatsächliche Manipulationen an den Daten oder

Beschädigungen durch Dritte auszuschließen.

− 2.5 Sicherheit, Authentizität und Integrität

2.5.2 Dokumente

− „Diese Mindeststandards sind in der Policy bzw. den Leitlinien zu dokumentie-

ren“.

Dieses Kriterium der Anforderungsgruppe betrifft die administrative Aufgabe, die

getroffenen Maßnahmen, in den Leitlinien zu festzuschreiben.

− 2.8 Langzeitverfügbarkeit

− „Definition einer Mindestzeit der Dokumentverfügbarkeit, die 5 Jahre nicht un-

terschreiten darf, ist in der Policy vorhanden“.

Page 98: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

84

Der DINI-Katalog definiert diesen Zeitraum für die Mindestverfügbarkeit eines elek-

tronischen Dokumentes als Informationsressource. D.h. das Repositorium muss we-

nigstens die Mindestvorkehrungen treffen, um die eingebrachten Objekte kurzfristig

zu erhalten und allgemein zur Verfügung stellen, z.B. durch kontinuierliche Backups

des Dokumentspeichers (wenigstens täglich einmal inkrementell, siehe Punkt 2.5.1).

Hintergrund für die Wahl dieser Zeitspanne ist die Schaffung eines zeitlichen Sicher-

heitspuffers, der die digitalen Objekte bis zur Übertragung an ein Langzeitarchiv

schützt.

Empfehlungen:

− Punkt 2.5. Sicherheit, Authentizität und Integrität

2.5.1 Server

− „Aufteilung der Dokumentation des technischen Systems in einen veröffentlich-

ten und einen internen Teil.

− Autonome Überwachungs- und Alarmfunktion bei Ausfall des Servers oder ein-

zelner Komponenten.

− Havarieszenarien sind vorhanden“.

Diese Punkte erweitern die administrativen Aufgaben des Repositoriums.

− 2.8 Langzeitverfügbarkeit

− „Eine Policy zum Umgang mit Löschungen von Dokumenten ist vorhanden“.

Dieses Kriterium zwingt den Anbieter der Publikationsdienstleistung sich zu der Frage

zu positionieren, unter welchen Umständen eine bereits publizierte Information der

Nutzergemeinschaft wieder entzogen werden darf. Grundsätzlich sollten publizierte

elektronische Dokumente selbstverständlich nicht, auch nicht auf Wunsch des Produ-

zenten, aus dem Repositorium gelöscht werden. In Ausnahmefällen kann es dagegen

notwendig sein, den Zugriff auf eine Publikation nachträglich zu beschränken, etwa

wenn Unterlassungs- oder Beseitigungsansprüche von Inhabern exklusiver Nutzungs-

rechte einer allgemeinen Zugänglichmachung auf dem Repositorium entgegenste-

hen. Dies muss jedoch nicht bedeuten, dass eine Löschung des Dokuments erforder-

lich ist oder Langzeiterhaltungsmaßnahmen behindert werden. Nach dem Ablauf

einer Schutzfrist entfällt der urheberrechtliche Schutz und Information wird zu einem

Allgemeingut, natürlich nur, soweit die Information dann noch in digitaler Form les-

bar repräsentiert wird.

Planung der Langzeiterhaltung

Empfehlungen:

− 2.8 Langzeitverfügbarkeit

− „Sicherstellung der Langzeitverfügbarkeit, ggf. durch Kooperation mit einer Ar-

chivierungsinstitution“.

Page 99: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

85

Bereitstellung

Mindeststandards:

− 2.6 Erschließung

2.6.2 Metadatenexport

− „Metadaten werden frei zugänglich angeboten.

− Metadaten sind nach Dublin Core Simple (ISO 15836:2003) strukturiert“.

Das wesentliche Prinzip der Funktionsweise digitaler Repositorien ist, dass sie ein

Netzwerk verteilter Publikationsumgebungen schaffen, die miteinander interagieren

können. Dieses Prinzip der Interoperabilität wird durch diese DINI-Vorgabe in mini-

malem Umfang verpflichtend gemacht. OPUS erfüllt beide Anforderungen, da die

Metadaten nach Dublin Core Simple über die OAI2-Schnittstelle frei abrufbar sind.

− 2.6 Erschließung

2.6.3 Schnittstellen

− „Webserverschnittstelle für Nutzer ist vorhanden.

− OAI-PMH 2.0 entsprechend den DINI-OAI-Empfehlungen wird unterstützt“.

Endnutzerschnittstelle: Die Endnutzerschnittstelle des Repositoriums bezeichnet den

Teil des Systems, über den der Nutzer Zugriff auf die publizierten Dokumente erhält

und ist ein Basisdienst (Repository Access Protocol), der im KWF modelliert wurde.

Eine derartige Webschnittstelle stellt z.B. die Metadatensuche von OPUS dar, ein

einfaches PHP-Formular, das das MySQL-DBMS (Metadatenverwaltung) abfragt und

eine Ergebnisliste zurückliefert. Zur Bereitstellung des DIPs wird der Nutzer zunächst

auf eine Einstiegsseite (engl.: front door, splash page) geführt, über die das Doku-

ment verlinkt ist und über eine HTTP GET-Anfrage auf den eigenen Rechner transfe-

riert werden kann.

OAI-Schnittstelle der Version 2.0: Die OAI-Schnittstelle erlaubt die Ausgabe maschi-

nenprozessierbarer Metadatensätze. Das Architekturprinzip basiert auf REST (Repre-

sentational State Transfer Architecture). REST ist ein Architekturstil für die Implemen-

tierung eines zustandslosen Webservices, der in der Dissertation von Roy Thomas

Fielding beschrieben wurde und der lediglich mit bereits lange verfügbaren Internet-

Technologien umgesetzt wird.203 Für REST wird ein standardisiertes Transportproto-

koll, meistens HTTP mit einer standardisierten Menge definierter Operationen (GET,

PUT, DELETE, POST) verwendet. Diese Operationen werden in einem URL kodiert

übertragen, ähnlich wie die Anforderung einer Website. Die Information, die als Er-

gebnis ausgegeben wird, ist jedoch nicht eine für den Menschen aufbereitete Dar-

stellung von Text und Graphik, sondern ein maschinenprozessierbares Format, meis-

203 siehe Fielding 2000.

Page 100: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

86

tens XML. Das OAI-PMH definiert derartige Operationen, Ein Anfrage-URL kann z.B.

so aussehen:

http://opus.kobv.de/ubp/oai2/oai2.php?verb=GetRecord&metadataPrefix=xMetaDiss&identifier=oai:

kobv.de-opus-ubp:1319

Die hier kodierte Operation lautet GetRecord. Die restlichen Werte werden als Para-

meter für die Filterung eines bestimmten Datensatzes und zur Bestimmung des ge-

wünschten Ausgabeformates der Anfrage mitgegeben.

Die Protokollversion 2.0 ist auf den 14.06.2002 datiert und die Spezifikation über die

Website der OAI verfügbar.204 Die DINI-Empfehlungen über die inhaltliche Ausgestal-

tung des Protokolls betreffen z.B. die Definition von Sets, die eine Filterung des Be-

stands eines Repositoriums nach bestimmten Kriterien ermöglichen, z.B. die themati-

sche Klassifikation unter Verwendung der Dewey Decimal Classification (DDC).205

Generierung von dynamischen Sets:

Das OAI-Protokoll sieht noch keinen rechercheartigen Zugriff vor. Ein Serviceprovider

ist limitiert auf die durch den Datenprovider definierten Daten-Untermengen (sets).

Damit gehen Schwierigkeiten einher, wie sie in Beispiel 6 beschrieben wurden. Um

derartige Probleme zu lösen, hat die University of Wisconsin-Madison das Protokoll

OAI-PMH-konform um die simple DC-basierte Abfragesprache OAI-SQ erweitert, so

dass einfache Recherchen über den set-Parameter möglich sind. Eine Anfrage er-

zeugt ein dynamisches Set, z.B.206

http://scout.wisc.edu/Archives/SPT--OAI.php?verb=ListIdentifiers&metadataPrefix=oai_dc&set=OAI-

SQ-F!description!filters!creator!smith [nicht funktionsfähig]

Übertragung von Objekten via OAI-PMH:

Im Rahmen des niederländischen OA-X-Projekts wurde eine Erweiterung des OAI-

PMH entwickelt, die neben dem Transfer der Metadaten eines elektronischen Doku-

mentes die Anforderung und die aktive Übersendung des Objektes selbst erlaubt.207

Dazu wurde das Protokoll um die Operationen GetObject und PutObject erweitert.

OA-X wird unter anderem zur automatisierten Distribution von Zeitschriftenartikeln

von BioMed Central verwendet. Die Dokumente liegen in einem XML-basierten Da-

teiformat vor.

Beispiel:

http://www.biomedcentral.com/oai/2.0/?verb=GetRecord&metadataPrefix=bmc_references&identifi

er=oai:biomedcentral.com:1471-2121-2-1 (Zitationen)

204 http://www.openarchives.org/OAI/openarchivesprotocol.html [22.07.2008]. 205 siehe Deutsche Initiative für Netzwerkinformation e.V. (DINI) - Arbeitsgruppe „Elektronisches Pub-lizieren“ 2006. 206 siehe http://scout.wisc.edu/Projects/OAISQ/ [23.07.2008]. 207 siehe http://www.i-tor.org/oa_x/ [25.07.2008].

Page 101: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

87

http://www.biomedcentral.com/oai/2.0/?verb=GetRecord&metadataPrefix=bmc_article&identifier=o

ai:biomedcentral.com:1471-2121-2-1 (Artikel ohne Bilder)

Ein nicht gelöstes Manko bei dem BioMed-Beispiel ist die unvollständige Über-

tragung bzw. Referenzierung der Bilder des Artikels, z.B.

<fig id="F3">

<title>

<p>Figure 3</p>

</title>

<caption>

<p>Resveratrol treatment causes a dose-dependent increase in

BPAEC elongation.</p>

</caption>

<text>

<p>Resveratrol [...] condition.</p>

</text>

<graphic file="1471-2121-2-1-3"/>

</fig>

Die Zeile <graphic file="1471-2121-2-1-3"/> verweist auf die Bilddatei an dieser Stel-

le, ohne days für den Serviceprovider erkennbar ist, wo die Datei zu finden ist.

Eine weitere Möglichkeit Objekte direkt über ein via OAI-PMH verteiltes Ausgabe-

format zu übertragen, ist die Verwendung eines der Containerformate DIDL oder

METS und der Einbettung als base64-Datenstrom (siehe das Beispiel im Anhang

D.II).208

OAI-Implementierung in OPUS:

OPUS erfüllt die Anforderungen der Standardspezifikation von OAI-PMH-2.0 und

der DINI-Empfehlungen.

Empfehlungen:

− 2.5 Sicherheit, Authentizität und Integrität

2.5.2 Dokumente

− „Darstellung der Dokumente in einem gängigen Präsentationsformat. Wenn

dies nicht möglich ist, sollte entweder eine Visualisierungs-Software zum Her-

unterladen oder eine Internet-Referenz angeboten werden“.

Dieser Punkt betrifft den Zugang des Endnutzers zur Information. Derzeit werden auf

digitalen Repositorien hauptsächlich Dokumente in PDF publiziert, für das eine Les-

barkeit auf allen Systemen garantiert werden kann, wenn die Erfüllung bestimmter

technischer Anforderungen beachtet wird, z.B. die Einbettung aller Schriften in das

Dokument.

208 vgl. Bekaert et al. 2003.

Page 102: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

88

− 2.6 Erschließung

2.6.2 Metadatenexport

− „Metadaten sind nach Dublin Core Qualified strukturiert.

− Metadaten sind nach ONIX strukturiert.

− Technische und/oder Archivierungsmetadaten – einschließlich ggf. Print-on-

Demand-Daten – werden angeboten (z. B. PREMIS, LMER)“.

Diese Kriterien bilden den kleinsten, gemeinsamen Nenner, der den Mindeststandard

durch die geforderte Unterstützung von Dublin Core Simple darstellt.

Dublin Core Qualified: Die Vorgabe Metadaten in Dublin Core Qualified zu expor-

tieren verwundert ein wenig, weil Dublin Core Qualified selbst kein Format ist. Dub-

lin Core Qualified meint die Spezifikation DCMI Metadata Terms209 und stellt lediglich

eine ergänzende bzw. erweiterte Begriffsmenge (engl.: set of terms) von Eigenschaf-

ten zur Beschreibung von Ressourcen zur Verfügung. Es ist eine Erweiterung des

standardisierten Formates DC simple,210 allerdings ohne ein XML-Schema zur Validie-

rung der Daten zu besitzen.211 Es gibt lediglich einen übergeordneten Container ohne

Zielnamensraum (engl.: target namespace), der verwendet werden kann, um ihn ei-

nem dcqualified-Element innerhalb des Namensraums eines Anwendungsprofils zu-

zuweisen.212 Dublin Core Qualified benötigt demnach immer ein Anwendungsformat,

das die Begriffsmenge oder eine Untermenge integriert. Dies ist z.B. in den Formaten

XMetaDiss und XMetaDissPlus erfolgt, die von OPUS über die OAI-Schnittstelle an-

geboten werden.

Ein weiteres Metadatenformat ist das EPrints Application Profile (EPrints Dublin Core

ML, EPDCX), welches DCMI Metadata Terms verwendet und sich auf das FRBR-

Modell stützt.213 Das Format ermöglicht eine wissenschaftliche Publikation als Prozess

abzubilden (siehe Abbildung 17). Das Format wird bereits in einem experimentellen

Stadium vom edoc-Server der HU zu Berlin unterstützt (siehe Beispieldatensatz im

Anhang D. V).

ONIX-Metadaten: ONIX (Online Information eXchange) ist ein Austauschformat von

bibliografischen und Produkt-Daten im Buchhandel, das die gesamte Verwertungs-

kette abdeckt und wird von der internationalen Gruppe (EDItEUR) herausgegeben.214

Die DNB hat ein Kernset der Metadaten definiert, die für die Ablieferung von Netz-

publikationen im ONIX-Format erforderlich sind.215 Ein digitales Repositorium sollte

209 siehe http://dublincore.org/documents/dcmi-terms/ [23.07.2008] 210 vgl. ISO 15836:2003. 211 vgl. Foulonneau et al. 2007, S. 21. 212 http://dublincore.org/schemas/xmls/qdc/2006/01/06/qualifieddc.xsd [23.07.2008]. 213 siehe http://www.ukoln.ac.uk/repositories/digirep/index/Eprints_DC_XML [23.07.2008] und Allin-son et al. 2007. 214 http://www.editeur.org/ [22.07.2008]. 215 vgl. Deutsche Nationalbibliothek (DNB) 2008.

Page 103: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

89

dieses Kernset unterstützen, wenn es selbst ONIX zur Dokumentlieferung an die

DNB nutzt oder Daten in Systeme des Buchhandels, wie das Verzeichnis Lieferbarer

Bücher (VLB) oder das zentralverzeichnis elektronischer publikationen (zevep)216 ein-

speisen möchte.

Abbildung 17: Datenmodell des FRBR-orientierten EPrints Application Profiles

Print-on-Demand-Metadaten: Gemeint sind Metadaten, die die Bestellung von ge-

druckten Exemplaren der elektronisch veröffentlichten Dokumente bei einem Print-

on-Demand-Dienstleister durch den Nutzer unterstützen. OPUS liefert standardmä-

ßig Metadaten in einem Format (oai_pp) aus, das eine Kooperation mit dem Print-

on-Demand-Dienstleister ProPrint gestattet.217

Langzeitarchivierungsmetadaten: Die hier beispielhaft angeführten Formate PREMIS

und LMER (Langzeitarchivierungsmetadaten für elektronische Ressourcen) sind Da-

tenmodelle, die Elemente und validierbare Schemata zur Beschreibung struktureller,

technischer und administrativer Metadaten definieren. Beide Formate werden jedoch

ähnlich wie Dublin Core Qualified nicht isoliert betrachtet, sondern üblicherweise in

ein Containerformat, wie METS oder DIDL integriert, das zusätzlich noch beschrei-

bende Metadaten enthält, z.B. DC, MODS, MARCXML oder ONIX. Diese Anforde-

rung kann in der vorliegenden Form nicht umgesetzt werden, sondern bedarf der

Konkretisierung durch standardisierte Anwendungsprofile, die die Interoperabilität

des Services sichert. Als Beispiel seien hier UOF (Universelles Objektobformat) ge-

nannt, das METS und LMER implementiert und innerhalb des deutschen Projektes

216 http://www.zevep.com/ [23.07.2008]. 217 http://www.proprint-service.de/ [23.07.2008].

Page 104: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

90

kopal verwendet wird, sowie das Application Profile ECHO Dep METS, in das METS

und PREMIS integriert wurden. Bei ECHO Dep handelt es sich um ein Projekt im

Rahmen des US-amerikanischen National Digital Information Infrastructure Preserva-

tion Program (NDIIPP) unter Mitwirkung der Library of Congress (LoC), OCLC und

der University of Illinois at Urbana-Champaign. OPUS wird mit der Integration von

koLibRI ab der Version 4.0 die Möglichkeit bieten Langzeitarchivierungsmetadaten in

UOF über die OAI-Schnittstelle bereitzustellen.

− 2.6 Erschließung

2.6.3 Schnittstellen

− „Eine Nutzung des OAI-Protokolls zum Austausch komplexer Metadatensche-

mata wird unterstützt.

− Webserviceschnittstelle (z. B. SOAP) ist vorhanden.

− Z39.50- und / oder SRU-Schnittstellen sind vorhanden“.

OAI-Schnittstelle: Über die OAI-Schnittstelle ist die Ausgabe verschiedener Metada-

tenformate möglich. Das Ausgabeformat wird mit dem Parameter metadataPrefix

bestimmt und ist für jede GetRecord oder ListRecords Operation zwingend vorge-

schrieben. OPUS unterstützt die Ausgabe von XMetaDiss für Dissertationen und Ha-

bilitationen und XMetaDissPlus für eine erweiterte Menge an Dokumentarten. Diese

Formate können als komplexe Metadatenformate angesehen werden, da die Integra-

tion von Dublin Core Qualified-Elementen die Abbildung komplexer, struktureller

Beziehungen erlaubt (für ein Vollbeispiel für die Möglichkeiten des Formates, siehe

Anhang D. IV). Allerdings erhöht sich die Interoperabilität durch die Verwendung

von XMetaDiss nur für den deutschen Bereich. XMetaDiss wird in keinem anderen

europäischen Land unterstützt. Anderseits werden andere Formate, wie dare_didl,

das innerhalb des niederländischen Dare Academic Repository (DARE)-Projektes für

den Datentausch verwendet wird, auch nur lokal unterstützt (siehe Anhang D. III).

Abhilfe ist durch die Einführung des Austauschformates DIDL im Rahmen des euro-

päischen Verbundprojektes DRIVER in Sicht, das eine breitere internationale Unter-

stützung erwarten lässt.

Webserviceschnittstelle: Eine Webserviceschnittstelle ist definitionsgemäß der Teil

eines Systems, der der Kommunikation, also dem Austausch von Nachrichten über

ein Protokoll dient. Mögliche Architekturformen bzw. Nachrichtenformate sind REST

(siehe oben, Bereitstellung, Mindeststandards, Punkt 2.6.3 (OAI-Schnittstelle der

Version 2.0) oder SOAP. Neben der OAI-Schnittstelle kommt als REST-basiertes In-

terface das IETF-standardisierte Atom Publishing Protocol (APP) in Betracht, die als

Atom-Programmierschnittstelle das ebenfalls IETF-standardisierte Atom Syndication

Formats (ASF) ergänzt.218 APP ermöglicht unter anderem die Aktualisierung und die

218 vgl. RFC 5023 2007; RFC 4287 2005.

Page 105: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

91

aktive Lieferung von Daten. Atom könnte somit als Schnittstelle für den Datenaus-

tausch zwischen digitalem Repositorium und Langzeitarchiv dienen.

Eine sich von REST unterscheidende Methode sind SOAP-basierte Webservices.

SOAP ist ein Nachrichtenformat, bei dem von einem Client ein XML-Dokument in

einem vereinbarten Format an einen Server gesendet wird. Der Server enthält einen

Router, der die XML-Datenstruktur interpretiert und die aufzurufende Operation am

Server identifiziert. Die restlichen XML-Daten werden in Parameter für die Operation

gewandelt und dem Operationsaufruf mitgegeben. SOAP-Aufrufe können im Remo-

te Procedure Call (RPC)-Stil oder im neueren Dokument-Stil realisiert werden. Der

Zweck von SOAP ist demzufolge der gleiche wie der von REST-gestützten Webservi-

ces. Bevor ein SOAP-basierter Webservice realisiert werden soll, muss es jedoch einen

Standard geben, der implementierungsfähig ist und von vielen Nutzern unterstützt

wird. SOAP-basierte Webservices werden momentan von DSpace und Fedora einge-

setzt, z.B beim digitalen Repositorium des Alfred-Wegener-Instituts für Polar- und

Meeresforschung ePIC (electronic Publication Information Centre).219

Dieses verfügt u.a. über eine SOAP-API, die unter

http://rep.awi.de:8080/fedora/wsdl?api=API-A [25.07.2008]

erreichbar ist.

Z3950- bzw. SRU-Schnittstelle: Z39.50 ist ein ISO-standardisiertes Netzwerkproto-

koll, das im Bibliothekswesen zur Abfrage von bibliographischen Informationssyste-

men verwendet wird.220 Das SRU/SRW-Protokoll (Search/Retrieve via URL bzw.

Search/Retrieve Web Service Protocol) wurde im Rahmen der Initiative Z39.50 Inter-

national Next Generation (ZING) als Nachfolger von Z39.50 entwickelt und ist zur

Umsetzung in einigen Repositoriumsoftwaresystemen vorgesehen, z.B. DSpace und

Fedora.221,222 SRU ist REST-basiert, SRW nutzt den REST- oder den SOAP-Ansatz für

Webservices und wird sich voraussichtlich als Standardschnittstelle für die Recherche

bzw. als Recherche-API (Programmierschnittstelle, engl.: application programming

interface) in verteilten Publikationssystemen durchsetzen. SRU/SRW nutzen als Ret-

rievalsprache CQL (Contextual Query Language).223 CQL ist eine mächtige Abfrage-

sprache, die komplexe Operationen und kontextbezogene Operatoren und Eigen-

schaften unterstützt. Dies lässt die Definition unterschiedlicher Abfragesets in spezifi-

schen Anwendungsumgebungen zu, so hat z.B. die University of Michigan eine SRU-

219 http://www.awi.de/de/infrastruktur/rechenzentrum/informationssysteme/ publication_repository_epic/ [25.07.2008]. 220 siehe ISO 23950:1998. 221 vgl. Foulonneau et al. 2007, S. 56. 222 Die offizielle Webpräsenz der ZING-Initiative bei der LoC unter http://www.loc.gov/standards/sru/ [25.07.2008]. 223 siehe http://www.loc.gov/standards/sru/specs/cql.html [25.07.2008].

Page 106: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

92

Schnittstelle implementiert, die ein Dublin Core Context Set verwendet.224 SRU kann

in der Variante SRU Record update genau wie APP als Protokoll für den aktiven

Transfer von Daten verwendet werden, z.B. das Senden von Informationspaketen

des Langzeitarchivs an das assoziierte Repositorium zur weiteren Bearbeitung.225

Eine Implementierung in OPUS ist zum jetzigen Zeitpunkt noch nicht vorgesehen.

− 2.8 Langzeitverfügbarkeit

− „Unterstützung des Imports und Exports von Objektpaketen, die neben den ei-

gentlichen Dokumenten auch Metadaten (bibliografische und technische Daten

zur Langzeitarchivierung) enthalten (z. B. im Universellen Objektformat)“.

Siehe dazu die Ausführungen unter Punkt Metadatenexport 2.6.2.

Weitere Erläuterungen, Beispiele und Hinweise zur Umsetzung der Kriterien sind im

Kapitel 4 des DINI-Kriterienkatalogs zu finden.226

3.5.1.2 Schlussfolgerungen aus der OAIS-geprägten Perspektive der DINI-

Kriterien

Die Auflistung der DINI-Kritierien für Publikationsservices anhand der Maßstäbe des

OAIS-Referenzmodells zeigt, dass die meisten und wesentlichen DINI-

Anforderungen an ein digitales Repositorium nach dem Verständnis des Bearbeiters

funktional dem Ingestbereich eines OAIS zuzuordnen sind. Die OAIS-Perspektive

verdeutlicht, wie entscheidend die Aufnahme der Datenobjekte und Metadaten für

deren weitere Nutzbarkeit und Archivierungsfähigkeit ist. Deshalb werden die nächs-

ten Versionen des DINI-Zertifikats vor allem konkretere Vorgaben hinsichtlich der

Beschaffenheit der Datenobjekte und der zu erhebenden Metadaten vorsehen müs-

sen. In der Anwendergemeinschaft muss es eine Diskussion geben, welche Metada-

ten aus den bestehenden, standardisierten Vokabularen (PREMIS) von allen Reposi-

torien unterstützt werden müssen, um zertifizierungsfähig zu sein, z.B. welche Bezie-

hungen und administrativen Vorgänge abgebildet werden müssen. Wie diese zusätz-

lichen Informationen tatsächlich zu verwalten sind ist nicht entscheidend und kann

von jedem Betreiber selbst entschieden werden. Die einzige Voraussetzung ist, dass

die Pflege des Datenbestandes lege artis, also in einer den technischen Anforderun-

gen entsprechenden und die Daten und deren referentielle Integrität sichernden Art

und Weise zu erfolgen hat. Damit ist den Erfordernissen der Metadatenverwaltung

genüge getan, ohne dass es im DINI-Kriterienkatalog weiterer Vorgaben dazu be-

darf.

224 siehe http://www.hti.umich.edu/cgi/s/sru/sru [25.07.2008]. 225 siehe http://www.loc.gov/standards/sru/record-update/ [25.07.2008]. 226 DINI-Zertifikat 2007, S. 20ff.

Page 107: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

93

Die Erhebung und Verwaltung der Daten entscheidet jedoch, welche strukturell hö-

herwertigeren und mit administrativen Informationen angereicherten Metadatenfor-

mate an Serviceprovider, z.B. via OAI-Schnittstelle im Funktionsmodul Bereitstellung

ausgeliefert werden können. Es wäre nach Ansicht des Verfassers verfehlt, Personal-

und Sachmittelressourcen jetzt für die Implementierung einer Lösung zur Ausgabe

von hochwertigen Metadatenformaten für die digitale Langzeitarchivierung, wie

UOF oder Echo Dep METS, zu binden, wenn diese komplexen Formate nur als

Rumpf angeboten werden könnten, weil die Datenbasis fehlt, um die Möglichkeiten

der Formate im Hinblick auf den Transport von für Langzeiterhaltungszwecke drin-

gend benötigten Zusatzinformationen auszunutzen. Diesen Weg haben die EPrints-

und DSpace-Communities gewählt, als lediglich eine Minimallösung für die Ausgabe

von METS und DIDL implementiert wurde und haben damit das Pferd gleichsam von

hinten aufgezäumt, da ein Transportmittel bereit gestellt wird, ohne dass es geeigne-

tes Transportgut dafür gibt.

Zum Abschluss dieses Teils sei festgestellt, dass die Publikationssoftware OPUS

grundsätzlich die technischen Anforderungen des derzeitigen DINI-Zertifikats erfüllt,

da 12 der 24 zertifizierten digitalen Repositorien OPUS im Regelbetrieb einsetzen.

3.5.2 Kriterien für vertrauenswürdige digitale Archive

“A trusted digital repository is one whose mission is to provide reliable, long-term -

access to managed digital resources to its designated community, now and in the -

future.”

(Research Libraries Group, OCLC Online Computer Library Center, Inc. 09.05.2002

– Trusted digital repositories, S. 5)

Der DINI-Kriterienkatalog richtet sich an die Anbieter eines Dokumenten- und Publi-

kationsservice und enthält über die Sicherung von Langzeitverfügbarkeit und Ver-

trauenswürdigkeit hinausgehende zusätzliche Kriterien bezüglich der Sichtbarkeit und

Güte der Dienstleistung. Daneben gibt es weitere internationale und nationale Leit-

fäden, die sich vor allem an Langzeitarchive richten und die den objektiv schwierig

fassbaren Begriff Vertrauenswürdigkeit (engl.: trust) in objektiv messbare bzw. an-

hand von Indikatoren bewertungsfähigen Kriterien zu übersetzen versuchen. Diese

werden als konkrete Handlungsanweisungen normativen Charakters ausgestaltet.

Die Verifizierbarkeit der Kriterien beruhen auf der Annahme von Prinzipien, denen

ein vertrauenswürdiges Archiv verpflichtet sein muss, wie der Dokumentation der

Archivkonzeption und -spezifikation, Transparenz des archivarischen Handelns oder

das Prinzip der angemessenen Bewertung der Anforderungen durch das Archiv. Die

Anwendung der Kriterien wird dann in einem Qualitätssicherungsverfahren (Audit)

unter Verwendung von Checklisten in Form von Fragebögen und persönlichen Ge-

sprächen anhand eines definierten Gesprächsleitfadens geprüft. Die Einhaltung eines

Page 108: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

94

Kriteriums ist häufig nicht unbedingt messbar, was die Zertifizierung erschwert und

hohe Anforderungen an Urteilskraft der Gutachter stellt. Die Bewertung muss dabei

jederzeit objektiv nachprüfbar sein.227 Dies ist unproblematisch, wenn sich die Erfül-

lung des Kriteriums auf Standards zurückführen lässt, deren Erfüllung bereits in ei-

nem anderen Zertifizierungsverfahren festgestellt wurde. Die Leitfäden können auch

von digitalen Repositorien zur Selbstkontrolle genutzt werden.

Diese Kataloge sollen hier jedoch nicht dezidiert erläutert werden, zum einen, weil

viele wesentliche Kriterien bereits bei den Ausführungen zu den DINI-Anforderungen

im vorigen Teil eingehend besprochen wurden, zum anderen, weil die Prüfung eines

Kriterienkataloges immer anhand des organisatorischen Umfelds einer konkreten Ein-

richtung stattfinden sollte. Dies ist jedoch gerade nicht die Intention dieser Arbeit, die

vielmehr darauf gerichtet ist, ein konzeptionelles Gesamtbild über die Archivierungs-

prozesse und -funktionen aufzuspannen, in dessen Rahmen sich die Aufgaben- und

Verantwortungsstruktur der beteiligten organisatorischen Einheiten herausschält, um

daraus ein höheres Verständnis für die tatsächlichen Erfordernisse abzuleiten. Als In-

strument wurde deshalb bewusst das hierarchisch den Kriterienkatalogen übergeord-

nete und abstraktere OAIS-Modell gewählt, das für diesen Erklärungsansatz geeigne-

ter ist.

Die wichtigsten Kataloge sollen an dieser Stelle aufgezählt werden:

− Core Requirements for Digital Archives (CRL): sind eine Deklaration von 10 Kern-

kriterien, die ein vertrauenswürdiges Archiv erfüllen soll. Diese Kriterien wurden im

August 2007 von vier Organisationen, die die digitale Langzeitarchivierung in un-

terschiedlichen Umgebungen fördern (The Digital Curation Center (U.K), Digital

Preservation Europe, NESTOR (Germany), Center for Research Libraries (North

America)), ausgearbeitet. Das Dokument ist im Internet verfügbar.228

− Trustworthy Repositories Audit & Certification (TRAC): Criteria and Checklist: ist

ein US-amerikanischer Kriterienkatalog für vertrauenswürdige Archive und gleich-

zeitig die Grundlage für die Zertifizierung digitaler Langzeitarchive, der in der Ver-

sion 1.0 im Februar 2007 vom CRL (Center for Research Libraries) und OCLC he-

rausgegeben wurde.229 Der Katalog basiert auf den Vorarbeiten des Projektvor-

gängers The Audit Checklist for the Certification of Trusted Digital Repositories

der RLG-NARA (Research Library Group - National Archives and Records Admini-

stration) Repository Certification Task Force.230

227 vgl. Dobratz et al. 2008, Folie 10ff. 228 http://www.crl.edu/content.asp?l1=13&l2=58&l3=162&l4=92 [28.07.2008]; Eine deutsche Über-setzung in einem Vortrag von Dobratz et al. 2008, Folien 7-9. 229 http://www.crl.edu/content.asp?l1=13&l2=58&l3=162&l4=91 [28.07.2008]; {CRL : center for research libraries 08.03.2007 #39} [PDF-Version]. 230 http://www.oclc.org/programs/ourwork/past/repositorycert.htm [28.07.2008].

Page 109: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

95

− nestor Kriterienkatalog vertrauenswürdige digitale Langzeitarchive: ist ein Krite-

rienkatalog, der von der nestor Arbeitsgruppe Vertrauenswürdige Archive-

Zertifizierung des deutschen Kompetenznetzwerks Langzeitarchivierung entwickelt

wurde und derzeit in der Version 1 als Entwurf zur öffentlichen Kommentierung

vorliegt, die im Juni 2006 veröffentlicht wurde.231 Der Katalog bildet die Grundlage

für Audits ausgewählter, digitaler Langzeitarchive in der Bundesrepublik. Die ers-

ten Ergebnisse werden für Mai/Juni 2009 erwartet.232

3.6 Kooperation mit digitalen Langzeitarchiven

Die Einrichtung und der Betrieb digitaler Langzeitarchive ist informationstechnologi-

sches und organisatorisches Neuland. In der Bundesrepublik befinden sich soweit

ersichtlich derzeit zwei OAIS-konform konzipierte, digitale Langzeitsysteme im Rou-

tinebetrieb, das aus dem Projekt Kooperativer Aufbau eines Langzeitarchivs digitaler

Informationen (kopal) hervorgegangene, gleichnamige System und das Bibliothekari-

sche Archivierungs- und Bereitstellungssystem (BABS) der Bayerischen Staatsbiblio-

thek.

3.6.1 Überblick über Softwaresysteme für die Langzeitarchivierung

Ein digitales Langzeitarchiv lässt sich technisch an eine Vielzahl verfügbarer Archiv-

verwaltungssysteme binden, die teilweise mit den Softwarelösungen für digitale Re-

positorien übereinstimmen. Es kann im Hinblick auf die Interoperabilität sogar von

Vorteil sein, wenn der Content Provider und der Preservation Service Provider diesel-

be Software einsetzen. BABS nutzt z.B. für wesentliche Teile seines OAIS die Soft-

ware DigiTool von ExLibris. Fraglich ist nur, ob die Systeme diesen Aufgaben auch

gewachsen sind. Eine vergleichende Evaluation zur Geeignetheit von DIAS, DSpace,

DigiTool, EPrints, Fedora und MyCoRe bieten anhand eines selbst erstellten Anforde-

rungskataloges Borghoff et. al.233 Einen zusammenfassenden Überblick über die

Langzeitarchivierungsstrategien und die eingesetzten bzw. in Entwicklung befindli-

chen Systeme von 15 Nationalbibliotheken ist in einem Report erschienen.234

Erwähnt werden soll in diesem Zusammenhang ein Projekt des Florida Center for

Library Automation (FCLA), das für den Betrieb des digitalen Langzeitarchivs Florida

Digital Archive (FDA) die Software Dark Archive In The Sunshine State (DAITSS)

entwickelt hat. Die Open-Source-Software wird unter einer GNU GPL distributiert.

Das System setzt auf Linux, MySQL und JAVA auf und unterstützt als Storage Ba-

ckend den IBM Tivoli Storage Manager Backup oder die Speicherung in einem File-

231 nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006. 232 vgl. Dobratz et al. 2008, Folie 17. 233 siehe Borghoff 2005; in englischer Sprache und nur für die Systeme DIAS, DigiTool und DSpace auch in Borghoff et al. 2006, S. 221ff. 234 siehe Verheul 2006.

Page 110: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

96

system.235 Das System unterstützt die SIPs und DIPs in einem DAITSS-eigenen Meta-

datenformat, das METS und PREMIS nutzt.

3.6.2 kopal

Das Langzeitarchivierungssystem kopal ist aus einem vom Bundesministerium für

Bildung und Forschung (BMBF) geförderten Projekt (2004-2007) entstanden, das

von der Deutschen Nationalbibliothek in Kooperation mit der Niedersächsischen

Staats- und Universitätsbibliothek (SUB) Göttingen, der Gesellschaft für wissenschaft-

liche Datenverarbeitung mbH Göttingen (GWDG) und IBM Deutschland getragen

wurde. Das System basiert im Kern auf dem proprietären Digital Information Archi-

ving System (DIAS), das von IBM für die Koninklijke Bibliotheek, die niederländische

Nationalbibliothek, entwickelt wurde.236 DIAS basiert auf IBM-Standard-

softwarekomponenten (TSM, DB2, Content Manager, Web Sphere), wobei die

Komponenten OAIS-konform aufeinander abgestimmt wurden. Zusätzlich werden

im Rahmen von kopal entwickelte, zusätzliche Module, insbesondere der kopal Lib-

rary for Retrieval and Ingest (koLibRI) eingesetzt. Kopal ist mandantenfähig, d.h. das

System verfügt über eine Schnittstelle, über die autorisierte Vertragspartner (Man-

danten) Zugriff auf das Archivsystem erhalten können.

Dabei sind prinzipiell drei unterschiedliche Nutzungsmodelle möglich:

− kopal-Teilnehmer: Eine Institution lässt ihre Daten „kommissarisch“ durch einen

kopal-Mandanten archivieren.

− kopal-Mandant: Eine Institution verwaltet selbständig einen eigenen Bereich

(Schließfach) des kopal- Archivsystems, der Serverbetrieb selbst bleibt ausgelagert.

− kopal-Eigenbetrieb: Eine Institution betreibt unter Rückgriff auf Erfahrungen des

kopal-Projekts ein eigenes vollständiges Archivsystem.237

Derzeit wird ein kopal-System an der GWDG betrieben. Kopal ging im August 2006

in den Produktivbetrieb, währenddessen umfangreiche digitale Datenbestände der

DNB, u.a. die elektronischen Dissertationen aus den institutionellen Repositorien, und

der SUB Göttingen testweise in das System eingebracht wurden. Seit Juni 2007 ging

das System mit diesen beiden Mandanten in den Regelbetrieb über und soll aufbau-

end auf deren Erfahrungen stufenweise für die kooperative Nachnutzung geöffnet

werden, insbesondere für Institutionen, die für eine Langzeitarchivierung digitaler

Daten verantwortlich sind wie Bibliotheken, Archive und Museen sowie Universitäten

und Forschungseinrichtungen. Die teilnehmende Institution kann koLibRI selbst

betreiben und erwirbt bei Bedarf weitere Servicekomponenten von den kopal-

235 siehe http://daitss.fcla.edu/ [22.07.2008]. 236 siehe http://www-05.ibm.com/nl/dias/ [22.07.2007]. 237 vgl. http://kopal.langzeitarchivierung.de/downloads/kopal_Services_2007.pdf [22.07.2008], S. 2.

Page 111: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

97

Partnern. In diesem Fall implementiert sie die Open-Source-Software koLibRI in ihr

System und passt die Workflows entsprechend den Anforderungen von kopal an

(siehe Abbildung 18). Dieses Vorgehen wird mit der Entwicklung des Zusatzmoduls

für die Langzeitarchivierung in OPUS 4 für die OPUS-Anwendergemeinde ange-

strebt und entspricht den im Szenario 3 entworfenen kooperativen Modell.

Abbildung 18: kopal Workflow

koLibRI

KoLibRI ist eine JAVA-Klassenbibliothek und stellt ein Framework zur Integration ei-

nes Langzeitarchivs in die Infrastruktur einer Institution dar.238 Die Software wurde als

Komponente zur Anbindung an DIAS geschaffen, kann aber grundsätzlich frei von

jedem Anwender modifiziert und auch für die Nutzung in anderen Anwendungssze-

narien vorgesehen werden. koLibRI ist somit zunächst ergebnisoffen und mit einem

gewissen Anpassungsaufwand unabhängig von DIAS und kopal einsetzbar. Die Auf-

gabe von koLibRI in einem OAIS-konform organisierten, digitalen Repositorium ist

vorrangig die Erstellung und Einspeisung von Informationspaketen (DIP) in ein Lang-

zeitarchivierungssystem (dort als SIP verarbeitet) sowie die Verwaltung von extrahier-

ten Langzeitarchivierungsmetadaten und das Abrufen von Informationspaketen aus

dem Langzeitarchiv.

Die Erzeugung des DIPs durch das Repositorium erfolgt dabei vollautomatisch, so-

bald ein neues Datenobjekt in einen bestimmten Arbeitsordner (hot folder) kopiert

238 siehe die Dokumentation von koLibRI: Funk et al. 2007.

Page 112: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

98

wird, den koLibRI kontinuierlich auf den Eingang neuer Daten zur Verarbeitung

überwacht. Es werden von der Software frei konfigurierbare Arbeitsabläufe wie in

einer Pipeline sukzessive abgearbeitet, z.B. beschreibende und administrative Meta-

daten aus der Metadatenverwaltung des Repositoriums abgefragt und aggregiert

und die digitalen Objekte validiert sowie technische Metadaten extrahiert. Dazu wird

in der Basisversion von koLibRI ausschließlich JHOVE genutzt. Sind alle Metadaten

eingesammelt bzw. ausgelesen worden, generiert das Programm Metadaten im Uni-

versellen Objektformat (UOF) und erzeugt einen zip-Container, der die digitalen Ob-

jekte eines elektronischen Dokumentes (Datenobjekte) sowie ein METS-Dokument in

UOF (die Representation Information und PDI) enthält.239 UOF nutzt METS als Con-

tainerformat und integriert die Langzeitarchivierungsmetadaten in LMER (Langzeitar-

chivierungsmetadaten für elektronische Ressourcen), das von der DNB als Austausch-

format in kooperativen Archivierungsumgebungen konzipiert wurde.240 Hinter LMER

steht kein allgemeines Datenmodell für Langzeitarchivierungsmetadaten wie in

PREMIS, sondern LMER ist ausschließlich für diesen Austauschzweck konzipiert wor-

den und orientiert sich an dem Metadatenschema der NLNZ.241 Metadaten im LMER-

Format können im Wege einer Konkordanz auf das Datenmodell von PREMIS ge-

mappt werden (siehe Abbildung 19).

Abbildung 19: Konkordanz LMER-PREMIS (schematische Darstellung)

Darüber hinaus werden die UOF-Metadaten in ein Datenbankformat konvertiert und

in einer koLibRI-Datenbank (standardmäßig MySQL, einen anderes DBMS kann

verwendet werden) strukturiert abgespeichert (siehe das Datenmodell im Anhang

239 siehe zur Beschreibung von UOF die Spezifikation Steinke 2006. 240 Steinke 2005. 241 National Library of New Zealand (NLNZ) 2003.

Page 113: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

99

B. II). Die Erhebung und Speicherung dieser Daten erfüllt ein wichtiges Kriterium des

OAIS-Referenzmodells und ermöglicht die Unterstützung komplexer Metadatenfor-

mate für den Austausch über die OAI-Schnittstelle jenseits von UOF. Es ist jedoch

auch ein Eingriff in die Beschaffenheit des Informationspaketes selbst durch die Um-

konfiguration des JAVA-Moduls möglich, das verantwortlich für die Erzeugung des

Metadatenformates ist. Damit werden auch Kooperationen mit Langzeitarchiven

möglich, die von UOF abweichende SIP-Formate bevorzugen, z.B. die Erstellung ei-

nes SIPs, das den Anforderungen von DAITSS oder BABS entspricht. Der Einsatz von

koLibRI könnte durch deren freie Konfigurierbarkeit erheblich zur Erhöhung die Inte-

roperabilität digitaler Repositorien in internationalen Umgebungen beitragen. Da-

durch könnten die in Szenario 4 aufgeworfenen Probleme zufriedenstellend gelöst

werden, gesetzt den Fall die NASA unterstützt das Ausgabeformat und das Reposito-

rium löst das Rechercheproblem, z.B. durch Implementierung einer SRU/SRW-

Schnittstelle. Hier muss es internationale Standardisierungsbemühungen zur Schaf-

fung eines einheitlichen Austauschformates für Langzeitarchivierungsmetadaten ge-

ben, das auf METS oder MPEG 21 DIDL und PREMIS aufsetzt und ähnlich wie im

Bereich der deskriptiven Metadaten durch Dublin Core Simple von allen Teilnehmern

unterstützt wird.

Eine Anpassung der Arbeitsabläufe von koLibRI erfolgt durch die Notation der Ar-

beitsabläufe in der XML-Datei policies.xml. Die einzelnen Arbeitsschritte werden als

steps bezeichnet, die durch action modules implementiert sind.242

Ein Beispiel für einen Arbeitsablauf mit sechs steps: 243

1. Ausgewählte Dateien in ein Bearbeitungsverzeichnis kopieren

(ActionModule FileCopyBase),

2. deskriptive Metadaten zu den Dateien beschaffen

(ActionModule MetadataExtractorDmd),

3. technische Metadaten aus den vorhandenen Dateien extrahieren

(ActionModule MetadataGenerator, siehe Kapitel 10.1, Seite 55),

4. die Metadatendatei mets.xml generieren

(ActionModule MetsBuilder),

5. alle Dateien zu einem Archivpaket komprimieren

(ActionModule Zip),

6. das Archivpaket in DIAS (oder ein anderes Archivsystem) einspielen

(ActionModule SubmitDummySipToArchive).

242 vgl. Funk et al. 2007, S. 5. 243 Beispiel entnommen aus Funk et al. 2007, S. 12f.

Page 114: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

100

In der Datei policies.xml stellt sich dieser Vorgang wie folgt dar:

<policies>

<policy name="example">

<step class="FileCopyBase">

<step class="MetadataExtractorDmd">

<step class="MetadataGenerator">

<config>

<property>

<field>showHtmlImages</field>

<value>true</value>

<description>...</description>

</property>

</config>

<step class="MetsBuilder">

<step class="Zip">

<step class="SubmitDummySipToArchive">

</step></step></step></step></step>

</step>

</policy>

</policies>

Neben den Funktionen für Ingest und Datenverwaltung enthält koLiBRI zudem eine

Retrievalkomponente als Webservice zur Abfrage von Informationspaketen aus dem

Langzeitarchiv, z.B. migrierter Fassungen oder aktualisierter PDI.

Der Einsatz von koLibRI in OPUS würde mithin zumindest theoretisch und konzepti-

onell vollumfänglich das in Kapitel 3.4.4 (siehe Abbildung 15) entworfene kooperati-

ve Modell zweier miteinander verschalteter OAIS-konformer Archivsysteme unter-

stützen. Tatsächlich werden auf die OPUS-Entwicklergemeinschaft je nach Entschei-

dung für oder gegen kopal größere oder kleinere Anpassungen der Software zur

Implementierung in das OPUS-Datenmodell erforderlich sein. Man könnte auch

überlegen, ob man koLibRI innerhalb des Netzwerks DINI-zertifizierter Server in einer

standardisierten Form als Modul fortentwickelt, das in sämtliche Repositorium-

Softwarelösungen implementiert werden kann

3.6.3 BABS

Neben kopal wurde an der Bayerischen Staatsbibliothek München (BSB) ein weiteres

Archivsystem in Zusammenarbeit mit dem Leibniz Rechenzentrum entwickelt.244

Das DFG-geförderte, explorative Kooperationsprojekt (2005-2007) diente dem Auf-

bau einer organisatorischen und technischen Infrastruktur für die Langzeitarchivie-

rung und Bereitstellung von Netzpublikationen aus dem breiten Spektrum der BSB als

Universal-, Landes- und Sondersammelgebiets (SSG)-Bibliothek sowie als Digitalisie-

244 siehe http://www.babs-muenchen.de/ [22.07.2008].

Page 115: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

101

rungszentrum.245 Eine bemerkenswerte Koinzidenz, dass das System an der BSB im

Juni 2007, also im selben Monat wie kopal, in den regulären Produktivbetrieb über-

ging.

Ähnlich wie kopal nutzt BABS IBM TSM/HSM für die Objektspeicherung. Zur Meta-

datenverwaltung wird hier die proprietäre Archivierungs- und Publikationssoftware

DigiTool (Digital Asset Management System) von ExLibris eingesetzt.246

Der Workflow von BABS ist stärker an die Gegebenheiten einer Bibliothek als einem

digitalen Repositorium angepasst (siehe Abbildung 20) und lehnt sich demzufolge

stark an das DSEP-Modell der NEDLIB (siehe Fußnote 177) an. DigiTool ist als Bereit-

stellungssystem für den Endnutzer vorgesehen. In BABS fehlt ein Tool, dass den Con-

tent Provider bei der Erstellung eines DIPs (bzw. SIPs aus Sicht des Langzeitarchivs)

unterstützt. Es könnte jedoch auf koLibRI für die Erstellung der DIPs zurückgreifen.

Außerdem müsste BABS eine Schnittstelle anbieten, die dem Repositorium die Abfra-

ge über einen Webservice, OAI-PMH oder SRU/SRW zur Identifikation und Übertra-

gung von Archivpaketen, z.B. in BABS migrierten Fassungen erlaubt, um den im Ko-

operationsmodell bestimmten Informationskreislauf aufrechtzuerhalten.

Im Nachfolgeprojekt BABS II soll das Archivsystem zu einem vertrauenswürdigen di-

gitalen Langzeitarchiv gemäß dem nestor-Kriterienkatalog ausgebaut werden.247

Wegen der fehlenden Marktreife und Erprobung digitaler Langzeitarchive im Routi-

nebetrieb empfiehlt Stockmann in einem Vortrag eine abwartende Haltung. Ein digi-

tales Repositorium sollte sich durch Maßnahmen, die die Entscheidung für ein be-

stimmtes System vorwegnehmen, nicht vorschnell binden.248 Die Prioritäten liegen in

der Umstellung proprietärer Dateiformate in offen spezifizierte, standardisierte und

archivfähige Alternativen, sowie die Umstellung der Metadaten und Metadatenfor-

mate („jeder Tag Verzögerung führt zu höheren Kosten [sic!]“).249 Dazu ist eine An-

passung der Datenmodelle der Publikationssysteme und die Einigung in der Anwen-

dergemeinschaft über die einheitliche Datenerhebung und -ausgabe erforderlich, u.a.

auch darüber, welche Formate wie unterstützt werden sollen, z.B. LMER oder/und

PREMIS, METS oder/und MPEG 21 DIDL, UOF oder/und ECHO Dep.

Außerdem sollte die Erhaltung des physischen Datenstroms durch geeignete Verfah-

ren ab sofort garantiert werden, z.B. durch Verwendung von RAID, SAN, LOCKSS,

Verbundlösungen.

245 vgl. Jehn et al. 2008, S. 3-5. 246 siehe http://www.exlibrisgroup.com/category/PreservationOverview [22.07.208]. 247 vgl. Jehn et al. 2008, S. 3-5. 248 Stockmann 2008, Folie 14. 249 ebenda.

Page 116: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

3 Anforderungen an den Betrieb vertrauenswürdiger digitaler Repositorien

102

Abbildung 20: BABS Workflow

Zur Verdeutlichung des konzeptionellen Teils dieser Arbeit in den ersten drei Kapiteln

folgt im praktischen Teil ein Überblick über Dateiformate, die Identifikation von digi-

talen Objekten und Metadatenformate. Die Handlungsfelder können aufgrund ihrer

Komplexität allerdings nur anhand einiger weniger, wesentlicher Problemstellen ex-

emplarisch skizziert werden.

Page 117: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

103

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

Die nachfolgenden Punkte zählen einige nach Auffassung des Verfassers wesentli-

cher Problemstellen und Entwicklungen in Bezug auf die praktische Einbindung von

Maßnahmen der digitalen Langzeitarchivierung in Repositorien auf. Eine analytische

Herleitung der Probleme und daran ansetzende Lösungsversuche wird vor allem für

die Identifikation von Ressourcen vorgenommen, da die korrekte Verwendung von

persistenten Identifikatoren momentan ein Desiderat vieler Repositorien darstellt,

welches dringend einer Lösung zugeführt werden muss.

4.1 Anforderungen an die Identifikation von elektronischen Dokumenten

„Users want intellectual works, not digital objects.”

(Arms 1995 – Key concepts in the architecture)

4.1.1 Grundlagen der Identifikation von Ressourcen

Aus Nutzersicht muss ein auf elektronischem Weg veröffentlichtes Werk mindestens

genauso zuverlässig auffindbar und referenzierbar sein wie seine analoge Entspre-

chung, die aus der konventionellen Publikationsinfrastruktur hervorgegangen ist.

Dabei kann man prinzipiell zwei unterschiedliche Informationsbedürfnisse unterschei-

den. Einem Nutzer kann das Werk, zu dem er Zugang erlangen will, bereits bekannt

sein oder er sucht Informationen zu einem bestimmten Thema. Die klassischen

Nachweissysteme bedienen beide Informationsziele durch die Bereitstellung von be-

schreibenden Informationen, die in der klassischen Informationswissenschaft als In-

dexat oder Dokumentationseinheit bezeichnet wird, z.B. eine Titelaufnahme in einem

Bibliothekskatalog. Für die Beschreibung von Informationsressourcen, die über das

Internet verteilt werden, hat sich dafür der Begriff „deskriptive Metadaten“ durchge-

setzt. Metadaten sind Daten über Daten, d.h. sie beschreiben die Information selbst

oder das Informationsbezugsobjekt auf einer Metaebene und ermöglichen gleichsam

einen analytischen Blick auf die betrachtete Ressource.

Die deskriptiven Informationen setzen an einem unterschiedlichen Kenntnisstand des

Nutzers an, der unter Zuhilfenahme des FRBR-Modells (siehe Kapitel 2.1.3) beschrie-

ben werden kann. Der Nutzer kann z.B. wissen, dass ein Autor mit dem Namen X ein

Werk mit dem Namen Y verfasst hat. Dann stellt er Fragen an ein System, die die

Werkebene tangieren. Wenn der Nutzer dagegen obendrein weiß, dass ein Werk in

mehreren Versionen existiert, deren eine in englischer und deren andere in deutscher

Sprache ausgedrückt sind, dann hat er Kenntnis über Merkmale die die Expressions-

ebene betreffen. Der Nutzer wird in diesem Fall zusätzlich Fragen in Bezug auf die

Page 118: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

104

bevorzugte Sprache an das System stellen. Schließlich kann ein Nutzer wissen, dass

eine Expression eines Werks in einer bestimmten Auflage in einem bestimmten Jahr

bei einem bestimmten Verlag erschienen ist. Dies ist eine Information auf Manifesta-

tionsebene. Um eine solche Manifestationen eindeutig identifizieren und referenzie-

ren zu können, werden persistente Identifikatoren, z.B. eine ISBN vergeben, die in

Form einer Zeichenkette als Stellvertreter für eine Manifestation in einem Informati-

onssystem adressierbar ist. Hat der Nutzer die Manifestation identifiziert, die er benö-

tigt, bedarf es in jedem Fall noch einer zusätzlichen Information, die beinhaltet, wo er

ein Exemplar der Manifestation beziehen kann, d.h. eine Standortinformation bzw.

die Lokalisation. Der Zugriff auf ein Exemplar kann z.B. durch die Bestellung „des

Titels“ über den Buchhandel oder durch Ausleihe in einer Bibliothek erfolgen. Dabei

ist es im Buchhandel gemeinhin irrelevant, ob das konkrete Exemplar einen eigenen

Identifikator besitzt. Der Besteller erwartet vielmehr die Bereitstellung eines Exemp-

lars mittlerer Art und Güte aus einer Gattung, also einem Vorrat ähnlich beschaffener

Objekte. Anders liegt der Fall im Buchhandel, wenn sich der Erwerbungswunsch auf

ein bestimmtes Exemplar konkretisiert hat, z.B. bei einem antiquarischen Buch, das

üblicherweise beim Verkäufer einen lokal eindeutigen Bezeichner, z.B. eine Artikel-

nummer erhalten wird. Auch in der Bibliothek geht es immer um konkrete Exemplare

einer Manifestation aus dem Bestand. Ein lokales OPAC-System drückt diesen Sach-

verhalt durch eine Bestandssignatur aus, der jedes Exemplar eindeutig im Bestand

identifiziert und über den sein Standort in der Aufstellungssystematik ermittelt wer-

den kann. Folglich kann ein Informationsobjekt über mehrere eindeutige Identifikato-

ren verfügen, je nachdem in welchen Kontext das Bezugsobjekt gestellt wird, d.h.

welche logische Abgrenzung vorgenommen wird. Jede dieser logisch abgegrenzten

Einheiten ist dabei selbst eine Ressource, da sie Gegenstand einer Beschreibung ihrer

selbst sein und damit auch einen Bezeichner (URI) besitzen kann.

Der hier noch nicht behandelte Fall, dass der Nutzer keine oder nur diffuse Kenntnis-

se über die benötigte Information besitzt, wird über eine inhaltliche Erschließung der

Informationsobjekte gelöst. Dabei wird die dokumentarische Bezugseinheit durch

Einordnung in bestimmte Kategorien (Klassifikation), die Vergabe von freien Schlag-

wörtern bzw. Deskriptoren aus einem genormten Vokabular (Indexierung) oder ei-

nen kurzen Text mit einer inhaltlichen Zusammenfassung des Werkes (Referenzie-

rung) beschrieben, die dem Indexat neben den formalen Beschreibungen, wie Autor,

Titel, Verlag etc. hinzugefügt werden. Fragen an das Informationssystem liefern in

diesem Fall eine Liste von Indexaten als Ergebnis zurück, die der Suchanfrage ent-

sprechen, die wiederum aus den Beschreibungen von Werken bestehen, d.h. das

System hilft den Informationsbedarf auf konkrete Informationsobjekte einzugrenzen,

die im System vorgehalten werden oder deren Standortinformation bekannt ist.

Page 119: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

105

4.1.2 Zitation im wissenschaftlichen Kontext

Die wissenschaftliche Arbeit erfordert, dass der Autor eines Textes seine Quellen ge-

wissenhaft dokumentiert und nachprüfbar bekannt gibt. Das Mittel ist eine Zitation,

die eine monodirektionale Relation zu einem zitierten Informationsgehalt setzt. Die

Zitation enthält die beschreibenden Merkmale eines Informationsobjektes, die sein

Wiederauffinden (Information Retrieval) in den üblichen Informationssystemen der

Fachdomäne ermöglicht. Dies sind klassisch die Informationen, die auch das Informa-

tionssystem für die Beschreibung des Informationsobjektes, also für die Indexierung,

nutzt. Die Referenzierung ist mithin eine reziproke Funktion der Indexierung. Übli-

cherweise besteht eine Zitation aus der Angabe bibliographischer Metadaten, wie

Autor, Titel, Auflage, Jahr etc. An und für sich genügt jedoch die Angabe eines ein-

deutigen Identifikators, wenn dieser für die Ressource vergeben wurde, z.B. der

ISBN, die PubMed-ID250 für eine Referenz auf einen Datensatz der Datenbank Medli-

ne im medizinischen und humanbiowissenschaftlichen Bereich oder des arXiv Identi-

fiers251 im fachlichen Repositorium arXiv.org.

Mit einem persistenten Identifikator lassen sich nicht nur Publikationen eindeutig be-

nennen, sondern grundsätzlich jede Ressource. So lässt sich eine chemische Substanz

durch die Chemical Abstracts Service (CAS) Registry Number252 referenzieren, wenn

für die Fachgemeinschaft offensichtlich damit die Bezeichnung eines bestimmten

chemischen Stoffes gemeint ist, der in der Datenbank CAS Registry unter diesem Be-

zeichner eindeutig identifiziert wird.

Die Verwendung eines Identifikators knüpft jedoch aus Sicht des FRBR-Modells nur

an eine mögliche Wertausprägung einer Eigenschaft einer Ressource an, die zudem

nur eine mögliche Repräsentation des eigentlichen Gegenstands von vielen sein

kann. Zudem ist ein Identifikator meistens abstrakt ausgestaltet und überfordert re-

gelmäßig die Merk- oder Verwendungsfähigkeit eines durchschnittlichen, menschli-

chen Nutzers, so dass eine Zitation immer aus mehreren Komponenten bestehen soll-

te, die den unterschiedlichen Sichtweisen auf den sie repräsentierenden Informati-

onsgehalt gerecht wird. Der Leser eines wissenschaftlichen Aufsatzes kann durch die

Eingabe eines Teils der Zitationsmetadaten in ein Informationssystem den Standort

des Informationsobjektes eruieren und nachprüfen, ob die referenzierte Information

tatsächlich korrekt wiedergegeben wurde oder ob es zu fachlichen Übersetzungsfeh-

lern der Information beim Überführen in die Wissensbasis des Autors kam. Die Zitati-

on fungiert somit als analoger Link, der Ressourcen miteinander verknüpft.

250 z.B. PMID: 17140406. 251 z.B. arXiv:0804.2273v1. 252 z.B. CAS: 110-82-7.

Page 120: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

106

4.1.3 Die Identifikation von Informationsressourcen

Überträgt man diese Wertungen in die digitale Welt und das Internet, so ist der An-

knüpfungspunkt für die Beschreibung eines Werkes immer seine Repräsentation, also

seine physische Existenz als digitales Objekt.

“Digital objects are the basic building blocks of the digital library, but

users of the library usually want to refer to items at a higher level of ab-

straction.”253

Die inhaltliche und formale Beschreibung der in einem digitalen Objekt repräsentier-

ten Information ist durch die digitale Verkörperungsform nicht tangiert. Handelt es

sich um einen wissenschaftlichen Aufsatz, so kann dieser durch Wertausprägungen

derselben Eigenschaften beschrieben werden wie analoge Werke, also Titel, Verfas-

ser, Version etc. Der Unterschied liegt in Metadaten, die die Manifestation und die

Ebene des Exemplars im FRBR-Modell sowie den Standort des Objektes betreffen.

Zunächst kommen zur Beschreibung eines digitalen Objektes noch wesentliche In-

formationen über Eigenschaften hinzu, die für die Nutzung erforderlich sind, z.B. das

Dateiformat und welche Anwendung notwendig ist, um das Format zu interpretie-

ren. In der analogen Welt waren derartige Informationen eher zweitrangig und For-

matprobleme selten, da der Nutzer davon ausgehen konnte, dass sich das Format in

einem üblichen Rahmen bewegt; kam es höchstens zu Irritationen, wenn ein Band im

Folioformat nicht in das Bücherregal passte.

Zudem verlangt die Verzeichnung des Standorts einer Informationsressource andere

Adressierungsverfahren als die für ein papierenes Buch eingeführten Methoden.

4.1.3.1 Uniform Resource Locator (URL)

Ein digitales Objekt, das über Datennetze verteilt wird, unterliegt grundlegend ande-

ren Adressierungsregeln, als ein analoges Objekt. Der Zugriff auf eine Informations-

ressource erfolgt im WWW über das Internet Protocol (IP) in Verbindung mit dem

Transmission Control Protocol (TCP). Jedes Datenpaket, das über das Netz transfe-

riert wird enthält die Quell- und Zielinformation (Sender- und Empfängeradresse).

Diese Information ist als IP-Adresse kodiert, die einer Postadresse für Sender- und

Empfangsgerät entspricht. Momentan gibt es zwei Notationssysteme für IP-

Adressen, IPv4254 und IPv6.255 Eine IP-Adresse der IPv4-Notation besteht aus einer

Gruppe von vier Zahlen, jeweils zwischen 0 und 255, die durch einen Punkt vonein-

ander getrennt werden, z.B. 193.175.237.160. Um die Lesbarkeit für Menschen zu

verbessern, wurde für Adressen im WWW das Domain Name System (DNS) einge-

253 Arms 1995. - http://www.dlib.org/dlib/July95/07arms.html#junewya8 [28.07.2008]. 254 RFC 791 1981. 255 RFC 2460 1998.

Page 121: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

107

führt.256 Das DNS-Protokoll erlaubt die Anfrage eines Clients an einen DNS-Server,

der die zugehörige IP-Adresse für einen Namen ermittelt und die Verbindung zum

Zielrechner herstellt. Dieser Prozess wird als Auflösung des Namens bzw. Resolving

bezeichnet. Ein gültiger Name muss der Namenskonvention des DNS entsprechen,

d.h. er muss den Notationsanforderungen für einen Uniform Resource Identifier ent-

sprechen.257 Es gibt zwei Arten einen URI auszudrücken, entweder in Form eines Na-

mens als Uniform Resource Name (URN)258 oder als Zeiger (Uniform Resource Loca-

tor).259 Für die Adressierung im WWW wird momentan vor allem das URL-System

unterstützt. Neben dem DNS-Namensteil kann ein URL weiterhin den genauen

Standort des digitalen Objektes auf dem Server durch eine Pfadangabe konkretisie-

ren.

Anhand des URLs ist ein Internetnutzer mit Hilfe eines Browsers in der Lage, den

Standort eines entfernten Rechners zu lokalisieren, sich mit diesem zu verbinden und

anhand einfacher Anweisungen (PUT, GET, POST), die in einem Protokoll (html, ftp,

email) definiert sind, Daten auszutauschen. Mit einer einfachen GET-Operation via

HTTP überträgt ein Internetnutzer z.B. Dateien im HTML-Dateiformat auf die eigene

Festplatte, die vom Browser als Dokument interpretiert werden und auf einem Bild-

schirm oder einem Drucker ausgegeben werden können. Durch diesen Mechanismus

kann global und zeitlich unabhängig auf jede Informationsressource zugegriffen

werden, die zum Zeitpunkt der Anfrage von einem Server im Internet angeboten

wird. Dieser Weg ist für den Nutzer von Vorteil, da er ihm das räumliche Aufsuchen

des Ortes, an dem die Information tatsächlich gespeichert ist, erspart.

Man könnte nun versucht sein, die Adressierung von Informationsressourcen in In-

formationssystemen bzw. für die Zitation durch Verwendung von URLs, die auf die

Ressource weisen, global und dauerhaft für gelöst zu betrachten. Es gibt dabei je-

doch ein Problem, das auch aus der realen Welt bekannt ist. Wie ein Buch in einer

Bibliothek kann auch ein digitales Objekt seinen Standort ändern. Dann ist der Zu-

gang über den bisherigen URL nicht mehr möglich.

Es sind drei Varianten denkbar, die eine solche Änderung bewirken:

− das Objekt wird von dem Server entfernt: es ist nicht mehr über das Internet ver-

fügbar und verliert damit den Status einer Informationsressource,

− das Objekt ist unter einem anderen Domain Name im Internet verfügbar, z.B.

durch einen Serverwechsel,

256 RFC 1084 1987; RFC 1035 1987. 257 RFC 1630 1994. 258 RFC 2141 1997. 259 RFC 1738 1994.

Page 122: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

108

− das Objekt wechselt seinen Standort auf demselben Server: dies kann entweder

durch das Verschieben der Dateien in einen anderen Pfad oder die Änderung des

Abfragesystems erfolgen.260

In jedem dieser Fälle ist die Informationsressource nicht mehr unter dem ursprüngli-

chen URL für den Nutzer verfügbar. Außerdem treten diese Veränderungen nicht

selten auf. Eher das Gegenteil ist der Fall. Brewster Kahle, ein Begründer des Internet

Archive261, hat im Jahr 1997 die durchschnittliche Lebensdauer von Internetadressen

mit nur 44 Tagen beziffert und eine andere Gruppe hat ermittelt, dass bereits 10 %

der Links, die in Zitationen wissenschaftlicher Zeitschriften verwendet wurden, nach

15 Monaten nicht mehr gültig waren.262

4.1.3.2 Uniform Resource Name (URN)

“Names are a vital building block for the digital library. Names are needed to iden-

tify digital objects, to register intellectual property in digital objects, and to record

changes of ownership. They are required for citations, for information retrieval, and

are used for links between objects.”

(Arms 1995 – Key concepts in the architecture)

Die Unbeständigkeit von URLs verdeutlicht, dass Webressourcen eine stabilere Iden-

tifikationsbasis als standortbasierte Zeigersysteme benötigen. Insbesondere, wenn

man neben der Nutzerperspektive die Anforderungen der Langzeitarchivierung in die

Überlegung einbezieht. Hier muss ein Objekt auch dann noch eindeutig identifiziert

werden können, nachdem es vom Produzenten an das Langzeitarchiv übertragen

wurde. Auch organisatorische Umgestaltungen und den Wechsel von Zuständigkei-

ten, z.B. die Fusion von digitalen Repositorien oder Wechsel des Langzeitarchivie-

rungsanbieters, muss das System abfangen können. Das Bezeichnungssystem muss

also eine Ressource über alle technischen und organisatorischen Veränderungen

hinweg, eindeutig und zuverlässig identifizieren und adressieren können.263 Eine

mögliche Lösung ist die Verwendung der zweiten Komponente des URI-Standards,

also von URN-basierten Systemen.

Die Syntax für URNs ist seit 1997 vollständig spezifiziert.264 Die funktionalen Anforde-

rungen werden in RFC 1737 beschrieben:265

− globaler Gültigkeitsbereich der Namen: URNs besitzen weltweit dieselbe Bedeu-

tung,

260 vgl. Hilse et al. 2006, S. 6. 261 http://www.archive.org/ [29.07.2008]. 262 zitiert nach Bárány 2006, S. 14. 263 vgl. Schöning-Walter 2008, S. 13-23. 264 RFC 2141 1997. 265 RFC 1737 1994.

Page 123: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

109

− globale Eindeutigkeit: unterschiedliche Ressourcen können nicht den selben URN

besitzen,

− Persistenz: ein URN besteht unabhängig von der benannten Ressource fort,

− Skalierbarkeit: das Schema muss beliebig viele Namen aufnehmen können,

− Übertragbarkeit: andere regelkonforme Bezeichnungssysteme müssen eingebettet

werden können,

− Erweiterbarkeit: das Schema muss funktionale Erweiterungen oder Migrationen

zulassen,

− Unabhängigkeit: die beteiligten Institutionen selbst legen die Namenskonventio-

nen fest,

− Auflösbarkeit: bezieht sich ein URN auf den URL einer Ressource, so muss die Ver-

fügbarkeit von Resolvingdiensten auf Dauer gewährleistet sein.266

Die URN-Syntax ist in (RFC 2141 20.05.2008) festgelegt. Die Struktur ist streng hie-

rarchisch:

urn:[NID]:[SNID]-[NISS]

Präfix:

NID: Kennzeichnung des Namensraums (Namespace Identifier)

SNID: optional können zusätzlich Unternamensräume definiert werden

(Subnamespace Identifier)

Suffix:

NISS: Kennzeichnung des Objekts (Namespace Specific String)

Die Syntax unterscheidet Groß- und Kleinschreibung nicht voneinander. Das URN-

Schema erlaubt durch seine offene Architektur die Einbettung von Bezeichnungssys-

temen und Standardnummern. Die Einbettung erfolgt durch Registrierung eines Na-

mensraums (NID) bei der IANA (Internet Assigned Numbers Authority). Momentan

sind dort 40 Namensräume [Stand Juli 2008] registriert267, darunter die für das Biblio-

theks- und Publikationswesen wichtigen NIDs:

− issn – International Serials Number (RFC 3044),

− isbn - International Standards Books Number (RFC 3187),

− nbn – National Bibliography Number (RFC 3188),

− pin – Personal Internet Name für Personen und Organisationen (RFC 3043),

− uuid – Universally Unique Identifiers für verteilte Softwaresysteme (RFC 4122).

266 Das Resolving von URNs wird in einer separaten RFC spezifiziert: RFC 2276 1998. 267 http//www.iana.org/assignments/urn-namespaces [28.07.2008].

Page 124: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

110

Das Resolving einer URN kann durch verschiedene Verfahren erfolgen. Momentan

werden das Name Authority Pointer (NAPTR) DNS records und das Trivial HTTP re-

solution protocol verwendet.268

Beispiel für das Resolving einer URN aus dem Namensraum NBN (niederländischer

Subnamensraum):

http://persistent-identifier.nl/?identifier=urn:nbn:nl:ui:28-44373

Neben dem URN-System wurden weitere Bezeichnungssysteme für die persistente

Identifikation von Ressourcen entwickelt, die die funktionalen Anforderungen der

RFC 1737 berücksichtigen.269

Folgende Bezeichnungssysteme kommen für die persistente Identifikation digitaler

Objekte in Betracht:270

− infoURI,

− Persistent Universal Resource Locator (PURL),

− das Handle-System,

− Digital Object Identifier (DOI),

− Archival Resource Key (ARK).

Die Systeme werden hier nicht im Einzelnen vorgestellt, jedoch die ARKs noch einmal

ad hoc aufgegriffen. Es sei diesbezüglich auf die Literatur verwiesen.271

Wichtig ist die Feststellung, dass die Verwendung eines Bezeichnungssystems allein

noch nicht die Persistenz der Adressierbarkeit garantiert. Die Langzeitverfügbarkeit

von Ressourcen entsteht erst durch die hinter dem technischen System stehenden

Diensten und hängt von der Kooperation aller am System beteiligten Institutionen

ab. 272 Diese gewährleisten u.a.:

− „die Vergabe und Registrierung eindeutiger Namen für die Informationsressour-

cen,

− eine leistungsfähige Infrastruktur zur Auflösung der Namen,

− die Einhaltung der festgelegten Regeln,

− unterstützende organisatorische und technische Maßnahmen zur Qualitätssiche-

rung,

− die dauerhafte Verfügbarkeit der digitalen Objekte an sich.“273

268 siehe Hilse et al. 2006, S. 12f. 269 eine Auflistung bei Borghoff et al. 2003, S. 108. 270 vgl. van Horik 2008, S. 147. 271 siehe Hilse et al. 2006; Schroeder 2008. 272 Hilse et al. 2006, S. 26. 273 Schöning-Walter 2008, S. 13-27.

Page 125: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

111

4.1.3.2.1 National Bibliographic Numbers

Besonders wichtig im Online-Publikationsbereich ist der Namensraum nbn, der in

den (RFC 3188 2001) spezifiziert ist. Der Namensraum wurde entwickelt, um ein

persistentes Identifikationssystem für die wachsende Zahl digitaler Publikationen, wie

elektronische Zeitschriften, Onlinehochschulschriften, Webseiten oder Forschungsbe-

richte für die Nationalbibliotheken zu schaffen. Der nbn ist international gültig und

wird überwiegend von den Nationalbibliotheken als namengebende Organisation

(engl.: naming authority) verwaltet. In deutschsprachigen Bereich fungiert die DNB

als Naming Authority für URNs des Namensraums urn:nbn:de, die auch einen Resol-

vingdienst für die Bundesrepubliken Deutschland und Österreich sowie die Schweiz

betreibt.274 Der Aufbau des Dienstes erfolgte im Rahmen des BMBF-geförderten

EPICUR-Projektes.275 Der Service ermöglicht Autoren, Repositorien, Verlagen, Biblio-

theken, Archiven, Forschungseinrichtungen und anderen Institutionen die Vergabe

persistenter Identifikatoren. Mit xepicur steht eine OAI-basierte Schnittstelle für die

Registrierung von URNs zur Verfügung.

Syntax von NBNs der DNB:

URNs, die von der DNB administriert werden, haben folgende allgemeine Struktur:

urn:nbn:de:[Verbundabk.]:[Sigelnummer]-[Nummer][Prüfziffer]

Der Teil urn charakterisiert das Bezeichnungssystem des verwendeten Identifikators.

Der Teil nbn bezeichnet den Namensraum NBN.

Die Teile de, [Verbundabk.], [Sigelnummer] sind Subnamensräume von NBN.

Die Nummer kennzeichnet das Objekt (NISS).

Ein typisches Beispiel für einen URN, der aus OPUS erzeugt wurde ist:

urn:nbn:de:kobv:517-opus-13190

Es bedeuten:

urn:nbn:de: Kennzeichen des Auflösungsdienstes

kobv:517: Bibliotheksverbund KOBV und 517 ist die Sigelnummer der Universitäts-

bibliothek Potsdam

opus-13190: ist der individuelle Bezeichner des Objektes, der von OPUS generiert

wurde (die eigentliche NISS), wobei die letzte Stelle immer eine nach einem bestimm-

ten System berechnete Prüfziffer ist.276

274 http://nbn-resolving.de/ [28.07.2008]. 275 http://www.persistent-identifier.de/ [28.07.2008]. 276 Zur Prüfzifferberechnung siehe http://www.persistent-identifier.de/?link=316 [28.07.2008].

Page 126: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

112

Für die Syntax des NISS-Namensteils gibt es nur wenige Vorgaben. Der String darf

Ziffern, Buchstaben oder Bindestriche enthalten. Zulässige URNs sind z.B.:277

urn:nbn:de:1111-20040330226

urn:nbn:de:bsz:93-opus-10178

urn:nbn:de:gbv:089-2414302835

urn:nbn:de:0001-00174

urn:nbn:de:hebis:30-0000000210

urn:nbn:de:kobv:517-0000218

urn:nbn:de:swb:ch1-199900539

Metadaten einer Ressource

Prinzipiell würde zur Erfüllung des Identifikationszwecks eines Namens die Registrie-

rung des Bezeichners bei der Naming Authority genügen. Alle weiteren Zuord-

nungsmerkmale und die Relationen könnte der Verwender des Namens verwalten.

Ein URN erfordert jedoch auch die Bereitstellung eines Resolvingdienstes, für den

zusätzliche Metadaten über den Namensstring benötigt werden. Der URN-Resolver

benötigt zunächst eine auflösungsfähige Adresse, im Internetkontext momentan ei-

nen URL als allgemein verwendeten Zugriffsmechanismus für Informationsressourcen

im WWW, unter dem sich das Objekt physisch befindet. Wird das Objekt über meh-

rere URLs referenziert, so muss festgelegt werden, welcher Standort die höchste Prio-

rität für die Auflösung erhalten soll.

Das Datenmodell von EPIKUR

Das Datenmodell für den Resolverdienst EPIKUR der DNB wird durch das XML-

Schema xepicur repräsentiert.278

Das Schema erlaubt Dienste für die automatisierte Registrierung von URNs und geht

von bestimmten Grundannahmen aus:

− „Im Rahmen des URN-Managements wird unter dem Begriff "digitales Objekt"

eine Einheit verstanden, für die eine URN vergeben werden kann. Eine Einheit be-

zieht sich im derzeitigen Stand auf eine statische Publikation wie z.B. monografi-

sche Online-Ressourcen.“279

− Ein URN verweist auf mindestens einen URL des Gesamtobjektes.

− Ein URN kann auch mehrere Kopien desselben Objektes verwalten, die über ver-

schiedene URLs zugänglich sind.

− URNs können für adressierbare Teilobjekte vergeben werden.

− Ein URN kann unterschiedliche Präsentationsformate der Objekte einschließen.

277 http://www.persistent-identifier.de/?link=400 [28.07.2008]. 278 urn:nbn:de:1111-2004033116. 279 Korb et al. 2008.

Page 127: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

113

− Ein URN kann auf eine Informationsressource weisen, die die Beschreibung des

Objektes enthält (Frontdoor, Eingangsseite, „splash page“). 280

Wie die weitere Untersuchung zeigen wird, können sich die beiden, letzten Annah-

men aus der Perspektive einer effektiven Langzeitarchivierung bei falscher Anwen-

dung hochproblematisch auswirken und die Persistenz der digitalen Objekte gefähr-

den, ohne dass das Datenmodell von xepicur einen Konstruktionsmangel aufweisen

würde.

Zunächst soll jedoch das Schema xepicur näher erläutert werden. Die grobe Gliede-

rung des Datenmodells besteht aus folgenden Elementen:

− "identifier"

Mit dem Element "identifier" werden URN und URL mit unterschiedlichen Attri-

buten erfasst.

− „isVersionOf"

Mit dem Element "isVersionOf" kann eine URN der neuen Dokumentversion er-

fasst werden, z.B. einer migrierten Fassung des Ursprungsdokumentes.

− "hasVersion"

Das Element "hasVersion" beinhaltet einen Persistent Identifier wie z. B. DOI oder

ARK, der zusätzlich zu einer URN existiert und an die Deutsche Nationalbibliothek

gemeldet werden soll.

− "resource"

Das Element "resource" mit den Unterelementen "identifier" und "format" dient

der Abbildung der Zusammenhänge von URN und URL, z.B.

− das Attribut role des Elementes identifier bestimmt die Master-URL, d.h. die

URL, die für die Auflösung der URN hauptsächlich verwendet werden soll

role="primary",

− das Attribut type des Elementes identifier bestimmt die Frontpage-URL

type="frontpage",

− das Attribut schneme des Elementes format bestimmt den Mimetype des Ob-

jektes

scheme="imt".

− "isPartOf"

Das Element "isPartOf" dient der Erfassung von Informationen über URNs und

URLs für Teildokumente. Das Element isPartOf kapselt Informationen zu URNs

und URLs von Teilobjekten, wenn z.B. eine Repräsentation aus mehreren Objekten

280 vgl. ebenda.

Page 128: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

114

besteht. Dieses Element kann auch benutzt werden, um Repräsentationen unter

den URN zu ordnen, der ein Werk identifiziert.281

Das Format xepicur kann als Austauschformat der Metadaten für die Registrierung

und das Update von Informationen zwischen einem digitalen Repositorium und dem

DNB-Resolver benutzt werden. In OPUS wird das Format über die OAI2-Schnittstelle

zum Harvesting durch die DNB bereit gestellt (siehe Beispiel 8).

Beispiel 8: Beispielausgabe für einen Datensatz im xepicur-Format aus OPUS

<?xml version="1.0" encoding="UTF-8"?>

<epicur xmlns:epicur="urn:nbn:de:1111-2004033116" xmlns="urn:nbn:de:1111-

2004033116" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="urn:nbn:de:1111-2004033116 http://www.persistent-

identifier.de/xepicur/version1.0/xepicur.xsd">

<administrative_data>

<delivery>

<update_status type="urn_new"/>

</delivery>

</administrative_data>

<record>

<identifier scheme="urn:nbn:de">urn:nbn:de:kobv:517-opus-

13190</identifier>

<resource>

<identifier scheme="url" type="frontpage"

role="primary">http://opus.kobv.de/ubp/volltexte/2007/1319/</identifier>

<format scheme="imt">text/html</format>

</resource></record></epicur>

Die Adminstration der URNs und URLs kann jedoch auch manuell über ein Nutzer-

Frontend erfolgen.282

Auflösung der registrierten URNs durch den EPICUR-Resolver

Da die meisten Internetbrowser die Protokolle von Persistent Identifiern, einschließ-

lich URNs, noch nicht direkt auflösen können, ist für das Resolving einer URN die

Kodierung als browserfähiger URL erforderlich.

Der EPICUR-Resolver ist unter dem URL

http://nbn-resolving.de/

erreichbar. Ein URN wird dieser Zeichenkette einfach hinzugefügt. Die Auflösung

ohne Eingabe weiterer Parameter erfolgt zu dem URL, der als Master-URL festgelegt

wurde.

281 Eine Dokumentation des vollständigen Modells befindet sich unter http://www.persistent-identifier.de/?link=230 [28.07.2008]. 282 https://ssl.nbn-resolving.de/frontend/ [28.07.2008].

Page 129: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

115

Der Resolver stellt folgende weitere Dienste zur Verfügung:

− „N2L“

Eine URN wird zur URL mit der höchsten Priorität aufgelöst.

− „N2Ls“

Es werden alle gültigen URLs zu einer URN ausgegeben.

− „N2N“

Bei Objektversionen, für die jeweils eine eigene URN vergeben wurde, kann die

Zuordnung über diesen Service durch folgende Parameter gesteuert werden:

− N2N + 1 ()

(Es wird bei URNs für Teilobjekte zu einer URN für das Gesamtobjekt aufge-

löst.)

− N2N + 2 ()

(Es wird zur ältesten Objektversion aufgelöst.)

− N2N + 3

(Es wird zur URN der neuesten Objektversion aufgelöst.)

− „N2NS“

Es wird eine Liste mit allen registrierten URNs der alten und neuen Objekt-

versionen ausgegeben.

− „N2C“

Eine URN wird zu den über das Internet zugänglichen Metadaten wie z.B. in Form

einer Frontpage aufgelöst.

− Institution

Es kann über die URN gezielt auf die URL einer spezifizierbaren Institution verwie-

sen werden.

− MimeType

Die Ausgabe eines Objektes in einem bestimmten Dokumentformat wie z.B. PDF

kann über diesen Service konfiguriert werden.

− Es können alle Antworten wahlweise in HTML oder XML ausgegeben werden

(durch Hinzufügung der Parameter xml oder html zum Querystring).

Beispiel 9: Resolving einer Ressource, die auf einem OPUS-Server veröffentlicht wurde

Die Anfrage

http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-13190&N2ls

an den Resolver listet alle beim URN-Dienst hinterlegten URLs auf:

Following active URLs have been registered for the URN urn:nbn:de:kobv:517-opus-13190

http://opus.kobv.de/ubp/volltexte/2007/1319/

http://deposit.d-nb.de/cgi-bin/dokserv?idn=984520511 (DNB-Archivserver)

http://opus.kobv.de/ubp/volltexte/2007/1319/html/index.html

http://opus.kobv.de/ubp/volltexte/2007/1319/pdf/niehus_diss.pdf

Page 130: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

116

Der erste URL führt zur Frontpage der Ressource, also zu einem Internetdokument mit einer Beschrei-

bung der eigentlichen Ressource. Die anderen URLs lokalisieren Repräsentationen des Werkes (eine

Online-Dissertation, die auf dem Publikationsserver der Universität Potsdam veröffentlich wurde).

Dabei weist der zweite und vierte Link auf die gleiche PDF-Fassung des Werkes, der dritte Link führt

zu einer HTML-Version des Werkes. Die Dokumentbeziehungen werden aus der Auflistung jedoch

weder für Menschen noch für Maschinen aus sich selbst heraus erklärbar. Man muss den Links folgen,

um diese Beziehungen zu erkennen.

Der URL http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-13190 weist auf die Eingangsseite des

digitalen Repositoriums, über die der Zugriff auf alle publizierten Repräsentationen des Werkes mög-

lich ist. Der URN weist jedoch nicht auf eine Repräsentation selbst.

Eine Beispielausgabe im XEPICUR-Format in XML für die Abfrage:

http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-13190&N2ls&xml

<?xml version="1.0" encoding="UTF-8"?>

<epicur>

<header>

<request>urn:nbn:de:kobv:517-opus-13190&amp;N2ls&amp;xml</request>

<responseDate>2008-08-03 11:04:13</responseDate>

</header>

<record>

<identifier scheme="urn:nbn:de">urn:nbn:de:kobv:517-opus-13190</identifier>

<resource>

<identifier scheme="url" role="primary"

type="frontpage">http://opus.kobv.de/ubp/volltexte/2007/1319/</identifier>

<format scheme="imt">text/html</format>

</resource>

<resource>

<identifier

scheme="url">http://opus.kobv.de/ubp/volltexte/2007/1319/html/index.html

</identifier>

<format scheme="imt">text/html</format>

</resource>

<resource>

<identifier

scheme="url">http://opus.kobv.de/ubp/volltexte/2007/1319/pdf/niehus_diss.pdf

</identifier>

<format scheme="imt">application/pdf</format>

</resource>

<resource>

<identifier scheme="url" type="frontpage">

http://deposit.d-nb.de/cgi-bin/dokserv?idn=984520511</identifier>

<format scheme="imt">text/html</format>

</resource>

</record>

</epicur>

4.1.3.2.2 Das URN-Konzept von OPUS

Die Folgen der URN-Unterstützung von OPUS werden in Beispiel 9 aufgezeigt, die

Ergebnis der Verankerung von URNs im Datenmodell des Systems sind. OPUS er-

Page 131: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

117

zeugt mit der Übernahme eines Datensatzes aus der Relation temp in die Relation

opus einen URN, dessen NISS nach den folgenden Regeln gebildet wird:

-opus-[OPUS-ID][Prüfziffer]

Dieser Wert wird in opus im Feld urn gespeichert und in dem oben beschriebenen

Verfahren über die OAI-Schnittstelle bei der DNB registriert. Damit wird für jeden

Datensatz ein Persistent Identifier erzeugt. Die Frage ist nur, was dieser Identifier

überhaupt identifiziert. Ein URN muss immer eine Ressource identifizieren. In Be-

tracht kommen drei Möglichkeiten:

1. Der URN identifiziert die Einstiegsseite.

2. Der URN identifiziert die Repräsentation, also das publizierte elektronische

Dokument.

3. Der URN identifiziert das Werk, das publiziert wurde.

Bei einer formalen Auslegung des Sachverhaltes würde man zur Schlussfolgerung

gelangen, dass der URN die Einstiegsseite identifiziert. Die Einstiegsseite ist ein Inter-

netdokument und stellt eine Informationsressource dar. Der Bezeichner besitzt zu-

dem außer in der Metadatenverwaltung keine Verbindung zu den gespeicherten di-

gitalen Objekten und der Resolver hat vom OPUS-System die Anweisung erhalten,

die Einstiegsseite als Master-URL zu setzen. Allerdings ist diese Metadatenseite nicht

statisch. Die Metadaten werden immer wieder ergänzt und aktiv gepflegt. Die erste

Annahme in der URN-Strategie der DNB war jedoch, dass URNs nur statische Publi-

kationen identifizieren. Die Einstiegsseite ist jedoch keine elektronische Publikation.

Eine Publikation immer ist die Repräsentation eines Werkes. Also kann der URN nicht

die Frontpage identifizieren.

Eine vernünftige Auslegung der Intention der Vergabe eines Identifiers würde dem-

nach zu der Ansicht führen, dass der URN hier die Repräsentation oder das Werk

identifiziert. Bei Publikationen, die aus mehreren Repräsentationen bestehen wie im

Beispiel 9, kann ein URN jedoch nicht gleichzeitig mehrere Objekte identifizieren. Ein

URN identifiziert definitionsgemäß immer genau eine Ressource und zwar dauerhaft.

Zudem gibt es Zweifelsfälle, in denen weder eine Maschine noch ein Mensch allein

durch die Betrachtung der Dateistruktur in OPUS eine Repräsentation erkennen

kann. Eine Repräsentation kann aus einer oder mehreren Dateien bestehen. In OPUS

werden, z.B. PDF-Dokumente immer ohne Hierarchiebildung im Ordner PDF abge-

speichert. Wenn sich in diesem Ordner zwei PDF-Dokumente befinden, kann man

nicht davon ausgehen, dass beides Repräsentationen des Werkes sind. Es kann so

sein, muss aber nicht. Es gibt vielmehr mehrere Möglichkeiten:

− PDF-Dokument A ist eine Version von PDF-Dokument B, dessen Dateigröße

komprimiert wurde, um auch Nutzern ohne DSL-Breitbandanschluss den Zugriff

zu ermöglichen oder PDF-Dokument B ist eine migrierte Fassung von PDF-

Page 132: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

118

Dokument A aus dem Langzeitarchiv, d.h. der Ordner enthält zwei Repräsentatio-

nen, z.B.:

http://opus.kobv.de/ubp/volltexte/2007/1488/

PDF-Dokument A und PDF-Dokument B ergeben zusammen eine Repräsentation,

weil es Teile einer Arbeit sind oder PDF-Dokument B ein Anhang zu PDF-

Dokument A ist, z.B.

http://opus.kobv.de/ubp/volltexte/2005/416/

Folglich muss der von OPUS erzeugte URN das Werk identifizieren, also eine abs-

trakte Ressource, die selbst keine Informationsressource ist. Ein abstraktes Objekt hat

jedoch keinen Standort, es ist nicht physisch vorhanden, sondern eben eine rein be-

griffliche, gedankliche Vorstellung und als solche durchaus mit einem URN identifi-

zierbar aber nicht auflösbar. Es muss also ein logischer Fehler bei der Konstruktion

der URN im OPUS-System vorliegen.

Zur Lösung dieses Problems kann ein Blick auf ein Datenmodell beitragen, dass sich

derzeit in der Beta-Release-Phase befindet und die Aggregation von Webressourcen

zum Gegenstand hat.

4.1.3.2.3 Exkurs: Open Archives Initiative - Object Reuse and Exchange (OAI-ORE)

OAI-ORE bietet die Möglichkeit Webressourcen durch die Verwendung einer graph-

basierten, semantischen Auszeichnungssprache zu aggregieren und die Relationen in

Form von RDF-Triples zu beschreiben.283

Abbildung 21: OAI-ORE Aggregation von Informationsressourcen

Das Konzept beschreibt die semantische Verknüpfung von Informationsressourcen,

die als aggregierte Ressourcen (AR-1 - AR-3) (siehe Abbildung 21) mit einer Aggre-

gation (A-1) verknüpft sind. Die Aggregation selbst wird immer von einer Ressource

Map (ReM-1) beschrieben. Eine Ressource Map ist dabei immer mit genau einer Ag-

gregation verknüpft. Eine Aggregation fasst mehrere Ressourcen zusammen. Das in

Abbildung 21 schematisch dargestellte Modell kann in Atom, RDF/XML und RDFa

283 siehe http://www.openarchives.org/ore/ [28.07.2008] und Lagoze et al. 2008.

Page 133: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

119

implementiert werden und erlaubt Abfragen in der Abfragesprache SPARQL Protocol

and RDF Query Language (SPARQL).284

Abbildung 22: Schematische Darstellung einer OAI-ORE Aggregation am Beispiel einer Online-

Publikation

In Abbildung 22 wird dieses Modell am Beispiel einer Publikation auf dem Reposito-

rium arxiv.org verdeutlicht. Hier verknüpft die Aggregation A-1 die Einstiegseite der

Publikation285 und ein PDF-Dokument.286 Um eine graph-basierte Darstellung zu er-

möglichen, müssen auch die abstrakten Ressourcen ReM-1 und A-1 einen Identifika-

tor als URI besitzen. Die Aggregation entspricht in diesem Fall dem publizierten

Werk. Die aggregierten Ressourcen können sowohl aggregierte Repräsentationen

des Werkes als auch Beschreibungen der Aggregation sein. Die Einstiegseite darf je-

doch nicht als Repräsentation der Aggregation verstanden werden, sondern ist eine

Repräsentation der Metadaten der Aggregation.287

4.1.3.2.4 Lösung des URN-Problems

Der Anknüpfungspunkt für den Zugriff auf eine Online-Publikation und deren Erhal-

tungsmaßnahmen ist immer die konkrete Repräsentation eines Werks. Für die Identi-

fikation von Online-Publikationen bedeutet dies im Interesse an nachvollziehbarer,

zitierfähiger Information, dass jede Repräsentation einen eigenen Persistent Identifier

erhalten muss (siehe Beispiel 10).

284 vgl. http://www.openarchives.org/ore/0.9/primer.html [28.07.2008]. 285 http://arxiv.org/abs/0804.2273v1. 286 http://arxiv.org/ftp/arxiv/papers/0804/0804.2273.pdf. 287 vgl. Lagoze et al. 2008, S. 4.

Page 134: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

120

Beispiel 10: Identifikation und Resolving eines Werkes beim edoc-Server der HU zu Berlin

Dieses Beispiel zeigt die Praxis der URN-Vergabe beim edoc-Server der HU zu Berlin.

Dokumenttyp: Dissertation:

Autor: Sascha A. Ahyai

Titel: Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP) versus Transurethrale Elektrore-

sektion der Prostata (TURP) – eine randomisierte Studie an 200 Patienten mit Prostatae kleiner 100 g

und urodynamisch nachgewiesener Obstruktion

Seite mit Metadaten über die Ressource (Beschreibung der Aggregation)

http://edoc.hu-berlin.de/docviews/abstract.php?lang=ger&id=26526

(kein Persistent Identifier)

Repräsentation im PDF Dateiformat:

urn:nbn:de:kobv:11-10067507

http://nbn-resolving.de/urn:nbn:de:kobv:11-10067507&n2ls

(Der Parameter N2LS bewirkt die Ausgabe einer Liste der URLs, die mit der Ressource verknüpft sind.

Diese URLs sollten immer auf dieselbe Repräsentation weisen, die lediglich an mehreren Standorten

verteilt ist. In diesem Falle wird also korrekt auf die Lokalisation der PDF-Fassung auf dem edoc-Server

und dem Archivserver der DNB verwiesen.)

Repräsentation im HTML-Format:

urn:nbn:de:kobv:11-10067510

http://nbn-resolving.de/urn:nbn:de:kobv:11-10067510&n2ls

(Der Resolver weist auf den URL der Repräsentation der Dissertation auf dem edoc-Server, ein Verweis

auf eine Speicherung auf dem Depositserver der DNB fehlt hier unerwartet.)

Repräsentation in einem XML-Ausgabeformat:

urn:nbn:de:kobv:11-10056775

http://nbn-resolving.de/urn:nbn:de:kobv:11-10056775&n2ls

Zwischen den Objekten wird keine Verbindung über den Persistent Identifier hergestellt. Vorgesehen

sind derartige Relationen (Parameter N2NS) für die Abbildung der Migrationskette (ältere und neuere

Version), z.B.

http://nbn-resolving.de/urn:nbn:de:kobv:11-10067507&n2ns

Dabei sollte der URN für ein Werk keinesfalls die einzelnen Repräsentationen identifi-

zieren, sondern aggregiert ähnlich wie im OAI-ORE-Modell über das Element

isPartOf einen oder mehrere URNs, die ihrerseits jeweils eine Repräsentation eines

Werks identifizieren. Die URN-Vergabepraxis für den edoc-Server führt jedoch dazu,

dass es keinen aggregierenden URN für die einzelnen URNs der Repräsentationen

gibt. Welche Auswirkungen dies für die Zitation hat, wird in Beispiel 11 erörtert.

Beispiel 11: Zitation von Informationsressourcen

Ein Wissenschaftler zitiert in einem Aufsatz für eine medizinische Fachzeitschrift die Dissertation von

Sascha A. Ahyai, die auf dem edoc-Server der HU zu Berlin veröffentlicht wurde.

Webseite mit den Metadaten der Informationsressource:

http://edoc.hu-berlin.de/docviews/abstract.php?lang=ger&id=26526

Page 135: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

121

Er nutzt dazu die Repräsentation des Werkes im HTML-Format, die für eine genaue Lokalisation der

Informationen ein System von Randnummern anstatt einer Seitenzählung besitzt.

Er zitiert unter Verwendung des Persistent Identifiers (URN:NBN) diese Informationsressource:

Im Literaturverzeichnis:

Sascha A. Ahyai: Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP) versus Transurethrale

Elektroresektion der Prostata (TURP) eine randomisierte Studie an 200 Patienten mit Prostatae klei-

ner 100 g und urodynamisch nachgewiesener Obstruktion, Humboldt-Universität zu Berlin, Medizini-

sche Fakultät - Universitätsklinikum Charité, 2006. - URN: urn:nbn:de:kobv:11-10067507

In der Fußnote:

Ahyai 2006, Rn. 57

Ein Leser des elektronischen Dokumentes, der diesem Verweis folgen möchte, wird nun im Literatur-

verzeichnis den URN finden und unter Zuhilfenahme eines Resolvingdienstes den URL für die zitierte

Dokumentfassung ermitteln:

http://nbn-resolving.de/urn:nbn:de:kobv:11-10067507

Das Resolving des URNs führt den Nutzer zum elektronischen Dokument an seinem aktuellen Stand-

ort.

URL:

http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/HTML/ [01.08.2008]

Der Nutzer kann das Dokument nun in einem Internetbrowser betrachten und muss nur noch durch

Auswahl der Randnummer in der angebotenen Auwahlbox zur zitierten Stelle in der Arbeit springen.

Die Auswahl der Randnummer 57 führt zum URL:

http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/HTML/chapter7.html#N14253

Ein anderer Wissenschaftler zitiert in seinem Aufsatz dieselbe Stelle desselben Werkes. Er verwendete

jedoch eine andere Repräsentation, nämlich die PDF-Fassung des Werkes. Diese wird im digitalen

Repositorium mit einem anderen URN identifiziert und die Zitation lautet demzufolge im Literaturver-

zeichnis:

Sascha A. Ahyai: Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP) versus Transurethrale

Elektroresektion der Prostata (TURP) eine randomisierte Studie an 200 Patienten mit Prostatae klei-

ner 100 g und urodynamisch nachgewiesener Obstruktion, Humboldt-Universität zu Berlin, Medizini-

sche Fakultät - Universitätsklinikum Charité, 2006. - URN: urn:nbn:de:kobv:11-10056775

Da im PDF die genaue Stelle einer Information über die Seitenzählung identifiziert wird zitiert er in der

Fußnote:

Ahyai, S. 53

Hier erfolgt die Auflösung für einen Nutzer wieder unter Verwendung des URNs:

http://nbn-resolving.de/urn:nbn:de:kobv:11-10056775

zum aktuellen Standort des PDF-Dokumentes unter dem URL:

http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/PDF/ahyai.pdf

Der Nutzer sucht jetzt mit Hilfe der Navigationsinstrumente des verwendeten PDF-Viewers die zitierte

Seite 57.

Das in Beispiel 11 beschriebene Szenario zeigt eine Methode den Zugriff auf Infor-

mationsressourcen entsprechend den Anforderungen an die dauerhafte Verfügbar-

keit langfristig und dauerhaft sichern zu können, gesetzt den Fall das System wird

permanent gepflegt. Es gibt jedoch ein Problem, da durch die korrekte Verwendung

Page 136: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

122

mehrerer Identifier nun die Zitationen, die auf die unterschiedlichen Repräsentatio-

nen eines Werks weisen, nicht mehr ohne Weiteres dem Werk zuzuweisen sind. Die-

se Abstraktionsebene der Betrachtung eines Informationsobjektes, die aufgrund der

Einführung der Entität Werk als Ressource gerade repräsentierbar wird, wird benö-

tigt, um maschinenprozessierbare Aggregationsdienste zu ermöglichen und bedarf

einer eigenständigen Identifikation. Erst durch diesen zusätzlichen Schritt lassen sich

Werke mit Daten aus Forschungsdatenbanken und wissenschaftliche Primärdaten auf

einer semantisch höheren Ebene, wie sie u.a. im Projekt für die Entwicklung von

OPUS 4 angestrebt werden, miteinander verknüpfen.

Vorgeschlagen werden deshalb folgende, grundlegende Änderungen des Datenmo-

dells von OPUS 4:

1. Änderung der Datenstruktur des Objektspeichers: In OPUS müssen die ge-

speicherten Dateien eine strikte Trennung der Repräsentationen erkennen las-

sen. Eine sehr einfache Lösung wäre es z.B. unterhalb der Ordnerebene

OPUS-ID weitere Unterordner einzurichten, die je eine Repräsentation enthal-

ten, z.B.:

− 1319/1: enthält eine Repräsentation, die aus zwei PDF-Dokumenten des

Werks besteht,

− 1319/2: enthält eine Repräsentation, die aus einer HTML4-Fassung des

Werks besteht,

− 1319/3: enthält eine Repräsentation, die aus einer XHTML1.1-Fassung des

Werks,

− 1919/4: enthält eine Repräsentation, die eine Fassung des Werkes im Erstel-

lungsformat enthält,

− 1319/5: enthält eine Repräsentation, die eine Fassung des Werkes im Archi-

vierungsformat XDiML enthält.

2. Änderung des Modells der Generierung der URNs in OPUS: In OPUS wird

weiterhin ein URN je Datensatz nach dem derzeitigen Modell erzeugt, der das

publizierte Werk identifiziert. Da der NISS flexibel durch den vergebenden

Anwender definierbar ist, werden zusätzlich für jede Repräsentation ein URN

erzeugt, z.B. nach dem NISS-Schema: -opus-[OPUS-ID]-[Nummer der Reprä-

sentation]-[Prüfziffer] oder -opus-[OPUS-ID]-[Identifier des Formats nach

PRONOM]-[Nummer der Repräsentation]-[Prüfziffer]. Die zweite Variante

könnte die Migrationsgeschichte der Repräsentation allein aus dem Identifier

abbilden. Es muss allerdings bezweifelt werden, das sich ein Langzeitarchiv bei

der Erstellung migrierter Fassungen und der Vergabe eines globalen Persistent

Identifiers an lokale Vorgaben halten wird, die Aussagen über die Struktur der

Repräsentation bereits aus dem verwendeten Identifier selbst zulassen.

Page 137: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

123

Beispiele:

− urn:nbn:de:kobv:517-opus-13190 (URN des Werks)

− urn:nbn:de:kobv:517-opus-1319-1-0 (Rep288-1)

− urn:nbn:de:kobv:517-opus-1319-2-6 (Rep-2)

− urn:nbn:de:kobv:517-opus-1319-3-2 (Rep-3)

− urn:nbn:de:kobv:517-opus-1319-4-9 (Rep-4)

− urn:nbn:de:kobv:517-opus-1319-5-5 (Rep-5)

− (urn:nbn:de:kobv:517-opus-1319-fmt103-1-8 (Beispiel mit Kodierung des

Dateiformats, durch Verwendung des Identifiers aus der PRONOM Techni-

cal Registry, eigentlich fmt/103 für XHMTL 1.1)) 289

Die Startseite könnte aus Praktikabilitätsgründen und der Nutzungsfreundlichkeit

vom Resolver weiterhin zu der Einstiegsseite aufgelöst werden, auch wenn das dem

Modell an sich zuwiderläuft. Ob sich eine derartige behelfsmäßige Lösung tatsächlich

durchsetzen könnte, die konzeptionell falsch, aber praktikabel ist, muss ein Diskurs in

der Entwicklungsgemeinschaft zeigen.

4.1.3.3 Der Einsatz von ARKs als alternatives Bezeichnungssystem

Eine Alternative bzw. Ergänzung zur Verwendung von URNs aus dem Namensraum

NBN stellt das Bezeichnungssystem Archival Resource Key (ARK) dar. Das ARK-

Konzept wurde von John Kunze und R.P.C. Rogers in Fortsetzung einer Studie über

persistente Bezeichnungssysteme für die US National Library of Medicine (NLM)

entwickelt und ist inzwischen bei der California Digital Library (CDL) der University of

California angesiedelt, die das System für den produktiven Einsatz nutzt.290 Ein erster

Vorschlag wurde im Februar 2001 veröffentlicht, derzeit liegt eine Spezifikation mit

dem Stand vom 22. Mai 2008 vor. 291

ARK bietet ein vollständiges Rahmenwerk für die Implementierung eines Bezeich-

nungssystems, einschließlich der ursprünglich für das ARK-System konzipierten Re-

solvinglösung Name-to-Thing (N2T)-Resolver292 und eine automatisierte Lösung zur

Generierung von ARKs mit dem Noid (Nice Opaque Identifier) Minting and Binding

Tool.293

288 Rep: Repräsentation. 289 Für die Berechnung der Prüfziffer wurde folgendes Online-Formular genutzt: http://nbn-resolving.de/nbnpruefziffer.php [03.08.2008]. 290 Hilse et al. 2006, S. 26. 291 Spezifikation des ARK Schemas: http://www.cdlib.org/inside/diglib/ark/arkspec.html [28.07.2008]. 292 http://n2t.info/ [28.07.2008]. 293 siehe http://www.cdlib.org/inside/diglib/ark/ [29.07.2008], Fn. 3.

Page 138: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

124

ARK-Syntax:

Die ARK-Synatx lehnt sich an die Notationsweise von URNs an.

[http://NMAH/]ark:/NAAN/Name[Qualifier]

NMAH: Name Mapping Authority Hostport

ark: ARK-Label

NAAN: Name Assigning Authority Number

Name: NAA-assigned

Qualifier: NMA-supported

Beispiele:

http://n2t.info/ark:/13030/kt109nc3tr/

Die Verwendung des ARK-Systems bietet Vorteile, die andere Bezeichnersysteme

nicht aufweisen.

1. Für ARKs gibt es ein definiertes Verfahren für die Prüfung, ob ein ARK dassel-

be Objekt bezeichnet wie ein anderer.

2. Im ARK-System ist ein einfaches Schema für das Retrieval deskriptiver Meta-

daten in Form einer Electronic Resource Citation (ERC) beim Resolving imple-

mentiert, das auf dem Dublin Core Kernel Metadata Element Set aufbaut,

z.B.:294

http://ark.cdlib.org/ark:/13030/kt109nc3tr/??

3. ARKs besitzen eine definierte Syntax zur Ausweisung von Objekthierarchien

und -versionen:

http://example.org/ark:/12025/654xz321/s3/f8.05v.tiff

“.“: identifiziert die Version

“/“ identifiziert Hierarchie

Die Abbildung der Versionen und Hierarchie im Bezeichner selbst würde einen ent-

scheidenden Nachteil der NBNs überwinden. Selbst wenn man in OPUS das hier vor-

geschlagene System für die Abbildung von Werk und Repräsentation einführen wür-

de, wäre diese Lösung begrenzt auf die Anwender von OPUS. In ARKs sind diese

Relationen jedoch global definiert. Denkbar wäre z.B., dass man für die Ebene Werk

einen ARK vergibt und für die Bezeichnung der Repräsentationen am URN-System

festhält. Dann ließen sich derartige Beziehungen über den Identifier abbilden:

http://ark-resolving.de/ (NMAH)

als NAAN sollte die DNB fungieren (Wert hier: 12345)

ark:/12345/kobv/517/1319/ (ARK für ein Werk)

ark:/12345/kobv/517/1319/01.urn:nbn:de:kobv:517-opus-1319-1-0 (Rep-1)

294 http://dublincore.org/groups/kernel/ [28.07.2008].

Page 139: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

125

ark:/12345/kobv/517/1319/02.urn:nbn:de:kobv:517-opus-1319-2-6 (Rep-2)

ark:/12345/kobv/517/1319/03.urn:nbn:de:kobv:517-opus-1319-3-2 (Rep-3)

ark:/12345/kobv/517/1319/04.urn:nbn:de:kobv:517-opus-1319-4-9 (Rep-4)

ark:/12345/kobv/517/1319/05.urn:nbn:de:kobv:517-opus-1319-5-5 (Rep-5)

ark:/12345/kobv/517/1319/01.urn:nbn:de:1111-20040330226 (Rep-6)

Die Repräsentation Rep-6 sei eine migrierte Fassung der Repräsentation Rep-1.

Selbst wenn der URN nicht der Syntax entspricht, die in OPUS lokal für die Abbil-

dung von Hierarchien vorgesehen war, kann bei Verwendung von ARKs der URN

trotzdem im System eingeordnet werden, und zwar in einer Art und Weise, die glo-

bal gültig ist.

Die Verwendung von ARKs erleichtert auch semantisch hochwertige Verknüpfungen

von Ressourcen durch Ressource Maps nach OAI-ORE (siehe Abbildung 23). Die

Aggregation kann beliebige Informationsressourcen miteinander verknüpfen, unab-

hängig davon, in welchem Repositorium die digitalen Objekte verfügbar gemacht

werden. Die Kombination aus ARKs und OAI-ORE erleichtert die Anbindung der

publizierten Dokumente digitaler Repositorien an wissenschaftliche Primärdaten und

Forschungsdatenbanken.

Abbildung 23: OAI-ORE Resource Map einer Online-Publikation (Verwendung von ARK und URN)

Page 140: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

126

4.1.4 Zwischenergebnis

Die Implementierung von URNs in digitale Repositorien sollte im Hinblick auf die kor-

rekte Umsetzung der Entitätsbeziehungen, insbesondere von Werk und Repräsenta-

tion überarbeitet werden.

Aufgrund der Vorteile des Bezeichnersystems ARK bei der Abbildung von Objektrela-

tionen sollte eine Unterstützung, insbesondere von der DNB (Registrierung, Resol-

ving), digitalen Repositorien (durch DINI) und digitalen Langzeitarchivierungsinstitu-

tionen (inklusive nestor) geprüft werden.

Die Unterstützung von OAI-ORE sollte mittelfristig geprüft werden.

4.2 Metadaten zur Dokumentation vertrauenswürdiger digitaler Objekte

“Although metadata are vital for long-term preservation of digital material, the

creation of metadata is a costly business. Adding qualified metadata requires special

skilled professionals and checking of these metadata; for example the creation of

bibliographic metadata cannot always take place automatically. The perfect moment

to collect metadata is when the objects are created. Several software programs

automatically add metadata like size, creation, software and version.”

(Sierman 2008 – Long-term preservation for institutional repositories, S. 173)

Beschreibende Informationen werden bereits verwendet, seitdem es die Sprache gibt, um

Dinge aus der unverstandenen und ungeschiedenen Vielfalt der umgebenden Welt in die

Vorstellungswelt der Begriffe, Objekte, Kategorien und Beziehungen zu heben. Je struktu-

rierter diese beschreibenden Informationen niedergelegt werden, desto eher können sie in

informationstechnischen Systemen zur Identifikation und zum Wiederauffinden von Objek-

ten genutzt werden.

Digitale Objekte benötigen zu ihrer Verwendung darüber hinausgehend jedoch zusätzliche

Informationen in Form von Metadaten, die ihnen aufgrund ihrer für menschliche Sinnesor-

gane nicht wahrnehmbaren Beschaffenheit zur Beschreibung beigefügt werden müssen.

„Diese Beschreibung muss im Gegensatz zu den bis dahin üblichen Verfahrensweisen nicht

nur einen Datensatz für das gesamte Dokument beinhalten, sondern außerdem einzelne Do-

kumentbestandteile und ihre Abhängigkeiten zueinander beschreiben“.295

295 Enders 2008, S. 10-1f.

Page 141: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

127

Definitionen:

Metadaten sind strukturierte Informationen zur Beschreibung von Inhalt, physischer Beschaf-

fenheit, Lokalisation, Typ, Form, Struktur, Verwaltung und Provenienz von digitalen Objek-

ten. Die Verwendung standardisierter Metadaten erleichtert Retrieval, Nutzung und Admi-

nistration von Informationsressourcen.

Metadaten werden auf verschiedenste Art und Weise klassifiziert und z.B. in deskrip-

tive, administrative, strukturelle, technische Metadaten oder Langzeitarchivierungs-

metadaten eingeteilt.296 Langzeiterhaltungsmetadaten beschreiben die wesentlichen

Eigenschaften eines digitalen Objektes, die es zu erhalten gilt.

“Preservation metadata […] is the information necessary to maintain the

viability, renderability, and understandability of digital resources over the

long-term. Viability requires that the archived digital object’s bit stream is

intact and readable from the digital media upon which it is stored. Ren-

derability refers to the translation of the bit stream into a form that can be

viewed by human users, or processed by computers. Understandability in-

volves providing enough information such that the rendered content can

be interpreted and understood by its intended users”.297

Um Metadaten über Informationssysteme auszutauschen bedarf es standardisierter

Metadatenformate, die von einem Sender und Empfänger unterstützt und auf die

gleiche Art und Weise interpretiert werden können. Dazu bedarf es einer abstrakten

Datenmodellierung. Soll diese auch maschinenprozessierbar sein, muss das Daten-

modell in eine strukturierte Syntax übertragen werden. Momentan werden dazu

XML-Schemata verwendet, anhand derer überprüft werden kann, dass das XML-

Ausgabedokument eines Datenlieferanten dem vereinbarten Format entspricht.

Beispiele für Metadatenformate:

− deskriptive Metadatenformate: DC simple, MODS, EPrints DC XML, MARCXML,

MABXML

− strukturelle Metadatenformate: METS, MPEG-21 DIML

− Formate für Langzeiterhaltungsmetadaten: PREMIS, LMER

Die Formate werden hier nicht im Einzelnen vorgestellt. Beschreibungen der einzel-

nen Formate sind in der Fachliteratur bereits vielfältig vorhanden.298 Für eine verglei-

chende Auflistung struktureller Auszeichnungsformate, einschließlich von Dokument-

formaten, siehe Anhang E.

296 siehe http://www.nla.gov.au/padi/topics/30.html [03.08.2008]; http://hul.harvard.edu/ois/digproj/metadata-standards.html#preservation [03.08.2008]. 297 (OCLC 2002, S.1 298 siehe ANSI/NISO 2004; Allinson et al. 2007; Enders 2008; Bekaert et al. 2003.

Page 142: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

128

Beabsichtigt ein Dienst seine Daten möglichst großflächig und flexibel zu verteilen

und viele Empfänger zu bedienen, müssen diese Formate dynamisch aus der Meta-

datenverwaltung erzeugt werden können, d.h. die Metadaten müssen in einer Da-

tenbank in strukturierter Form vorgehalten und auf Anfrage in der entsprechenden

Struktur ausgegeben werden.

Hier sollen weder konkrete Vorschläge unterbreitet werden, welche Metadaten we-

sentlich sind, noch welches Datenmodell oder welche Metadatenformate konkret

unterstützt werden sollen. Dies würde dem synoptischen Charakter dieser Studie wi-

dersprechen. Um eine handlungsorientierte Diskussion anzuregen, soll hier der für

den Verfasser wesentliche Aspekt der Abbildung von Dokumentbeziehungen und

persistenten Identifikatoren in den Metadaten angeführt werden:

4.2.1 Abbildung von Beziehungen in Metadatenformaten

Ein Metadatenformat muss die funktionalen Beziehungen des beschriebenen Objekts

abbilden können. Diese umfassen die Beziehungen von Objektteilen und den Kon-

text des Objektes in Form seiner Ableitungen und Abhängigkeiten in seiner Umge-

bung. Diese Informationen sind hilfreich, um die langfristige Benutzbarkeit digitaler

Objekte zu sichern.

Demzufolge lassen sich drei Beziehungstypen unterscheiden:

1. strukturelle Beziehungen: Beziehungen zwischen mehreren Dateien müssen

abgebildet werden, um ihren Informationsgehalt zu rekonstruieren.

2. abgeleitete Beziehungen: Dieser Beziehungstyp betrifft Informationen, die die

Ableitung eines Dokumentes aus einem anderen betreffen, z.B. Formatmigra-

tionen.

3. Abhängigkeitsbeziehungen: Dieser Beziehungstyp betrifft Informationen über

Objekte, die benötigt werden, um das Bezugsobjekt darstellen zu können,

z.B. eine Stylesheetdatei für ein XML-Dokument.299

Die Erkenntnisse aus Kapitel 4.1 aufgreifend muss ein Format wenigstens die Struktur

einer Repräsentation abbilden und unterschiedliche Repräsentationen voneinander

abgrenzen können. Dazu sind Formate geeignet, die für die Abbildung komplexer

Objektbeziehungen konzipiert wurden. Momentan sind dies METS und MPEG-21

DIDL. Beide Formate sind als Containerformate konzipiert, die mit Hilfe von

Extension Schemas weitere Formate integrieren können. Eine Integration ist immer

dann erforderlich, wenn neben der Hauptfunktion, also der Strukturierung von digi-

talen Objekten, weitere Informationen zu transportieren sind, die von dem Schema

nicht erfasst werden. Dazu kann in METS z.B. DC für die Integration deskriptiver Me-

299 vgl. PREMIS 2008, S. 13f.; Knight 2008, S. 13.

Page 143: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

129

tadaten und PREMIS oder LMER zur Integration von Langzeitarchivierungsmetadaten

verwendet werden. Erst durch die Integration entsteht ein vollständiges Ausgabe-

format in Form eines Anwendungsprofils (engl.: application profile). Das in kopal

verwendete Format UOF ist z.B. ein Anwendungsprofil, das LMER und ein beliebiges

deskriptives Metadatenformat in METS integriert.300

Abbildung 24: Struktur eines METS-Dokumentes

Abbildung 25: Struktur eines DIDL-Dokuments

300 Zur Spezifikation von UOF siehe Steinke 2006.

Page 144: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

130

Die Grobstruktur eines XML-Dokumentes, das einem Anwendungsprofil entspricht,

wird durch das Containerformat bestimmt (siehe die Struktur eines METS-

Dokumentes in Abbildung 24 und das Schema eines DIDL-Dokumentes Abbildung

25). Wie die Objektbeziehungen tatsächlich ausgestaltet werden, definiert das Appli-

cation Profile.

Üblicherweise enthält das Element structMap die Struktur eines digitalen Objekts,

z.B. Monographie, Vorwort, Kapitel, Unterkapitel entsprechend ihrer hierarchischen

Gliederung. In einem METS-Dokument darf das strucMap-Element beliebig oft wie-

derholt werden. Für das ECHO Dep Generic METS Profile for Preservation and Digital

Repository Interoperability, das bei der LoC offizielle registriert ist und für den Aus-

tausch von wissenschaftlichen Online-Publikationen konzipiert wurde, ist z.B. festge-

legt, dass jedes structMap-Element die Struktur genau einer Repräsentation eines

Werkes enthält.301 Das bedeutet, dass bei Verwendung dieses Application Profiles die

Übertragung der Beschreibung mehrerer Repräsentationen und die graph-basierte

Darstellung der Struktur getrennt nach Repräsentationen möglich ist (siehe

Abbildung 26302, die eine Visualisierung des METS-Dokumentes in Anhang D. I dar-

stellt).

Abbildung 26: Abbildung von Repräsentationen in einem METS-Dokument

301 Spezifikation des ECHO Dep Application Profiles unter http://www.loc.gov/standards/mets/profiles/00000015.html [03.08.2008]. 302 Zur Erstellung der Abbildung wurde der METS Visualyzer unter http://gita.grainger.uiuc.edu/metsviz/grapher.htm [03.08.2008] verwendet.

Page 145: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

131

Die XML-Daten der structMap, die in Abbildung 26 visualisiert sind:

<structMap TYPE="ALTERNATE_STRUCTMAP">

<div DMDID="d01 d02 d03" ADMID="ad01">

<fptr FILEID="ad01_f0001"/>

</div>

</structMap>

<!--Dies soll die Struktur der lediglich archivierten MS Word-Fassung für die

Archvierung des Inhaltes darstellen (1 MS Word-Datei im doc-Format (Word 2003)).

-->

<structMap TYPE="PRIMARY_STRUCTMAP">

<div DMDID="d01 d02 d03" ADMID="ad02 event01">

<fptr FILEID="ad02_f0001"/>

<fptr FILEID="ad02_f0002"/>

</div>

</structMap>

Man kann diese Beziehungen alternativ oder zusätzlich auch in den PREMIS-

Metadaten, die innerhalb des METS-Elements amdSec eingebettet sind (PREMIS wird

im ECHO DEP Profile unterstützt), abbilden.

Für das Element relationshipType werden im PREMIS Data Dictionary die folgen-

den Wertausprägungen vorgeschlagen:

structural = a relationship between parts of an object

derivation = a relationship where one object is the result of a transformation performed on the related

object

Für das Element relationshipSubType werden im PREMIS Data Dictionary die fol-

genden Wertausprägungen vorgeschlagen:

has sibling = the object shares a common parent with the related object

is part of = the object is contained by the related object (when these are the same entity types)

has part = the object contains the related object (when these are the same entity types)

is source of = the related object is a version of this object created by a transformation

has source = the object is derived from the related object as a result of a transformation

has root = for a representation only, the related object is the file that must be processed first in order

to render the representation

includes = for the relationship of a representation to a file, , or a file to a bitstream, the described ob-

ject includes the referenced object

is included in = for the relationship of a file to a representation, or a bitstream to a file, the described

object is included in the referenced object

Page 146: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

132

Für das oben genannte Beispiel kann man demzufolge folgende Beziehungen model-

lieren:

<objectIdentifier>

<objectIdentifierType>URN</objectIdentifierType>

<objectIdentifierValue>urn:nbn:de:kobv:11-10067507</objectIdentifierValue>

</objectIdentifier>

<objectCategory>REPRESENTATION</objectCategory>

<relationship>

<relationshipType>derivation</relationshipType>

<relationshipSubType>has sibling</relationshipSubType>

<relatedObjectIdentification>

<relatedObjectIdentifierType>URN</relatedObjectIdentifierType>

<relatedObjectIdentifierValue>urn:nbn:de:kobv:11-10067510

</relatedObjectIdentifierValue>

<relatedObjectSequence>1</relatedObjectSequence>

</relatedObjectIdentification>

</relationship>

In der obigen XML-Struktur wird das beschriebene Objekt mit dem Identifier

urn:nbn:de:kobv:11-10067507 zu dem Objekt urn:nbn:de:kobv:11-10067510 über

das PREMIS-Element relationship in Beziehung gesetzt, und zwar dergestalt, dass

die beschriebenen Objekte durch Formatmigration aus einem Elternobjekt hervorge-

gangen sind, in diesem Fall wäre das Elternelement ein XDiML-Dokument, das sei-

nerseits aus einem Worddokument abgeleitet ist. Die Spezifikation der Eigenschaften

der Beziehung kann im PREMIS-Format sehr viel genauer als mit den Mitteln von

METS erfolgen. Dies erklärt sich aus der unterschiedlichen Zielsetzung der Formate.

METS soll die Struktur von Objekten abbilden, PREMIS dagegen Daten darstellen,

die die Benutzbarkeit eines Objekts für einen langen Zeitraum sicherstellen soll.

PREMIS erlaubt darüber hinaus eine Relation des Identifikators einer Repräsentation

zu einem Identifikator, der das Werk identifiziert. Gesetzt der Fall, das Attribut OBJID

im Header eines METS-Dokumentes ist der Persistent Identifier eines Werkes, dessen

Repräsentation in einem METS-Dokument beschrieben wird:

<mets xmlns="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink"

xmlns:mods="http://www.loc.gov/mods/"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:pc="http://www.ddb.de/standards/pc/"

xmlns:urn="http://www.ddb.de/standards/urn/"

OBJID="ark:/12345/1319/kobv:11/26526">

kann das beschriebene Objekt über das PREMIS-Element

linkingIntellectualEntityIdentifier

mit dem Identifier des Werkes verknüpft werden, z.B.

<linkingIntellectualEntityIdentifier>ark:/12345/1319/kobv:11/26526

</linkingIntellectualEntityIdentifier>

Page 147: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

133

Ebenso wie für METS könnten die gleichen Beziehungen auch in MPEG-21 DIDL ab-

gebildet werden, wenn das PREMIS-Schema in ein DIDL-Anwendungsprofil einge-

bunden wird.

Ein Metadatenprofil sollte mithin derartige Beziehungen konzeptionell definieren und

abbilden können. Momentan unterstützen viele Ausgabeprofile diese Relationen je-

doch nicht. So wird in der Spezifikation eines SIPs in DAITSS einfach unterstellt:

„Each SIP is assumed to contain all the Data Files necessary to render at

least one representation of a single Intellectual Entity“.303

4.2.2 Abbildung von Objektrelationen in UOF und koLibRI

Auch das Datenmodell des Universellen Objektformats (UOF), das in kopal verwen-

det wird, sieht soweit ersichtlich keine Trennung der Repräsentationen oder die Iden-

tifikation des Werks vor.304 Jedenfalls lassen weder die von koLibRI erzeugten Test-

dokumente, noch die im Internet verfügbaren Beispieldokumente Strukturelemente

erkennen, die eine semantische Trennung der Dateien entsprechend ihrer Zugehörig-

keit zu einer Repräsentation erkennen lassen. Ein UOF-Beispieldokument der DNB

weist zwei structMap- Elemente des METS-Teils aus:305

<structMap TYPE="ASSET">

<div ORDER="1" LABEL="File list" TYPE="ASSET">

<fptr FILEID="FILE0001"/>

<fptr FILEID="FILE0002"/>

<fptr FILEID="FILE0003"/>

</div>

</structMap>

<structMap TYPE="LOGICAL">

<div>

<div ORDER="1" LABEL="973908904.pdf">

<fptr FILEID="FILE0001"/>

</div>

<div ORDER="2" LABEL="ddbmd5.txt">

<fptr FILEID="FILE0002"/>

</div>

<div ORDER="3" LABEL="meta.txt">

<fptr FILEID="FILE0003"/>

</div>

</div>

</structMap>

Diese lassen jedoch auf keine Unterscheidung von Repräsentationen schließen.

Die Ausgabe von koLibRI sagt allerdings noch nichts darüber aus, ob das Format die

Fähigkeit zur Beschreibung einer Eigenschaft abdeckt. Allerdings weisen auch die

303 Florida Center for Library Automation 2007, S. 4. 304 siehe die Spezifikation von UOF Steinke 2006. 305 http://kopal.langzeitarchivierung.de/downloads/kopal_UOF_DDB_mets.xml [28.07.2008].

Page 148: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

134

Formatspezifikationen nicht auf eine Unterstützung hin. Lediglich in der Formatbe-

schreibung von LMER, deren Strukur im amdSec-Teil im Unterelement techMD ein-

gebettet wird, gibt es einen Hinweis auf Objektversionen:

„Objektversion (objectVersion)

Definition: Wenn es verschiedene Archivobjekte desselben Originalobjekts gibt (als

Folge einer internen Migration), dann findet sich hier ein schneller Indikator für die

Version.

Benutzte Standards: -

Datentyp: String

Beispiel: 2

Bemerkung: Hiermit ist keine inhaltliche Version gemeint, sondern nur die technisch

andere Darstellung des gleichen Objekts. Wird bei einer Migration die Ausgangsdatei

behalten (hängt vom Depotsystem ab), dann hat das neue Objekt (Ergebnis der Mig-

ration) einen eigenen Datensatz an LMER-Daten. In diesen findet sich in den Pro-

zess-Abschnitten die Beschreibung der Änderung, nicht in den LMER-Daten des noch

im Depotsystem vorhandenen, aber unveränderten Ausgangsobjekts.“306

Hier wird jedoch nur eine Aussage für das LMER-Format getroffen. Das Kriterium

wird in der UOF-Spezifikation nicht weiter ausgeführt. Daraus folgt, dass bereits das

Format UOF Repräsentationen nicht unterstützt, so dass ein Anwendungsprogramm

wie koLibRI, soweit Archivpakete unter Verwendung von UOF generiert werden,

keine Unterstützung für die Abbildung von Repräsentationen bieten.

Neben dieser allgemeinen Limitierung kommt hinzu, dass das verwendete Werkzeug

JHOVE, das zur Extraktion der Strukturmetadaten der digitalen Objekte verwendet

wird, Repräsentationen nicht unterstützt. Erst die Version 2 des Programms sollte als

wesentliche Neuerung Funktionen enthalten, mit denen Strukturmetadaten für Rep-

räsentationen erstellt werden sollten.

„In the JHOVE2 data model a digital object is equivalent to a PREMIS representation, “a set

of files [each containing one or more formatted bit streams] ... needed for a complete and

reasonable rendition of an Intellectual Entity.” Thus JHOVE2 will support the general case:

1 object = n files = m formats”307

Bedauerlicherweise scheint die offizielle Entwicklung von JHOVE 2 derzeit zu ru-

hen.308 Die neue Version wird auch insofern dringend erwartet, als die Planung auf

eine Rekonfiguration des Output Handlers auf eine Ausgabe eines METS-konformen

306 Steinke 2005, S. 11. 307 vgl. JHOVE 2 2006, S. 2. 308 Jedenfalls gibt es keinerlei Informationen bezüglich des Entwicklungsstands von JHOVE 2 unter http://hul.harvard.edu/jhove/ [03.08.2008].

Page 149: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

135

Formates gerichtet war.309 Momentan ist die XML-Ausgabe von JHOVE nicht stan-

dardisiert. Der Quellcode von JHOVE ist unter einer LGPL (Lesser General Public Li-

cense) veröffentlicht und steht in Sourceforge zur kooperativen Weiterentwicklung

zur Verfügung.310

Momentan würde koLibRI die Abbildung von Repräsentationen nicht nativ unter-

stützen. Informationen über Beziehungen könnten allerdings über ein deskriptives

Metadatenformat, wie DC Qualified in ein UOF-Dokument integriert werden. Dies

würde jedoch voraussetzen, dass derartige Informationen im Datenmodell des Sys-

tems vorhanden wären, das koLibRI im Zuge der Paketerstellung abfragt.

Konsequenzen für die OPUS-Entwicklung

Für OPUS bedeutet dies, dass die Implementierung von koLibRI allein noch keine

qualitative Verbesserung der Metadaten mit sich bringen wird. Informationen über

die im System gespeicherten Repräsentationen können auch nicht über DC Qualified

ausgegeben werden, weil diese in der Metadatenverwaltung nicht vorgehalten wer-

den. Dies könnte sich ändern, wenn das Datenmodell entsprechend dem Vorschlag

in Kapitel 4.1 für die Unterstützung einer URN-Vergabe für Repräsentationen ange-

passt wird.

4.2.3 Abbildung von Objektrelationen in XMetaDiss

XMetaDiss ist ein Ausgabeformat, das nativ von OPUS unterstützt wird. Dieses For-

mat wurde für die Ablieferung von Online-Hochschulschriften konzipiert und ist auf

die Abbildung von Dissertationen und Habilitationsschriften limitiert.311 Mit XMeta-

DissPlus steht allerdings ein Ausgabeformat in OPUS nativ zur Verfügung, das das

Spektrum der Dokumentarten, die via XmetaDissPlus ausgegeben werden können,

erweitert.312

Das Format nutzt hierarchische Objektstrukturen zur Vermeidung von Zuordnungs-

fehlern. Objektversionen können über das DCterms-Element dcterms:isVersionOf

ausgezeichnet werden. Ein Beispieldatensatz weist jedoch aus, dass hier die Referen-

zierung inhaltlich veränderter Fassungen gemeint sein muss.313

Hier ein Auszug aus dem Datensatz, der die möglichen Relationen darstellt:

<dcterms:isVersionOf

xsi:type="dcterms:URI">http://www.beispiel.de/vorlaeufige_Ausgabe.html

</dcterms:isVersionOf>

<dcterms:hasVersion xsi:type="ddb:ISBN">3-012-234567, 2., überarbeitete Ausgabe

</dcterms:hasVersion>

309 JHOVE 2 2006, S. 1. 310 http://sourceforge.net/projects/jhove/ [03.08.2008]. 311 siehe http://www.d-nb.de/standards/xmetadiss/xmetadiss.htm [03.08.2008]. 312 http://www.bsz-bw.de/xmetadissplus/ [03.08.2008]. 313 siehe das Beispiel unter http://www.d-nb.de/standards/xmetadiss/vollbeispiel.xml [03.08.2008].

Page 150: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

4 Ausgewählte Handlungsfelder der digitalen Langzeitarchivierung

136

<dcterms:isReplacedBy xsi:type="ddb:noScheme">Neuausgabe</dcterms:isReplacedBy>

<dcterms:replaces

xsi:type="dcterms:URI">http://www.beispiel.de/aeltere_Ausgabe.htm

</dcterms:replaces>

<dcterms:isRequiredBy xsi:type="ddb:noScheme">Name der Ressource, die eine

Datenbank benötigt (die Datenbank ist in der Hochschulschrift enthalten)

</dcterms:isRequiredBy>

<dcterms:requires xsi:type="ddb:noScheme">Name der Ressource, die eine Datenbank

enthält, die Hochschulschrift benötigt diese Datenbank für ihre Funktionalität

</dcterms:requires>

<dcterms:isPartOf xsi:type="ddb:noScheme">Name der Gesamtausgabe (ein Teil davon

ist die Hochschulschrift) </dcterms:isPartOf>

<dcterms:hasPart xsi:type="ddb:noScheme">Name der Ressource, die eine Teil der

Hochschulschrift ist.</dcterms:hasPart>

<dcterms:isReferencedBy

xsi:type="dcterms:URI">http://www.beispiel.de/reference.htm

</dcterms:isReferencedBy>

<dcterms:references

xsi:type="dcterms:URI">http://www.beispiel.de/Grundlagenwerk.pdf

</dcterms:references>

<dcterms:isFormatOf xsi:type="ddb:noScheme">Name der gedruckten Ressource, die

anschliessend als Hochschulschrift online erschienen ist </dcterms:isFormatOf>

<dcterms:hasFormat xsi:type="ddb:noScheme">Name der gedruckten Ressource, die

nach der Online-Hochschulschrift erschienen ist</dcterms:hasFormat>

<dcterms:conformsTo

xsi:type="dcterms:URI">http://www.beispiel.de/Dokumentenstandard.pdf

</dcterms:conformsTo>

Folglich ist auch das Format XMetaDiss derzeit nicht in der Lage die Anforderungen

für eine Unterstützung einer Ausgabe qualifizierter Objektbeziehungen zu erfüllen.

4.2.4 Ergebnis

Das Problem der Abbildung von Objektrelationen, die Repräsentationen einschlie-

ßen, ist auch durch die geplante Einführung von koLibRI nicht ohne Weiteres gelöst.

Vielmehr muss sowohl in den Quellcode von koLibRI als auch in den Quellcode von

JHOVE sowie in das Datenmodell von OPUS massiv eingegriffen werden.

Eine derartige Anpassung des Datenmodells von OPUS ist auch dringend erforder-

lich, um die Vergabe von URNs für Repräsentationen zu bewerkstelligen.

UOF ist als Austauschformat für Langzeitarchivierungsmetadaten momentan nur

eingeschränkt zu empfehlen. Ein Ausgabeformat, das den Anforderungen gerecht

wird, ist dagegen das ECHO Dep Generic METS Profile for Preservation and Digital

Repository Interoperability.

Page 151: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

137

5 Resümee und Ausblick

Die ausführliche Ausgestaltung eines jeden Kapitels dieser Arbeit, insbesondere der

hier nur angerissene Themenbereich Metadaten, hätte Gegenstand eines eigenstän-

digen Forschungsberichts sein können. Die in kursorischer Form erarbeitete Darstel-

lung gibt jedoch einen Arbeitsplan für die weitere Entwicklung verteilter digitaler Re-

positorien vor und wird vielleicht schon in der nächsten OPUS-Version seinen Nie-

derschlag in konkreten Umsetzungen finden können.

Als wesentliche Erkenntnis dieser Arbeit ist festzuhalten:

Immer mehr bewahrungswürdige, wissenschaftliche Informationen liegen in aus-

schließlich digitaler Form vor. Der Fragilität digital repräsentierter Informationen müs-

sen besondere Schutzmaßnahmen entgegengesetzt werden. Für den Bereich von

Online-Publikationen, die auf digitalen Repositorien veröffentlicht wurden, bietet sich

die Kooperation mit einem digitalen Langzeitarchiv an. Sollen Erhaltungsmaßnahmen

in einer kooperativen Umgebung Erfolg haben, müssen Aufgaben und Verantwort-

lichkeiten koordiniert werden. Dies setzt das Vorhandensein eines Erhaltungsplans

voraus, in dem die Aktivitäten der Kooperationspartner an den Vorgaben des OAIS-

Referenzmodells ihrem spezifischen Anforderungsprofil entsprechend ausgerichtet

sind. Die Einhaltung der Anforderungen durch ein digitales Repositorium kann im

Wege eines Zertifizierungsverfahrens anhand des DINI-Kriterienkatalogs für Doku-

menten- und Publikationsservices erfolgen. Der Kriterienkatalog bedarf einer perma-

nenten Anpassung entsprechend den sich ändernden technischen und organisatori-

schen Rahmenbedingungen, die sich an internationalen Standards und Entwicklun-

gen orientiert, um den Interoperabilitätsanforderungen einer international organisier-

ten Wissenschaftsgemeinde Rechnung zu tragen.

5.1 Fortschreibung der Kriterien des DINI-Zertifikats

Es werden folgende Ergänzungen des DINI-Kriterienkatalogs hinsichtlich der Anfor-

derungen an die digitale Langzeitverfügbarkeit der elektronischen Dokumente vorge-

schlagen (betrifft nur Aspekte, die in dieser Arbeit behandelt wurden):

Mindestandards

− OAIS-Referenzmodell: Das digitale Repositorium orientiert sich hinsichtlich der

Konzeption zur Sicherung der Langzeitverfügbarkeit an den Funktionen und Ab-

läufen des OAIS-Referenzmodells und bereitet eine Kooperation mit einem digita-

len Langzeitarchiv zur Sicherung der veröffentlichten Dokumente vor.

− Persistent Identifier: Das digitale Repositorium vergibt für jede Repräsentation

eines elektronischen Dokumentes sowie die Werkebene persistente Identifikato-

ren.

Page 152: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

5 Resümee und Ausblick

138

− Metadaten: Das digitale Repositorium hält in seinem System Metadaten vor, die

eine Abbildung der Beziehungen eines elektronischen Dokumentes zu inhaltsglei-

chen Repräsentationen und inhaltlich veränderten Versionen ermöglicht.

Empfehlungen

− Ausgabeformate: Das digitale Repositorium liefert über eine geeignete Schnittstel-

le ein komplexes Austauschformat aus, das die Kooperation mit einem digitalen

Langzeitarchiv ermöglicht, z.B. in einem Format entsprechend dem ECHO Dep

Generic METS Profile for Preservation and Digital Repository Interoperability.

− Schnittstellen: Das digitale Repositorium stellt eine Schnittstelle bereit, die eine

Übertragung der Metadaten und Objekte einzelner Dokumente oder Dokument-

kollektionen zu Zwecken der digitalen Langzeitarchivierung erlaubt, z.B. eine

SRU/SRW-Schnittstelle oder einen anderen Webservice.

− OAI-ORE: Das digitale Repositorium implementiert Resource Maps gemäß dem

OAI-ORE-Standard zur semantischen Verknüpfung von Informationsressourcen

und stellt diese im Atomformat, in RDF/XML oder RDFa zu Zwecken der Lang-

zeitverfügbarkeit von Informationsressourcen zur Verfügung.

5.2 Vorschläge bezüglich der OPUS-Entwicklung

In OPUS sollte eine getrennte und definierte Speicherung von Objektversionen ein-

geführt werden.

Das Verfahren zur Erzeugung von URNs sollte dergestalt modifiziert werden, dass

sowohl für die Werkebene als auch für alle (auch künftige) Repräsentationen URNs

in der Form von NBNs vergeben werden können.

Die vorgesehene Integration des Werkzeugs koLibRI und die Bereitstellung eines

Moduls zur Anbindung an das Langzeitarchivierungssystem kopal ist grundsätzlich zu

begrüßen. Die Implementierung sollte allerdings unter Berücksichtigung von not-

wendigen zweckmäßigen Anpassungen der Software erfolgen, die die Unterstützung

von Repräsentationen im Datenmodell von koLibRI einschließen.

5.3 Ausblick

Viele während der Bearbeitung des Themas gewonnene Erkenntnisse konnten in der

Endfassung der Arbeit schon aus Raum- aber auch aus Zeitgründen nicht berücksich-

tigt werden. Insbesondere die aktuellen Entwicklungen im Bereich der Dateiformate,

u.a. durch die Verbreitung offener, standardisierter Dokumentformate auf XML-

Basis, werden Gegenstand zukünftiger Arbeit im Rahmen weiterer Projekte sein. Da-

zu zählen auch die neueren Entwicklungen im Bereich integrierter, wissenschaftlicher

Page 153: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

5 Resümee und Ausblick

139

Publikationsumgebungen, wie das Digital Scholar’s Workbench Projekt314, die In-

tegrated Content Environment for research and scholarship (ICE-RS)315 und die im

Rahmen des Projektes eSciDoc entwickelte Scholarly Workbench.316 Diese Autoren-

werkzeuge unterstützen eine einheitliche Strukturierung und die medienneutrale,

bedarfsgerechte Ausgabe von wissenschaftlichen Informationen.

Auch Erfahrungen im Umgang mit Werkzeugen zur Extraktion technischer und struk-

tureller Metadaten sowie die Anbindung an Format Registries konnten nicht berück-

sichtigt werden. Hier sind insbesondere Entwicklungen interessant, die mehrere

Werkzeuge nutzen wie das Statistics New Zealand Prototype PREMIS Creation

Tool.317 Bei diesem Ansatz wird die Ausgabe der drei Validierungs- und Extraktions-

werkzeuge JHOVE, der New Zealand Metadata Extractor und DROID für die Gewin-

nung des Format Identifiers der PRONOM Format Registry in einem PREMIS-

konformen XML-Dokument aggregiert. Die Technologien mit der dies umgesetzt ist

(ein XSLT-Stylesheet und zwei Visual-Basic-Skripte), mögen nicht zur Nachnutzung

geeignet sein. Die Idee sei jedoch zur Umsetzung in einer leistungsfähigen Umge-

bung wie koLibRI vorgeschlagen.

Eine Frage, mit der die Betreuer von Publikationen sicherlich häufiger konfrontiert

sind, lautet, wie mit Dokumenten umzugehen ist, die auch mit größten Anstrengun-

gen nicht in ein archivierungskonformes Format zu überführen sind. Hier sollte eine

Auslegungsregel greifen, die den Respekt vor der wissenschaftlichen Anstrengung

des Verfassers bezeugt. In dubio pro Open Access.

Dem Verfasser dieser Arbeit sei gestattet, an dieser Stelle seiner Hoffnung Ausdruck

zu verleihen, dass die vorgeschlagenen Maßnahmen einen Beitrag leisten mögen,

dass die mühsam aufgefüllten, weißen Flecken der menschlichen Wissenslandkarten

nicht einem digitalen Gedächtnisverlust anheim zu fallen verurteilt sind.

314 http://workbench.anu.edu.au:8888/workbench/ [03.08.2008]. 315 http://ice.usq.edu.au/ [03.08.2008]. 316 http://www.escidoc-project.de/JSPWiki/en/ScholarlyWorkbench [03.08.2008]. 317 http://pigpen.lib.uchicago.edu:8888/pigpen/40 [03.08.2008]; Login und Passwort unter http://www.loc.gov/standards/premis/pigInfo.jpg [03.08.2008].

Page 154: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

140

Literaturverzeichnis

Referenzen

Abraham 2006 ABRAHAM, Oliver: Das Digitale Desaster - URL http://www.oliver-abraham.de/Internet/DasDigitaleDesaster.htm. – Aktualisierungsdatum: 2006-03-14. – Überprüfungsdatum 2008-07-01

Allianz-Initiative Digitale Information 2008 Allianz-Initiative Digitale Information: Schwerpunktinitiative "Digitale Information" der Allianz-Partnerorganisationen - URL http://www.mpg.de/pdf/allianz/beschlussvorlage.pdf. – Aktualisierungsdatum: 2008-06-16. – Überprüfungsdatum 2008-07-03

Allinson et al. 2007 ALLINSON, Julie ; JOHNSTON, Pete ; POWELL, Andy: A Dublin Core Application Profile for scholarly works. In: Ariadne 50 (2007), . - URL http://www.ariadne.ac.uk/issue50/allinson-et-al/ – Überprüfungsdatum 2008-07-24

Andermann 2004 ANDERMANN, Heike: Initiativen zur Reformierung des Systems wissenschaftlicher Kommunikation. In: KUHLEN, Rainer; SEEGER, Thomas; STRAUCH, Dietmar (Hrsg.). Handbuch zur Einführung in die Informa-tionswissenschaft und -praxis. München : Saur, 2004. (Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Laisiepen …, Bd. 1). – ISBN 3598116748, S. 561–565.

Andermann et al. 2004 ANDERMANN, Heike ; DEGKWITZ, Andreas: Neue Ansätze in der wissenschaftlichen Informationsversor-gung : Ein Überblick über Initiativen und Unternehmungen auf dem Gebiet des elektronischen Publi-zierens. In: Bibliothek: Forschung und Praxis 28 (2004), Nr. 1, S. 35–59. - URL http://www.bibliothek-saur.de/2004_1/035-059.pdf – Überprüfungsdatum 2008-07-10

ANSI/NISO 2004 ANSI/NISO:Understanding Metadata - URL http://www.niso.org/publications/press/UnderstandingMetadata.pdf. – Aktualisierungsdatum: 2004-06-02. – Überprüfungsdatum 2008-06-30

Arms 1995 ARMS, William Y.: Key concepts in the architecture of the digital fibrary. In: D-Lib Magazine 1 (1995), Nr. 1, . - URL http://www.dlib.org/dlib/July95/07arms.html – Überprüfungsdatum 2008-08-02

Ball 2004 BALL, Rafael: Open Access - die Revolution im wissenschaftlichen Publizieren? - URL http://www.informationswissenschaft.org/download/cc-isi04-art23.pdf. – Aktualisierungsdatum: 2004-12-16. – Überprüfungsdatum 2008-07-05

Bárány 2006 BÁRÁNY, Balázs: Informationsverlust durch Digitalisierung : Grundlagen und Konzepte zur Langzeitsi-cherung digitaler Informationen. Saarbrücken : VDM Verlag Dr. Müller, 2006. - ISBN 3-86550-282-2. - URL http://tud.at/uni/diplomarbeit/diplomarbeit.pdf. – Überprüfungsdatum 2008-06-25

Beagrie 2002 BEAGRIE, Neil: A continuing access and digital preservation strategy for the Joint Information Systems Committee (JISC) 2002-2005 - URL http://www.jisc.ac.uk/uploaded_documents/dpstrategy2002b.rtf. – Aktualisierungsdatum: 2002-10-01. – Überprüfungsdatum 2008-07-05

Beagrie 2006 BEAGRIE, Neil: Digital curation for science, digital libraries, and individuals. In: The international jour-nal of digital curation 1 (2006), Nr. 1, S. 3–16. - URL http://www.ijdc.net/ijdc/article/view/6 – Überprüfungsdatum 2008-06-29

Page 155: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

141

Beagrie et al. 2008 BEAGRIE, Neil ; CHRUSZCZ, Julia ; LAVOIE, Brian: Keeping Research Data Safe : a cost model and guid-ance for uk universities ; final report : April 2008 ; final report : April 2008 - URL http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf. – Aktualisierungsdatum: 2008-05-01. – Überprüfungsdatum 2008-06-25

Bekaert et al. 2003 BEKAERT, Jeroen ; HOCHSTENBACH, Patrick ; VAN DE SOMPEL, HERBERT: Using MPEG-21 DIDL to Repre-sent Complex Digital Objects in the Los Alamos National Laboratory Digital Library. In: D-Lib Maga-zine 9 (2003), Nr. 11, . - URL http://www.dlib.org/dlib/november03/bekaert/11bekaert.html – Überprüfungsdatum 2008-07-22

Bergman 2005 BERGMAN, Michael K.: Untapped assets : the $3 trillion value of U.S. Enterprise documents ; white paper - URL http://www.brightplanet.com/images/stories/pdf/documentsvalue.pdf. – Aktualisierungsdatum: 2005-07-12. – Überprüfungsdatum 2008-07-14

Borghoff 2005 BORGHOFF, Uwe M.: Vergleich bestehender Archivierungssysteme. - (nestor-materialien ; 3) - URN urn:nbn:de:0008-20050117016. – Überprüfungsdatum 2008-06-25

Borghoff et al. 2003 BORGHOFF, Uwe M. ; RO ̈DIG, Peter ; SCHEFFCZYK, Jan ; SCHMITZ, Lothar: Langzeitarchivierung : Metho-den zur Erhaltung digitaler Dokumente. 1. Aufl. Heidelberg : dpunkt-Verl., 2003. - ISBN 3898642453.

Borghoff et al. 2006 BORGHOFF, Uwe M. ; RO ̈DIG, Peter ; SCHEFFCZYK, Jan ; SCHMITZ, Lothar: Long-term preservation of digital documents : Principles and practices. Berlin, Heidelberg : Springer-Verlag Berlin Heidelberg, 2006. (Springer-11645 /Dig. Serial]). - ISBN 9783540336396. - URL http://dx.doi.org/10.1007/978-3-540-33640-2. – Überprüfungsdatum 2008-06-25

Conyers 1990 CONYERS, John, JR.: Taking a byte out of history: the archival preservation of federal computer re-cords. Washington, 1990. (House Report 101 978)

Creifelds et al. 1996 Creifelds et al. 1996: Rechtswörterbuch. 13., neubearb. Aufl. München : Beck, 1996. - ISBN 3-406-40130-9.

Crow 2002 CROW, Raym: SPARC Institutional Repository Checklist & Resource Guide ; Release 1.0 - URL http://www.arl.org/sparc/bm~doc/IR_Guide_&_Checklist_v1.pdf. – Aktualisierungsdatum: 2002-11-19. – Überprüfungsdatum 2008-07-01

Crow 2002 CROW, Raym: The case for institutional repositories : A SPARC position paper - URL http://www.arl.org/sparc/bm~doc/ir_final_release_102.pdf. – Aktualisierungsdatum: 2002-07-28. – Überprüfungsdatum 2008-07-01

Crow 2004 CROW, Raym: A Guide to institutional repository software ; version 3.0 - URL http://www.soros.org/openaccess/software/. – Aktualisierungsdatum: 2004-10-07. – Überprüfungsdatum 2008-07-01

DFG 2008 Deutsche Forschungsgemeinschaft (DFG):DFG-Förderprogramm Elektronische Publikationen : Aus-schreibung „Aufbau und Vernetzung von Repositorien“ – Aktualisierungsdatum: 2008-04-30. – Überprüfungsdatum 2008-07-03

Page 156: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

142

Deutsche Initiative für Netzwerkinformation e.V. (DINI) - Arbeitsgruppe „Elektronisches Publizieren“ 2006 Deutsche Initiative für Netzwerkinformation e.V. (DINI) - Arbeitsgruppe „Elektronisches Publizie-ren“:Elektronisches Publizieren an Hochschulen : Inhaltliche Gestaltung der OAI-Schnittstelle ; Emp-fehlungen. - (DINI-Schriften ; 2) - URN urn:nbn:de:kobv:11-10049220. – Aktualisierungsdatum: 2006-08-28. – Überprüfungsdatum 2008-07-01

DINI-Zertifikat 2007 Deutsche Initiative für Netzwerkinformation e.V. (DINI) - Arbeitsgruppe „Elektronisches Publizie-ren“:DINI-Zertifikat Dokumenten- und Publikationsservice 2007 : Version 2.1. - (DINI-Schriften ; 3) - URN urn:nbn:de:kobv:11-10079197. – Aktualisierungsdatum: 2007-04-19. – Überprüfungsdatum 2008-06-25

Deutsche Nationalbibliothek (DNB) 2008 Deutsche Nationalbibliothek (DNB):Lieferung von Metadaten für Netzpublikationen an die Deutsche Nationalbibliothek : Metadaten-Kernset im Format ONIX (OAI-Schnittstelle) ; Version 1.1, Stand: 15. April 2008 - URN urn:nbn:de:101-2008043008. – Aktualisierungsdatum: 2008-06-19. – Überprüfungsdatum 2008-07-28

Dobratz 2005 DOBRATZ, Susanne: Zur Langzeitverfügbarkeit digitaler Ressourcen. In: cms-journal (2005), Nr. 27, S. 73–74. - URN urn:nbn:de:kobv:11-10054257 – Überprüfungsdatum 2008-06-26

Dobratz 2007 DOBRATZ, Susanne: Open-Source-Software zur Realisierung von Institutionellen Repositorien : Über-blick ; Postprint. In: Zeitschrift für Bibliothekswesen und Bibliographie 54 (2007), Nr. 4-5, S. 199–206. - URN urn:nbn:de:kobv:11-10081380 – Überprüfungsdatum 2008-06-25

Dobratz et al. 2008 DOBRATZ, Susanne ; SCHOGER, Astrid: Voraussetzungen für die Langzeitarchivierung : Vertrauenswür-dige Archive ; 97. Deutscher Bibliothekartag, Mannheim, 05.06.2008 - URL http://www.opus-bayern.de/bib-info/volltexte/2008/538/. – Aktualisierungsdatum: 2008-06-07. – Überprüfungsdatum 2008-07-05

Drosdowski 1997 Drosdowski 1997: Duden, Etymologie : Herkunftswörterbuch der deutschen Sprache. Nach den Re-geln der neuen dt. Rechtschreibung überarb. Nachdr. der 2. Aufl. Mannheim, Leipzig, Wien, Zürich : Dudenverl., 1997. - ISBN 3-411-20907-0.

Enders 2008 ENDERS, Markus: Metadata Encoding and Transmission Standard : Das METS Abstract Model – Einfüh-rung und Nutzungsmöglichkeiten. In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathias; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklopädie der digitalen Langzeitarchivierung. , 2008, S. 10-1 - 10-6. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-04

Fielding 2000 FIELDING, Roy Thomas: Architectural styles and the design of network-based software architectures ; Dissertation. Irvine, University of California, Dissertation, 2000 - URL http://www.ics.uci.edu/~fielding/pubs/dissertation/top.htm. – Überprüfungsdatum 2008-07-25

Florida Center for Library Automation 2007 Florida Center for Library Automation:DAITSS - URL http://www.fcla.edu/digitalArchive/pdfs/DAITSS.pdf. – Aktualisierungsdatum: 2007-01-08. – Überprüfungsdatum 2008-07-01

Foulonneau et al. 2007 FOULONNEAU, Muriel ; ANDRE, Francis ; BADOLATO, Anne-Marie: DRIVER : Report on technical stan-dards ; Deliverable number: DRIVER-07-D3.0-1.1 - URL http://www.driver-repository.eu/PublicDocs/D7.3_1.1.pdf. – Aktualisierungsdatum: 2007-04-03. – Überprüfungsdatum 2008-07-22

Page 157: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

143

Friedewald 1995 FRIEDEWALD, Michael: Methodische Probleme der Computergeschichtsschreibung - URL http://www.histech.rwth-aachen.de/content/1585/friedewald_grundprobleme_der_computergeschichte.pdf. – Überprüfungsdatum 2008-06-25

Funk 2008 FUNK, Stefan E.: Digitale Erhaltungsstrategien. In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathias; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklo-pädie der digitalen Langzeitarchivierung. , 2008, S. 12-1 - 12-32. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-03

Funk et al. 2007 FUNK, Stefan E. ; KOÇER, Kadir Karaca ; LIESS, Sabine ; LUDWIG, Jens ; NEUBAUER, Matthias: kopal Libra-ry for Retrieval and Ingest : Dokumentation ; v1.0 - URL http://kopal.langzeitarchivierung.de/kolibri/koLibRI_v1_0_dokumentation.pdf. – Aktualisierungsdatum: 2007-07-30. – Überprüfungsdatum 2008-07-01

Garrett et al. 1996 GARRETT, John ; WATERS, Donald, . The Commission on Preservation and Access; The Research Librar-ies Group:Preserving digital information : report of the task force on archiving of digital information - URL http://www.clir.org/pubs/reports/pub63watersgarrett.pdf. – Aktualisierungsdatum: 1996-05-30. – Überprüfungsdatum 2008-06-30

Giaretta 2006 GIARETTA, David: DCC Approach To Curation ; Dynamsiches Dokument - URL http://twiki.dcc.rl.ac.uk/bin/view/Main/DCCApproachToCuration. – Aktualisierungsdatum: 2006-07-31. – Überprüfungsdatum 2008-07-03

Gladney 2007 GLADNEY, Henry M.: Preserving digital information : With 13 tables. Berlin, Heidelberg : Springer; Springer-Verlag Berlin Heidelberg, 2007. (Springer-11645 /Dig. Serial]). - ISBN 9783540378860.

Duden, Recht A - Z 2007 DUDEN, RECHT A - Z: Fachlexikon für Studium, Ausbildung und Beruf. Mannheim, Leipzig, Wien, Zürich : Dudenverl., 2007. - ISBN 3-411-72611-3.

Hajjem et al. 2005 HAJJEM, Chawki ; HARNAD, Stevan ; GINGRAS, Yves: Ten Year cross disciplinary comparison of the growth of open access and how it Increases research citation impact : Postprint. In: IEEE Data Engi-neering Bulletin 28 (2005), Nr. 4, S. 39-47. - URL http://eprints.ecs.soton.ac.uk/12906/

Hedstrom et al. 1998 HEDSTROM, Margaret ; MONTGOMERY, Sheon: Digital preservation needs and requirements in RLG member institutions : A study commissioned by the Research Libraries Group - URL http://digitalarchive.oclc.org/da/ViewObjectMain.jsp?fileid=0000070513:000006284931&reqid=770. – Überprüfungsdatum 2008-07-05

Hedstrom et al. 2003 HEDSTROM, Margaret ; ROSS, SEAMUS ET. AL.: Invest to save : Report and recommendations of the NSF-DELOS working group on digital archiving and preservation - URL http://delos-noe.iei.pi.cnr.it/activities/internationalforum/Joint-WGs/digitalarchiving/Digitalarchiving.pdf. – Aktualisierungsdatum: 2003-09-23. – Überprüfungsdatum 2008-06-30

Heery et al. 2005 HEERY, Rachel ; ANDERSON, Sheila: Digital repositories review - URL http://www.jisc.ac.uk/uploaded_documents/digital-repositories-review-2005.pdf. – Aktualisierungsdatum: 2005-07-27. – Überprüfungsdatum 2008-07-01

Herb 2006 HERB, Ulrich: Alte Hüte und neue Konzepte : Qualitätssicherung, Qualitätsmessung und Zitationshäu-figkeiten. In: Telepolis (2006), . - URL http://www.heise.de/tp/r4/artikel/23/23829/1.html – Überprüfungsdatum 2008-07-09

Page 158: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

144

Hering 2007 HERING, Wilhelm Tim: Wie Wissenschaft ihr Wissen schafft : Vom Wesen naturwissenschaftlichen Denkens. Orig.-Ausg. Reinbek bei Hamburg : Rowohlt-Taschenbuch-Verl., 2007. (rororo Science 62186). - ISBN 9783499621864.

Hilse et al. 2006 HILSE, Hans-Werner ; KOTHE, Jochen: Implementing persistent identifiers : Overview of concepts, guidelines and recommendations. London, Göttingen : CERL; Niedersächsische Staats- und Universi-tätsbibliothek., 2006. - ISBN 9069845083. – Überprüfungsdatum 2008-07-01

ifrOSS 2005 IFROSS: Die GPL kommentiert und erklärt : [rechtliche Erläuterungen zur GNU General Public Licen-se] /. 1. Aufl., dt. Orig.-Ausg Beijing : O'Reilly, 2005. - ISBN 3897213893. - URL http://www.oreilly.de/german/freebooks/gplger/. – Überprüfungsdatum 2008-07-12

International Council for Science 2004 INTERNATIONAL COUNCIL FOR SCIENCE: Scientific data and information. 2004. . - URL http://www.icsu.org/Gestion/img/ICSU_DOC_DOWNLOAD/551_DD_FILE_PAA_Data_and_Information.pdf. – Überprüfungsdatum 2008-06-25

ISO 14721:2003 - OAIS Reference Model VORNORM ISO 14721:2003 (Blue Book). Space data and information transfer systems : Open archi-val information system ; Reference model [blue book] - URL http://public.ccsds.org/publications/archive/650x0b1.pdf

ISO 23950:1998 NORM ISO 23950:1998 - Information and documentation -- Information retrieval (Z39.50) -- Appli-cation service definition and protocol specification - URL http://www.iso.org/iso/catalogue_detail?csnumber=27446

ISO 15836:2003 NORM ISO 15836:2003. The Dublin Core metadata element set - URL http://www.niso.org/standards/resources/Z39-85-2007.pdf

IT Wissen IT Wissen : Das große Online-Lexikon für Informationstechnologie - URL http://www.itwissen.info/. – Überprüfungsdatum 2008-07-04

James 2003 JAMES, Hamish: Planning horizons : Short, medium and long-term thinking about preservation ; Pres-entations from a NOF-digitise preservation workshop, 18.11.2003 - URL http://ahds.ac.uk/news/events/preservation-2003/planning-horizons.rtf. – Überprüfungsdatum 2008-07-05

JHOVE 2 2006 JHOVE 2 : a next-generation architecture for format-aware digital object preservation processing - URL http://hul.harvard.edu/jhove/JHOVE2-proposal.doc. – Überprüfungsdatum 2008-07-01

James et al. 2003 JAMES, Hamish ; RUUSALEPP, Raivo ; ANDERSON, Sheila ; PINFIELD, Stephen: Feasibility and requirements study on preservation of e-prints : Report commissioned by the joint information systems committee (JISC) - URL http://www.jisc.ac.uk/uploaded_documents/e-prints_report_final.pdf. – Aktualis-ierungsdatum: 2003-11-05. – Überprüfungsdatum 2008-07-01

Jehn et al. 2008 JEHN, Mathias ; SCHRIMPF, Sabine: State of the Art : LZA-Aktivitäten in Deutschland aus dem Blickwin-kel von nestor. In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathi-as; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklopädie der digitalen Langzeitar-chivierung. , 2008, S. 3-1 - 3-18. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-03

Kahn et al. 1995 KAHN, Robert ; WILENSKY, Robert: A framework for distributed digital object services - URL http://hdl.handle.net/cnri.dlib/tn95-01. – Aktualisierungsdatum: 1999-03-05. – Überprüfungsdatum 2008-07-19

Page 159: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

145

Keller 2005 KELLER, Alice Dora: Elektronische Zeitschriften : Grundlagen und Perspektiven. 2., aktualisierte und stark erw. Aufl. Wiesbaden : Harrassowitz, 2005. (Bibliotheksarbeit 12). - ISBN 3447052341.

King 2007 KING, Ross: Langzeitarchivierung : Was kostet es, nichts zu tun und was wird getan? ; Symposium "Digitale Langzeitarchivierung" Digitale Informationen nutzen und sicher auf diese zugreifen – auch in 200 Jahren!?, 18. April 2007, Wien - URL http://www.austria.gv.at/DocView.axd?CobId=22367. – Überprüfungsdatum 2008-06-28

Knight 2005 KNIGHT, Gareth: An OAIS compliant model for disaggregated services : Version 1.1 - URL http://www.sherpadp.org.uk/documents/sherpa-dp-oais-report.pdf. – Aktualisierungsdatum: 2005-10-13. – Überprüfungsdatum 2008-07-28

Knight 2006 KNIGHT, Gareth: A minimal preservation metadata element set for the SHERPA DP Project : SHERPA DP project deliverables ; Version 1.3 - URL http://www.sherpadp.org.uk/documents/wp44-preservation-metadata.pdf. – Überprüfungsdatum 2008-07-01

Knight 2005 KNIGHT, Gareth: Requirements for a disaggregated service : version 1.1 - URL http://www.sherpadp.org.uk/documents/requirements-for-disaggregated.pdf. – Aktualisierungsdatum: 2005-10-13. – Überprüfungsdatum 2008-07-04

Knight 2006 KNIGHT, Gareth: A lifecycle model for an e-print in the institutional repository : SHERPA DP Project Deliverables ; Version 1.0 - URL http://www.sherpadp.org.uk/documents/wp213-lifecycle_model.pdf. – Aktualisierungsdatum: 2007-03-02. – Überprüfungsdatum 2008-07-01

Knight 2008 KNIGHT, Gareth: A minimal preservation metadata element set for the SHERPA DP Project : version 1.3 - URL http://www.sherpadp.org.uk/documents/wp44-preservation-metadata.pdf. – Aktualisierungsdatum: 2008-01-16. – Überprüfungsdatum 2008-07-11

Knight et al. 2007 KNIGHT, Gareth ; ANDERSON, Sheila: SHERPA DP : Final report of the SHERPA DP project - URL http://www.sherpadp.org.uk/documents/sherpadp_finalreport.pdf. – Aktualisierungsdatum: 2007-05-31. – Überprüfungsdatum 2008-07-01

Korb et al. 2008 KORB, Nikola ; ROTH, Andreas: EPICUR: Uniform Resource Name (URN) : Strategie Der Deutschen Bibliothek - URN urn:nbn:de:1111-2003121811. – Aktualisierungsdatum: 2008-01-02. – Überprüfungsdatum 2008-08-03

Kuhlen 2004 KUHLEN, Rainer: Information. In: KUHLEN, Rainer; SEEGER, Thomas; STRAUCH, Dietmar (Hrsg.). Hand-buch zur Einführung in die Informationswissenschaft und -praxis. München : Saur, 2004. (Grundla-gen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Lai-siepen …, Bd. 1). – ISBN 3598116748, S. 3–20.

Lagoze et al. 1995 LAGOZE, Carl ; DAVIS, James R.: Dienst : an architecture for distributed document libraries. In: Com-munications of the ACM 38 (1995), Nr. 4, S. 47. - URL http://doi.acm.org/10.1145/205323.205331 – Überprüfungsdatum 2008-07-15

Lagoze et al. 2008 LAGOZE, Carl ; VAN DE SOMPEL, HERBERT ; NELSON, Michael L. ; WARNER, Simeon ; SANDERSON, Robert ; JOHNSTON, Pete: Object ReUse & Exchange : a resource centric approach - URL arXiv:0804.2273v1. – Überprüfungsdatum 2008-07-10

Lavoie 2004 LAVOIE, Brian F.: The open archival information system reference model : introductory guide. - (DPC Technology Watch Series ; Report 04-01) - URL http://www.dpconline.org/docs/lavoie_OAIS.pdf. – Aktualisierungsdatum: 2004-01-23. – Überprüfungsdatum 2008-07-01

Page 160: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

146

Liegmann et al. 2008 LIEGMANN, Hans ; NEUROTH, Heike: Einführung. In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathias; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklo-pädie der digitalen Langzeitarchivierung. , 2008, S. 1-1 - 1-10. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-03

Lord et al. 2003 LORD, Philip ; MACDONALD, Alison: Data curation for e-Science in the UK : an audit to establish requi-rements for future curation and provision ; e-Science Curation Report - URL http://www.jisc.ac.uk/uploaded_documents/e-ScienceReportFinal.pdf. – Aktualisierungsdatum: 2004-06-01. – Überprüfungsdatum 2008-07-05

DFG-Projekt OPUS 4 2008 LU: Beschreibung des DFG-Projekts OPUS 4 : Entwicklung der Open Access Repository Software OPUS als Baustein nationaler und internationaler Netzwerke (OPUS 4) - URL http://opusdev.bsz-bw.de/trac/attachment/wiki/OpusAntraege/Beschreibung_OPUS4.pdf. – Aktualisierungsdatum: 2008-05-13. – Überprüfungsdatum 2008-07-18

Ludwig 2008 LUDWIG, Jens: Wege ins Archiv : ein Leitfaden für die Informationsübernahme in das digitale Lang-zeitarchiv ; 97. Deutscher Bibliothekartag, Mannheim, 2008 - URL http://www.opus-bayern.de/bib-info/volltexte/2008/605/. – Aktualisierungsdatum: 2008-06-25. – Überprüfungsdatum 2008-06-25

Lupprian 2000 LUPPRIAN, Karl-Ernst: Open Archival Information System : EDV Tage 2000 - URL http://www.edvtage.de/vortrag.php?kapitel=2000_07. – Überprüfungsdatum 2008-07-01

Lyman et al. 2003 LYMAN, Peter ; VARIAN, Hal R.: How Much Information2003? - URL http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/. – Aktualisierungsdatum: 2003-11-23. – Überprüfungsdatum 2008-07-14

Müller et al. 1985 Müller et al. 1985: Duden "Bedeutungswörterbuch" : Wortbildung u. Wortschatz ; e. Lernwörterbuch mit Bedeutungsangaben Anwendungsbeispielen u. Abb. mit sinn- u. sachverwandten Wörtern u.d. Bausteinen d. Wortschatzes. 2., völlig neu bearb. u. erw. Aufl. Mannheim, Wien, Zürich : Bibliogra-phisches Institut, 1985. - ISBN 3-411-20911-9.

National Library of New Zealand (NLNZ) 2003 National Library of New Zealand (NLNZ):Metadata Standards Framework : Preservation Metadata (Revised) - URL http://www.natlib.govt.nz/catalogues/library-documents/preservation-metadata-revised. – Überprüfungsdatum 2008-08-01

nestor Arbeitsgruppe Vertrauenswürdige Archive - Zertifizierung 2006 NESTOR ARBEITSGRUPPE VERTRAUENSWÜRDIGE ARCHIVE - ZERTIFIZIERUNG, . Kriterienkatalog vertrauenswür-dige digitale Langzeitarchive. - (nestor-materialien ; 8) - URN urn:nbn:de:0008-2006060710. – Überprüfungsdatum 2008-04-10

OCLC 2002 OCLC Online Computer Library Center, Inc.:Preservation metadata and the OAIS information model : A metadata framework to support the preservation of digital objects - URL http://www.oclc.org/research/projects/pmwg/pm_framework.pdf. – Aktualisierungsdatum: 2002-06-10. – Überprüfungsdatum 2008-07-18

Oehlschläger 2006 Oehlschläger 2006: Funktionelle Anforderungen an bibliografische Datensätze : Abschlussbericht der IFLA Study Group on the Functional Requirements for Bibliographic Records. Leipzig, Frankfurt am Main, Berlin : Dt. Nationalbibliothek, 2006. - ISBN 3-933641-76-4.

Ohme 2003 OHME, Sebastian: Konzeption von Dokumentenservern für Digitale Bibliotheken im Hinblick auf Langzeitarchivierung und Retrieval. Potsdam, Universität Potsdam, Institut für Informatik, 2003 - URN urn:nbn:de:kobv:517-opus-5880. – Überprüfungsdatum 2008-06-21

Page 161: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

147

Ohst 2004 OHST, Daniel: Einsatz elektronischer Signaturen und Zeitstempel für die Sicherung digitaler Dokumen-te ; Diplomarbeit. Berlin, Humboldt-Universität zu Berlin, Institut für Informatik, Diplomarbeit, 20.04.2004 - URN urn:nbn:de:kobv:11-10044699. – Überprüfungsdatum 2008-07-20

PAIMAS 2004 Consultative committee for space data systems (CCSDS) : Producer-archive interface methodology abstract standard : PAIMAS ; blue book. - CCSDS 651.0-B-1 - URL http://public.ccsds.org/publications/archive/651x0b1.pdf. – Aktualisierungsdatum: 2004-06-16. – Überprüfungsdatum 2008-07-01

PREMIS 2008 PREMIS Editorial Committee: PREMIS data dictionary for preservation metadata : version 2.0 - URL http://www.loc.gov/premis/v2/premis-2-0.pdf. – Aktualisierungsdatum: 2008-04-01. – Überprüfungsdatum 2008-06-25

Reiner et al. 2007 REINER, Bernd ; WOLF-KLOSTERMANN, Thomas: BABS : kooperative Langzeitarchivierung von Biblio-thek und Rechenzentrum ; Vortrag - URL http://www.babs-muenchen.de/content/workshop/8_babs_reiner_twk.pdf. – Aktualisierungsdatum: 2007-05-15. – Überprüfungsdatum 2008-08-01

Research Libraries Group et al. 2002 Research Libraries Group; OCLC Online Computer Library Center, Inc.: Trusted digital repositories : attributes and responsibilities ; an RLG-OCLC report - URL http://www.oclc.org/programs/ourwork/past/trustedrep/repositories.pdf. – Aktualisierungsdatum: 2002-05-09. – Überprüfungsdatum 2008-07-18

RFC 1035 1987 RFC 1035 : Domain names ; implementation and specification - URL http://www.ietf.org/rfc/rfc1035.txt. – Aktualisierungsdatum: 1987-11-24. – Überprüfungsdatum 2008-08-02

RFC 1084 1987 RFC 1084 : Domain names ; concepts and facilities - URL http://www.ietf.org/rfc/rfc1034.txt. – Aktualisierungsdatum: 1987-11-24. – Überprüfungsdatum 2008-08-02

RFC 791 1981 RFC 791 : Internet protocol ; darpa internet program protocol specification - URL http://www.ietf.org/rfc/rfc791.txt. – Aktualisierungsdatum: 1992-10-16. – Überprüfungsdatum 2008-08-02

RFC 1737 1994 RFC 1737 : Functional Requirements for Uniform Resource Names - URL http://tools.ietf.org/rfc/rfc1737.txt. – Aktualisierungsdatum: 1994-12-15. – Überprüfungsdatum 2008-08-02

RFC 1738 1994 RFC 1738 : Uniform Resource Locators (URL) - URL http://www.ietf.org/rfc/rfc1738.txt. – Aktualisierungsdatum: 1994-12-15. – Überprüfungsdatum 2008-08-02

RFC 2276 1998 RFC 2276 : Architectural Principles of Uniform Resource Name Resolution - URL http://www.ietf.org/rfc/rfc2276.txt. – Aktualisierungsdatum: 1998-01-27. – Überprüfungsdatum 2008-08-02

RFC 2460 1998 RFC 2460 : Internet Protocol, Version 6 (IPv6) ; specification - URL http://www.ietf.org/rfc/rfc2460.txt. – Aktualisierungsdatum: 1998-12-03. – Überprüfungsdatum 2008-08-02

RFC 3188 2001 RFC 3188 : Using national bibliography numbers as uniform resource names - URL http://tools.ietf.org/html/rfc3188. – Überprüfungsdatum 2008-07-20

Page 162: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

148

RFC 4287 2005 RFC 4287 : The Atom Syndication Format - URL http://tools.ietf.org/html/rfc4287. – Überprüfungsdatum 2008-07-25

RFC 5023 2007 RFC 5023 : The Atom Publishing Protocol - URL http://www.ietf.org/rfc/rfc5023.txt. – Überprüfungsdatum 2008-07-25

RFC 1630 1994 RFC 1630 : Universal Resource Identifiers in WWW - URL http://tools.ietf.org/html/rfc1630. – Aktualisierungsdatum: 2008-07-20. – Überprüfungsdatum 2008-07-20

RFC 2141 1997 RFC 2141 : URN Syntax - URL http://tools.ietf.org/html/rfc2141. – Aktualisierungsdatum: 2008-05-20. – Überprüfungsdatum 2008-07-20

RFC 2396 1998 RFC 2396 : Uniform Resource Identifiers (URI) ; Generic syntax - URL http://tools.ietf.org/rfc/rfc2396.txt. – Aktualisierungsdatum: 2008-05-20. – Überprüfungsdatum 2008-07-25

Riehm et al. 2004 RIEHM, Ulrich ; BÖHLE, Knud ; WINGERT, Bernd: Elektronisches Publizieren. In: KUHLEN, Rainer; SEEGER, Thomas; STRAUCH, Dietmar (Hrsg.). Handbuch zur Einführung in die Informationswissenschaft und -praxis. München : Saur, 2004. (Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Laisiepen …, Bd. 1). – ISBN 3598116748, S. 549–559.

Rink 2005 RINK, Jürgen: Digitales für die Ewigkeit : Langzeitarchivierung digitaler Inhalte. In: c't 22 (2005), S. 66. - URL http://www.heise.de/ct/05/22/066/ – Überprüfungsdatum 2008-03-31

Roßnagel 2003 ROßNAGEL, Alexander: Die fortgeschrittene elektronische Signatur. In: Multimedia und Recht (2003), S. 164–170.

Rothenberg 1995 ROTHENBERG, Jeff: Die Konservierung digitaler Dokumente. In: Spektrum der Wissenschaft (1995), S. 66•71. - URL http://www.spektrum.de/artikel/822525 – Überprüfungsdatum 2008-06-20

Rothenberg 1995 ROTHENBERG, Jeff: Ensuring the longevity of digital documents. In: Scientific American (1995), Nr. 1, S. 24•29. - URL http://www.clir.org/pubs/archives/ensuring.pdf

Rothenberg 1999 ROTHENBERG, Jeff: Avoiding technological quicksand : Finding a viable technical foundation for digital preservationa report to the Council on Library and Information Resources. Washington DC : Council on Library and Information Resources, 1999. - ISBN 1887334637-. - URL http://www.clir.org/pubs/reports/rothenberg/introduction.html#longevity. – Überprüfungsdatum 2008-06-25

Rusch-Feja 2001 RUSCH-FEJA, Diann: Die Open Archives Initiative (OAI) : Neue Zugangsform zu wissenschaftlichen Arbeiten? In: Bibliothek: Forschung und Praxis 25 (2001), Nr. 3, S. 291–300. - URL http://www.bibliothek-saur.de/2001_3/291-300.pdf – Überprüfungsdatum 2008-06-25

Schlindwein et al. 1996 SCHLINDWEIN, Birgit ; MEIER, Klaus: Herausforderung 'Electronic Publishing' : Vortrag gehalten auf der Tagung der Gesellschaft für Bibliothekswesen und Dokumentation des Landbaues 1996 in Detmold - URL http://www.weihenstephan.de/~schlind/Publikationen/elecpub.html. – Aktualisierungsdatum: 1998-07-29. – Überprüfungsdatum 2008-07-03

Scholze et al. 2005 SCHOLZE, Frank ; DOBRATZ, Susanne: Das DINI-Zertifikat : Qualitätskontrolle für Dokumenten- und Publikationsserver. In: cms-journal (August 2005), Nr. 27. - URN urn:nbn:de:kobv:11-10054086 – Überprüfungsdatum 2008-06-25

Page 163: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

149

Scholze et al. 2007 SCHOLZE, Frank ; STEPHAN, Werner: Electronic publishing - URN urn:nbn:de:bsz:93-opus-30529. – Aktualisierungsdatum: 2007-04-11. – Überprüfungsdatum 2008-07-03

Schöning-Walter 2008 SCHÖNING-WALTER, Christa: Der Uniform Resource Name (URN). In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathias; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklopädie der digitalen Langzeitarchivierung. , 2008, S. 13-23 - 13-35. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-03

Schroeder 2008 SCHROEDER, Kathrin: Persistent Identifier (PI) : ein Überblick. In: NEUROTH, Heike; LIEGMANN, Hans; OßWALD, Achim; SCHEFFEL, Regine; JEHN, Mathias; STRATHMANN, Stefan (Hrsg.). nestor Handbuch : eine kleine Enzyklopädie der digitalen Langzeitarchivierung. , 2008, S. 13-6 - 13-22. - URL http://nestor.sub.uni-goettingen.de/handbuch/. – Überprüfungsdatum 2008-08-03

Schulz 2001 SCHULZ, Sebastian: Ein Hochschulschriftenserver für die SLUB Dresden : Weboberfläche für Browsing und Recherche. Dresden, Technische Universität Dresden, Institut für Systemarchitektur, 2001 - URN urn:nbn:de:swb:14-1157709342185-44405. – Überprüfungsdatum 2008-07-11

Schwens et al. 2004 SCHWENS, Ute ; LIEGMANN, Hans: Langzeitarchivierung digitaler Ressourcen. In: KUHLEN, Rainer; SEEGER, Thomas; STRAUCH, Dietmar (Hrsg.). Handbuch zur Einführung in die Informationswissenschaft und -praxis. München : Saur, 2004. (Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Laisiepen …, Bd. 1). – ISBN 3598116748, S. 567–572. - URN urn:nbn:de:0008-2005110800. – Überprüfungsdatum 2008-07-07

Seeger 2004 SEEGER, Thomas: Entwicklung der Fachinformation und -kommunikation. In: KUHLEN, Rainer; SEEGER, Thomas; STRAUCH, Dietmar (Hrsg.). Handbuch zur Einführung in die Informationswissenschaft und -praxis. München : Saur, 2004. (Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Laisiepen …, Bd. 1). – ISBN 3598116748, S. 21–36.

Sierman 2008 SIERMAN, Barbara: Long-term preservation for institutional repositories. In: WEENINK, Kasja; WAAIJERS, Leo; VAN GODTSENHOVEN, Karen (Hrsg.). A DRIVER's guide to European Repositories : Inventory study of important DR related issues and good practices. Amsterdam : AUP, 2008. – ISBN 9789053564110, S. 153–184. - URL http://dare.uva.nl/document/93898. – Überprüfungsdatum 2008-07-15

Sietmann 2001 SIETMANN, Richard: Napster für die Wissenschaft : ein neues Protokoll für die virtuelle Fachbibliothek. In: c't (2001), Nr. 6, S. 78. - URL http://www.heise.de/ct/01/06/078/ – Überprüfungsdatum 2008-06-29

Sietmann 2002 SIETMANN, Richard: Digitales Alzheimer : Maßnahmen gegen den Gedächtnisschwund bei digitalen Bibliotheken. In: c't (2002), Nr. 25, S. 52–53.

Sietmann 2006 SIETMANN, Richard: Über die Ketten der Wissensgesellschaft : Der Kulturkampf über den Zugang zu wissenschaftlichen Veröffentlichungen verschärft sich. In: c't (2006), Nr. 12, S. 190. - URL http://www.heise.de/ct/06/12/190/ – Überprüfungsdatum 2008-07-09

Smith 1998 SMITH, Abby: Preservation in the future tense. In: Abbey Newsletter 22 (1998), Nr. 2. - URL http://palimpsest.stanford.edu/byorg/abbey/an/an22/an22-2/an22-202.html – Überprüfungsdatum 2008-07-01

Steinke 2005 STEINKE, Tobias: LMER : Langzeitarchivierungsmetadaten für elektronische Ressourcen ; Version 1.2 - URN urn:nbn:de:1111-2005041102. – Aktualisierungsdatum: 2005-04-07. – Überprüfungsdatum 2008-06-25

Page 164: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

150

Steinke 2006 STEINKE, Tobias: Universelles Objektformat : ein Archiv- und Austauschformat für digitale Objekte ; Projekt kopal - URL http://kopal.langzeitarchivierung.de/downloads/kopal_Universelles_Objektformat.pdf. – Aktualisierungsdatum: 2006-02-14. – Überprüfungsdatum 2008-06-25

Stockmann 2008 STOCKMANN, Ralf: Ist Langzeitarchivierung finanzierbar? : Überlegungen zur Produktion langzeitarchi-vierbarer Objekte - URL http://www.landesarchaeologen.de/publ/kolloquien/stockmann_kosten_lza.pdf. – Überprüfungsdatum 2008-06-25

Strauch et al. 2004 STRAUCH, Dietmar ; KUHLEN, Rainer ; SEEGER, Thomas: Glossar. 5., völlig neu gefasste Ausg. München : Saur, 2004. (Grundlagen der praktischen Information und Dokumentation / Rainer Kuhlen … (Hrsg.). Begr. von Klaus Laisiepen … Bd. 2). - ISBN 3598116748.

The digital preservation coalition et al. o. J. The digital preservation coalition; the National Library of Australia; the PADI gateway: The preserva-tion management of digital material handbook ; Stand Mai 2008 ; Stand Mai 2008 - URL http://www.dpconline.org/graphics/handbook/. – Überprüfungsdatum 2008-07-01

The DSpace Foundation 2008 The DSpace Foundation:DSpace Manual : Software Version 1.5 ; May 2008 - URL http://www.dspace.org/images/onepointfivedocs/dspacemanual_15_may.zip. – Aktualisierungsdatum: 2008-05-16. – Überprüfungsdatum 2008-07-11

Umlauf 2006 UMLAUF, Konrad: Medien : Typologie, Marketing, Trends, Mediensammlungen. - (Vom Wandel der Wissensorganisation im Informationszeitalter) - URN urn:nbn:de:kobv:11-10076856. – Überprüfungsdatum 2008-06-28

van der Werf-Davelaar, Titia 1999 VAN DER WERF-DAVELAAR, TITIA: Long-term preservation of electronic publications : the NEDLIB pro-ject. In: D-Lib Magazine 5 (1999), Nr. 9, . - URL http://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html – Überprüfungsdatum 2008-07-27

van Horik 2008 VAN HORIK, René: Data curation. In: WEENINK, Kasja; WAAIJERS, Leo; VAN GODTSENHOVEN, Karen (Hrsg.). A DRIVER's guide to European Repositories : Inventory study of important DR related issues and good practices. Amsterdam : AUP, 2008. – ISBN 9789053564110, S. 131–151. - URL http://dare.uva.nl/document/93898. – Überprüfungsdatum 2008-07-15

Verheul 2006 VERHEUL, Ingeborg: Networking for digital preservation : Current practice in 15 national libraries. München : Saur, 2006. (IFLA publications 119). - ISBN 9783598218477. - URL http://www.ifla.org/VI/7/pub/IFLAPublication-No119.pdf. – Überprüfungsdatum 2008-06-26

Wendel et al. 2008 WENDEL, Harald ; ROTHE, Tobias: Der Dokumenten- und Publikationsserver der SLUB Dresden : Do-kumentation ; System DEDS 2008 - URL http://digital.slub-dresden.de/fileadmin/groups/homepage/Dateien/documentation-hsss.pdf. – Aktualisierungsdatum: 2008-06-16. – Überprüfungsdatum 2008-07-11

Wissenschaftsrat 2001 Wissenschaftsrat:Empfehlungen zur digitalen Informationsversorgung durch Hochschulbibliotheken - URL http://www.wissenschaftsrat.de/texte/4935-01.pdf. – Aktualisierungsdatum: 2001-07-26. – Überprüfungsdatum 2008-07-11

Woll 2006 WOLL, Christian: Bibliotheken als Dienstleister im Publikationsprozess : Herausforderungen und Chancen alternativer Formen des wissenschaftlichen Publizierens. Saarbrücken : VDM Verlag Dr. Müller, 2006. - ISBN 9783865503367. - URL http://eprints.rclis.org/archive/00008363/. – Überprüfungsdatum 2008-06-25

Page 165: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

151

World Wide Web Consortium (W3C) 2004 World Wide Web Consortium (W3C):Architecture of the World Wide Web : Volume One ; W3C Recommendation 15 December 2004 - URL http://www.w3.org/TR/webarch/. – Aktualisierungsdatum: 2004-12-14. – Überprüfungsdatum 2008-07-25

Wyles 2006 WYLES, Richard: Technical evaluation of selected open source repository solutions ; Version 1.3 - URL https://eduforge.org/docman/view.php/131/1062/Repository%20Evaluation%20Document.pdf. – Aktualisierungsdatum: 2006-09-15. – Überprüfungsdatum 2008-07-02

Yale University Library 2008 Yale University Library:Best practices for structural metadata : version 1 - URL http://www.library.yale.edu/dpip/bestpractices/BestPracticesForStructuralMetadata.pdf. – Aktualisierungsdatum: 2008-06-05. – Überprüfungsdatum 2008-07-18

Gesetze und Normen

DNBG Gesetz über die Deutsche Nationalbibliothek vom 22. Juni 2006

(BGBl. I S. 1338)

SigG Signaturgesetz vom 16. Mai 2001 (BGBl. I S. 876), zuletzt geändert durch

Artikel 4 des Gesetzes vom 26. Februar 2007 (BGBl. I S. 179)

UrhG Urheberrechtsgesetz vom 9. September 1965 (BGBl. I S. 1273), zuletzt geän-

dert durch Artikel 12 Abs. 4 des Gesetzes vom 13. Dezember 2007 (BGBl. I S. 2897),

zuletzt geändert durch Art. 12 Abs. 4 G v. 13.12.2007 I 2897

Bildquellen

Abbildung 1: Informationsobjekte im OAIS: Content Information (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 2-4.

Abbildung 2: Entitäten der Gruppe 1 der FRBR und ihre Primärbeziehungen (Oehlschläger (Hg.) 2006 – Funktionelle Anforderungen an bibliografische Datensätze), S. 13.

Abbildung 3: Datenmodell von PREMIS (Knight 2006 – A minimal preservation metadata element), S. 3.

Abbildung 4: Entwicklung der Zahl der registrierten Repositorien und der Datensätze in ROAR von 1990 - 2008 http://roar.eprints.org/index.php?action=browse [05.07.2008].

Abbildung 5: Entwicklung der Zahl der registrierten Repositorien in OpenDOAR von 2006-2008 http://www.opendoar.org/ [06.07.2008].

Abbildung 6: Bestandteile der Content Information nach OAIS Eigene Darstellung, nach (Borghoff, Ro ̈dig et al. 2003 – Langzeitarchivierung), S. 27.

Abbildung 7: Bestandteile eines Informationspaketes im OAIS (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 2-5.

Page 166: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

152

Abbildung 8: OAIS-Informationsobjekte (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-24.

Abbildung 9: Umfeld eines OAIS (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 2-2.

Abbildung 10: Bestandteile und Relationen eines AIPs (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-34.

Abbildung 11: Funktionsmodule, Akteure und Informationsflüsse eines OAIS (Basismodell) (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-1

Abbildung 12: Prozesse innerhalb des OAIS-Funktionsmoduls Ingest (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-5

Abbildung 13: OAIS: Arten von Information innerhalb des Funktionsmoduls Metadatenverwaltung (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-47.

Abbildung 14: Informationsflüsse im OAIS auf oberster Ebene (Consultative committee for space data systems (CCSDS) 02.2003 – Space data and information transfer), S. 4-48.

Abbildung 15: OAIS-konformes Modell verteilter Dienste gemäß SHERPA DP (Knight, Anderson 31.05.2007 – SHERPA DP), S. 8.

Abbildung 16: SHERPA DP: Lebenszyklus digitaler Publikationen in einem verteilten Modell (Knight 02.03.2007 – A lifecycle model), S. 4.

Abbildung 17: Datenmodell des FRBR-orientierten EPrints Application Profiles (Allinson, Johnston et al. 2007 – A Dublin Core Application Profile).

Abbildung 18: kopal Workflow kopal, http://kopal.langzeitarchivierung.de/downloads/kopal_Broschuere_2006.pdf [03.08.2008]

Abbildung 19: Konkordanz LMER-PREMIS (schematische Darstellung) Olaf Brandt, SUB Göttingen.

Abbildung 20: BABS Workflow (Reiner, Wolf-Klostermann 15.05.2007 – BABS), Folie 12.

Abbildung 21: OAI-ORE Aggregation von Informationsressourcen http://www.openarchives.org/ore/0.9/primer.html [03.08.2008]

Abbildung 22: Schematische Darstellung einer OAI-ORE Aggregation am Beispiel einer Online-Publikation (Lagoze, Van de Sompel, Herbert et al. 2008 – Object Re•Use & Exchange), S. 5.

Page 167: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Literaturverzeichnis

153

Abbildung 23: OAI-ORE Resource Map einer Online-Publikation (Verwendung von ARK und URN) Eigene Darstellung.

Abbildung 24: Struktur eines METS-Dokumentes Uwe Müller, Humboldt Universität zu Berlin.

Abbildung 25: Struktur eines DIDL-Dokuments (Bekaert, Hochstenbach et al. 2003 – Using MPEG-21 DIDL to Represent), Figure 1.

Abbildung 26: Abbildung von Repräsentationen in einem METS-Dokument Eigene Darstellung unter Verwendung des METS Visualizers, http://gita.grainger.uiuc.edu/metsviz/grapher.htm [03.08.2008]

Abbildung 27: Datenbankmodell von OPUS Eigene Darstellung.

Abbildung 28: Modell der koLibRI-Datenbank Eigene Darstellung.

Page 168: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

Page 169: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

II

A Glossar

Authentizität: (engl.: authenticity) Authentizität ist ein besonders wichtiges Kriterium für eine ver-trauenswürdige Langzeitarchivierung, und bedeutet, dass das Objekt das darstellt, was es vorgibt darzustellen. Authentizität umfasst die nachprüfbare Belegbarkeit von Herkunft, Überliefe-rungsgeschichte und Inhalt sowie die technischen Eigenschaften des digitalen Objekts. Dabei müssen fünf Aspekte berücksichtigt werden: Inhalt, Kontext, Struktur, Erscheinungsbild und Verhal-ten.

Digitale Langzeitarchivierung:

(engl.: long-term preservation) Digitale Langzeitarchivierung ist der etablierte Begriff in der in-formationswissenschaftlichen Literatur zur Umschreibung der Maßnahmen zur Erhaltung von digitalen Informationen über die Langzeit in einer Form, die aus sich selbst heraus verstehbar und fehlerfrei sein muss. (engl.: long-term preservation; related terms: digital curation, digital information preservation, digital longevity)

Digitales Langzeitarchiv:

(engl.: digital preservation repository / system, trusted reposi-tory) Unter einem digitalen Langzeitarchiv wird eine Organisation bestehend aus einer Einheit von Personen und technischen Sys-temen verstanden, die die Verantwortung für den Langzeiterhal-tung und die Langzeitverfügbarkeit digitaler Objekte sowie für ihre Interpretierbarkeit zum Zwecke der Nutzung durch eine bestimmte Zielgruppe übernommen hat. (verwandte Begriffe: Depotsystem)

Digitales Repositorium: (engl.: digital repository, open access repository) Ein digitales Repositorium ist ein technisches und organisatori-sches System, dessen Schwerpunkt die endnutzerorientierte Elektronische Publikation von elektronischen Dokumenten bzw. dokumentähnlichen Objekten ist. Ein digitales Repositorium ko-operiert gegebenenfalls mit einem Langzeitarchiv, um die Lang-zeitverfügbarkeit der bereitgestellten Objekte zu gewährleisten. Aufgrund unterschiedlich definierter Zuständigkeiten sind fachli-che von institutionellen Repositorien zu unterscheiden. (ver-wandte Begriffe: Dokumentenserver, Dokumenten- und Publi-kationsservice, Hochschulschriftenserver)

Dokumentarische Bezugseinheit:

Eine dokumentarische Bezugseinheit ist das Objekt, dessen Merkmale während des Dokumentationsprozesses als Einheit behandelt werden.

Dokumentationseinheit: Eine Dokumentationseinheit ist die Datenmenge, die stellvertre-tend für eine dokumentarische Bezugseinheit in den Dokumen-tationsprozess eingeht.

Page 170: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

III

Entität: Der Begriff Entität bezeichnet auf einer abstrakten, konzeptuel-len Ebene eine Einheit (bzw. Klasse), deren Elemente (bzw. In-stanzen) durch die gleichen Attribute beschreibbar sind.

Elektronisches Dokument:

Der Begriff elektronisches Dokument (lat. docere = lehren) be-zeichnet im Unterschied zum Medium eine abgeschlossene und für den Rezipienten ausgeformte Informationseinheit, d.h. eine konkrete, perpetuierte Repräsentation eines Werkes, die in digi-taler Form auf einem elektronischen Datenträger gespeichert ist und keine funktional gleichwertige Entsprechung in analoger Form besitzt.

Elektronisches Publizieren:

Elektronisches Publizieren umfasst die öffentlichen Formen der zeitpunktunabhängigen Kommunikation mittels digital vorlie-gender Dokumente zwischen einem über seine Funktionen defi-nierten Hersteller (Kommunikator) und einem Empfänger (Rezi-pient).

Integrität: Unter Integrität wird die Vollständigkeit der digitalen Objekte sowie der Ausschluss unbeabsichtigter Modifikationen im Sinne der Erhaltungsregeln verstanden. Maßstab für die Integrität sind die als erhaltenswert definierten Eigenschaften eines digitalen Objekts (signifikante Eigenschaften).

Ingest Ingest bezeichnet im Referenzmodell OAIS das Überführen von Informationsobjekten in ein digitales Langzeitarchiv. (dt.: Ein-gangsbearbeitung)

koLibRI: Die kopal Library for Retrival and Ingest (koLibRI) stellt eine Bib-liothek von Java-Tools dar, die im Projekt kopal für das Zusam-menspiel mit dem DIAS-System der Firma IBM entwickelt wur-den. Sie wurde bewusst so angelegt, dass sie als Ganzes oder in Teilen auch in anderen Zusammenhängen nachnutzbar ist.

Langzeit: Langzeit ist ein Zeitraum, der über Veränderungen der Technik, z.B. über Versionszyklen von Soft- und Hardware hinweg, hin-ausreicht und auch mögliche Änderungen der Zielgruppe und durch soziokulturelle Änderungen der Gesellschaft bewirkte Ver-änderungen der Nutzungssituation von Informationsressourcen berücksichtigt.

Metadaten: Metadaten sind strukturierte Informationen zur Beschreibung von Inhalt, physischer Beschaffenheit, Lokalisation, Typ, Form, Struktur, Verwaltung und Provenienz von digitalen Objekten. Die Verwendung standardisierter Metadaten erleichtert Retrie-val, Nutzung und Administration von Informationsressourcen.

Online-Publikation: Eine Online-Publikation oder Netzpublikation bezeichnet eine elektronische Publikation, die im Wege des Elektronischen Publi-zierens nicht auf einem physikalischem Datenträger, sondern über das Internet angeboten werden.

Page 171: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

IV

Open Access: Open Access ist eine Initiative, die die wissenschaftspolitische Forderung nach dem unentgeltlichen, rechtlich wie technisch barrierefreien Zugang zu wissenschaftlichen Information erhebt.

Persistent Identifier: Persistent Identifier: Ein Persistent Identifier (dt. in etwa: bestän-diger Bezeichner oder Name, dauerhafte Kennung) ist ein Identi-fikator in Form einer nach definierten Regeln gebildeten, alpha-numerischen Zeichenkette, der es erlaubt ein digitales Objekt unabhängig vom Speicherort und über Systemwechsel hinweg innerhalb eines lokalen Systems oder global eindeutig dauerhaft zu identifizieren und zu adressieren. Ein Identifikator (auch Ken-nung oder kurz ID) ist ein künstlich zugewiesenes Merkmal zur eindeutigen Identifizierung eines Objektes.

Postprint: Als Postprints bezeichnet man wissenschaftliche Beiträge, die nach der Veröffentlichung in einer referierten, kostenpflichtigen Zeitschrift, auf einem digitalen Repositorium veröffentlicht wer-den.

Preprint: Als Preprints bezeichnet man wissenschaftliche Beiträge, die vor der Veröffentlichung in einer referierten, kostenpflichtigen Zeit-schrift, auf einem digitalen Repositorium veröffentlicht werden.

PRONOM Technical Registry:

PRONOM ist eine netzbasiertes Verzeichnis von Dateiformaten und Software-Produkten mit technischen Informationen zur Unterstützung der Langzeitarchivierung digitaler Objekte sowie zu der Software, mit der diese Formate erstellt, wiedergegeben oder migriert werden können.

Repräsentation: (engl.: representation (PREMIS), resource (OAI-ORE), expres-sion, manifestation (FRBR), Content Information (OAIS)) 1. Die objektivierte Vertretung (Verdinglichung) eines Abstrak-tums. 2. Eine Repräsentation verkörpert ein geistiges Werk und besteht aus allen notwendigen Informationen, die für eine an-gemessene Darstellung des Werkes erforderlich sind. (in der Fachterminologie auch synonym: Datenobjekt)

Signifikante Eigenschaft:

Die signifikanten Eigenschaften eines digitalen Objektes be-schreiben die Kernfunktionen, der für eine bestimmte Zielgruppe zur Nutzung als wesentlich identifizierten, bewahrenswerten Informationen einer Ressource.

Page 172: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

V

Visierte Nutzergruppe:

(engl. designated community) Über die Identifikation von Nutzergruppen wird versucht die qualifizierten Nutzungsinteressen unterschiedlicher Zielgruppen zu bestimmen, um die zu bewahrenden, signifikanten Eigen-schaften von Informationsobjekten zu ermitteln. Interessen und Zusammensetzung der visierten Nutzergruppen können sich mit der Zeit wandeln; es können neue Nutzergruppen hinzukommen und ursprüngliche Zielgruppen wegfallen. Ein aktueller Datenbe-stand kann z.B. von Naturwissenschaftlern intensiv genutzt wer-den und muss dazu unkompliziert in deren Anwendungsumge-bung portierbar sein. Später wird der Datenbestand vielleicht wissenschaftshistorisch im Hinblick auf den Forschungsgegens-tand untersucht oder ein Informatiker interessiert sich für das Datenmodell des digitalen Bestandes

Werk (engl.: intellectual entity (PREMIS), expression (FRBR), aggrega-tion (OAI-ORE)) Ein Werk bezeichnet eine von Menschen interpretierbare, lo-gisch abgegrenzte Einheit eines geistigen Inhalts, die von Reprä-sentationen unabhängig ist. Der Begriff bezeichnet die geistige Schöpfung oder das geistige Werk an sich.

XMETADISS: Austauschformat der Deutschen Nationalbibliothek für Online-Hochschulschriften

Page 173: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

VI

B Datenmodelle

B.I Datenbankmodell von OPUS

Abb

ildun

g 27

: Dat

enba

nkm

odel

l von

OPU

S

Page 174: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

VII

B.II Modell der koLibRI-Datenbank

Abbildung 28: Modell der koLibRI-Datenbank

Page 175: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

VIII

C Das OAIS Reference Model: Functional Entities

(vollständig)

Page 176: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

IX

D Metadatenformate: Beispiele

D.I PREMIS und METS: Minimales Beispiel318

(ECHO DEP-Profile

http://dli.grainger.uiuc.edu/echodep/METS/METSProfile.asp?f=DRAFTS/BaseMETSP

rofile.xml )

<?xml version="1.0" encoding="UTF-8"?>

<!--Auszug eines METS-Dokuments im Format ECHO Dep Generic METS Profile for Pres-

ervation and Digital Repository Interoperability (PREMIS in METS implementiert)

http://www.loc.gov/standards/mets/profiles/00000015.xml

Beschrieben wird eine Publikation, die auf dem edoc-Dokumentenserver der HU zu

Berlin veröffentlicht wurde.

Link zu den Metadaten:

http://edoc.hu-berlin.de/docviews/abstract.php?lang=ger&id=26526

mit 3 veröffentlichten Repräsentationen:

HTML

PDF

XML (für Retrieval)

und 2 archivierten Repräsentationen:

XDiML (Archivierungsformat + alle Bilder im GIF- bzw. JPEG-Format)

MS Office 2003 Worddokument (Erstellungsformat)

-->

<!-- Das Attribut OBJID im Element <mets> soll ein global, eindeutiger,

persistent Identifier sein. Da mit dem METS-Format mehrere Repräsentationen

beschrieben und übertragen werden können, sollte diese ID die intellektuelle

Einheit identifizieren -->

<mets xmlns="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink"

xmlns:mods="http://www.loc.gov/mods/"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:pc="http://www.ddb.de/standards/pc/"

xmlns:urn="http://www.ddb.de/standards/urn/"

OBJID="ark:/12345/1319/kobv:11/26526" LABEL="Ahyai, Sascha

A.:Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP) versus

Transurethrale Elektroresektion der Prostata (TURP)"

PROFILE="http://www.loc.gov/mets/profiles/00000015.xml"

xsi:schemaLocation="http://www.loc.gov/METS/

http://www.loc.gov/standards/mets/mets.xsd http://www.loc.gov/mods/v3

http://www.loc.gov/standards/mods/v3/mods-3-0.xsd">

<metsHdr ID="s0000000001" CREATEDATE="2007-05-04T15:12:53"

LASTMODDATE="2007-05-04T15:12:53">

<agent ROLE="DISSEMINATOR" TYPE="ORGANIZATION">

<name>edoc Institutional Repository of the Humboldt-University Berlin, Ger-

many</name>

</agent>

</metsHdr>

318 verfügbar unter http://193.175.237.160/opus_md12_20/doku/mets_profile_sample_minimal.xml [20.07.2008].

Page 177: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

X

<!-- Die ersten beiden descriptive metadata sections enthalten Metadaten in den

Formaten XMetaDiss (als Verweis eingebunden) und Dublin Core (vollständig

eingebettet); nur die dritte dmdSec ist für das METS-Format obligatorisch

(Metadaten in MODS) -->

<dmdSec ID="d03" STATUS="ALTERNATE_DMDSEC" CREATED="2006-02-01T00:00:00Z"

ADMID="event02">

<mdRef MIMETYPE="text/xml" MDTYPE="OTHER"

OTHERMDTYPE="REPROCESSED_OAI_XMETADISS" LOCTYPE="URL" xlink:href="http://edoc.hu-

berlin.de/OAI-

2.0?verb=GetRecord&amp;amp;metadataPrefix=oai_xmetadiss&amp;identifier=oai:HUBerl

in.de:26526"/>

</dmdSec>

<dmdSec ID="d02" STATUS="ALTERNATE_DMDSEC" CREATED="2006-08-17T00:00:00Z"

ADMID="event03">

<mdWrap MDTYPE="DC">

<xmlData>

<oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/">

<dc:title>Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP) versus

Transurethrale Elektroresektion der Prostata (TURP)</dc:title>

<dc:title>eine randomisierte Studie an 200 Patienten mit Prostatae kleiner 100 g

und urodynamisch nachgewiesener Obstruktion</dc:title>

<dc:creator>Ahyai, Sascha A.</dc:creator>

<dc:subject>Medizin</dc:subject>

<dc:subject>Prostata</dc:subject>

<dc:subject>TURP</dc:subject>

<dc:subject>HoLEP</dc:subject>

<dc:subject>Laser</dc:subject>

<dc:subject>TURP</dc:subject>

<dc:subject>HoLEP</dc:subject>

<dc:subject>Prostate</dc:subject>

<dc:subject>Laser</dc:subject>

<dc:subject>YK 5504</dc:subject>

<dc:subject>YK 9594</dc:subject>

<dc:subject>XG 8204</dc:subject>

<dc:subject>YI 1704</dc:subject>

<dc:description>Ziele: Trotz ihrer signifikanten Morbidität stellt die

transurethrale Resektion der Prostata (TURP) den gold standard dar für die

instrumentelle Therapie der durch die benigne Prostatahyperplasie (BPH) bedingten

Blasenauslassobstruktion. Mit dem Hochleistungs-Holmium: YAG Laser kann

endoskopisch, in einer relativ blutungsarmen Weise, Prostatagewebe enukleiert

werden. Wir verglichen die Technik der transurethralen Holmium-Laser-Enukleation

der Prostata (HoLEP) mit der Standard-TURP bei der operativen Therapie von

Prostataadenomen. Wir präsentieren die perioperativen Daten, die Kurz- und

Langzeitergebnisse dieser randomisierten klinischen Studie. Material und

Methoden: Insgesamt wurden 200 Patienten mit einer urodynamisch nachgewiesenen

benignen Prostataobstruktion bei einem Prostatavolumen kleiner 100g im

transrektalen Ultraschall in ein TURP- und HoLEP-Kollektiv randomisiert. Alle

Patienten wurden präoperativ und postoperativ nach 1,6, 12, 18, 24 und 36 Monaten

durch Erhebung des American Urological Association symptom score und Messung der

maximalen Harnflussrate und des Restharns evaluiert. Die perioperativen Daten und

die postoperativen Ergebnisse wurden verglichen. Alle Komplikationen wurden

Page 178: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XI

vermerkt. Ergebnisse: Bei der HoLEP waren die Katheterzeit, der

Krankenhausaufenthalt und der Hämoglobinverlust signifikant geringer, jedoch die

Operationszeit signifikant länger als bei der TURP. HoLEP und TURP führten zu

signifikanter und anhaltender Verbesserung aller Miktionsparameter, wobei der

Restharn bis einschließlich 36 Monate postoperativ in der HoLEP Gruppe

signifikant geringer blieb. Auch die perioperative Morbidität war bei der HoLEP

kleiner; Kontinenz, Potenz und Spätkomplikation waren in beiden Gruppen ähnlich.

Schlussfolgerungen: HoLEP ist mindestens genauso effektiv wie TURP. HoLEP dauert

länger, jedoch sind die perioperative Morbidität, Katheter- und Krankenhausdauer

geringer. Beide Methoden zeigen befriedigende Langzeitergebnisse mit wenigen

Spätkomplikationen. Dies bestätigt die Dauerhaftigkeit des Therapieerfolges

dieser 2. Verfahren.

</dc:description>

<dc:publisher>Medizinische Fakultät - Universitätsklinikum Charité</dc:publisher>

<dc:date>2006-01-04</dc:date>

<dc:type>Text</dc:type>

<dc:type>dissertation</dc:type>

<dc:format>text/html</dc:format>

<dc:identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/HTML/</dc:identifier>

<dc:format>application/pdf</dc:format>

<dc:identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/PDF/ahyai.pdf</dc:identifier>

<dc:format>text/xml</dc:format>

<dc:identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/XML/</dc:identifier>

<dc:language>ger</dc:language></oai_dc:dc>

</xmlData>

</mdWrap>

</dmdSec>

<dmdSec ID="d01" STATUS="PRIMARY_DMDSEC" CREATED="2006-08-17T14:43:02Z"

ADMID="event04">

<mdWrap MDTYPE="MODS">

<xmlData>

<mods xsi:schemaLocation="http://www.loc.gov/mods/v3

http://www.loc.gov/standards/mods/v3/mods-3-0.xsd"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns="http://www.loc.gov/mods/v3" xmlns:dc="http://purl.org/dc/elements/1.1/">

<titleInfo>

<title>Transurethrale Holmiumlaser Enukleation der Prostata (HoLEP)

versus Transurethrale Elektroresektion der Prostata (TURP)</title>

</titleInfo>

<name>

<namePart type="given">Sascha A.</namePart>

<namePart type="family">Ahyai </namePart>

<role>

<roleTerm type="text">author</roleTerm>

</role>

</name>

<extension>

<dc:type>Text</dc:type>

</extension>

Page 179: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XII

<language>

<languageTerm type="text">de_DE</languageTerm>

</language>

<abstract> Ziele: Trotz ihrer signifikanten Morbidität stellt die transurethrale

Resektion der Prostata (TURP) den gold standard dar für die instrumentelle

Therapie der durch die benigne Prostatahyperplasie (BPH) bedingten [...] Dies

bestätigt die Dauerhaftigkeit des Therapieerfolges dieser 2. Verfahren.

</abstract>

<subject><topic>Medizin</topic></subject>

<identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/HTML/</identifier>

<identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/PDF/ahyai.pdf</identifier>

<identifier>http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/XML/</identifier>

<accessCondition>© Die inhaltliche Zusammenstellung und Aufmachung dieser

Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt.

Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist,

bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung,

die Bearbeitung und Einspeicherung und Verarbeitung in elektronische

Systeme.</accessCondition>

</mods>

</xmlData>

</mdWrap>

</dmdSec>

<!-- Der Vorteil dieses METS-Formates besteht in der Möglichkeit die Metadaten

für die Repräsentationen sauber von den Metadaten für die intellektuelle Einheit

(also vor allem die deskriptiven Metadaten) -->

<amdSec ID="ad01">

<techMD ID="ad01_01">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<object xmlns="http://www.loc.gov/standards/premis/v1"

xsi:schemaLocation="http://www.loc.gov/standards/premis/v1

http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd">

<objectIdentifier>

<objectIdentifierType>edoc</objectIdentifierType>

<objectIdentifierValue>ed0001</objectIdentifierValue>

</objectIdentifier>

<objectCategory>REPRESENTATION</objectCategory>

</object>

</xmlData>

</mdWrap>

</techMD>

<techMD ID="ad01_02">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<object xmlns="http://www.loc.gov/standards/premis/v1"

xsi:schemaLocation="http://www.loc.gov/standards/premis/v1

http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd">

<objectIdentifier>

<objectIdentifierType>edoc</objectIdentifierType>

Page 180: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XIII

<objectIdentifierValue>ad01_f0001</objectIdentifierValue>

</objectIdentifier>

<objectCategory>FILE</objectCategory>

<objectCharacteristics>

<compositionLevel>0</compositionLevel>

<fixity>

<messageDigestAlgorithm>SHA-1</messageDigestAlgorithm>

<messageDigest>56c7ea9bc026b9eb1f814516937ef9e687045a03</messageDigest>

</fixity>

<size>85516</size>

<format>

<formatDesignation>

<formatName>OLE2 Compound Document Format</formatName>

</formatDesignation>

<formatRegistry>

<formatRegistryName>PRONOM</formatRegistryName>

<formatRegistryKey>ft/111</formatRegistryKey>

<formatRegistryRole>Specification</formatRegistryRole>

</formatRegistry>

</format>

</objectCharacteristics>

</object>

</xmlData>

</mdWrap>

</techMD>

</amdSec>

<amdSec ID="ad02">

<techMD ID="ad02_01" STATUS="PRIMARY_REPRESENTATION">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<object xmlns="http://www.loc.gov/standards/premis/v1"

xsi:schemaLocation="http://www.loc.gov/standards/premis/v1

http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd">

<objectIdentifier>

<objectIdentifierType>URN</objectIdentifierType>

<objectIdentifierValue>urn:nbn:de:kobv:11-10067510</objectIdentifierValue>

</objectIdentifier>

<objectCategory>REPRESENTATION</objectCategory>

</object>

</xmlData>

</mdWrap>

</techMD>

<techMD ID="ad02_02">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<object xmlns="http://www.loc.gov/standards/premis/v1"

xsi:schemaLocation="http://www.loc.gov/standards/premis/v1

http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd">

<objectIdentifier>

<objectIdentifierType>edoc</objectIdentifierType>

<objectIdentifierValue>ad02_f0001</objectIdentifierValue>

</objectIdentifier>

Page 181: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XIV

<objectCategory>FILE</objectCategory>

<objectCharacteristics>

<compositionLevel>0</compositionLevel>

<fixity>

<messageDigestAlgorithm>SHA-1</messageDigestAlgorithm>

<messageDigest>11def2b432932cacbe5c04fc5f15a68a78cee44b</messageDigest>

</fixity>

<size>85516</size>

<format>

<formatDesignation>

<formatName>text/xml</formatName>

<formatVersion>1.0</formatVersion>

</formatDesignation>

</format>

</objectCharacteristics>

<originalName>ahyai_xdiml.xml</originalName>

<relationship>

<relationshipType>derivation</relationshipType>

<relationshipSubType>is source of</relationshipSubType>

<relatedObjectIdentification>

<relatedObjectIdentifierType>edoc</relatedObjectIdentifierType>

<relatedObjectIdentifierValue>ad01_f0001</relatedObjectIdentifierValue>

<relatedObjectSequence>1</relatedObjectSequence>

</relatedObjectIdentification>

</relationship>

<!--etc., es wird Gegenstand weiterer Arbeit sein, wichtige Metadaten aus dem

PREMIS data Dictionary zu identifizieren, die nur von digitalen Repositorium er-

hoben werden können und deshalb auch nur dort im Datenmanagement vorgehalten wer-

den müssen.-->

</object>

</xmlData>

</mdWrap>

</techMD>

<!-- Hier eine Sektion mit technischen Metadaten des zuvor durch PREMIS-Metadtaen

beschriebenen Objektes, extrahiert mit JHOVE; zu überlegen wäre, ob man die Daten

aus JHOVE in offene Kategorien von PREMIS mappt, da das Ausgabeformat von JHOVE

kein Standard für technische Langzeitarchivierungsmetadaten ist, d.h. JHOVE ist

lediglich ein Tool zur Validierung und Extraktion der Daten, die dann in ein

genormtes Vokabular zu überführen ist. -->

<techMD ID="ad02_03">

<mdWrap MDTYPE="OTHER">

<xmlData>

<jhove xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns="http://hul.harvard.edu/ois/xml/ns/jhove"

xsi:schemaLocation="http://hul.harvard.edu/ois/xml/ns/jhove

http://hul.harvard.edu/ois/xml/xsd/jhove/1.5/jhove.xsd" name="JhoveView" re-

lease="1.1" date="2008-02-21">

<date>2008-07-11T17:42:44+02:00</date>

<repInfo uri="ahyai_xdiml.xml">

<reportingModule release="1.3" date="2007-01-08">XML-hul</reportingModule>

<lastModified>2008-07-11T17:41:30+02:00</lastModified>

<size>85516</size>

Page 182: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XV

<format>XML</format>

<version>1.0</version>

<status>Well-Formed and Valid</status>

<sigMatch>

<module>XML-hul</module>

</sigMatch>

<mimeType>text/xml</mimeType>

<properties>

<property>

<name>XMLMetadata</name>

<values arity="List" type="Property">

<property>

<name>Parser</name>

<values arity="Scalar" type="String">

<value>com.sun.org.apache.xerces.internal.jaxp.SAXParserImpl$JAXPSAXParser

</value>

</values>

</property>

<property>

<name>Encoding</name>

<values arity="Scalar" type="String">

<value>ISO-8859-1</value>

</values>

</property>

<property>

<name>Root</name>

<values arity="Scalar" type="String">

<value>cms:container</value>

</values>

</property>

<property>

<name>Namespaces</name>

<values arity="List" type="Property">

<property>

<name>Namespace</name>

<values arity="Array" type="Property">

<property>

<name>Prefix</name>

<values arity="Scalar" type="String">

<value>cms</value>

</values>

</property>

<property>

<name>URI</name>

<values arity="Scalar" type="String">

<value>http://edoc.hu-berlin.de/diml/module/cms</value>

</values>

</property>

</values>

</property>

</values>

</property>

Page 183: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XVI

</values>

</property>

</properties>

<checksums>

<checksum type="CRC32">4603d2b5</checksum>

<checksum type="MD5">d56a646890b1ce776eaff4e368ad234c</checksum>

<checksum type="SHA-1">11def2b432932cacbe5c04fc5f15a68a78cee44b</checksum>

</checksums>

</repInfo>

</jhove>

</xmlData>

</mdWrap>

</techMD>

<techMD ID="ad02_04">

<mdWrap MDTYPE="OTHER">

<xmlData>

<jhove xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns="http://hul.harvard.edu/ois/xml/ns/jhove"

xsi:schemaLocation="http://hul.harvard.edu/ois/xml/ns/jhove

http://hul.harvard.edu/ois/xml/xsd/jhove/1.5/jhove.xsd" name="JhoveView" re-

lease="1.1" date="2008-02-21"><date>2008-07-12T11:23:29+02:00</date>

<repInfo uri="image001.gif"><reportingModule release="1.3" date="2006-09-05">GIF-

hul</reportingModule><lastModified>2007-05-21T23:36:18+02:00</lastModified>

<size>423</size><format>GIF</format>

<version>89a</version>

<status>Well-Formed and valid</status>

<sigMatch>

<module>GIF-hul</module>

</sigMatch>

<mimeType>image/gif</mimeType>

<profiles>

<profile>GIF 89a</profile>

</profiles>

<!-- [...] -->

<checksums>

<checksum type="CRC32">754ece84</checksum>

<checksum type="MD5">0f6416d2a8b47dd8d4853bbaa5c20075</checksum>

<checksum type="SHA-1">4a7a0b23339ed844c4596a9ade74c636728d66e7</checksum>

</checksums>

</repInfo>

</jhove>

</xmlData>

</mdWrap>

</techMD>

<digiprovMD ID="event01" ADMID="agent01">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<event xmlns="http://www.loc.gov/standards/premis/v1">

<eventIdentifier>

<eventIdentifierType>LOCAL</eventIdentifierType>

<eventIdentifierValue>event01</eventIdentifierValue>

</eventIdentifier>

Page 184: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XVII

<eventType>REPRESENTATION_CREATION:_w2xdiml</eventType>

<eventDateTime>2006-08-18T15:12:53</eventDateTime>

<linkingAgentIdentifier>

<linkingAgentIdentifierType>URI</linkingAgentIdentifierType>

<linkingAgentIdentifierValue>http://edoc.hu-

berlin.de/diml/</linkingAgentIdentifierValue>

<linkingAgentRole>DATA_CONVERTER</linkingAgentRole>

<linkingAgentRole>SOFTWARE_USED</linkingAgentRole>

</linkingAgentIdentifier>

</event>

</xmlData>

</mdWrap>

</digiprovMD>

<digiprovMD ID="agent01">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<agent xmlns="http://www.loc.gov/standards/premis/v1">

<agentIdentifier>

<agentIdentifierType>URI</agentIdentifierType>

<agentIdentifierValue>http://edoc.hu-

berlin.de/diml/</agentIdentifierValue>

</agentIdentifier>

<agentName>w2xdiml231104</agentName>

<agentType>SOFTWARE</agentType>

</agent>

</xmlData>

</mdWrap>

</digiprovMD>

<digiprovMD ID="event02">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<event xmlns="http://www.loc.gov/standards/premis/v1">

<eventIdentifier>

<eventIdentifierType>LOCAL</eventIdentifierType>

<eventIdentifierValue>event02</eventIdentifierValue>

</eventIdentifier>

<eventType>METADATA_CREATION</eventType>

<eventDateTime>2006-05-02T15:12:53</eventDateTime>

<linkingAgentIdentifier>

<linkingAgentIdentifierType>URI</linkingAgentIdentifierType>

<linkingAgentIdentifierValue>http://edoc.hu-berlin.de/OAI-

2.0?verb=GetRecord&amp;amp;metadataPrefix=oai_xmetadiss&amp;identifier=oai:HUBerl

in.de:26526</linkingAgentIdentifierValue>

<linkingAgentRole>DATA_SOURCE</linkingAgentRole>

</linkingAgentIdentifier>

</event>

</xmlData>

</mdWrap>

</digiprovMD>

<digiprovMD ID="event03">

<mdWrap MDTYPE="PREMIS">

Page 185: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XVIII

<xmlData>

<event xmlns="http://www.loc.gov/standards/premis/v1">

<eventIdentifier>

<eventIdentifierType>LOCAL</eventIdentifierType>

<eventIdentifierValue>event03</eventIdentifierValue>

</eventIdentifier>

<eventType>METADATA_CREATION</eventType>

<eventDateTime>2006-05-02T15:12:53</eventDateTime>

<linkingAgentIdentifier>

<linkingAgentIdentifierType>URI</linkingAgentIdentifierType>

<linkingAgentIdentifierValue>http://edoc.hu-berlin.de/OAI-

2.0?verb=GetRecord&amp;amp;metadataPrefix=oai_dc&amp;identifier=oai:HUBerlin.de:2

6526</linkingAgentIdentifierValue>

<linkingAgentRole>DATA_SOURCE</linkingAgentRole>

</linkingAgentIdentifier>

</event>

</xmlData>

</mdWrap>

</digiprovMD>

<digiprovMD ID="event04">

<mdWrap MDTYPE="PREMIS">

<xmlData>

<event xmlns="http://www.loc.gov/standards/premis/v1">

<eventIdentifier>

<eventIdentifierType>LOCAL</eventIdentifierType>

<eventIdentifierValue>event04</eventIdentifierValue>

</eventIdentifier>

<eventType>METADATA_CREATION</eventType>

<eventDateTime>2006-05-02T15:12:53</eventDateTime>

<linkingAgentIdentifier>

<linkingAgentIdentifierType>URI</linkingAgentIdentifierType>

<linkingAgentIdentifierValue>http://edoc.hu-berlin.de/OAI-

2.0?verb=GetRecord&amp;amp;metadataPrefix=oai_mods&amp;identifier=oai:HUBerlin.de

:26526</linkingAgentIdentifierValue>

<linkingAgentRole>DATA_SOURCE</linkingAgentRole>

</linkingAgentIdentifier>

</event>

</xmlData>

</mdWrap>

</digiprovMD>

</amdSec>

<!-- etc. Hier würden sich die amdSec für die vier weiteren Repräsentationen

anschließen -->

<fileSec>

<fileGrp>

<file ID="ad01_f0001" SIZE="8551600" ADMID="ad01_02"

CHECKSUM="56c7ea9bc026b9eb1f814516937ef9e687045a03" CHECKSUMTYPE="SHA-1"

MIMETYPE="application/ms-word" CREATED="2006-08-28T16:19:00-06:00">

<FLocat LOCTYPE="OTHER" xlink:href="ahyai.doc"/>

</file>

</fileGrp>

<fileGrp>

Page 186: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XIX

<file ID="ad02_f0001" SIZE="85516" ADMID="ad02_02 ad02_03"

CHECKSUM="11def2b432932cacbe5c04fc5f15a68a78cee44b" CHECKSUMTYPE="SHA-1"

MIMETYPE="application/pdf" CREATED="2006-08-28T16:19:00-06:00">

<FLocat LOCTYPE="OTHER" xlink:href="ahyai_xdiml.xml"/>

<file ID="ad02_f0002" SIZE="85516" ADMID="ad02_04"

CHECKSUM="4a7a0b23339ed844c4596a9ade74c636728d66e7" CHECKSUMTYPE="SHA-1"

MIMETYPE="image/gif" CREATED="2006-08-28T16:19:00-06:00">

<FLocat LOCTYPE="OTHER" xlink:href="image0001.gif"/>

</file>

<!-- etc., alle Bilddateien des elektronischen Dokunmentes -->

</file>

</fileGrp>

</fileSec>

<!-- Im Element structMap erfolgt die eigentliche Trennung der Repräsentationen.

Jedes structMap-Element wird als eigenständige Repräsentation angesehen. Die

DMDIDs sind dabei immer dieselben, da jede Repräsentation den gleichen

Informationsgehalt aufweist, d.h. die gleiche intellektuelle Einheit

manifestiert. -->

<!--Dies soll die Struktur der lediglich archivierten XDiML-Fassung für die

Archivierung des Inhaltes darstellen (1 XDiML-Datei und alle Images in GIF bzw.

JPEG). -->

<structMap TYPE="ALTERNATE_STRUCTMAP">

<div DMDID="d01 d02 d03" ADMID="ad01">

<fptr FILEID="ad01_f0001"/>

</div>

</structMap>

<!--Dies soll die Struktur der lediglich archivierten MS Word-Fassung für die

Archvierung des Inhaltes darstellen (1 MS Word-Datei im doc-Format (Word 2003)).

-->

<structMap TYPE="PRIMARY_STRUCTMAP">

<div DMDID="d01 d02 d03" ADMID="ad02 event01">

<fptr FILEID="ad02_f0001"/>

<fptr FILEID="ad02_f0002"/>

</div>

</structMap>

</mets>

Page 187: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XX

D.II MPEG-21 DIDL: Minimales Beispiel (LANL aDORe)

<?xml version="1.0" encoding="UTF-8"?>

<didl:DIDL DIDLDocumentId="info:lanl-repo/i/11d8-a819-b1db893d21e6"

xmlns:didl="urn:mpeg:mpeg21:2002:02-DIDL-NS">

<didl:DIDLInfo>

<dsig:Signature

xmlns:dsig="http://www.w3.org/2000/09/xmldsig#">

<!-- W3C XML Signature of Information package -->

</dsig:Signature>

</didl:DIDLInfo>

<didl:Item id="uuid-00004342-c477-11d8-a819-b1db893d21e6">

<didl:Descriptor>

<didl:Statement mimeType="application/xml; charset=utf-8">

<dii:Identifier xmlns:dii="urn:mpeg:mpeg21:2002:01-DII-NS">

urn:foo/015997845</dii:Identifier>

</didl:Statement>

</didl:Descriptor>

<didl:Component id="uuid-00005e90-c687-11d8-a819-b1db893d21e6">

<didl:Descriptor>

<didl:Statement mimeType="application/xml; charset=utf-8">

<jh:jhove

xmlns:jh="http://hul.harvard.edu/ois/xml/ns/jhove">

<!-- JHOVE Information for Content Data Object -->

</jh:jhove>

</didl:Statement>

</didl:Descriptor>

<didl:Descriptor>

<didl:Statement mimeType="application/xml; charset=utf-8">

<dsig:Signature

xmlns:dsig="http://www.w3.org/2000/09/xmldsig#">

<!-- W3C XML Signature of Content Data Object -->

</dsig:Signature>

</didl:Statement>

</didl:Descriptor>

<didl:Resource mimeType="image/tiff"

ref="http://foo/bar/pict/015997845.tiff"/>

</didl:Component>

<didl:Component id="uuid-0000a01c-d579-21d8-a819-b1db893d21e6">

<didl:Descriptor>

<didl:Statement mimeType="application/xml; charset=utf-8">

<jh:jhove

xmlns:jh="http://hul.harvard.edu/ois/xml/ns/jhove">

<!-- JHOVE Information of Content Data Object -->

</jh:jhove>

</didl:Statement>

</didl:Descriptor>

<didl:Descriptor>

<didl:Statement mimeType="application/xml; charset=utf-8">

<dsig:Signature

xmlns:dsig="http://www.w3.org/2000/09/xmldsig#">

<!-- W3C XML Signature of Content Data Object -->

Page 188: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXI

</dsig:Signature>

</didl:Statement>

</didl:Descriptor>

<didl:Resource encoding="base64" mi-

meType="application/pdf">PSJjIj5jMTk5My48L3N1YmZpZWxkPg0KICAgIDw9uIHhtbG5zSJodHgK

ICAgIDxkdGFnPSIzMDAiIGluZDE9IiAiIGluZDI9IiAiPg0KICAgICAgPHN1YmZpZWxkIGNvcmVzdG9yZ

WQgdG8g...

</didl:Resource>

<didl:Resource mimeType="image/jp2"

ref="http://foo/bar/pict/015997845.jp2"/>

</didl:Component>

</didl:Item>

</didl:DIDL>

Page 189: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXII

D.III DARE DIDL

<?xml version="1.0" encoding="UTF-8"?>

<didl:DIDL xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:didl="urn:mpeg:mpeg21:2002:02-DIDL-NS"

xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dip="urn:mpeg:mpeg21:2005:01-DIP-

NS" xsi:schemaLocation="urn:mpeg:mpeg21:2002:02-DIDL-NS

http://standards.iso.org/ittf/PubliclyAvailableStandards/MPEG-

21_schema_files/did/didl.xsd urn:mpeg:mpeg21:2002:01-DII-NS

http://standards.iso.org/ittf/PubliclyAvailableStandards/MPEG-

21_schema_files/dii/dii.xsd urn:mpeg:mpeg21:2005:01-DIP-NS

http://standards.iso.org/ittf/PubliclyAvailableStandards/MPEG-

21_schema_files/dip/dip.xsd" >

<didl:Item>

<didl:Descriptor>

<didl:Statement mimeType="application/xml" >

<dii:Identifier xmlns:dii="urn:mpeg:mpeg21:2002:01-DII-NS">URN:NBN:NL:UI:28-

44373</dii:Identifier>

</didl:Statement>

</didl:Descriptor>

<didl:Descriptor>

<didl:Statement mimeType="text/xml" >

<dcterms:modified>2008-06-17T09:01:56Z</dcterms:modified>

</didl:Statement>

</didl:Descriptor>

<didl:Component>

<didl:Resource ref="http://purl.org/utwente/44373" mimeType="text/html"

></didl:Resource>

</didl:Component>

<didl:Item>

<didl:Descriptor>

<didl:Statement mimeType="application/xml" >

<dip:ObjectType xmlns:dip="urn:mpeg:mpeg21:2005:01-DIP-NS">info:eu-

repo/semantics/descriptiveMetadata</dip:ObjectType>

</didl:Statement>

</didl:Descriptor>

<didl:Component>

<didl:Resource mimeType="text/xml" >

<oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"

xmlns:dc="http://purl.org/dc/elements/1.1/"

xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/

http://www.openarchives.org/OAI/2.0/oai_dc.xsd" >

<dc:title>Coping with chaos in change processes</dc:title>

<dc:creator>Visscher, Klaasjan</dc:creator>

<dc:creator>Rip, Arie</dc:creator>

<dc:description>In their efforts to change organizations, managers and change

consultants are time and again confronted with the limited controllability of

organizations, the complexity and indeterminacy of change processes and the un-

certain and ambiguous effects of their actions. In short, they are confronted

with chaos. Some managers and consultants try to enhance their (illusion of) con-

trol over organizations by attempting to reduce chaos, while others accept and

embrace chaos and base their change practice on it. This article focuses on the

Page 190: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXIII

second group. Based on a study of literature and a series of interviews with ex-

perienced change consultants, a typology is developed, in which an enlightened

modern, an ironic, and a postmodern way of coping with chaos in change processes

is elaborated. The typology may help change consultants and managers with the

development of their way of working and the articulation of their professional

identity.</dc:description>

<dc:date>2003</dc:date>

<dc:format>application/pdf</dc:format>

<dc:relation>http://doc.utwente.nl/44373/1/Coping_with_chaos_in_change_processes.

pdf</dc:relation>

<dc:identifier>http://purl.org/utwente/44373</dc:identifier>

<dc:rights>© 2003 Blackwell</dc:rights>

<dc:type>Article / Letter to editor</dc:type>

</oai_dc:dc>

</didl:Resource>

</didl:Component>

</didl:Item>

<didl:Item>

<didl:Descriptor>

<didl:Statement mimeType="application/xml" >

<dip:ObjectType>info:eu-repo/semantics/humanStartPage</dip:ObjectType>

</didl:Statement>

</didl:Descriptor>

<didl:Component>

<didl:Resource ref="http://purl.org/utwente/44373" mimeType="text/html"

></didl:Resource>

</didl:Component>

</didl:Item>

<didl:Item>

<didl:Descriptor>

<didl:Statement mimeType="application/xml" >

<dip:ObjectType>info:eu-repo/semantics/descriptiveMetadata</dip:ObjectType>

</didl:Statement>

</didl:Descriptor>

<didl:Component>

<didl:Resource mimeType="application/xml" >

<mods version="3.2" xsi:schemaLocation="http://www.loc.gov/mods/v3

http://www.loc.gov/standards/mods/v3/mods-3-2.xsd" >

<titleInfo>

<title>Coping with chaos in change processes</title>

</titleInfo>

<name ID="n44373-0" type="personal" >

<namePart type="given" >Klaasjan</namePart>

<namePart type="family" >Visscher</namePart>

<role>

<roleTerm type="code" authority="marcrelator" >aut</roleTerm>

</role>

</name>

<name ID="n44373-1" type="personal" >

<namePart type="given" >Arie</namePart>

<namePart type="family" >Rip</namePart>

<role>

Page 191: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXIV

<roleTerm type="code" authority="marcrelator" >aut</roleTerm>

</role>

</name>

<extension>

<daiList xsi:schemaLocation="info:eu-repo/dai

http://www.surfgroepen.nl/sites/oai/metadata/Shared%20Documents/dai-

extension.xsd" >

<identifier IDref="n44373-0" authority="info:eu-repo/dai/nl"

>181351706</identifier>

<identifier IDref="n44373-1" authority="info:eu-repo/dai/nl"

>068193424</identifier>

</daiList>

</extension>

</mods>

</didl:Resource>

</didl:Component>

</didl:Item>

<didl:Item>

<didl:Descriptor>

<didl:Statement mimeType="application/xml" >

<dip:ObjectType>info:eu-repo/semantics/objectFile</dip:ObjectType>

</didl:Statement>

</didl:Descriptor>

<didl:Descriptor>

<didl:Statement mimeType="text/xml" >

<dcterms:modified>2007-03-06T12:55:36Z</dcterms:modified>

</didl:Statement>

</didl:Descriptor>

<didl:Component>

<didl:Resource

ref="http://doc.utwente.nl/44373/1/Coping_with_chaos_in_change_processes.pdf"

mimeType="application/pdf" ></didl:Resource>

</didl:Component>

</didl:Item>

</didl:Item>

</didl:DIDL>

Page 192: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXV

D.IV XMetaDiss: Vollbeispiel

<?xml version="1.0" encoding="UTF-8"?>

<!-- Testdaten zum Schema xMetaDiss Deutsche Nationalbibliothek -->

<!-- Maximal-Beispiel -->

<!-- Copyright 2006 Deutsche Nationalbibliothek -->

<!-- Zur Validation mit DTD: In den naechsten zwei Zeilen die Kommentarzeichen

entfernen

und dafuer die Zeile mit dem Schema-Aufruf auskommentieren-->

<!-- DOCTYPE xMetaDiss:xMetaDiss SYSTEM "xmetadiss.dtd">

<xMetaDiss:xMetaDiss xmlns:xMetaDiss="http://www.d-nb.de/standards/xMetaDiss/"

xmlns:cc="http://www.d-nb.de/standards/cc/" xmlns:ddb="http://www.d-

nb.de/standards/ddb/" xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:dcmitype="http://purl.org/dc/dcmitype/"

xmlns:dcterms="http://purl.org/dc/terms/" xmlns:pc="http://www.d-

nb.de/standards/pc/" xmlns:urn="http://www.d-nb.de/standards/urn/"

xmlns:thesis="http://www.ndltd.org/standards/metadata/etdms/1.0/"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"-->

<!-- Naechste Zeile beinhaltet den Schema-Aufruf; funktioniert nicht,

wenn DTD-Aufruf nicht auskommentiert ist-->

<xMetaDiss:xMetaDiss xmlns:xMetaDiss="http://www.d-nb.de/standards/xMetaDiss/"

xmlns:cc="http://www.d-nb.de/standards/cc/" xmlns:ddb="http://www.d-

nb.de/standards/ddb/" xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:dcmitype="http://purl.org/dc/dcmitype/"

xmlns:dcterms="http://purl.org/dc/terms/" xmlns:pc="http://www.d-

nb.de/standards/pc/" xmlns:urn="http://www.d-nb.de/standards/urn/"

xmlns:thesis="http://www.ndltd.org/standards/metadata/etdms/1.0/"

xmlns="http://www.d-nb.de/standards/subject/"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.d-nb.de/standards/xMetaDiss/ xmetadiss.xsd">

<dc:title xsi:type="ddb:titleISO639-2" lang="ger"

ddb:type="authorizedHeading">Erster Titel</dc:title>

<dc:title xsi:type="ddb:titleISO639-2" lang="eng"

ddb:type="translated">first

title</dc:title>

<dcterms:alternative xsi:type="ddb:talternativeISO639-2" lang="ger">Zusatz

zum Titel</dcterms:alternative>

<dcterms:alternative xsi:type="ddb:talternativeISO639-2" lang="eng"

ddb:type="translated">alternative title</dcterms:alternative>

<dc:creator xsi:type="pc:MetaPers">

<pc:person gender="f" PND-Nr="123456789">

<pc:name type="nameUsedByThePerson">

<pc:personEnteredUnderGivenName>Dalida</pc:personEnteredUnderGivenName>

<pc:titleOfNobility>Princess of

Thailand</pc:titleOfNobility>

</pc:name>

<pc:name type="otherName" otherNameType="realName">

<pc:personEnteredUnderGivenName>Somkid

Jatusripitak</pc:personEnteredUnderGivenName>

</pc:name>

<pc:name type="otherName" otherNameType="fullerName">

Page 193: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXVI

<pc:foreName>Ute</pc:foreName>

<pc:surName>Beispiel</pc:surName>

<pc:prefix>von</pc:prefix>

</pc:name>

<pc:academicTitle>Dr.jur.</pc:academicTitle>

<pc:academicTitle>Prof.</pc:academicTitle>

<pc:dateOfBirth xsi:type="dcterms:W3CDTF">1960-12-

12</pc:dateOfBirth>

<pc:nativePlace Scheme="GKD">Zürich</pc:nativePlace>

<pc:profession Scheme="SWD">Jurist</pc:profession>

<pc:workingFields

Scheme="SWD">Promotionsrecht</pc:workingFields>

<pc:workingFields>Hochschulrecht</pc:workingFields>

<pc:countryPubl type="dcterms:ISO3166" countryCode="CH-NE"/>

<pc:fieldOfStudy>Deutsches

Verwaltungsrecht</pc:fieldOfStudy>

<pc:affiliation>

<cc:universityOrInstitution cc:GKD-Nr="1234567-8">

<cc:name>Freie Universität</cc:name>

<cc:place>Berlin</cc:place>

<cc:department>

<cc:name>Fachbereich

Rechtswissenschaft</cc:name>

<cc:place>

Potsdam</cc:place>

</cc:department>

</cc:universityOrInstitution>

<cc:universityOrInstitution cc:GKD-Nr="2345678-9">

<cc:name>Humboldt-Universität</cc:name>

<cc:place>Berlin</cc:place>

<cc:department>

<cc:name>Staatswissenschaftliche

Fakultät</cc:name>

</cc:department>

</cc:universityOrInstitution>

</pc:affiliation>

<pc:note type="ddb:noScheme">Universitätswechsel

1989</pc:note>

<pc:publications>

<dc:title xsi:type="ddb:titleISO639-2" lang="ger"

ddb:type="authorizedHeading">Geschichte der deutschen

Doktorarbeit</dc:title>

<dcterms:issued

xsi:type="dcterms:W3CDTF">1995</dcterms:issued>

</pc:publications>

<pc:publications>

<dc:title xsi:type="ddb:titleISO639-2" lang="eng"

ddb:type="translated">History

of German scientific

publication law</dc:title>

<dcterms:issued

xsi:type="dcterms:W3CDTF">1997</dcterms:issued>

Page 194: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXVII

</pc:publications>

<pc:homePage type="dcterms:URI" kind="dcterms:IMT" encod-

ing="text/html">http://www.beispiel.de</pc:homePage>

<pc:homePage type="dcterms:URI" kind="dcterms:IMT" encod-

ing="application/powerpoint">http://hu-

berlin.de/fb/recht/beispiel.ppt</pc:homePage>

<pc:email>[email protected]</pc:email>

<pc:email>[email protected]</pc:email>

<pc:address Scheme="DIN5008">Hegelstr.

40, 12111 Berlin</pc:address>

</pc:person>

</dc:creator>

<dc:creator xsi:type="pc:MetaPers">

<pc:person gender="f" PND-Nr="2345678X">

<pc:name type="nameUsedByThePerson">

<pc:foreName>Helga</pc:foreName>

<pc:surName>Muster</pc:surName>

<pc:prefix> von </pc:prefix>

</pc:name>

<pc:name type="otherName" otherNameType="realName">

<pc:foreName>Helena</pc:foreName>

<pc:surName>Bergmann</pc:surName>

</pc:name>

<pc:dateOfBirth

xsi:type="dcterms:W3CDTF">1970</pc:dateOfBirth>

</pc:person>

</dc:creator>

<dc:subject xsi:type="xMetaDiss:DDC-SG">340</dc:subject>

<dc:subject xsi:type="dcterms:DDC">346</dc:subject>

<dc:subject xsi:type="xMetaDiss:SWD">Wissenschaftliches

Manuskript</dc:subject>

<dc:subject xsi:type="xMetaDiss:noScheme">Germany scientific publica-

tion</dc:subject>

<dcterms:tableOfContents xsi:type="ddb:contentISO639-2" lang="ger"

ddb:type="dcterms:URI">http://www.beispiel.de/inhalt.htm</dcterms:tableOfContents

>

<dcterms:abstract xsi:type="ddb:contentISO639-2" lang="ger"

ddb:type="noScheme">Zusammenfasung des

Textes </dcterms:abstract>

<dc:publisher xsi:type="cc:Publisher" ddb:role="Universitaetsbibliothek"

countryCode="DE">

<cc:universityOrInstitution cc:GKD-Nr="1234567-8">

<cc:name>Universitätsbibliothek der

Humboldt-Universität</cc:name>

<cc:place>Berlin</cc:place>

</cc:universityOrInstitution>

<cc:address cc:Scheme="DIN5008">Unter den

Linden 1, 10250 Berlin</cc:address>

</dc:publisher>

<dc:publisher xsi:type="cc:Publisher" ddb:role="Nationalbibliothek"

type="dcterms:3166" countryCode="DE">

<cc:universityOrInstitution cc:GKD-Nr="1234557-8">

Page 195: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXVIII

<cc:name>Deutsche Nationalbibliothek</cc:name>

<cc:place>Frankfurt a. M.</cc:place>

<cc:place>Leipzig</cc:place>

</cc:universityOrInstitution>

<cc:address>Adickesallee 1, 60431

Frankfurt</cc:address>

</dc:publisher>

<dc:contributor xsi:type="pc:Contributor" thesis:role="advisor" country-

Code="US">

<pc:person gender="m" PND-Nr="456789123">

<pc:name type="nameUsedByThePerson">

<pc:foreName>Prof.</pc:foreName>

<pc:surName>Bond</pc:surName>

</pc:name>

<pc:address>FU Berlin</pc:address>

</pc:person>

</dc:contributor>

<dc:contributor xsi:type="pc:Contributor" thesis:role="co-chair" country-

Code="DE">

<pc:person>

<pc:name type="otherName">

<pc:foreName>Ulrich</pc:foreName>

<pc:surName>Richtig</pc:surName>

</pc:name>

</pc:person>

</dc:contributor>

<dc:contributor xsi:type="pc:Contributor" thesis:role="committeeMember">

<pc:person>

<pc:name type="nameUsedByThePerson">

<pc:foreName>Severinus</pc:foreName>

<pc:surName>Carozza</pc:surName>

<pc:prefix>von</pc:prefix>

</pc:name>

</pc:person>

</dc:contributor>

<dcterms:created xsi:type="dcterms:W3CDTF">2001-12-24</dcterms:created>

<dcterms:dateSubmitted

xsi:type="dcterms:W3CDTF">2002</dcterms:dateSubmitted>

<dcterms:dateAccepted xsi:type="dcterms:W3CDTF">2003-12-

12</dcterms:dateAccepted>

<dc:type xsi:type="ddb:PublType">ElectronicThesisandDissertation</dc:type>

<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>

<dc:type xsi:type="dcterms:DCMIType">Dataset</dc:type>

<dc:identifier xsi:type="urn:nbn">urn:nbn:de:kobv:01-

200312125</dc:identifier>

<dcterms:medium xsi:type="dcterms:IMT">application/pdf</dcterms:medium>

<dc:language xsi:type="dcterms:ISO639-2">ger</dc:language>

<dcterms:isVersionOf

xsi:type="dcterms:URI">http://www.beispiel.de/vorlaeufige_Ausgabe.html

</dcterms:isVersionOf>

<dcterms:hasVersion xsi:type="ddb:ISBN">3-012-234567, 2., überarbeitete

Ausgabe </dcterms:hasVersion>

Page 196: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXIX

<dcterms:isReplacedBy

xsi:type="ddb:noScheme">Neuausgabe</dcterms:isReplacedBy>

<dcterms:replaces

xsi:type="dcterms:URI">http://www.beispiel.de/aeltere_Ausgabe.htm

</dcterms:replaces>

<dcterms:isRequiredBy xsi:type="ddb:noScheme">Name der Ressource, die eine

Datenbank

benötigt (die Datenbank ist in der

Hochschulschrift enthalten) </dcterms:isRequiredBy>

<dcterms:requires xsi:type="ddb:noScheme">Name

der Ressource, die eine Datenbank enthält,

die Hochschulschrift benötigt diese

Datenbank für ihre Funktionalität </dcterms:requires>

<dcterms:isPartOf xsi:type="ddb:noScheme">Name

der Gesamtausgabe (ein Teil davon ist die

Hochschulschrift) </dcterms:isPartOf>

<dcterms:hasPart xsi:type="ddb:noScheme">Name

der Ressource, die eine Teil der

Hochschulschrift ist </dcterms:hasPart>

<dcterms:isReferencedBy

xsi:type="dcterms:URI">http://www.beispiel.de/reference.htm

</dcterms:isReferencedBy>

<dcterms:references

xsi:type="dcterms:URI">http://www.beispiel.de/Grundlagenwerk.pdf

</dcterms:references>

<dcterms:isFormatOf xsi:type="ddb:noScheme">Name der gedruckten Ressource,

die

anschliessend als Hochschulschrift online

erschienen ist </dcterms:isFormatOf>

<dcterms:hasFormat xsi:type="ddb:noScheme">Name der gedruckten Ressource,

die nach

der Online-Hochschulschrift erschienen ist</dcterms:hasFormat>

<dcterms:conformsTo

xsi:type="dcterms:URI">http://www.beispiel.de/Dokumentenstandard.pdf

</dcterms:conformsTo>

<dc:coverage xsi:type="ddb:encoding" ddb:Scheme="ddb:noScheme">

Forschungszentrum

&lt;Karlsruhe&gt;</dc:coverage>

<dcterms:temporal xsi:type="dcterms:Period">1999-2003</dcterms:temporal>

<dc:rights xsi:type="dcterms:URI">

http://www.uni-test.de/rechte.htm</dc:rights>

<dcterms:accessRights xsi:type="ddb:access" ddb:type="dcterms:URI"

ddb:kind="domain">http://www.uni.de/zugriff.htm</dcterms:accessRights>

<thesis:degree>

<thesis:level>thesis.doctoral</thesis:level>

<thesis:grantor xsi:type="cc:Corporate" countryCode="DE">

<cc:universityOrInstitution cc:GKD-Nr="1234567-9">

<cc:name>Humboldt-Universität</cc:name>

<cc:place>Berlin</cc:place>

<cc:department>

<cc:name>Informationstechnische

Fakultät</cc:name>

Page 197: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXX

<cc:place> Berlin</cc:place>

</cc:department>

</cc:universityOrInstitution>

</thesis:grantor>

<thesis:discipline>Computerlinguistik</thesis:discipline>

<thesis:name>Dr.rer.nat.</thesis:name>

</thesis:degree>

<ddb:contact ddb:contactID="F1111-1111"/>

<ddb:fileNumber>2</ddb:fileNumber>

<ddb:fileProperties ddb:fileName="dissertation.pdf" ddb:fileID="file01"

ddb:format="PDF1.2" ddb:characterSet="UTF-8" ddb:creation="OpenOffice.org1.1"

ddb:fileDirectory="/dokument/" ddb:fileSize="1088000"/>

<ddb:fileProperties ddb:fileName="dissertation.htm" ddb:fileID="file02"

ddb:format="HTML4.0" ddb:characterSet="UTF-8" ddb:creation="OpenOffice.org1.1"

ddb:fileDirectory="/dokument/" ddb:fileSize="12500"/>

<ddb:transfer ddb:type="dcterms:URI">http://www.ub-

beispielstadt.de/transfer.zip</ddb:transfer>

<ddb:identifier

ddb:type="URL">http://www.beispiel.de/dissertation.hrml</ddb:identifier>

<ddb:identifier ddb:type="URN">urn:isbn:1234567891</ddb:identifier>

<ddb:identifier ddb:type="DOI">10.1000/beispiel-doi</ddb:identifier>

<ddb:rights ddb:kind="free"/>

<ddb:server> Örtliches Rechenzentrum

http://www.stadt.de <ddb:description>nur

Port 17</ddb:description>

</ddb:server>

<ddb:dateDelivered xsi:type="dcterms:W3CDTF">2003-08-

01</ddb:dateDelivered>

<ddb:useRestrictionInfo ddb:type="print_prot">Nur im Lesesaal

druckbar</ddb:useRestrictionInfo>

<ddb:annotation>2. Version aus rechtlichen

Gründen 2003-08-08

eingestellt</ddb:annotation>

</xMetaDiss:xMetaDiss>

Page 198: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXI

D.V EPrints Application Profile (EPDCX)

Quelle des Datensatzes:

GET-Abfrage der OAI-Schnittstelle der HU zu Berlin

http://edoc.hu-berlin.de/OAI-

2.0?verb=GetRecord&metadataPrefix=oai_epdcx&identifier=oai:HUBerlin.de:26526

(Datensatz hier gekürzt)

<epdcx:descriptionSet xmlns:epdcx="http://purl.org/eprint/epdcx/2006-11-16/"

xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:dcterms="http://purl.org/dc/terms/"

xmlns:entityType="http://purl.org/eprint/entityType/"

xmlns:terms="http://purl.org/eprint/terms/"

xmlns:eprint="http://purl.org/eprint/terms/"

xmlns:epstatus="http://purl.org/eprint/status/"

xmlns:type="http://purl.org/eprint/type/" xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:dai="http://dai.org/digitalAuthorIdentifier/"

xmlns:relation="http://www.loc.gov/loc.terms/relators/" xmlns:urn="http://www.d-

nb.de/standards/urn/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:data-view="http://www.w3.org/2003/g/data-view#" data-

view:transformation="http://purl.org/eprint/epdcx/xslt/2006-11-

16/epdcx2rdfxml.xsl" xsi:schemaLocation="http://purl.org/eprint/epdcx/2006-11-16/

http://purl.org/eprint/epdcx/xsd/2006-11-16/epdcx.xsd">

<!-- The Scholarly Work-->

<epdcx:description epdcx:resourceURI="http://edoc.hu-

berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/PDF">

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="entityType:ScholarlyWork"/><epdcx:statement

epdcx:propertyURI="dc:identifier">

<epdcx:valueString epdcx:sesURI="dcterms:URI">http://edoc.hu-

berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/PDF/ahyai.pdf</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dc:title">

<epdcx:valueString>Transurethrale Holmiumlaser Enukleation der

Prostata (HoLEP) versus Transurethrale Elektroresektion der Prostata

(TURP)</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:creator">

<epdcx:valueString>Ahyai, Sascha

A.</epdcx:valueString></epdcx:statement><epdcx:statement

epdcx:propertyURI="dc:contributor">

<epdcx:valueString>Kuntz, R.

M.</epdcx:valueString></epdcx:statement><epdcx:statement

epdcx:propertyURI="dc:contributor">

<epdcx:valueString>Miller,

K.</epdcx:valueString></epdcx:statement><epdcx:statement

epdcx:propertyURI="dc:contributor">

<epdcx:valueString>Rassweiler, J. J.</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:publisher">

Page 199: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXII

<epdcx:valueString>Medizinische Fakultät - Universitätsklinikum

Charité</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dcterms:abstract">

<epdcx:valueString xml:lang="eng">Purpose: Transurethral electrocau-

tery resection (TURP) is generally regarded as the gold standard surgical treat-

ment for bladder outflow obstruction due to benign prostatic [...]This confirms

the durability of these 2 procedures. </epdcx:valueString></epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:subject"

epdcx:vesURI="dcterms:LCSH">

<epdcx:valueString>Prostata</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="eprint:affiliatedInstitution">

<epdcx:valueString>Humboldt Universität zu Ber-

lin</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="terms:isExpressedAs"

epdcx:valueURI="urn:nbn:de:kobv:11-10056775"/>

</epdcx:description>

<!--The Expression-->

<epdcx:description epdcx:resourceURI="urn:nbn:de:kobv:11-10056775">

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="entityType:Expression"/>

<epdcx:statement epdcx:propertyURI="type:Thesis">

<epdcx:valueString>Doctoral thesis</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dc:identifier">

<epdcx:valueString epdcx:sesURI="dcterms:URI">urn:nbn:de:kobv:11-

10056775</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dcterms:available">

<epdcx:valueString epdcx:sesURI="dcterms:W3CDTF">2006-01-

04</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dc:language"

epdcx:vesURI="dcterms:ISO639-2/B">

<epdcx:valueString>ger</epdcx:valueString>

</epdcx:statement><epdcx:statement epd-

cx:propertyURI="terms:isManifestedAs" epdcx:valueURI="manifestation1"/>

</epdcx:description>

<!--The Manifestation-->

<epdcx:description>

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="entityType:Manifestation"/>

<epdcx:statement epdcx:propertyURI="dc:format">

<epd-

cx:valueString>application/pdf</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epd-

cx:propertyURI="dc:publisher">

<epdcx:valueString>Humboldt Universität zu Ber-

lin</epdcx:valueString>

</epdcx:statement>

Page 200: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXIII

<epdcx:statement epd-

cx:propertyURI="terms:isAvailableAs" epdcx:valueURI="http://edoc.hu-

berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/PDF/ahyai.pdf"/>

</epdcx:description>

<!--The Copy-->

<epdcx:description epdcx:resourceURI="http://edoc.hu-

berlin.de/dissertationen/ahyai-sascha-a-2005-12-16/PDF/ahyai.pdf">

<epdcx:statement epdcx:propertyURI="dc:type" epdcx:valueURI="entityType:Copy"/>

<epdcx:statement epdcx:propertyURI="dc:format">

<epdcx:valueString>application/pdf</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:publisher">

<epdcx:valueString>Humboldt Universität zu Ber-

lin</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="terms:isAvailableAs" epd-

cx:valueURI="http://edoc.hu-berlin.de/dissertationen/ahyai-sascha-a-2005-12-

16/PDF/ahyai.pdf"/>

</epdcx:description>

<!--The Agent, Publisher-->

<epdcx:description><epdcx:statement epdcx:propertyURI="dc:type" epd-

cx:valueURI="entityType:Organisation"/>

<epdcx:statement epdcx:propertyURI="foaf:name">

<epdcx:valueString>Medizinische Fakultät - Universitätsklinikum

Charité</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="foaf:homepage">

<epdcx:valueString>www.edoc.hu-berlin.de</epdcx:valueString>

</epdcx:statement>

</epdcx:description>

<!--The Agent, Creator-->

<epdcx:description>

<epdcx:statement epdcx:propertyURI="dc:type" epdcx:valueURI="entityType:Person"/>

<epdcx:statement epdcx:propertyURI="dc:creator">

<epdcx:valueString>Ahyai, Sascha A.</epdcx:valueString>

</epdcx:statement>

</epdcx:description>

<!--The Agent, Supervisor-->

<epdcx:description>

<epdcx:statement epdcx:propertyURI="dc:type" epdcx:valueURI="entityType:Person"/>

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="relation:THS">

<epdcx:valueString>Referee</epdcx:valueString>

</epdcx:statement><epdcx:statement epdcx:propertyURI="dc:Contributor">

<epdcx:valueString>Kuntz, R. M.</epdcx:valueString>

</epdcx:statement>

</epdcx:description>

<epdcx:description>

<epdcx:statement epdcx:propertyURI="dc:type" epd-

cx:valueURI="entityType:Person"/>

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="relation:THS">

Page 201: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXIV

<epdcx:valueString>Referee</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:Contributor">

<epdcx:valueString>Miller, K.</epdcx:valueString>

</epdcx:statement>

</epdcx:description>

<epdcx:description>

<epdcx:statement epdcx:propertyURI="dc:type" epd-

cx:valueURI="entityType:Person"/>

<epdcx:statement epdcx:propertyURI="dc:type"

epdcx:valueURI="relation:THS">

<epdcx:valueString>Referee</epdcx:valueString>

</epdcx:statement>

<epdcx:statement epdcx:propertyURI="dc:Contributor">

<epdcx:valueString>Rassweiler, J. J.</epdcx:valueString>

</epdcx:statement>

</epdcx:description>

</epdcx:descriptionSet>

Page 202: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXV

D.VI Dublin Core Simple via SRU/SRW

Anfrage:

http://www.theeuropeanlibrary.org/sru/sru.pl?query=dc.author=marx,karl&recordSc

hema=DC&maximumRecords=1

<?xml version="1.0" encoding="UTF-8"?>

<srw:searchRetrieveResponse xmlns:srw="http://www.loc.gov/zing/srw/"

xmlns:srw_dc="info:srw/schema/1/dc-v1.1"

xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/"

xmlns:dcx="http://krait.kb.nl/coop/tel/handbook/telterms.html"

xmlns:tel="http://krait.kb.nl/coop/tel/handbook/telterms.html"

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns:mods="http://www.loc.gov/mods"

xmlns:lib="http://krait.kb.nl/coop/tel/handbook/telterms.html"

xmlns:cld="http://www.ukoln.ac.uk/metadata/rslp/schema/"

xmlns:dcterms="http://purl.org/dc/terms/">

<srw:version>1.1</srw:version>

<srw:numberOfRecords>10000</srw:numberOfRecords>

<srw:resultSetId>26561901</srw:resultSetId>

<srw:records>

<srw:record>

<srw:recordPacking>XML</srw:recordPacking>

<srw:recordSchema>info:srw/schema/1/dc-v1.1</srw:recordSchema>

<srw:recordData><dc:title>Neue Rheinische Zeitung</dc:title>

<dc:creator>Marx, Karl Heinrich</dc:creator>

<dc:creator>Bittel, Karl</dc:creator>

<dc:description>Met reg</dc:description>

<dc:description>Herdr. van de door Karl Marx en Friedrich Engels van maart tot

november 1850 in 6 delen uitgegeven "Neuen Rheinische Zeitung, Politisch-

ökonomische Revue"</dc:description>

<dc:type>book</dc:type>

<dc:publisher>Rütten &amp; Loening</dc:publisher>

<dc:format>printed</dc:format>

<dc:source>Marx, Karl Heinrich</dc:source>

<dc:source>Bittel, Karl</dc:source>

</srw:recordData>

<srw:recordPosition>1</srw:recordPosition>

<srw:extraRecordData/>

</srw:record>

</srw:records>

<srw:echoedSearchRetrieveRequest>

<srw:version>1.1</srw:version>

<srw:query>dc.author=marx,karl</srw:query>

<srw:maximumRecords>1</srw:maximumRecords>

<srw:recordSchema>DC</srw:recordSchema>

</srw:echoedSearchRetrieveRequest>

</srw:searchRetrieveResponse>

Page 203: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

E V

ergl

eich

str

uktu

reller

Mar

kupfo

rmat

e

Tabe

lle 5

: A c

ompa

rison

of

enco

ding

opt

ions

for

str

uctu

ral m

etad

ata31

9

TE

I1

DO

CB

OO

K2

MET

S3

FOX

ML4

, 5

OA

I-O

RE6

M

PEG

-21

DID

L7

SMIL

8

Wha

t do

es it

m

odel

?

docu

men

t

docu

men

t

digi

tal o

bjec

ts

digi

tal o

bjec

ts

digi

tal o

bjec

ts

mul

timed

ia

mul

timed

ia

Wha

t ty

pe o

f co

nten

t w

as it

de

velo

ped

for

or is

it p

rimar

ily

used

for

?

hum

aniti

es,

soci

al s

cien

ces,

lin

guis

tics

tech

nica

l doc

u-m

enta

tion

di

gita

l lib

rary

re-

sour

ces

di

gita

l rep

osito

ry

obje

cts

W

eb r

esou

rces

au

dio,

vid

eo

sync

hron

ized

au

dio,

vid

eo,

imag

es, o

r te

xt

Wha

t ty

pe o

f st

ruct

ure

is it

us

ed t

o re

pre-

sent

? W

hat

are

its s

tren

gths

?

used

to

anno

-ta

te t

ext

and

to

mar

k up

doc

u-m

ent

stru

ctur

e fo

r te

xtua

l an

alys

is

capt

ures

logi

cal

stru

ctur

e of

con

-te

nt in

a p

rese

nta-

tion-

neut

ral f

orm

fo

r pu

blic

atio

n in

a

varie

ty o

f fo

rmat

s

pack

ages

dig

ital

obje

cts

with

ass

o-ci

ated

met

adat

a fo

r en

d-us

er a

c-ce

ss a

nd r

esou

rce

man

agem

ent;

m

etad

ata/

libra

ry-

cent

ric

sim

ilar

to M

ETS

but

allo

ws

for

audi

t tr

acki

ng;

less

exp

licit

abou

t m

etad

ata;

rep

osi-

tory

-cen

tric

perm

its r

euse

of

exis

ting

obje

cts

and

third

par

ty

aggr

egat

ion

for

synd

icat

ion

and

publ

icat

ion

on

Web

; em

phas

is

on W

eb a

ddre

ss-

abili

ty; W

eb-

cent

ric

cont

aine

r-ite

m

stru

ctur

e w

ith

anch

ors

and

frag

men

ts f

or

refe

rrin

g to

po

ints

in s

trea

m;

also

has

des

crip

-to

rs f

or m

etad

ata

mar

kup

for

tim-

ing,

layo

ut, a

n-im

atio

ns, v

isua

l tr

ansi

tions

, and

m

edia

em

bed-

ding

Who

dev

elo-

ped

it?

Text

Enc

odin

g In

itiat

ive

Con

-so

rtiu

m (

TEI-

C)

Org

aniz

atio

n fo

r th

e A

dvan

cem

ent

of S

truc

ture

d In

-fo

rmat

ion

Stan

-da

rds

(OA

SIS)

deve

lope

d by

the

D

igita

l Lib

rary

Fe

dera

tion

(DLF

);

mai

ntai

ned

by

Libr

ary

of C

on-

gres

s (L

C)

Flex

ible

Ext

ensi

ble

Dig

ital O

bjec

t R

epos

itory

Arc

hi-

tect

ure

(Fed

ora)

C

omm

ons

Ope

n A

rchi

ves

Initi

ativ

e (O

AI)

M

ovin

g Pi

ctur

e Ex

pert

s G

roup

(M

PEG

)

Wor

ld W

ide

Web

Con

sort

ium

(W

3C)

31

9 Tab

elle

übe

rnom

men

von

der

Yal

e U

nive

rsity

Lib

rary

200

8, S

. 20f

.

Page 204: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anh

ang

How

long

has

th

e co

mm

unity

or

sta

ndar

d be

en a

roun

d?

TEI-

C s

ince

19

87; P

1 re

-le

ased

in 1

990

1991

1.

1 al

pha

rele

ased

in

200

1

Fedo

ra s

ince

19

99; F

OX

ML

rele

ased

with

Fe-

dora

2.0

(20

05-

01)

OA

I sin

ce 2

001;

2

year

Mel

lon

gran

t fo

r O

AI-

OR

E aw

arde

d 20

06-1

0

MPE

G s

ince

19

88; M

PEG

-21

DID

L re

leas

ed a

s pa

rt o

f IS

O/I

EC

2100

0-2:

2003

in

2003

W3C

sin

ce

1994

; 1.0

(1

998-

01)

Wha

t is

the

cu

rren

t ve

r-si

on?

P5 (

2007

-11)

V

4.5

(200

6-10

);

V5.

0 (u

nder

dev

e-lo

pmen

t)

1.7

(200

7-10

)

1.0

(200

5-01

)

1.0

(sch

edul

ed

for

2008

-09)

; no

w in

bet

a

ISO

/IEC

210

00-

2:20

05

2.1

(200

5-12

);

3.0

(200

8-01

W

3C c

andi

date

re

com

men

dati-

on)

H

ow a

ctiv

e is

th

e us

er c

om-

mun

ity a

s m

easu

red

by #

of

mes

sage

s on

di

scus

sion

list

s fr

om 2

008-

01-

01 t

o 20

08-0

4-15

?

471

on T

EI-L

13

2 on

doc

book

; 59

9 on

doc

book

-ap

ps

37 o

n M

ETS

List

serv

36

men

tion

FOX

ML

of 2

80

tota

l on

fedo

ra-

com

mon

s-us

ers;

29

men

tion

FOX

ML

of 1

76

tota

l on

fedo

ra-

com

mon

s-de

velo

pers

116

on O

AI-

OR

E G

oogl

e gr

oup

no

spo

nsor

ed li

st

53 o

n w

ww

-sm

il@w

3.or

g

1 ht

tp:/

/ww

w.t

ei-c

.org

/ 2

http

://w

ww

.doc

book

.org

/ 3

http

://w

ww

.loc.

gov/

stan

dard

s/m

ets/

4

http

://w

ww

.fed

ora-

com

mon

s.or

g/do

cum

enta

tion/

2.2.

2/us

erdo

cs/d

igita

lobj

ects

/int

roFO

XM

L.ht

ml

5 Th

e Fe

dora

Con

tent

Mod

el A

rchi

tect

ure

for

Fedo

ra 3

.0 in

trod

uces

sig

nific

ant

chan

ges,

whi

ch a

re n

ot a

ccou

nted

for

her

e. F

or a

dditi

onal

info

rmat

ion,

see

ht

tp:/

/ww

w.f

edor

a-co

mm

ons.

org/

docu

men

tatio

n/3.

0b1/

user

docs

/dig

italo

bjec

ts/c

mda

.htm

l 6

http

://w

ww

.ope

narc

hive

s.or

g/or

e/

7 ht

tp:/

/ww

w.c

hiar

iglio

ne.o

rg/m

peg/

8

http

://w

ww

.w3.

org/

Aud

ioV

ideo

/

Page 205: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

XXXVIII

F Beispieldatensätze aus Format Registries

F.I Beispiele aus der PRONOM Technical Format Registry

Tabelle 6: Tabelle 7: Datensatz aus PRONOM: Beschreibung eines JPEG-Formates (Exif Compres-

sed Image (2.2))

Name Exchangeable Image File Format (Compressed)

Version 2.2

Other names Exif Compressed Image (2.2)

Identifiers PUID: x-fmt/391

Family

Classification

Disclosure

Description Description in preparation.

Orientation Binary

Byte order Little-endian (Intel) and Big-endian (Motorola)

Related file formats Has priority over Raw JPEG Stream

Is subsequent version of Exchangeable Image File Format

(Compressed) (2.1)

Technical Environment

Released

Supported until

Format Risk

Developed by None.

Supported by None.

Source Digital Preservation Department / The National Ar-

chives

Source date 11 Mar 2005

Source description

Last updated 02 Aug 2005

Note

Page 206: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XXXIX

Tabelle 8: Datensatz aus PRONOM: Beschreibung eines JPEG-Formates (Raw JPEG Stream)

Name Raw JPEG Stream

Version

Other names JPEG

Identifiers PUID: fmt/41

Family

Classification

Disclosure

Description Description in preparation.

Orientation Binary

Byte order Big-endian (Motorola)

Related file formats Has lower priority than JPEG File Interchange For-

mat (1.00)

Has lower priority than JPEG File Interchange For-

mat (1.01)

Has lower priority than JPEG File Interchange For-

mat (1.02)

Has lower priority than Still Picture Interchange File For-

mat (1.0)

Has lower priority than Exchangeable Image File Format

(Compressed) (2.1)

Has lower priority than Exchangeable Image File Format

(Compressed) (2.2)

Has lower priority than Exchangeable Image File Format

(Compressed) (2.0)

Technical Environment

Released

Supported until

Format Risk

Developed by None.

Supported by None.

Source Digital Preservation Department / The National Ar-

chives

Source date 11 Mar 2005

Source description

Last updated 02 Aug 2005

Note

Page 207: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XL

F.II Beispiel aus der GDFR

Tabelle 9: Datensatz aus der GDFR: Beschreibung eines XHTML-Formates (XHTML 1.0)

Canonical identifier info:gdfr/fred/f/xhtml

Description Extensible HyperText Markup Language (XHTML 1.0)

Alias

Type MIME media type

Value application/xhtml+xml

Note An xhtml document may be associated with one of four MIME types; 'application/xhtml+xml' is the type recommended by the W3C, but it may cause browser problems

Alias

Type MIME media type

Value text/html

Note W3C states that "The use of 'text/html' for XHTML should be limited for the purpose of rendering on existing HTML user agents, and should be limited to XHTML 1 documents which follow the HTML Compatibility Guidelines."

Alias

Type MIME media type

Value application/xml

Note Although the W3C says "Any XHTML Family document may be served as 'application/xml'", it recommends that "Whenever appropriate, 'ap-plication/xhtml+xml' should be used rather than 'application/xml'".

Alias

Type MIME media type

Value text/xml

Note W3C recommends 'application/xhtml+xml' over this more generic type.

Version 1.0

Legal or recognized owner

Name World Wide Web Consortium

Organization type Non-profit entity

Web site http://www.w3.org

Relationship

Type of relation Other (see notes)

Target format identifier

Type GDFR format identifier

Value info:gdfr/fred/f/html

Note W3C calls this a "reformulation" of HTML4 that "subsets" and "extends" HTML4

Target registry identifier

Type GDFR registry identifier

Value FRED

Relationship

Type of relation Subtype of target

Page 208: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XLI

Target format identifier

Type GDFR format identifier

Value info:gdfr/fred/f/xml

Target registry identifier

Type GDFR registry identifier

Value FRED

Specification

Document title XHTML(TM) 1.0 The Extensible HyperText Markup Language

Document type Article

Access regime Unrestricted access

Identifier http://www.w3.org/TR/xhtml1/

Signature

Signature obligation Optional

External signature type File extension

Signature value . xht

Signature

Signature obligation Optional

External signature type File extension

Signature value .xhtml

Signature

Signature obligation Optional

External signature type File extension

Signature value .html

Signature

Signature obligation Optional

Signature position Fixed position (requires offset)

Byte offset 0

Signature value 0x3C 0x3F 0x78 0x6D 0x6C

Note Most XML docs in ASCII-compatible char sets (including UTF-8) begin with the XML prolog “<?xml”, although it isn't strictly necessary.

Signature

Signature obligation Optional

Signature position Fixed position (requires offset)

Byte offset 1

Signature value 0x003C 0x003F 0x0078 0x006D 0x006C

Note This signature represents the XML prolog (“<?xml”) in a UTF-16 little-endian document. It is not strictly necessary.

Signature

Signature obligation Optional

Signature position Fixed position (requires offset)

Byte offset 1

Signature value 0x3C00 0x3F00 0x7800 0x6D00 0x6C00

Note This signature represents the XML prolog (“<?xml”) in a UTF-16 big-endian document. It is not strictly necessary.

Page 209: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Anhang

XLII

F.III File Format Registry von koLibRI (Auszug)

Pfad im koLibRI-Verzeichnis

.\koLibRI_v1_0\config\kopal_formatregistry.xml

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE FILETYPES [

<!ELEMENT FILETYPES (Item)+ >

<!ELEMENT Item (#PCDATA) >

<!ATTLIST Item

mimeType CDATA #REQUIRED

fileType CDATA #REQUIRED

fileTypeVersion CDATA #REQUIRED

fileTypeStatus CDATA #REQUIRED

fileTypeID CDATA #REQUIRED

fileExtension CDATA #REQUIRED

>

]>

<FILETYPES>

<Item fileType="Unknown File Type" file-

TypeID="urn:diasid:fty:kopal:0000000000000000000000" fileTypeStatus="Active" mi-

meType="application/octet-stream" fileTypeVersion="" fileExtension="" />

<Item fileType="Adobe Acrobat Document" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000001" fileTypeStatus="Active" mi-

meType="application/pdf" fileTypeVersion="1.2" fileExtension="pdf" />

<Item fileType="Adobe Acrobat Document" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000002" fileTypeStatus="Active" mi-

meType="application/pdf" fileTypeVersion="1.3" fileExtension="pdf" />

<Item fileType="Bitmap Image" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000003" fileTypeStatus="Active" mi-

meType="image/bmp" fileTypeVersion="4.0" fileExtension="bmp" />

<Item fileType="GIF Image" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000004" fileTypeStatus="Active" mi-

meType="image/gif" fileTypeVersion="87a" fileExtension="gif" />

<Item fileType="GIF Image" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000005" fileTypeStatus="Active" mi-

meType="image/gif" fileTypeVersion="89a" fileExtension="gif" />

<Item fileType="TIF Image Document" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000007" fileTypeStatus="Obsolete"

mimeType="image/tiff" fileTypeVersion="" fileExtension="tif" />

[...]

<Item fileType="PDF Document" file-

TypeID="urn:diasid:fty:kopal:0200507050000000000077" fileTypeStatus="Active" mi-

meType=" Application/Pdfe " fileTypeVersion="8.4" fileExtension="pdfs" />

<Item fileType="AAC" fileTypeID="urn:diasid:fty:kopal:0200507050000000000078"

fileTypeStatus="defined" mimeType="audio/aac" fileTypeVersion="1.15" fileExten-

sion="aac" />

</FILETYPES>

Page 210: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

XLIII

G Inhalt der CD-Beilage

Die beigelegte CD enthält folgende Ordner:

01_diploma_thesis

Beinhaltet die Diplomarbeit als elektronisches Dokument in den Formaten PDF, XPS

und DOC (MS WORD 2003)

02_bibliography

Beinhaltet eine Textdatei im BibTeX-Format aller für die Arbeit gesammelter Referen-

zen, unabhängig davon, ob diese in der Arbeit zitiert wurden, zum Import in ein Lite-

raturverwaltungsprogramm. Es handelt sich dabei um eine wertvolle Sammlung der

thematisch einschlägigen, aktuellen Literatur.

03_images

Der Ordner enthält alle Graphiken, die im Rahmen der Themenbearbeitung aus

Fremddokumenten entnommen oder selbst erstellt wurden, unabhängig davon, ob

sie auch in der Arbeit verwendet wurden.

Urheberrechtshinweis: Die in diesem Ordner gespeicherten Bildwerke sind nicht Ge-

genstand der Creative Commons Lizenz, unter der die Diplomarbeit veröffentlicht ist.

04_sources

Der Ordner enthält alle während der Bearbeitung der Diplomarbeit genutzten XML-

Dokumente. Dies können beispielsweise Ausgabeformate von Metadaten digitaler

Repositorien, die Ausgabe technischer Validierungswerkzeuge oder XML-basierte

Dokumentformate sein, die für Tests verwendet wurden. Die Dateien sind selbster-

klärend beschriftet und können genutzt werden, um die Überlegungen, die die Dip-

lomarbeit repräsentiert, praktisch nachzuvollziehen.

05_software

Der Ordner enthält die Open Source Software, die zu Testzwecken für die Diplomar-

beit eingesetzt wurde.

Page 211: Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Erklärung

Hiermit erkläre ich, dass ich die vorliegende Diplomarbeit selbständig angefertigt ha-

be. Es wurden nur die in der Arbeit ausdrücklich genannten Quellen und Hilfsmittel

benutzt. Wörtlich oder sinngemäß übernommenes Gedankengut habe ich als solches

kenntlich gemacht.

Potsdam, 5. August 2008

Ort und Datum Unterschrift