Lösungsvorschlag SIMPLE
Seite 3
Lösungsvorschlag SIMPLE
ProblemstellungBegriffeFokus / AbgrenzungLösungsvorschlag SIMPLEIntegrität / Metadaten / PrototypVorteileFragen
Seite 4
Problemstellung I• Integrität
• Digitale Objekte sind fragil und können jederzeit ohne Spuren manipuliert werden
• Digitale Objekte können durch Refresh ohne Veränderung aufbewahrt und vervielfältigt werden
• Komplexität• Heutige Systemlandschaften sind sehr
komplex, haben viele Abhängigkeiten und sind für den Anwender unverständlich und nicht nachvollziehbar
Seite 5
Problemstellung II• Abhängigkeiten
• Digitale Objekte verlieren ohne Metadaten an Wert
• Die Verbindung zwischen digitalen Objekten und Metadaten ist fragil und setzt eine laufende Systemumgebung voraus
• Zur Darstellung eines digitalen Objekts und seiner Metadaten wird spezialisierte Software benötigt
• Die Metadaten werden unabhängig vom digitalen Objekt gepflegt
Seite 6
Begriffe• Digitales Objekt (DO): Endliche,
geordnete Folge von Bits• Integrität: Veränderungen am DO
können festgestellt werden• Lineage: Vorgänger-DOs, welche zur
Erstellung eines DOs verwendet wurden, sind bekannt
• Metadaten: Daten über Daten• Darstellung: Aufbereitung des DOs zur
menschlichen Wahrnehmung
Seite 7
Fokus / Abgrenzung• Fokus auf
• Sicherung der systemunabhängigen Integrität und Identität eines DO
• Zugang zu DO und Metadaten systemunabhängig sicherstellen
• Ausserhalb der Betrachtung liegen• Darstellung eines DOs (Originalität,
Authentizität, etc.)• Festlegung der Metadaten, die ein
DO beschreiben
Seite 8
Lösungsvorschlag SIMPLE• Simple• Identifiable• Metadata
• with• Persistent• Lineage• Embedding
Seite 9
SIMPLE – Simple • Simple ist simpel• Für Anwender begreif- und
nachvollziehbar• Metadaten als selbstdokumentiertes XML• Einfache Einbettung in bestehende
Systeme• Die DOs können ohne Zwischenschritte
wie bisher verwendet werden (z.B. im PDF-Viewer, Word, etc.)
Seite 10
SIMPLE – Identifiable • DOs werden anhand von Hash-
Identifikatoren identifiziert• SIMPLE Metadaten werden auf Byte-
Ebene definiert und identifiziert• SIMPLE Metadaten beginnen immer
mit <metadata describes=• SIMPLE Metadaten können ausgelesen
werden, auch wenn das DO nicht mehr dargestellt werden kann
• Der Wiederaufbau der Metadaten-Datenbank aus dem DO ist jederzeit möglich
Seite 11
SIMPLE – Metadata • SIMPLE Metadaten bestehen aus einem
minimalen Metadatenset• SIMPLE Metadaten werden vollständig
automatisch erzeugt und dienen als Container für weitere Metadaten
• Vorhandene Metadaten können automatisiert in SIMPLE Metadaten eingebettet werden
Seite 12
SIMPLE – Persistent • Durch Hash-Identifikatoren kann jedes
DO Software-unabhängig überprüft werden
• Einmal ausgeführte Veränderungen bleiben in der Lineage nachvollziehbar
• Wann und wie oft Metadaten nachgeführt werden, bleibt dem Anwender überlassen
• Neue Metadaten können ohne Änderung der Daten oder der vorherigen Metadaten hinzugefügt werden
Seite 13
SIMPLE – Lineage (Abstammung)
• SIMPLE Metadaten enthalten Angaben zur Abstammung eines DOs
• Vorgänger können anhand ihrer Hash-Identifikatoren zweifelsfrei identifiziert werden
• Eine Änderung am DO oder dessen Metadaten führt zu einem Nachfolger und einer neuen Hash-Identifikation
• Die Hash-Identifikation und die Abstammung des Vorgängers werden in die Metadaten des Nachfolgers übernommen
• Die Hash-Identifikatoren tragen durch ihre Verbreitung zur Integritätssicherung der Vorgänger bei
Id: 39Id: 41
Id: 42Lineage:39, 41
Seite 14
SIMPLE – Embedding • SIMPLE Metadaten werden reversibel in
das DO integriert• Die Originalität auf Byte-Ebene bleibt so
weit als möglich erhalten • Das DO wird nicht verändert, nur ergänzt• Die Hard- und Software kann das DO wie
bisher verarbeiten• Die Metadaten sind so sicher abgelegt wie
die Daten• Die Integrität wird im DO selbst
sichergestellt• Veränderungen am DO oder an den
Metadaten führten zu Integritätsverlust
Seite 15
SIMPLE – Integrität• SIMPLE und Integrität bedingen sich• Identifikation über Hash Werte
• Identifikation der Vorgänger zur Stärkung deren Integrität durch Abstammung
• Einfache Sicherstellung der Integrität des DOs • Der Hash und der Identifikator müssen
gleich sein• Versiegelung von DOs
• Schutz vor unbeabsichtigten Änderungen
Seite 16
Integritätsprüfung / Versiegelung
• Schutz gegen unbeabsichtigte Änderungen
• Keine externen Abhängigkeiten, das DO genügt
Seite 17
SIMPLE Metadaten• Selbsterklärendes XML mit Klartext-
Erklärungen pro Element• <metadata>: Root-Element; Container
für beliebige beschriebene Metadaten• <identification>: Identifikation eines DO• <ancestors>: Vorgänger der aktuellen
Daten (Abstammung)• <integrity>: Informationen zur
Integritäts-sicherung; Hash-Werte und -Algorithmen, Dokumentation des Vorgehens zur Verifikation
Seite 18
SIMPLE Metadaten I<metadata describes="" documentation="This XML document, contains additional
information (metadata) on this digital object (this file). ….">English: Test for sealing the file "test_HTML.html". Deutsch: Die Datei "test_HTML.html" wurde testweise versiegelt.
<identification documentation="This element details how the digital object can be identified.">
<file currentDateTime="2008-07-17T10:19:09.843 CEST“ >C:\...\test_HTML_sealed.html</file>
<ancestors documentation="This element details from which digital objects the digital object was derived.">
<identification documentation="This element details how the digital object can be identified.">
<sha1 documentation="SHA1 algorithm according to RFC 3174." >e1b68e4b903b5861ef082a07901dc45d90267686</sha1>
<md5>295072db79d8bf9c196e71160394c90f</md5><file currentDateTime="2008-07-17T10:19:09.843 CEST" >C:\...\
test_HTML.html</file></identification>
</ancestors></identification>
…
Seite 19
SIMPLE Metadaten II…
<integrity documentation=" The integrity of this digital object was secured with mechanisms that will be described later. To verify the integrity of this digital object, replace the text within the following elements with the content of the *dummyValue* attribute. Then calculate the hash value of the changed digital object and compare it with the replaced value of the element. If the replaced value and the calculated values are equal, the digital object has not been altered. The attribute *covers* defines which parts of the digital object were used to calculate the hash values (where *data* means that only the data part was used and *data metadata* means that all of the digital object was used).">
<sha1 documentation="SHA1 algorithm according to RFC 3174." covers="data“ >e1b68e4b903b5861ef082a07901dc45d90267686</sha1>
<sha1 documentation="SHA1 algorithm according to RFC 3174." covers="data metadata" dummyValue="........................................" >c9f6dfb1c99e7227eb3cb511a5c906b97481f509</sha1>
<md5 documentation="MD5 algorithm according to RFC 1321."> </md5></integrity>
…
Seite 20
SIMPLE Metadaten III…
<creation documentation="This element details how this digital object was created. ..." software="SIMPLE Utilities (Java) Version 0.6.2; $Revision: 1.50 $, $Date: 2008/07/16 07:50:37 $, $Author: heuscher $" date="2008-07-17T10:19:09.843 CEST">
<modification documentation="This element details how the SIMPLE metadata was integrated into the digital object. …." method="append the xml metadata at the end of the data" undo="remove the comment containing the metadata" software="ch.heuscher.simple.embed.SgmlMetadataEmbedder; $RCSfile: SgmlMetadataEmbedder.java,v $, $Revision: 1.11 $, $Date: 2006/08/25 13:42:29 $, $Author: heuscher $" />
<environment documentation="This element details the environment in which this digital object was created.">
<system property="java.vm.version">1.4.2_16-b05</system><system property="os.name">Windows XP</system>
</environment></creation>
</metadata>
Seite 21
SIMPLE Web-Prototyp• Dateibaum• Aktuelle Prüfung
der Integrität• Zugriff auf DO
mit/ohne SIMPLE Metadaten
• Jede Metadaten-Version zugreifbar
• Upload eigener Test(meta)daten
• http://simple.heuscher.ch/
Seite 22
SIMPLE Prototyp Module / Ablauf
• Jeder Schritt könnte Tool-unabhängig ausgeführt, nachvollzogen und rückgängig gemacht werden
Seite 23
Vorteile von SIMPLE• SIMPLE ist wirklich simpel!
• Minimale Komplexität, viel Klartext• Verständlich und nachvollziehbar für Anwender• Keine zusätzlichen Ressourcen• Keine Änderungen bei der Datenverarbeitung• Keine Abhängigkeiten (Software, Systeme)• Manuell einsetzbar und verifizierbar• Jeder Schritt kann einfach nachvollzogen und
rückgängig gemacht werden• Integritätssicherung von Daten- und Metadaten• Nachvollziehbarkeit durch Abstammung