Upload
nguyenque
View
213
Download
0
Embed Size (px)
Citation preview
CLARIN-D, 31.01.2014, Leipzig 1
CLARIN-DEinführung, Metadaten & CMDI,
OAI-PMH, Repositorysysteme & Fedora
Institut für Informatik
Volker BoehlkeAbt. Automatische Sprachverarbeitung
Institut für Informatik, Universität Leipzig
CLARIN-D, 31.01.2014, Leipzig 2
Warum CLARIN-D in der Vorlesung „Wissens- und Contentmanagement“?
„Content“ in CLARIN-D sind (zumeist) Daten in Form von
– Texten
– Ton- & Videoaufnahmen
… aber auch Verfahren => (zumeist) bereitgestellt in Form von Webservices
CLARIN ist eine verteilte Forschungsinfrastruktur:
– Institutions- und Länderübegreifend
– nationale Initiativen zusammengefasst unter einem gemeinsamen europäischen „Dach“
Motivation
CLARIN-D, 31.01.2014, Leipzig 3
Fragen:
– Auf welcher Basis können Services in einer verteilten Infrastruktur angeboten werden?
=> Standardisierung & Verzeichnisdienste
– Wie kann der unberechtigte Zugriff verhindert werden (Copyright, …)?
– Wie können diese Inhalte durch die Nutzer effizient gefunden werden? => Metadaten + geeignete Tools
– Wo/Wie werden diese Inhalte archiviert (Langzeitarchivierung)? => Repository-Systeme
Dies lässt sich auch auf Szenarien außerhalb von Forschungsinfrastrukturen übertragen!
Motivation
CLARIN-D, 31.01.2014, Leipzig 4
Kurzvorstellung CLARIN-D
– Ziele
– Technik
Metadaten
– Einführung
– CLARIN-D (CMDI & ISOcat)
– OAI-PMH
Repository-Systeme
– Einführung
– Fedora (Fedora Digital Object Model)
Zusammenfassung
Agenda
CLARIN-D, 31.01.2014, Leipzig 6
CLARIN-D – Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften
Linguistische Daten, Werkzeuge und Dienste sollen... in einer integrierten, interoperablen und skalierbaren Infrastruktur
für die Fachdisziplinen der Geistes- und Sozialwissenschaften
… bereitgestellt werden
gefördert durch das Bundesministerium für Bildung und Forschung
Laufzeit: 01.05.2011 – 30.04.2014 (ggf. 2016)
im Web: http://de.clarin.eu
CLARIN-D
CLARIN-D, 31.01.2014, Leipzig 7
Ziel: Mehrwert für die eigene Forschung durch Nutzung einer Infrastruktur
Metadaten & föderierte Suche
“sicheres” Zitieren mittels PIDs
SimpleStore, Workspaces, …
Zugriff auf eine größere Menge von Ressourcen und Werkzeugen
einfache, webbasierte Anwendung ohne Installationen
einfache Verbreitung eigener Ressourcen und Werkzeuge in der Fachdisziplin
CLARIN-D Zielstellung
CLARIN-D, 31.01.2014, Leipzig 8
BAS, Universität München (Florian Schiel)
BBAW, Berlin (Wolfgang Klein)
IDS, Mannheim (Ludwig Eichinger)
MPI, Nijmegen (Peter Wittenburg)
Universität Tübingen (Erhard Hinrichs)
Universität des Saarlandes (Elke Teich)
Universität Hamburg (Kristin Bührig)
Universität Leipzig (Gerhard Heyer) Universität Stuttgart (Jonas Kuhn)
CLARIN-D Zentren
CLARIN-D, 31.01.2014, Leipzig 9
stellen Ressourcen zur Verfügung– Zugriff auf Daten/Tools via Webservices
– einheitlicher Zugriff auf Metadaten
– (Langzeit) Archivierung von Daten/Tools
– Absicherung des Zugriffs über CLARIN-D AAI*
Spezifizieren, Implementieren und Hosten Infrastrukturdienste
* Authentication and Authorization Infrastructure
Aufgaben der CLARIN-D Zentren
CLARIN-D, 31.01.2014, Leipzig 12
CLARIN-D Infrastruktur
Fragestellungen
z.B. Projekt „Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik“
z.B. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?
CLARIN-D, 31.01.2014, Leipzig 13
CLARIN-D Infrastruktur
Fragestellung
Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.
Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?
CLARIN-D, 31.01.2014, Leipzig 14
CLARIN-D Infrastruktur
Fragestellung
Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.
Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?
Operationalisierung
Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora
Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)
=> Kombination zu einer konkreten Anwendung
Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...
Visualisierung
CLARIN-D, 31.01.2014, Leipzig 15
CLARIN-D Infrastruktur
Fragestellung
Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.
Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?
Operationalisierung
Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora
Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)
=> Kombination zu einer konkreten Anwendung
Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...
Visualisierung
CLARIN-D, 31.01.2014, Leipzig 16
CLARIN-D Infrastruktur
Fragestellung
Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.
Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?
Operationalisierung
Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora
Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)
=> Kombination zu einer konkreten Anwendung
Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...
Visualisierung
CLARIN-D, 31.01.2014, Leipzig 17
PIDs – Persistent Identifiers
eindeutige Identifikatoren für digitale Objekte
– genau eine PID für genau eine Ressource (in genau einer Version)
standortunabhängig
über (sehr) lange Zeiträume verfügbar
Ziel: einfaches, eindeutiges und sicheres Zitieren
auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden
CLARIN-D Infrastruktur - PIDs
CLARIN-D, 31.01.2014, Leipzig 18
PIDs – Persistent Identifiers
auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden
CLARIN-D Infrastruktur - PIDs
CLARIN-D, 31.01.2014, Leipzig 19
FCS – Federated Content Search
Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language)
Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle
CLARIN-D Infrastruktur - FCS
CLARIN-D, 31.01.2014, Leipzig 22
Shibboleth
– dient der Authentifizierung/Authorisierung in verteilten Umgebungen
– Grundprinzip: Authentifizierung gegenüber Heimateinrichtung; Externe Stellen vertrauen dieser Authentifizierung und Authorisieren auf dieser Grundlage den Zugriff (Vertrauensnetzwerk).
– Identity Provider (IdP): Authentifiziert Nutzer der Heimateinrichtung
– Service Provider (SP): „schützt“ einen Dienst vor unberechtigtem Zugriff bzw. erzwingt die Authorisierung über einen IdP
CLARIN-D Infrastruktur
CLARIN-D, 31.01.2014, Leipzig 23
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
CLARIN-D, 31.01.2014, Leipzig 24
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
CLARIN-D, 31.01.2014, Leipzig 25
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
– Discovery-Service
CLARIN-D, 31.01.2014, Leipzig 26
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
– Discovery-Service
CLARIN-D, 31.01.2014, Leipzig 27
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
– Discovery-Service
– Authentifizierung bei der Heimateinrichtung
CLARIN-D, 31.01.2014, Leipzig 28
Shibboleth
CLARIN-D Infrastruktur
Nutzer ruft Webseite auf
Discovery-Service
Authentifizierung bei der Heimateinrichtung
Authentifizierung bei der Heimateinrichtung
CLARIN-D, 31.01.2014, Leipzig 29
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
– Discovery-Service
– Authentifizierung bei der Heimateinrichtung
– Weiterleitung zur Webanwendung
CLARIN-D, 31.01.2014, Leipzig 30
Shibboleth
CLARIN-D Infrastruktur
Nutzersicht:
– Nutzer ruft Webseite auf
– Discovery-Service
– Authentifizierung bei der Heimateinrichtung
– Weiterleitung zur Webanwendung
CLARIN-D, 31.01.2014, Leipzig 31
Shibboleth
CLARIN-D Infrastruktur
Weitergabe/Freigabe von Attributen wie:
– eduPersonTargetedID
(Identifier; eindeutig für Nutzer/Service)
– eduPersonScopedAffiliation
(Art d. Zugehörigkeit zu einer Institution
=> student, staff, alum, ... )
geschieht im Hintergrund => Datenschutz?
CLARIN-D, 31.01.2014, Leipzig 32
Shibboleth
CLARIN-D Infrastruktur
Weitergabe/Freigabe von Attributen wie:
– eduPersonTargetedID
(Identifier; eindeutig für Nutzer/Service)
– eduPersonScopedAffiliation
(Art d. Zugehörigkeit zu einer Institution
=> student, staff, alum, ... )
geschieht im Hintergrund => Datenschutz?
CLARIN-D, 31.01.2014, Leipzig 34
kurze Definition: (Metadaten sind) Daten über Daten.
Wikipedia: „Metadaten oder Metainformationen sind Daten, die Informationen über Merkmale anderer Daten enthalten, aber nicht diese Daten selbst.“
Durell (1985): „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“
W3C: „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“
Metadaten
CLARIN-D, 31.01.2014, Leipzig 35
klassisches Beispiel:
–Daten: Inhalt eines Buches
(z.B. Text oder Scan/Bild)
Metadaten vs. Daten
Im Anfang schuf Gott den Himmel und die Erde.
Und die Erde war wüst und leer, und es lag Finsternis auf der Tiefe, und der Geist Gottes schwebte über den Wassern.
Und Gott sprach: Es werde Licht! Und es ward Licht.
Und Gott sah, daß das Licht gut war; da schied Gott das Licht von der Finsternis;
und Gott nannte das Licht Tag, und die Finsternis Nacht. Und es ward Abend, und es ward Morgen: der erste Tag.
Quelle: http://commons.wikimedia.org/
CLARIN-D, 31.01.2014, Leipzig 36
klassisches Beispiel:
–Metadaten: Daten über das Buch
Metadaten vs. Daten
Titel: „Voyages et aventures du capitaine Hatteras“
Autor: Jules Verne
Erscheinungsjahr: 1866
Quelle: http://commons.wikimedia.org/
CLARIN-D, 31.01.2014, Leipzig 37
strukturierte vs. unstrukturierte Metadaten
Name-Wert Paarung:
– Autor: Jules Verne
– Erscheinungsjahr: 1866 typisiert
– Autor: Zeichenkette
– Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall)
Vorteil: „einfach“ maschinell zu verarbeiten
Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet.
Metadaten
CLARIN-D, 31.01.2014, Leipzig 38
strukturierte vs. unstrukturierte Metadaten
Name-Wert Paarung:
– Autor: Jules Verne
– Erscheinungsjahr: 1866 typisiert
– Autor: Zeichenkette
– Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall)
Vorteil: „einfach“ maschinell zu verarbeiten
Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet.
Metadaten
Bill Gates (1981; angeblich): „640 kB sollten eigentlich genug für jeden sein.“ („640 kB ought to be enough for anybody.“)
=> was tun im Jahr 10.000+ (oder -10.000)???
Erscheinungsjahr alter Dokumente (z.B. religiöse Schriften) oftmals unklar => es kann nur ein Zeitraum angeben werden.
CLARIN-D, 31.01.2014, Leipzig 39
strukturierte vs. unstrukturierte Metadaten
textuelle Beschreibung (ohne Struktur/Semantik)
Vorteil: ggf. einfach(er) zu Erstellen
Nachteil: gar nicht / schwer (sehr ungenau) maschinell zu Verarbeiten
Metadaten
CLARIN-D, 31.01.2014, Leipzig 40
1995: Konferenz in Dublin (Ohio)
Einigung auf ein „Kernset“ (Core) von 15 Elementen zur Beschreibung von Ressourcen (primär für Dokumente im Web)
Metadaten - Dublin Core
CLARIN-D, 31.01.2014, Leipzig 41
Contributor: An entity responsible for making contributions to the resource.
Coverage: The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant.
Creator: An entity primarily responsible for making the resource.
Date: A point or period of time associated with an event in the lifecycle of the resource.
Description: An account of the resource.
Format: The file format, physical medium, or dimensions of the resource.
Identifier: An unambiguous reference to the resource within a given context.
Metadaten - Dublin Core
Quelle: http://dublincore.org/documents/dces/
CLARIN-D, 31.01.2014, Leipzig 42
Language: A language of the resource.
Publisher: An entity responsible for making the resource available.
Relation: A related resource.
Rights: Information about rights held in and over the resource.
Source: A related resource from which the described resource is derived.
Subject: The topic of the resource.
Title: A name given to the resource.
Type: The nature or genre of the resource.
Metadaten - Dublin Core
Quelle: http://dublincore.org/documents/dces/
CLARIN-D, 31.01.2014, Leipzig 43
(fiktives) Beispiel in XML:
Metadaten - Dublin Core
Quelle: http://dublincore.org/documents/dc-xml-guidelines/index.shtml
CLARIN-D, 31.01.2014, Leipzig 44
(fiktives) Beispiel in XML:
Metadaten - Dublin Core
Quelle: http://dublincore.org/documents/dc-xml-guidelines/index.shtml
CLARIN-D, 31.01.2014, Leipzig 46
CMDI – Component MetaData Infrastructure
Begriffe: Komponenten, Profile, Instanzen
Tools: Component Registry, ISOcat
CMDI
CLARIN-D, 31.01.2014, Leipzig 47
CMDI – Component MetaData Infrastructure
eine Komponente dient der Beschreibung einer bestimmten „Gruppe“ von Metadaten
Beispiele:
– Dublin Core (Titel, Autor, Sprache, …)
– Attribute zur Beschreibung eines Videos
Komponenten sind wiederverwendbar
CMDI
CLARIN-D, 31.01.2014, Leipzig 48
CMDI – Component MetaData Infrastructure
Profil:
– die Vereinigung (einer oder mehrerer) Komponenten
– dient der Beschreibung eines bestimmten Ressourcentyps
– ist selbst eine Komponente (mit der speziellen Eigenschaft ein Profil zu sein)
– Beispiel:
• Dublin Core (Titel, Autor, Sprache, …)
+ zusätzliche Attribute zur Beschreibung eines Videos
CMDI
CLARIN-D, 31.01.2014, Leipzig 49
CMDI – Component MetaData Infrastructure
Basistechnologie ist XML
Komponenten+Profil: XML-Schema
Instanzen: Die Instanz einer Komponente / eines Profils ist ein XML Dokument, welches konform zum entsprechenden Schema ist.
CMDI
CLARIN-D, 31.01.2014, Leipzig 50
CMDI – Component MetaData Infrastructure
Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, …)
Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion)
Aus einem „Minimalschema“ werden alle weiteren Komponenten/Profile abgeleitet. Die folgenden Sektionen sind Pflicht:
– Header: Basisinformationen wie Profil, SelfLink/PID, Autor, …
– Resources: Referenzierung externer Ressourcen
– Components: Enthält die eigentlichen, spezifischen Metadaten(komponenten)
CMDI
CLARIN-D, 31.01.2014, Leipzig 52
CMDI – Component MetaData Infrastructure
minimales CMDI Dokument
CMDI
CLARIN-D, 31.01.2014, Leipzig 53
CMDI – Component MetaData Infrastructure
minimales CMDI Dokument
CMDI
CLARIN-D, 31.01.2014, Leipzig 54
CMDI – Component MetaData Infrastructure
minimales CMDI Dokument
CMDI
CLARIN-D, 31.01.2014, Leipzig 55
CMDI – Component MetaData Infrastructure
minimales CMDI Dokument
CMDI
CLARIN-D, 31.01.2014, Leipzig 56
CMDI – Component MetaData Infrastructure
minimales CMDI Dokument
CMDI
CLARIN-D, 31.01.2014, Leipzig 57
CMDI – Component MetaData Infrastructure
Component Registry: Webanwendung zur Verwaltung von CMDI-Komponenten und -Profilen
– Suche/Abruf existierender Komponenten/Profile
– Registrierung eigener Komponenten/Profile
– Zugriff via Webservices
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 58
Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 59
Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 61
Registrierung eines Profils „CorpusProfile“ (Wortschatz Korpus)
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 62
maschinenlesbare Varianten der Profilspezifikation
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 63
maschinenlesbare Varianten der Profilspezifikation
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 64
maschinenlesbare Varianten der Profilspezifikation
CMDI – Component Registry
CLARIN-D, 31.01.2014, Leipzig 65
CMDI – Component MetaData Infrastructure
Arbil: Metadaten-(XML)Editor mit Unterstützung für CMDI (Nutzung existierender CMDI-Profile)
CMDI - Arbil
CLARIN-D, 31.01.2014, Leipzig 66
CMDI – Component MetaData Infrastructure
Anbindung an die Component Registry:
CMDI - Arbil
CLARIN-D, 31.01.2014, Leipzig 67
CMDI – Component MetaData Infrastructure
CenterProfile:
– enthält Basisinformationen zu einem CLARIN Zentrum
• Name und Typ, Kontaktmöglichkeit, …
• technische Zugriffspunkte (Typ und Adresse)
– Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)
CMDI - Arbil
CLARIN-D, 31.01.2014, Leipzig 70
Eine (nicht vollständige) Instanz des „CenterProfile“-Profils
Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)
CMDI - Arbil
CLARIN-D, 31.01.2014, Leipzig 71
Eine (nicht vollständige) Instanz des „CenterProfile“-Profils
Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)
CMDI - Arbil
CLARIN-D, 31.01.2014, Leipzig 75
Metadaten in CLARIN?
XML-Dokumente welche einem bestimmten Profil entsprechen
aber: Welche „Bedeutung“ hat eine bestimmte Information?
ISOcat - ISO 12620:2009 (ISO Standard „Specification of data categories and management of a Data Category Registry for language resources“)
data categories für CMDI: verschiedene Tags/Bezeichnungen aber gleiches Konzept (Autor vs. Author)
hinter den (Meta)Daten stehende Konzepte, wie „Corpus“, „Metadata“, „Name“, werden über ISOcat identifiziert/beschrieben
jedes Konzept wird geprüft und bekommt
– eine eindeutige ID
– eine Beschreibung in verschiedenen Sprachen
http://www.isocat.org/
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 76
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 77
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 78
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 79
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 80
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 81
ISOcat Metadaten zu einer data category „resource name“
CMDI – ISOcat
CLARIN-D, 31.01.2014, Leipzig 82
Vorgehen bei der Erstellung und Veröffentlichung von Metadaten für CLARIN:
– Erzeugung von Komponentenbeschreibungen (ggf. Suche nach oder Anlegen von fehlenden ISOcat data categories)
– Erzeugung eines Profils aus diesen Komponenten
– Generierung des daraus resultierenden XML-Schemas
– Verlinkung des XML-Schemas in Metadaten-Beschreibungen
– Einfügen der Metadaten in ein Repository-System
(wiederum registriert in CLARIN CenterRegistry)
=> muss per OAI-PMH abfragbar sein
die ersten 4 Schritte werden durch CLARIN-D Infrastrukturkomponenten (component registry) unterstützt
CMDI - Vorgehen
CLARIN-D, 31.01.2014, Leipzig 83
Zusammenfassung
XML basiert
minimales Schema beschreibt einige Grundfunktionen
„Meta-Meta“-Sprache ist XML Schema
durch Erweiterung werden individuelle Komponentenbeschreibungen definiert
Komponentenbeschreibungen werden zu einem Profil kombiniert welches in einer Registry hinterlegt wird
Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion)
Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, …)
CMDI - Zusammenfassung
CLARIN-D, 31.01.2014, Leipzig 85
OAI-PMH – Open Archives Initiative Protocol for Metadata Harvesting
– dient dem einfachen Sammeln von Metadaten
– klassisch: Zugriff auf die bei „data providern“ vorhandenen Datensätze (z.B.: Metadaten zu Büchern, …)
– CLARIN: ermöglicht den einfachen Zugriff auf die bei den Repositories hinterlegten Metadaten (im CMDI-Format)
– basiert auf HTTP/REST und XML
– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.11.2011 (Zeitpunkt des letzten Besuches) hinzugefügt?
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 86
Liste alle Einträge im CMDI-Format auf (REST):
http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 87
Liste alle Einträge im CMDI-Format auf (REST):
http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 88
Liste alle Einträge im CMDI-Format auf (REST):
http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 89
Weitere Abfragemöglichkeiten:
Liste alle Einträge im CMDI-Format auf, welche zum Set „mySet“ gehören:
http://.../oaiprovider/?verb=ListRecords&metadataPrefix=cmdi&set=mySet
Liste alle Einträge im CMDI-Format auf, welche nach dem 15.09.2012 um 8:30 hinzugefügt/geändert wurden:
http://.../oaiprovider/?verb=ListRecords&metadataPrefix=cmdi&from=2012-09-15T08:30:00Z
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 90
Liefert ein XML-Dokument mit Angaben zum Repository:
http://.../oaiprovider/?verb=Identify
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 91
Liefert ein XML-Dokument mit Angaben zum Repository:
http://.../oaiprovider/?verb=Identify
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 92
Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):
http://.../oaiprovider/?verb=ListMetadataFormats
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 93
Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):
http://.../oaiprovider/?verb=ListMetadataFormats
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 94
Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):
http://.../oaiprovider/?verb=ListMetadataFormats
OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 95
OAI-PMH – Open Archives Initiative Protocol for Metadata Harvesting
– dient dem einfachen Sammeln von Metadaten
– klassisch: Zugriff auf die bei „data providern“ vorhandenen Datensätze (z.B.: Metadaten zu Büchern, …)
– CLARIN: ermöglicht den einfachen Zugriff auf die bei in Repositories der Zentren hinterlegten Metadaten (im CMDI-Format)
– basiert auf HTTP/REST und XML
CLARIN-D Infrastruktur
Was bietet CLARIN-D?
einheitliche Abfragemethode für die Metadatenkataloge aller Zentren
„Centers Registry“: Verzeichnis der CLARIN-D Zentren und der dortigen OAI-PMH Endpoints
=> jeder kann die Metadaten aller CLARIN-D Zentren einsammeln & auswerten
Angebot an Dritte: Bereitstellung von Metadaten über die Repositories / OAI-PMH Endpoints der Zentren
CLARIN-D, 31.01.2014, Leipzig 96
OAI-PMH – Harvester
– Sammelt die dezentral in den Zentren hinterlegten Metadaten ein
– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.04.2012 (Zeitpunkt des letzten Besuches) hinzugefügt?
CLARIN-D Infrastruktur
CLARIN-D, 31.01.2014, Leipzig 97
OAI-PMH – Harvester
– sammelt die dezentral in den Zentren hinterlegten Metadaten ein
– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.04.2012 (Zeitpunkt des letzten Besuches) hinzugefügt?
CLARIN-D Infrastruktur
Was bietet CLARIN-D?
momentan existieren zwei Harvester in CLARIN-D
– CMDI Metadaten für Ressourcen/Tools
=> automatische Integration in das Suchportal „VLO“
– Webservices
=> automatische Integration in die webbasierte Worflowengine „Weblicht“
VLO (Virtual Language Observatory)
– Suche: Volltext (Metadaten), Katalog, faceted/geographical browsing
– Daten aus: CLARIN LRT inventory (manuell und OAI-PMH), MPI IMDI Portal (u.A. DobeS; Dokumentation bedrohter Sprachen), ELRA catalogue of language resources, WALS (World-Atlas of Languages)
CLARIN-D, 31.01.2014, Leipzig 99
VLO
Fragestellung
Projekt „Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik“
=> 1. Aufgabe: Suche nach geeigneten Daten
=> z.B. Nachrichtentexte aus den letzten x Jahren
CLARIN-D, 31.01.2014, Leipzig 113
Metadaten in CLARIN sollen in Repositories (Langzeitarchivierung) verwaltet werden
Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv
es existieren bereits zahlreiche verschiedene Systeme:
DSpace, Fedora, MyCoRe, OPUS, EPrints, ...
DSpace: http://www.dspace.org/
– sehr einfach einzuführen
– (relativ) hoher Aufwand bei Abweichung vom Standardszenario
Fedora: http://fedora-commons.org/
– Fedora: komplexeres Setup
– sehr flexibel (REST-API)
beide Systeme verschmelzen: http://www.duraspace.org/
Repositorysysteme
CLARIN-D, 31.01.2014, Leipzig 114
weitere Beispiele:
– Code Repositorien / Versionsverwaltung: (CVS), Subversion, …
– Software Repositorien: Linux Distributionen, …
• Artifact Repositorien: Maven Central, Archiva / Nexus, ...
– Dokument Repositorien: Fedora, DSpace, …
• (in der Regel Unterstützung für Dublin Core und OAI-PMH)
OAI - Open Archives Initiative
– Zusammenschluss/Initiative der Entwickler/Betreiber von Dokument Repositorien
– Ziel: In den Repositories verwaltete Ressourcen besser auffindbar und nutzbar machen.
– Projekte:
• OAI-PMH (OAI Protocol for Metadata Harvesting)
• OAI-ORE (OAI Object Reuse and Exchange)
– http://www.openarchives.org/
Repositorysysteme
CLARIN-D, 31.01.2014, Leipzig 115
ROAR - Registry of Open Access Repositories
Weltweit/Deutschland (07.01.2013):
– DSpace: 1.320 / 15
– EPrints: 481 / 21
– OPUS: 50 / 44
– Fedora: 48 / 1
– MyCoRe: 6 / 6
http://roar.eprints.org/
Das Repository mit der höchsten „Aktivität“ (Stand 07.01.2013) ist ...
Repositorysysteme
CLARIN-D, 31.01.2014, Leipzig 116
Das Repository mit der höchsten „Aktivität“ (Stand 07.01.2013) ist ...
Repositorysysteme
CLARIN-D, 31.01.2014, Leipzig 118
Fedora
Fedora: Flexible Extensible Digital Object Repository Architecture
Flexible Verwaltung von:
– digitalen Objekten (Dokumente, Bilder, Videos)
– zugehörigen Metadaten
– und Relationen
http://fedora-commons.org
CLARIN-D, 31.01.2014, Leipzig 119
Designziel: Einfache Integration in komplexere Anwendungssysteme, welche weitere Funktionalität (Suche, Workflow- und Rechtemanagement,) realisieren.
– Zugriff auf Daten und Funktionalität via Webservices
– Flexibles Datenmodel: Fedora Digital Object Model
kann auch eigenständig eingesetzt werden
=> jedoch nicht sehr Nutzerfreundlich
Einige weitere Funktionen:
– RDF Suche (SPARQL)
– Support für verschiedene Storage Systeme (Datenbanken und Filesystem)
– OAI-PMH, JMS (Java Message Service), Volltextsuche, ...
Fedora
CLARIN-D, 31.01.2014, Leipzig 120
Warum Entscheidung für Fedora?
– Nutzerfreundliches Front-End für uns nicht zwingend nötig
– offenes, flexibles System (Webservices)
– Nachteil(e): hohe Einstiegshürde, viel Konfigurationsaufwand
– Skalierbarkeit:
• http://fedora.fiz-karlsruhe.de/docs/
• 1.411.258 Objekte (Patente; ca. 5.000.000 Dokumente)
=> einige Tage (2-4)
=> Dauer der Einfügeoperation/Objekt blieb stabil
• 1 - 10.000 Objekte mit 1 - 10.000 Datenströmen
=> (super)lineares Verhalten
Fedora
CLARIN-D, 31.01.2014, Leipzig 121
Fedora – Digital Object Model
Ein Fedora Digital Object (FDO) besteht aus:
Fedora
Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora
CLARIN-D, 31.01.2014, Leipzig 122
Fedora – Digital Object Model
Ein Fedora Digital Object (FDO) besteht aus:
Fedora
Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora
CLARIN-D, 31.01.2014, Leipzig 123
Fedora Datastreams
Datastream Identifier, State (Active, Inactive, or Deleted)
Created/Modified Date, Versionable (true/false)
Label, MIME Type, Format Identifier, Alternate Identifiers
Bytestream Content, Checksum
Control Group:
– Internal XML Metadata: XML „inline“ im XML des Digital Object
– Managed Content: in Fedora gespeichert (Verweis aus dem XML des Digital Object per internem Identifier)
– External Referenced Content: außerhalb von Fedora (Verweis; Stream/Redirect)
Fedora
CLARIN-D, 31.01.2014, Leipzig 124
Fedora Datastreams
Fedora
Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora
CLARIN-D, 31.01.2014, Leipzig 125
Fedora Datastreams
Fedora
Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora
direkte Repräsentation:
=> Daten wird ohne Änderungen weitergereicht
virtuelle Repräsentation
=> Daten werden zur Laufzeit erzeugt (z.B. aus existierenden Datastreams
CLARIN-D, 31.01.2014, Leipzig 126
Fedora Datastreams
Fedora
Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora
Fedora „info“ URI Schema
Digital Object
• "info:fedora/" object-pid
• Beispiel: info:fedora/example:9876
Dissemination (Datastream)
• "info:fedora/" object-pid "/" dissem-name
• Beispiel: info:fedora/example:3/DS1
CLARIN-D, 31.01.2014, Leipzig 127
Fedora REST API
API-A für lesenden Zugriff:
– findObjects: Suche nach Objekten
– listDatastreams: Auflisten von Datastreams
– getDatastreamDissemination: Zugriff auf Datastreams
– ...
API-M für schreibenden + low level Zugriff:
– ingest: Ein Objekt hinzufügen
– addDatastream: Einen Datastream anlegen
– addRelationship: Eine Relation anlegen
– ...
Fedora
CLARIN-D, 31.01.2014, Leipzig 128
Fedora REST API
API-A für lesenden Zugriff:
– findObjects: Suche nach Objekten
– listDatastreams: Auflisten von Datastreams
– getDatastreamDissemination: Zugriff auf Datastreams
API-M für schreibenden + low level Zugriff:
– ingest: Ein Objekt hinzufügen
– addDatastream: Einen Datastream anlegen
– addRelationship: Eine Relation anlegen
Fedora
findObjects
GET-Request: /objects ? [terms | query] [maxResults] [resultFormat] [pid] [title] …
http://myhost:8080/fedora/objects?pid=true&title=true&terms=&query=&maxResults=20&resultFormat=xml
CLARIN-D, 31.01.2014, Leipzig 129
Fedora REST API
API-A für lesenden Zugriff:
– findObjects: Suche nach Objekten
– listDatastreams: Auflisten von Datastreams
– getDatastreamDissemination: Zugriff auf Datastreams
API-M für schreibenden + low level Zugriff:
– ingest: Ein Objekt hinzufügen
– addDatastream: Einen Datastream anlegen
– addRelationship: Eine Relation anlegen
Fedora
listDatastreams
GET-Request: /objects/{pid}/datastreams ? [format] [asOfDateTime]
http://myhost:8080/fedora/objects/example:9876/datastreams?format=xml
CLARIN-D, 31.01.2014, Leipzig 130
Fedora REST API
API-A für lesenden Zugriff:
– findObjects: Suche nach Objekten
– listDatastreams: Auflisten von Datastreams
– getDatastreamDissemination: Zugriff auf Datastreams
API-M für schreibenden + low level Zugriff:
– ingest: Ein Objekt hinzufügen
– addDatastream: Einen Datastream anlegen
– addRelationship: Eine Relation anlegen
Fedora
getDatastreamDissemination
GET-Request: /objects/{pid}/datastreams/{dsID}/content ? [asOfDateTime] [download]
http://myhost.de:8080/fedora/objects/example:9876/datastreams/DC/content
CLARIN-D, 31.01.2014, Leipzig 131
Fedora & OAI-PMH
enthalten: „Basic OAI-PMH Provider“ (nur Dublin Core)
http://myhost:8080/fedora/oai?verb=Identify
Fedora
CLARIN-D, 31.01.2014, Leipzig 132
Fedora & OAI-PMH
enthalten: „Basic OAI-PMH Provider“ (nur Dublin Core)
http://myhost:8080/fedora/oai?verb=Identify
Fedora
http://myhost:8080/fedora/oai?verb=ListMetadataFormats
CLARIN-D, 31.01.2014, Leipzig 133
Proai
repositoryunabhängige Implementierung des OAI-PMH Protokolls
http://proai.sourceforge.net/
Fedora
Quelle: http://proai.sourceforge.net/
CLARIN-D, 31.01.2014, Leipzig 134
Fedora
Quelle: http://proai.sourceforge.net/
Proai
repositoryunabhängige Implementierung des OAI-PMH Protokolls
http://proai.sourceforge.net/
OAI-PMH 2.0 Interface
(Meta)Daten liegen im „XML Record Cache“
Cache Updater: regelmäßiger Abgleich mit dem Backend
Driver: spezifischer Treiber zur Kommunikation mit dem Repository im Back End
CLARIN-D, 31.01.2014, Leipzig 135
Fedora
Quelle: http://proai.sourceforge.net/
Proai
repositoryunabhängige Implementierung des OAI-PMH Protokolls
http://proai.sourceforge.net/
hohe Verfügbarkeit:
– OAI-PMH Interface unabhängig vom Repository ansprechbar
– Repository nicht als Performance-Flaschenhals
Schema-Validierung: Daten können vor Aufnahme in den Cache validiert werden.
CLARIN-D, 31.01.2014, Leipzig 136
Fedora
Quelle: http://proai.sourceforge.net/
Proai
repositoryunabhängige Implementierung des OAI-PMH Protokolls
http://proai.sourceforge.net/
Treiber / Anbindung Back End
Implementierung eines Interface mit 8 Methoden:
– ListMetadataFormats()
– listRecords(Date from, Date until, String mdPrefix)
– ...
für Fedora bereits enthalten
CLARIN-D, 31.01.2014, Leipzig 137
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi
driver.fedora.md.format.cmdi.loc = http://myhost/my_schema.xsd
CLARIN-D, 31.01.2014, Leipzig 138
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi
Sollen nur valide Dokumente in den Cache aufgenommen werden?
CLARIN-D, 31.01.2014, Leipzig 139
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi
Nutzername/Passwort für Zugriff auf:
– DB Back End von/für Proai
– Fedora
CLARIN-D, 31.01.2014, Leipzig 140
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi
Der Fedora Treiber liefert nur FDOs an Proai, welche im RELS_EXT Datenstrom durch die unter driver.fedora.itemID spezifizierte ID gekennzeichnet sind
CLARIN-D, 31.01.2014, Leipzig 141
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi Es existieren die Formate (Identifier):
– oai_dc (Dublin Core)
– cmdi (CMDI)
CLARIN-D, 31.01.2014, Leipzig 142
Fedora
Proai – Konfiguration für Fedora (proai.properties)
proai.validateUpdates = false
proai.db.username = username
proai.db.password = password
driver.fedora.user = fedoraUser
driver.fedora.pass = fedoraUserPass
driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID
driver.fedora.md.formats = oai_dc cmdi
driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi Die (Meta)Daten des Formats mit dem Identifier „cmdi“ liegen im
Datastream mit dem Identifier„cmdi“ des jeweiligen FDOs
CLARIN-D, 31.01.2014, Leipzig 147
Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften
Infrastruktur: Metadaten, Webservices, ...
Technologien:
– PID
– Federated Content Search
– Shibboleth
– CMDI
– OAI-PMH
Zusammenfassung - CLARIN-D
CLARIN-D, 31.01.2014, Leipzig 148
FCS – Federated Content Search
Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language)
Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle
Zusammenfassung - CLARIN-D
CLARIN-D, 31.01.2014, Leipzig 149
Metadaten: „Daten über Daten.“
Daten vs. Metadaten
strukturierte vs. unstrukturierte Metadaten
Dublin Core
CMDI
Zusammenfassung - Metadaten
CLARIN-D, 31.01.2014, Leipzig 150
Konzepte und Begriffe:
– Komponenten & Profile
– XML / XML-Schema
– Vorgehen bei der Erstellung von CMDI-Metadaten
Werkzeuge:
– Component Registry
– Arbil
– ISOcat
Zusammenfassung - CMDI
CLARIN-D, 31.01.2014, Leipzig 151
Zweck: Einheitliche Schnittstelle für Metadata-Harvesting
Interface:
– Identify
– ListMetadataFormats
– ListRecords
Zusammenfassung - OAI-PMH
CLARIN-D, 31.01.2014, Leipzig 152
Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv
Ziele:
– zentrale Speicherung & Bereitstellung von Daten + Metadaten
– Versionierung & (Langzeit)Archivierung
– ...
verschiedene Typen:
– Code Repositorien / Versionsverwaltung
– Software Repositorien / Artifact Repositorien
– Dokument Repositorien (Fedora, DSpace, …)
Zusammenfassung – Reposit.
CLARIN-D, 31.01.2014, Leipzig 153
Grundkonzept: Fedora Digital Objects (FDOs)
(Meta)Daten wie Label, ID, …
Datastreams
– festverdrahtete wie RELS_EXT für Relationen
– zusätzlich freie Definition eigener Datenströme möglich
– Daten entweder direkt in Fedora oder nur Verweis mittels URI
OAI-PMH nur für DC-Metadaten
zusätzlicher OAI-Provider Service (basierend auf ProAI) erlaubt die Auslieferung von Metadaten in alternativen Formaten
– ein bestimmter Datenstrom dient dabei als Quelle für die Metadaten (in Format X) eines FDO's
Zusammenfassung - Fedora
CLARIN-D, 31.01.2014, Leipzig 155
Want to keep yourself informed on all things related
to CLARIN-D? Visit the news section on: http://de.clarin.eu
CLARIN-D News
CLARIN-D, 31.01.2014, Leipzig 156
Want to keep yourself informed on all things related to CLARIN-D? Check out the CLARIN-D newsletter on: http://de.clarin.eu/index.php/en/news/newsletter
CLARIN-D Newsletter
CLARIN-D, 31.01.2014, Leipzig 157
Interested in Learning more about CLARIN-D?
Visit our Website at:
http://de.clarin.eu/
Website