158
CLARIN-D, 31.01.2014, Leipzig 1 CLARIN-D Einführung, Metadaten & CMDI, OAI-PMH, Repositorysysteme & Fedora Institut für Informatik Volker Boehlke Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig [email protected]

CLARIN-D - Startseite - Abteilung Automatische ...asv.informatik.uni-leipzig.de/uploads/document/file_link/714/WCM14... · Titel: „Voyages et aventures du capitaine Hatteras“

Embed Size (px)

Citation preview

CLARIN-D, 31.01.2014, Leipzig 1

CLARIN-DEinführung, Metadaten & CMDI,

OAI-PMH, Repositorysysteme & Fedora

Institut für Informatik

Volker BoehlkeAbt. Automatische Sprachverarbeitung

Institut für Informatik, Universität Leipzig

[email protected]

CLARIN-D, 31.01.2014, Leipzig 2

Warum CLARIN-D in der Vorlesung „Wissens- und Contentmanagement“?

„Content“ in CLARIN-D sind (zumeist) Daten in Form von

– Texten

– Ton- & Videoaufnahmen

… aber auch Verfahren => (zumeist) bereitgestellt in Form von Webservices

CLARIN ist eine verteilte Forschungsinfrastruktur:

– Institutions- und Länderübegreifend

– nationale Initiativen zusammengefasst unter einem gemeinsamen europäischen „Dach“

Motivation

CLARIN-D, 31.01.2014, Leipzig 3

Fragen:

– Auf welcher Basis können Services in einer verteilten Infrastruktur angeboten werden?

=> Standardisierung & Verzeichnisdienste

– Wie kann der unberechtigte Zugriff verhindert werden (Copyright, …)?

– Wie können diese Inhalte durch die Nutzer effizient gefunden werden? => Metadaten + geeignete Tools

– Wo/Wie werden diese Inhalte archiviert (Langzeitarchivierung)? => Repository-Systeme

Dies lässt sich auch auf Szenarien außerhalb von Forschungsinfrastrukturen übertragen!

Motivation

CLARIN-D, 31.01.2014, Leipzig 4

Kurzvorstellung CLARIN-D

– Ziele

– Technik

Metadaten

– Einführung

– CLARIN-D (CMDI & ISOcat)

– OAI-PMH

Repository-Systeme

– Einführung

– Fedora (Fedora Digital Object Model)

Zusammenfassung

Agenda

CLARIN-D, 31.01.2014, Leipzig 5

Kurzvorstellung CLARIN-D

CLARIN-D, 31.01.2014, Leipzig 6

CLARIN-D – Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften

Linguistische Daten, Werkzeuge und Dienste sollen... in einer integrierten, interoperablen und skalierbaren Infrastruktur

für die Fachdisziplinen der Geistes- und Sozialwissenschaften

… bereitgestellt werden

gefördert durch das Bundesministerium für Bildung und Forschung

Laufzeit: 01.05.2011 – 30.04.2014 (ggf. 2016)

im Web: http://de.clarin.eu

CLARIN-D

CLARIN-D, 31.01.2014, Leipzig 7

Ziel: Mehrwert für die eigene Forschung durch Nutzung einer Infrastruktur

Metadaten & föderierte Suche

“sicheres” Zitieren mittels PIDs

SimpleStore, Workspaces, …

Zugriff auf eine größere Menge von Ressourcen und Werkzeugen

einfache, webbasierte Anwendung ohne Installationen

einfache Verbreitung eigener Ressourcen und Werkzeuge in der Fachdisziplin

CLARIN-D Zielstellung

CLARIN-D, 31.01.2014, Leipzig 8

BAS, Universität München (Florian Schiel)

BBAW, Berlin (Wolfgang Klein)

IDS, Mannheim (Ludwig Eichinger)

MPI, Nijmegen (Peter Wittenburg)

Universität Tübingen (Erhard Hinrichs)

Universität des Saarlandes (Elke Teich)

Universität Hamburg (Kristin Bührig)

Universität Leipzig (Gerhard Heyer) Universität Stuttgart (Jonas Kuhn)

CLARIN-D Zentren

CLARIN-D, 31.01.2014, Leipzig 9

stellen Ressourcen zur Verfügung– Zugriff auf Daten/Tools via Webservices

– einheitlicher Zugriff auf Metadaten

– (Langzeit) Archivierung von Daten/Tools

– Absicherung des Zugriffs über CLARIN-D AAI*

Spezifizieren, Implementieren und Hosten Infrastrukturdienste

* Authentication and Authorization Infrastructure

Aufgaben der CLARIN-D Zentren

CLARIN-D, 31.01.2014, Leipzig 10

Was bedeutet Infrastruktur?

CLARIN-D, 31.01.2014, Leipzig 11

CLARIN-D Infrastruktur

CLARIN-D, 31.01.2014, Leipzig 12

CLARIN-D Infrastruktur

Fragestellungen

z.B. Projekt „Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik“

z.B. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?

CLARIN-D, 31.01.2014, Leipzig 13

CLARIN-D Infrastruktur

Fragestellung

Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.

Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?

CLARIN-D, 31.01.2014, Leipzig 14

CLARIN-D Infrastruktur

Fragestellung

Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.

Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?

Operationalisierung

Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora

Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)

=> Kombination zu einer konkreten Anwendung

Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...

Visualisierung

CLARIN-D, 31.01.2014, Leipzig 15

CLARIN-D Infrastruktur

Fragestellung

Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.

Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?

Operationalisierung

Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora

Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)

=> Kombination zu einer konkreten Anwendung

Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...

Visualisierung

CLARIN-D, 31.01.2014, Leipzig 16

CLARIN-D Infrastruktur

Fragestellung

Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik.

Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist?

Operationalisierung

Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora

Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, …)

=> Kombination zu einer konkreten Anwendung

Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen), ...

Visualisierung

CLARIN-D, 31.01.2014, Leipzig 17

PIDs – Persistent Identifiers

eindeutige Identifikatoren für digitale Objekte

– genau eine PID für genau eine Ressource (in genau einer Version)

standortunabhängig

über (sehr) lange Zeiträume verfügbar

Ziel: einfaches, eindeutiges und sicheres Zitieren

auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden

CLARIN-D Infrastruktur - PIDs

CLARIN-D, 31.01.2014, Leipzig 18

PIDs – Persistent Identifiers

auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden

CLARIN-D Infrastruktur - PIDs

CLARIN-D, 31.01.2014, Leipzig 19

FCS – Federated Content Search

Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language)

Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle

CLARIN-D Infrastruktur - FCS

CLARIN-D, 31.01.2014, Leipzig 20

CLARIN-D Infrastruktur - FCS

CLARIN-D, 31.01.2014, Leipzig 21

CLARIN-D Infrastruktur - FCS

CLARIN-D, 31.01.2014, Leipzig 22

Shibboleth

– dient der Authentifizierung/Authorisierung in verteilten Umgebungen

– Grundprinzip: Authentifizierung gegenüber Heimateinrichtung; Externe Stellen vertrauen dieser Authentifizierung und Authorisieren auf dieser Grundlage den Zugriff (Vertrauensnetzwerk).

– Identity Provider (IdP): Authentifiziert Nutzer der Heimateinrichtung

– Service Provider (SP): „schützt“ einen Dienst vor unberechtigtem Zugriff bzw. erzwingt die Authorisierung über einen IdP

CLARIN-D Infrastruktur

CLARIN-D, 31.01.2014, Leipzig 23

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

CLARIN-D, 31.01.2014, Leipzig 24

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

CLARIN-D, 31.01.2014, Leipzig 25

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

– Discovery-Service

CLARIN-D, 31.01.2014, Leipzig 26

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

– Discovery-Service

CLARIN-D, 31.01.2014, Leipzig 27

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

– Discovery-Service

– Authentifizierung bei der Heimateinrichtung

CLARIN-D, 31.01.2014, Leipzig 28

Shibboleth

CLARIN-D Infrastruktur

Nutzer ruft Webseite auf

Discovery-Service

Authentifizierung bei der Heimateinrichtung

Authentifizierung bei der Heimateinrichtung

CLARIN-D, 31.01.2014, Leipzig 29

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

– Discovery-Service

– Authentifizierung bei der Heimateinrichtung

– Weiterleitung zur Webanwendung

CLARIN-D, 31.01.2014, Leipzig 30

Shibboleth

CLARIN-D Infrastruktur

Nutzersicht:

– Nutzer ruft Webseite auf

– Discovery-Service

– Authentifizierung bei der Heimateinrichtung

– Weiterleitung zur Webanwendung

CLARIN-D, 31.01.2014, Leipzig 31

Shibboleth

CLARIN-D Infrastruktur

Weitergabe/Freigabe von Attributen wie:

– eduPersonTargetedID

(Identifier; eindeutig für Nutzer/Service)

– eduPersonScopedAffiliation

(Art d. Zugehörigkeit zu einer Institution

=> student, staff, alum, ... )

geschieht im Hintergrund => Datenschutz?

CLARIN-D, 31.01.2014, Leipzig 32

Shibboleth

CLARIN-D Infrastruktur

Weitergabe/Freigabe von Attributen wie:

– eduPersonTargetedID

(Identifier; eindeutig für Nutzer/Service)

– eduPersonScopedAffiliation

(Art d. Zugehörigkeit zu einer Institution

=> student, staff, alum, ... )

geschieht im Hintergrund => Datenschutz?

CLARIN-D, 31.01.2014, Leipzig 33

Metadaten - Einführung

CLARIN-D, 31.01.2014, Leipzig 34

kurze Definition: (Metadaten sind) Daten über Daten.

Wikipedia: „Metadaten oder Metainformationen sind Daten, die Informationen über Merkmale anderer Daten enthalten, aber nicht diese Daten selbst.“

Durell (1985): „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“

W3C: „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“

Metadaten

CLARIN-D, 31.01.2014, Leipzig 35

klassisches Beispiel:

–Daten: Inhalt eines Buches

(z.B. Text oder Scan/Bild)

Metadaten vs. Daten

Im Anfang schuf Gott den Himmel und die Erde.

Und die Erde war wüst und leer, und es lag Finsternis auf der Tiefe, und der Geist Gottes schwebte über den Wassern.

Und Gott sprach: Es werde Licht! Und es ward Licht.

Und Gott sah, daß das Licht gut war; da schied Gott das Licht von der Finsternis;

und Gott nannte das Licht Tag, und die Finsternis Nacht. Und es ward Abend, und es ward Morgen: der erste Tag.

Quelle: http://commons.wikimedia.org/

CLARIN-D, 31.01.2014, Leipzig 36

klassisches Beispiel:

–Metadaten: Daten über das Buch

Metadaten vs. Daten

Titel: „Voyages et aventures du capitaine Hatteras“

Autor: Jules Verne

Erscheinungsjahr: 1866

Quelle: http://commons.wikimedia.org/

CLARIN-D, 31.01.2014, Leipzig 37

strukturierte vs. unstrukturierte Metadaten

Name-Wert Paarung:

– Autor: Jules Verne

– Erscheinungsjahr: 1866 typisiert

– Autor: Zeichenkette

– Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall)

Vorteil: „einfach“ maschinell zu verarbeiten

Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet.

Metadaten

CLARIN-D, 31.01.2014, Leipzig 38

strukturierte vs. unstrukturierte Metadaten

Name-Wert Paarung:

– Autor: Jules Verne

– Erscheinungsjahr: 1866 typisiert

– Autor: Zeichenkette

– Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall)

Vorteil: „einfach“ maschinell zu verarbeiten

Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet.

Metadaten

Bill Gates (1981; angeblich): „640 kB sollten eigentlich genug für jeden sein.“ („640 kB ought to be enough for anybody.“)

=> was tun im Jahr 10.000+ (oder -10.000)???

Erscheinungsjahr alter Dokumente (z.B. religiöse Schriften) oftmals unklar => es kann nur ein Zeitraum angeben werden.

CLARIN-D, 31.01.2014, Leipzig 39

strukturierte vs. unstrukturierte Metadaten

textuelle Beschreibung (ohne Struktur/Semantik)

Vorteil: ggf. einfach(er) zu Erstellen

Nachteil: gar nicht / schwer (sehr ungenau) maschinell zu Verarbeiten

Metadaten

CLARIN-D, 31.01.2014, Leipzig 40

1995: Konferenz in Dublin (Ohio)

Einigung auf ein „Kernset“ (Core) von 15 Elementen zur Beschreibung von Ressourcen (primär für Dokumente im Web)

Metadaten - Dublin Core

CLARIN-D, 31.01.2014, Leipzig 41

Contributor: An entity responsible for making contributions to the resource.

Coverage: The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant.

Creator: An entity primarily responsible for making the resource.

Date: A point or period of time associated with an event in the lifecycle of the resource.

Description: An account of the resource.

Format: The file format, physical medium, or dimensions of the resource.

Identifier: An unambiguous reference to the resource within a given context.

Metadaten - Dublin Core

Quelle: http://dublincore.org/documents/dces/

CLARIN-D, 31.01.2014, Leipzig 42

Language: A language of the resource.

Publisher: An entity responsible for making the resource available.

Relation: A related resource.

Rights: Information about rights held in and over the resource.

Source: A related resource from which the described resource is derived.

Subject: The topic of the resource.

Title: A name given to the resource.

Type: The nature or genre of the resource.

Metadaten - Dublin Core

Quelle: http://dublincore.org/documents/dces/

CLARIN-D, 31.01.2014, Leipzig 43

(fiktives) Beispiel in XML:

Metadaten - Dublin Core

Quelle: http://dublincore.org/documents/dc-xml-guidelines/index.shtml

CLARIN-D, 31.01.2014, Leipzig 44

(fiktives) Beispiel in XML:

Metadaten - Dublin Core

Quelle: http://dublincore.org/documents/dc-xml-guidelines/index.shtml

CLARIN-D, 31.01.2014, Leipzig 45

Metadaten - CLARIN-D

CLARIN-D, 31.01.2014, Leipzig 46

CMDI – Component MetaData Infrastructure

Begriffe: Komponenten, Profile, Instanzen

Tools: Component Registry, ISOcat

CMDI

CLARIN-D, 31.01.2014, Leipzig 47

CMDI – Component MetaData Infrastructure

eine Komponente dient der Beschreibung einer bestimmten „Gruppe“ von Metadaten

Beispiele:

– Dublin Core (Titel, Autor, Sprache, …)

– Attribute zur Beschreibung eines Videos

Komponenten sind wiederverwendbar

CMDI

CLARIN-D, 31.01.2014, Leipzig 48

CMDI – Component MetaData Infrastructure

Profil:

– die Vereinigung (einer oder mehrerer) Komponenten

– dient der Beschreibung eines bestimmten Ressourcentyps

– ist selbst eine Komponente (mit der speziellen Eigenschaft ein Profil zu sein)

– Beispiel:

• Dublin Core (Titel, Autor, Sprache, …)

+ zusätzliche Attribute zur Beschreibung eines Videos

CMDI

CLARIN-D, 31.01.2014, Leipzig 49

CMDI – Component MetaData Infrastructure

Basistechnologie ist XML

Komponenten+Profil: XML-Schema

Instanzen: Die Instanz einer Komponente / eines Profils ist ein XML Dokument, welches konform zum entsprechenden Schema ist.

CMDI

CLARIN-D, 31.01.2014, Leipzig 50

CMDI – Component MetaData Infrastructure

Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, …)

Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion)

Aus einem „Minimalschema“ werden alle weiteren Komponenten/Profile abgeleitet. Die folgenden Sektionen sind Pflicht:

– Header: Basisinformationen wie Profil, SelfLink/PID, Autor, …

– Resources: Referenzierung externer Ressourcen

– Components: Enthält die eigentlichen, spezifischen Metadaten(komponenten)

CMDI

CLARIN-D, 31.01.2014, Leipzig 51

CMDI

CLARIN-D, 31.01.2014, Leipzig 52

CMDI – Component MetaData Infrastructure

minimales CMDI Dokument

CMDI

CLARIN-D, 31.01.2014, Leipzig 53

CMDI – Component MetaData Infrastructure

minimales CMDI Dokument

CMDI

CLARIN-D, 31.01.2014, Leipzig 54

CMDI – Component MetaData Infrastructure

minimales CMDI Dokument

CMDI

CLARIN-D, 31.01.2014, Leipzig 55

CMDI – Component MetaData Infrastructure

minimales CMDI Dokument

CMDI

CLARIN-D, 31.01.2014, Leipzig 56

CMDI – Component MetaData Infrastructure

minimales CMDI Dokument

CMDI

CLARIN-D, 31.01.2014, Leipzig 57

CMDI – Component MetaData Infrastructure

Component Registry: Webanwendung zur Verwaltung von CMDI-Komponenten und -Profilen

– Suche/Abruf existierender Komponenten/Profile

– Registrierung eigener Komponenten/Profile

– Zugriff via Webservices

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 58

Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 59

Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 60

Editieren der Komponente „Corpus“

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 61

Registrierung eines Profils „CorpusProfile“ (Wortschatz Korpus)

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 62

maschinenlesbare Varianten der Profilspezifikation

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 63

maschinenlesbare Varianten der Profilspezifikation

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 64

maschinenlesbare Varianten der Profilspezifikation

CMDI – Component Registry

CLARIN-D, 31.01.2014, Leipzig 65

CMDI – Component MetaData Infrastructure

Arbil: Metadaten-(XML)Editor mit Unterstützung für CMDI (Nutzung existierender CMDI-Profile)

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 66

CMDI – Component MetaData Infrastructure

Anbindung an die Component Registry:

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 67

CMDI – Component MetaData Infrastructure

CenterProfile:

– enthält Basisinformationen zu einem CLARIN Zentrum

• Name und Typ, Kontaktmöglichkeit, …

• technische Zugriffspunkte (Typ und Adresse)

– Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 68

CMDI – Component MetaData Infrastructure

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 69

CMDI – Component MetaData Infrastructure

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 70

Eine (nicht vollständige) Instanz des „CenterProfile“-Profils

Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 71

Eine (nicht vollständige) Instanz des „CenterProfile“-Profils

Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS)

CMDI - Arbil

CLARIN-D, 31.01.2014, Leipzig 72

CenterRegistry

CMDI - Center Registry

CLARIN-D, 31.01.2014, Leipzig 73

Name und Typ

CMDI - Center Registry

CLARIN-D, 31.01.2014, Leipzig 74

Zugriffspunkte

CMDI - Center Registry

CLARIN-D, 31.01.2014, Leipzig 75

Metadaten in CLARIN?

XML-Dokumente welche einem bestimmten Profil entsprechen

aber: Welche „Bedeutung“ hat eine bestimmte Information?

ISOcat - ISO 12620:2009 (ISO Standard „Specification of data categories and management of a Data Category Registry for language resources“)

data categories für CMDI: verschiedene Tags/Bezeichnungen aber gleiches Konzept (Autor vs. Author)

hinter den (Meta)Daten stehende Konzepte, wie „Corpus“, „Metadata“, „Name“, werden über ISOcat identifiziert/beschrieben

jedes Konzept wird geprüft und bekommt

– eine eindeutige ID

– eine Beschreibung in verschiedenen Sprachen

http://www.isocat.org/

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 76

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 77

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 78

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 79

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 80

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 81

ISOcat Metadaten zu einer data category „resource name“

CMDI – ISOcat

CLARIN-D, 31.01.2014, Leipzig 82

Vorgehen bei der Erstellung und Veröffentlichung von Metadaten für CLARIN:

– Erzeugung von Komponentenbeschreibungen (ggf. Suche nach oder Anlegen von fehlenden ISOcat data categories)

– Erzeugung eines Profils aus diesen Komponenten

– Generierung des daraus resultierenden XML-Schemas

– Verlinkung des XML-Schemas in Metadaten-Beschreibungen

– Einfügen der Metadaten in ein Repository-System

(wiederum registriert in CLARIN CenterRegistry)

=> muss per OAI-PMH abfragbar sein

die ersten 4 Schritte werden durch CLARIN-D Infrastrukturkomponenten (component registry) unterstützt

CMDI - Vorgehen

CLARIN-D, 31.01.2014, Leipzig 83

Zusammenfassung

XML basiert

minimales Schema beschreibt einige Grundfunktionen

„Meta-Meta“-Sprache ist XML Schema

durch Erweiterung werden individuelle Komponentenbeschreibungen definiert

Komponentenbeschreibungen werden zu einem Profil kombiniert welches in einer Registry hinterlegt wird

Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion)

Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, …)

CMDI - Zusammenfassung

CLARIN-D, 31.01.2014, Leipzig 84

Metadaten - OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 85

OAI-PMH – Open Archives Initiative Protocol for Metadata Harvesting

– dient dem einfachen Sammeln von Metadaten

– klassisch: Zugriff auf die bei „data providern“ vorhandenen Datensätze (z.B.: Metadaten zu Büchern, …)

– CLARIN: ermöglicht den einfachen Zugriff auf die bei den Repositories hinterlegten Metadaten (im CMDI-Format)

– basiert auf HTTP/REST und XML

– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.11.2011 (Zeitpunkt des letzten Besuches) hinzugefügt?

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 86

Liste alle Einträge im CMDI-Format auf (REST):

http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 87

Liste alle Einträge im CMDI-Format auf (REST):

http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 88

Liste alle Einträge im CMDI-Format auf (REST):

http://.../oaiprovider/oai?verb=ListRecords&metadataPrefix=cmdi

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 89

Weitere Abfragemöglichkeiten:

Liste alle Einträge im CMDI-Format auf, welche zum Set „mySet“ gehören:

http://.../oaiprovider/?verb=ListRecords&metadataPrefix=cmdi&set=mySet

Liste alle Einträge im CMDI-Format auf, welche nach dem 15.09.2012 um 8:30 hinzugefügt/geändert wurden:

http://.../oaiprovider/?verb=ListRecords&metadataPrefix=cmdi&from=2012-09-15T08:30:00Z

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 90

Liefert ein XML-Dokument mit Angaben zum Repository:

http://.../oaiprovider/?verb=Identify

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 91

Liefert ein XML-Dokument mit Angaben zum Repository:

http://.../oaiprovider/?verb=Identify

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 92

Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):

http://.../oaiprovider/?verb=ListMetadataFormats

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 93

Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):

http://.../oaiprovider/?verb=ListMetadataFormats

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 94

Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI):

http://.../oaiprovider/?verb=ListMetadataFormats

OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 95

OAI-PMH – Open Archives Initiative Protocol for Metadata Harvesting

– dient dem einfachen Sammeln von Metadaten

– klassisch: Zugriff auf die bei „data providern“ vorhandenen Datensätze (z.B.: Metadaten zu Büchern, …)

– CLARIN: ermöglicht den einfachen Zugriff auf die bei in Repositories der Zentren hinterlegten Metadaten (im CMDI-Format)

– basiert auf HTTP/REST und XML

CLARIN-D Infrastruktur

Was bietet CLARIN-D?

einheitliche Abfragemethode für die Metadatenkataloge aller Zentren

„Centers Registry“: Verzeichnis der CLARIN-D Zentren und der dortigen OAI-PMH Endpoints

=> jeder kann die Metadaten aller CLARIN-D Zentren einsammeln & auswerten

Angebot an Dritte: Bereitstellung von Metadaten über die Repositories / OAI-PMH Endpoints der Zentren

CLARIN-D, 31.01.2014, Leipzig 96

OAI-PMH – Harvester

– Sammelt die dezentral in den Zentren hinterlegten Metadaten ein

– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.04.2012 (Zeitpunkt des letzten Besuches) hinzugefügt?

CLARIN-D Infrastruktur

CLARIN-D, 31.01.2014, Leipzig 97

OAI-PMH – Harvester

– sammelt die dezentral in den Zentren hinterlegten Metadaten ein

– Beispiel: Welche Datensätze im CMDI-Format wurden seit dem 01.04.2012 (Zeitpunkt des letzten Besuches) hinzugefügt?

CLARIN-D Infrastruktur

Was bietet CLARIN-D?

momentan existieren zwei Harvester in CLARIN-D

– CMDI Metadaten für Ressourcen/Tools

=> automatische Integration in das Suchportal „VLO“

– Webservices

=> automatische Integration in die webbasierte Worflowengine „Weblicht“

VLO (Virtual Language Observatory)

– Suche: Volltext (Metadaten), Katalog, faceted/geographical browsing

– Daten aus: CLARIN LRT inventory (manuell und OAI-PMH), MPI IMDI Portal (u.A. DobeS; Dokumentation bedrohter Sprachen), ELRA catalogue of language resources, WALS (World-Atlas of Languages)

CLARIN-D, 31.01.2014, Leipzig 98

VLO

CLARIN-D, 31.01.2014, Leipzig 99

VLO

Fragestellung

Projekt „Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik“

=> 1. Aufgabe: Suche nach geeigneten Daten

=> z.B. Nachrichtentexte aus den letzten x Jahren

CLARIN-D, 31.01.2014, Leipzig 100

VLO

^

CLARIN-D, 31.01.2014, Leipzig 101

VLO

CLARIN-D, 31.01.2014, Leipzig 102

VLO

CLARIN-D, 31.01.2014, Leipzig 103

VLO

CLARIN-D, 31.01.2014, Leipzig 104

VLO

CLARIN-D, 31.01.2014, Leipzig 105

VLO

CLARIN-D, 31.01.2014, Leipzig 106

VLO

CLARIN-D, 31.01.2014, Leipzig 107

VLO

CLARIN-D, 31.01.2014, Leipzig 108

VLO

CLARIN-D, 31.01.2014, Leipzig 109

VLO

CLARIN-D, 31.01.2014, Leipzig 110

Volltextsuche nach „Wortschatz“

VLO

CLARIN-D, 31.01.2014, Leipzig 111

VLO

CLARIN-D, 31.01.2014, Leipzig 112

Repositorysysteme - Einführung

CLARIN-D, 31.01.2014, Leipzig 113

Metadaten in CLARIN sollen in Repositories (Langzeitarchivierung) verwaltet werden

Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv

es existieren bereits zahlreiche verschiedene Systeme:

DSpace, Fedora, MyCoRe, OPUS, EPrints, ...

DSpace: http://www.dspace.org/

– sehr einfach einzuführen

– (relativ) hoher Aufwand bei Abweichung vom Standardszenario

Fedora: http://fedora-commons.org/

– Fedora: komplexeres Setup

– sehr flexibel (REST-API)

beide Systeme verschmelzen: http://www.duraspace.org/

Repositorysysteme

CLARIN-D, 31.01.2014, Leipzig 114

weitere Beispiele:

– Code Repositorien / Versionsverwaltung: (CVS), Subversion, …

– Software Repositorien: Linux Distributionen, …

• Artifact Repositorien: Maven Central, Archiva / Nexus, ...

– Dokument Repositorien: Fedora, DSpace, …

• (in der Regel Unterstützung für Dublin Core und OAI-PMH)

OAI - Open Archives Initiative

– Zusammenschluss/Initiative der Entwickler/Betreiber von Dokument Repositorien

– Ziel: In den Repositories verwaltete Ressourcen besser auffindbar und nutzbar machen.

– Projekte:

• OAI-PMH (OAI Protocol for Metadata Harvesting)

• OAI-ORE (OAI Object Reuse and Exchange)

– http://www.openarchives.org/

Repositorysysteme

CLARIN-D, 31.01.2014, Leipzig 115

ROAR - Registry of Open Access Repositories

Weltweit/Deutschland (07.01.2013):

– DSpace: 1.320 / 15

– EPrints: 481 / 21

– OPUS: 50 / 44

– Fedora: 48 / 1

– MyCoRe: 6 / 6

http://roar.eprints.org/

Das Repository mit der höchsten „Aktivität“ (Stand 07.01.2013) ist ...

Repositorysysteme

CLARIN-D, 31.01.2014, Leipzig 116

Das Repository mit der höchsten „Aktivität“ (Stand 07.01.2013) ist ...

Repositorysysteme

CLARIN-D, 31.01.2014, Leipzig 117

Repositorysysteme - Fedora

CLARIN-D, 31.01.2014, Leipzig 118

Fedora

Fedora: Flexible Extensible Digital Object Repository Architecture

Flexible Verwaltung von:

– digitalen Objekten (Dokumente, Bilder, Videos)

– zugehörigen Metadaten

– und Relationen

http://fedora-commons.org

CLARIN-D, 31.01.2014, Leipzig 119

Designziel: Einfache Integration in komplexere Anwendungssysteme, welche weitere Funktionalität (Suche, Workflow- und Rechtemanagement,) realisieren.

– Zugriff auf Daten und Funktionalität via Webservices

– Flexibles Datenmodel: Fedora Digital Object Model

kann auch eigenständig eingesetzt werden

=> jedoch nicht sehr Nutzerfreundlich

Einige weitere Funktionen:

– RDF Suche (SPARQL)

– Support für verschiedene Storage Systeme (Datenbanken und Filesystem)

– OAI-PMH, JMS (Java Message Service), Volltextsuche, ...

Fedora

CLARIN-D, 31.01.2014, Leipzig 120

Warum Entscheidung für Fedora?

– Nutzerfreundliches Front-End für uns nicht zwingend nötig

– offenes, flexibles System (Webservices)

– Nachteil(e): hohe Einstiegshürde, viel Konfigurationsaufwand

– Skalierbarkeit:

• http://fedora.fiz-karlsruhe.de/docs/

• 1.411.258 Objekte (Patente; ca. 5.000.000 Dokumente)

=> einige Tage (2-4)

=> Dauer der Einfügeoperation/Objekt blieb stabil

• 1 - 10.000 Objekte mit 1 - 10.000 Datenströmen

=> (super)lineares Verhalten

Fedora

CLARIN-D, 31.01.2014, Leipzig 121

Fedora – Digital Object Model

Ein Fedora Digital Object (FDO) besteht aus:

Fedora

Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora

CLARIN-D, 31.01.2014, Leipzig 122

Fedora – Digital Object Model

Ein Fedora Digital Object (FDO) besteht aus:

Fedora

Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora

CLARIN-D, 31.01.2014, Leipzig 123

Fedora Datastreams

Datastream Identifier, State (Active, Inactive, or Deleted)

Created/Modified Date, Versionable (true/false)

Label, MIME Type, Format Identifier, Alternate Identifiers

Bytestream Content, Checksum

Control Group:

– Internal XML Metadata: XML „inline“ im XML des Digital Object

– Managed Content: in Fedora gespeichert (Verweis aus dem XML des Digital Object per internem Identifier)

– External Referenced Content: außerhalb von Fedora (Verweis; Stream/Redirect)

Fedora

CLARIN-D, 31.01.2014, Leipzig 124

Fedora Datastreams

Fedora

Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora

CLARIN-D, 31.01.2014, Leipzig 125

Fedora Datastreams

Fedora

Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora

direkte Repräsentation:

=> Daten wird ohne Änderungen weitergereicht

virtuelle Repräsentation

=> Daten werden zur Laufzeit erzeugt (z.B. aus existierenden Datastreams

CLARIN-D, 31.01.2014, Leipzig 126

Fedora Datastreams

Fedora

Grafik inspiriert von: https://wiki.duraspace.org/display/FEDORACREATE/Tutorial+1+-+Introduction+to+Fedora

Fedora „info“ URI Schema

Digital Object

• "info:fedora/" object-pid

• Beispiel: info:fedora/example:9876

Dissemination (Datastream)

• "info:fedora/" object-pid "/" dissem-name

• Beispiel: info:fedora/example:3/DS1

CLARIN-D, 31.01.2014, Leipzig 127

Fedora REST API

API-A für lesenden Zugriff:

– findObjects: Suche nach Objekten

– listDatastreams: Auflisten von Datastreams

– getDatastreamDissemination: Zugriff auf Datastreams

– ...

API-M für schreibenden + low level Zugriff:

– ingest: Ein Objekt hinzufügen

– addDatastream: Einen Datastream anlegen

– addRelationship: Eine Relation anlegen

– ...

Fedora

CLARIN-D, 31.01.2014, Leipzig 128

Fedora REST API

API-A für lesenden Zugriff:

– findObjects: Suche nach Objekten

– listDatastreams: Auflisten von Datastreams

– getDatastreamDissemination: Zugriff auf Datastreams

API-M für schreibenden + low level Zugriff:

– ingest: Ein Objekt hinzufügen

– addDatastream: Einen Datastream anlegen

– addRelationship: Eine Relation anlegen

Fedora

findObjects

GET-Request: /objects ? [terms | query] [maxResults] [resultFormat] [pid] [title] …

http://myhost:8080/fedora/objects?pid=true&title=true&terms=&query=&maxResults=20&resultFormat=xml

CLARIN-D, 31.01.2014, Leipzig 129

Fedora REST API

API-A für lesenden Zugriff:

– findObjects: Suche nach Objekten

– listDatastreams: Auflisten von Datastreams

– getDatastreamDissemination: Zugriff auf Datastreams

API-M für schreibenden + low level Zugriff:

– ingest: Ein Objekt hinzufügen

– addDatastream: Einen Datastream anlegen

– addRelationship: Eine Relation anlegen

Fedora

listDatastreams

GET-Request: /objects/{pid}/datastreams ? [format] [asOfDateTime]

http://myhost:8080/fedora/objects/example:9876/datastreams?format=xml

CLARIN-D, 31.01.2014, Leipzig 130

Fedora REST API

API-A für lesenden Zugriff:

– findObjects: Suche nach Objekten

– listDatastreams: Auflisten von Datastreams

– getDatastreamDissemination: Zugriff auf Datastreams

API-M für schreibenden + low level Zugriff:

– ingest: Ein Objekt hinzufügen

– addDatastream: Einen Datastream anlegen

– addRelationship: Eine Relation anlegen

Fedora

getDatastreamDissemination

GET-Request: /objects/{pid}/datastreams/{dsID}/content ? [asOfDateTime] [download]

http://myhost.de:8080/fedora/objects/example:9876/datastreams/DC/content

CLARIN-D, 31.01.2014, Leipzig 131

Fedora & OAI-PMH

enthalten: „Basic OAI-PMH Provider“ (nur Dublin Core)

http://myhost:8080/fedora/oai?verb=Identify

Fedora

CLARIN-D, 31.01.2014, Leipzig 132

Fedora & OAI-PMH

enthalten: „Basic OAI-PMH Provider“ (nur Dublin Core)

http://myhost:8080/fedora/oai?verb=Identify

Fedora

http://myhost:8080/fedora/oai?verb=ListMetadataFormats

CLARIN-D, 31.01.2014, Leipzig 133

Proai

repositoryunabhängige Implementierung des OAI-PMH Protokolls

http://proai.sourceforge.net/

Fedora

Quelle: http://proai.sourceforge.net/

CLARIN-D, 31.01.2014, Leipzig 134

Fedora

Quelle: http://proai.sourceforge.net/

Proai

repositoryunabhängige Implementierung des OAI-PMH Protokolls

http://proai.sourceforge.net/

OAI-PMH 2.0 Interface

(Meta)Daten liegen im „XML Record Cache“

Cache Updater: regelmäßiger Abgleich mit dem Backend

Driver: spezifischer Treiber zur Kommunikation mit dem Repository im Back End

CLARIN-D, 31.01.2014, Leipzig 135

Fedora

Quelle: http://proai.sourceforge.net/

Proai

repositoryunabhängige Implementierung des OAI-PMH Protokolls

http://proai.sourceforge.net/

hohe Verfügbarkeit:

– OAI-PMH Interface unabhängig vom Repository ansprechbar

– Repository nicht als Performance-Flaschenhals

Schema-Validierung: Daten können vor Aufnahme in den Cache validiert werden.

CLARIN-D, 31.01.2014, Leipzig 136

Fedora

Quelle: http://proai.sourceforge.net/

Proai

repositoryunabhängige Implementierung des OAI-PMH Protokolls

http://proai.sourceforge.net/

Treiber / Anbindung Back End

Implementierung eines Interface mit 8 Methoden:

– ListMetadataFormats()

– listRecords(Date from, Date until, String mdPrefix)

– ...

für Fedora bereits enthalten

CLARIN-D, 31.01.2014, Leipzig 137

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi

driver.fedora.md.format.cmdi.loc = http://myhost/my_schema.xsd

CLARIN-D, 31.01.2014, Leipzig 138

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi

Sollen nur valide Dokumente in den Cache aufgenommen werden?

CLARIN-D, 31.01.2014, Leipzig 139

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi

Nutzername/Passwort für Zugriff auf:

– DB Back End von/für Proai

– Fedora

CLARIN-D, 31.01.2014, Leipzig 140

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi

Der Fedora Treiber liefert nur FDOs an Proai, welche im RELS_EXT Datenstrom durch die unter driver.fedora.itemID spezifizierte ID gekennzeichnet sind

CLARIN-D, 31.01.2014, Leipzig 141

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi Es existieren die Formate (Identifier):

– oai_dc (Dublin Core)

– cmdi (CMDI)

CLARIN-D, 31.01.2014, Leipzig 142

Fedora

Proai – Konfiguration für Fedora (proai.properties)

proai.validateUpdates = false

proai.db.username = username

proai.db.password = password

driver.fedora.user = fedoraUser

driver.fedora.pass = fedoraUserPass

driver.fedora.itemID = http://www.openarchives.org/OAI/2.0/itemID

driver.fedora.md.formats = oai_dc cmdi

driver.fedora.md.format.cmdi.dissType = info:fedora/*/cmdi Die (Meta)Daten des Formats mit dem Identifier „cmdi“ liegen im

Datastream mit dem Identifier„cmdi“ des jeweiligen FDOs

CLARIN-D, 31.01.2014, Leipzig 143

Fedora

CLARIN-D, 31.01.2014, Leipzig 144

CLARIN-D Infrastruktur

CLARIN-D, 31.01.2014, Leipzig 145

CLARIN-D Infrastruktur

CLARIN-D, 31.01.2014, Leipzig 146

Zusammenfassung

CLARIN-D, 31.01.2014, Leipzig 147

Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften

Infrastruktur: Metadaten, Webservices, ...

Technologien:

– PID

– Federated Content Search

– Shibboleth

– CMDI

– OAI-PMH

Zusammenfassung - CLARIN-D

CLARIN-D, 31.01.2014, Leipzig 148

FCS – Federated Content Search

Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language)

Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle

Zusammenfassung - CLARIN-D

CLARIN-D, 31.01.2014, Leipzig 149

Metadaten: „Daten über Daten.“

Daten vs. Metadaten

strukturierte vs. unstrukturierte Metadaten

Dublin Core

CMDI

Zusammenfassung - Metadaten

CLARIN-D, 31.01.2014, Leipzig 150

Konzepte und Begriffe:

– Komponenten & Profile

– XML / XML-Schema

– Vorgehen bei der Erstellung von CMDI-Metadaten

Werkzeuge:

– Component Registry

– Arbil

– ISOcat

Zusammenfassung - CMDI

CLARIN-D, 31.01.2014, Leipzig 151

Zweck: Einheitliche Schnittstelle für Metadata-Harvesting

Interface:

– Identify

– ListMetadataFormats

– ListRecords

Zusammenfassung - OAI-PMH

CLARIN-D, 31.01.2014, Leipzig 152

Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv

Ziele:

– zentrale Speicherung & Bereitstellung von Daten + Metadaten

– Versionierung & (Langzeit)Archivierung

– ...

verschiedene Typen:

– Code Repositorien / Versionsverwaltung

– Software Repositorien / Artifact Repositorien

– Dokument Repositorien (Fedora, DSpace, …)

Zusammenfassung – Reposit.

CLARIN-D, 31.01.2014, Leipzig 153

Grundkonzept: Fedora Digital Objects (FDOs)

(Meta)Daten wie Label, ID, …

Datastreams

– festverdrahtete wie RELS_EXT für Relationen

– zusätzlich freie Definition eigener Datenströme möglich

– Daten entweder direkt in Fedora oder nur Verweis mittels URI

OAI-PMH nur für DC-Metadaten

zusätzlicher OAI-Provider Service (basierend auf ProAI) erlaubt die Auslieferung von Metadaten in alternativen Formaten

– ein bestimmter Datenstrom dient dabei als Quelle für die Metadaten (in Format X) eines FDO's

Zusammenfassung - Fedora

CLARIN-D, 31.01.2014, Leipzig 154

Vielen Dank für Ihre Aufmerksamkeit!

Institut für Informatik

CLARIN-D, 31.01.2014, Leipzig 155

Want to keep yourself informed on all things related

to CLARIN-D? Visit the news section on: http://de.clarin.eu

CLARIN-D News

CLARIN-D, 31.01.2014, Leipzig 156

Want to keep yourself informed on all things related to CLARIN-D? Check out the CLARIN-D newsletter on: http://de.clarin.eu/index.php/en/news/newsletter

CLARIN-D Newsletter

CLARIN-D, 31.01.2014, Leipzig 157

Interested in Learning more about CLARIN-D?

Visit our Website at:

http://de.clarin.eu/

Website

CLARIN-D, 31.01.2014, Leipzig 158

Das Leipziger CLARIN-D Team sucht engagierte Mitstreiter

nützliche Kenntnisse:

– Java

– Eclipse

– Maven

– Webservices

– MySQL

– XML

– Spring

– Vaadin

– Fedora, CMDI, ...

SHKs/WHKs gesucht