30
Dienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich Supercomupting Centre Forschungszentrum Jülich GmbH

Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Dienste für eine kollaborative Dateninfrastruktur

Daniel MallmannJülich Supercomupting CentreForschungszentrum Jülich GmbH

Page 2: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Datenflut

2

Increasing complexity and varietyIncreasing complexity and variety

Gigabytes

Terabytes

PetabytesExabytesZettabytes

Expo

nential growth Herausforderungen

• Speichern• Ordnen• Auswerten

Page 3: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Datenwachstum – Beispiel Lebenswissenschaften

3

Page 4: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Forschungsinfrastrukturen

Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?

4

Communities einbindenSynergien erkennen

Page 5: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Riding the Wave

Ist die kollaborative Dateninfrastruktur ein Modell für die Zukunft?Wie sehen die gemeinsamen Basisdienste aus?

5

Page 6: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT Projekt

6

Teilnehmer 26 Partner aus 13 LändernDatenzentren, Technologieanbieter, Communities

Leitung CSC ‐ IT Center for Science, Finnland

Start 1st October 2011

Dauer 36 Monate (+6 Monate Verlängerung)

Budget 16,3 M€, davon 9,3 M€ Förderung durch die EU

EC Call Call 9 (INFRA‐2011‐1.2.2): Data infrastructure for e‐Science (11.2010)

Web www.eudat.eu

Page 7: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT …… ist eine europaweite Initiative zur Bildung einer interdisziplinären

und länderübergreifenden Dateninfrastruktur, die eine Reihe von gemeinsamen Diensten für die Datensicherung und den Zugang zu Daten anbietet

… unterstützt mehrere Communitiesdurch enge Zusammenarbeit bei der Bereitstellung dieser Dienste als Teil der EUDAT kollaborativenDateninfrastruktur

7

Page 8: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Konsortium

8

CommunitiesUniverselle DatenzentrenTechnologieanbieter

Page 9: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

9

EUDAT – europaweite Infrastruktur

Universelles DatenzentrumCommunity Datenzentrum

Page 10: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EPOS: European Plate Observatory SystemCLARIN: Common Language Resources and Technology InfrastructureENES: Service for Climate Modelling in EuropeLifeWatch: Biodiversity Data and ObservatoriesVPH: The Virtual Physiological Human INCF: International Neuroinformatics Coordinating FacilityDRIHM: Distributed Research Infrastructure for HydrometeorologyDiXA: Data Infrastructure for Chemical SafetyLTER: European Long-Term Ecosystem Research Network

Allen gemeinsam sind die Herausforderungen• Referenzmodell und Architektur der Dateninfrastruktur• Persistent Identifier• Metadaten Management• Verteilte Datenquellen• Interoperabilität der Daten

Eine nutzergesteuerte Initiative

10

Page 11: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Wachsende Nutzerbeteiligung

• Dialoge• User Foren• Offene

Call for Collaboration

11

Page 12: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT Dienste

12

Page 13: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT Dienste

13

Page 14: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Robuster, sicherer und hochverfügbarer Replikationsdienst• Schutz vor Datenverlust durch

Langzeitarchivierung und Datenerhaltung• Optimierung des Zugriffs an verschiedenen Standorten für verteilte

Communities• Datenhaltung in Zentren mit leistungsstarken Computern für

rechen-intensive Datenanalysen14

Page 15: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Zielt auf kleine und mittelgroße Community Repositories, die …… nicht die Kapazität haben, um

Forschungsdaten für lange Zeit sicher zu speichern

… keine langfristige Finanzierung für die sichere Datenhaltung haben

… nicht ausreichend Rechenleistung zurAnalyse der Daten für eine große Nutzerzahl anbieten können

Jedes Community Repository, das eine Repository-Infrastruktur mit PIDs und Metadaten hat, die die Eigenschaften und den Inhalt der replizierten Daten beschreiben, kann sich am B2SAFE Dienst beteiligen

15

Page 16: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Einfacher Transfer großer Datenmengen zwischen EUDAT Speicherressourcen und den Arbeitsbereichen von HPC Systemen• Zuverlässige,

effiziente, benutzerfreundliche Werkzeuge für den Datentransfer

• Unterstützt Wissenschaftler beim Transfer großer Datenkollektionen von EUDAT Speichersystemen zu HPC und HTC Systemen

• Hilfsmittel um Rechen- und Analyseergebnisse in die EUDAT Infrastruktur zurückzuschreiben

• Verfahren für den Import von Datensätzen in die EUDAT Infrastruktur16

Page 17: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Zielt auf Communities, die …… Zugriff auf große Datenspeicher und

HPC Systeme brauchen… Daten von EUDAT Datenspeichern zu

entfernten HPC Systemen (z.B. PRACE oder XSEDE) versenden wollen

… einen einfachen Weg für den Datenimport in die EUDAT Infrastruktur suchen

Nutzbar für alle EUDAT Communities, die Daten aus der EUDAT Infrastruktur exportieren oder Analyseergebnisse bzw. neue Datensätze in die EUDAT Infrastruktur importieren wollen

17

Page 18: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Benutzerfreundlicher, zuverlässiger Dienst zum Speichern und Sharing von Forschungsdaten• Einfache Online Registrierung für Datenanbieter• Vereinfacht das Hochladen und die Speicherung von kleinen

wissenschaftlichen Datensätzen• Erlaubt Anwendern ihre Daten mit anderen Wissenschaftlern zu teilen

18

Page 19: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Zielt auf Wissenschaftler, die …… keine passende Möglichkeit haben um Forschungsdaten mit

Metadaten zu speichern… sich um die Haltbarkeit ihrer lokal gespeicherten Daten

Sorgen machen… keinen passenden Dienst

haben um ihre Daten, Ergebnisse und Ideen mit Wissenschaftlern weltweit zu teilen

Offen für alle EuropäischenWissenschaftler auch Citizen Scientists

19

Page 20: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Eigenschaften• Einfacher Upload Prozess• Rechtemanagement• Langzeitdatenhaltung• Metadaten Extraktion für eine

Vielzahl von Datentypen• Referenzierbare Daten für

einfaches Sharing und Wiederverwenden

20

Metadatenfelder(für alle Daten gleich)

Community-spezifische Metadatenfelder

Page 21: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT Metadaten Dienst• Einfaches Auffinden von Kollektionen wissenschaftlicher Daten• Zugriff auf Datenkollektionen durch Referenzen in den Metadaten• Kommentieren von Metadaten und Ressourcen und teilen dieser

Kommentare mit anderen Wissenschaftlern

21

Page 22: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Zielt auf Wissenschaftler, die…… schnell nützliche Daten für

Forschungszwecke finden wollen… neue Datenkollektionen für

spezifische Forschungsfragen bilden wollen

… einen schnellen Überblick über verfügbare Forschungsdaten bekommen möchten

… Kommentare über Daten und Metadaten mit anderen Wissenschaftlern teilen möchten

Offen für alle Wissenschaftlerkostenfrei

22

Page 23: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Nutzung• Communities

entscheiden welcheMetadaten veröffentlichtwerden

• Metadatenanbieterwerden regelmäßigdurchforstet um umfassende und aktuelleMetadaten anzuzeigen

23

Page 24: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

24

Community Store EUDAT Site A

EUDAT Site B

EUDAT Site C

OAI‐PMH

http http

Citizen scientists

Angepasster Dienstfür wissenschaftliche Communitiesund Citizen Scientists

iRodsGridFTP

Researchers

Data Managers

OAI‐PMH

PID

PID

PID

Page 25: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Neue Dienste

• Evaluation und Auswahl geeigneter Technologien• Design des Dienstes und Evaluation mit interessierten

Communities• Integration des Dienstes mit den etablierten Diensten der

EUDAT Infrastruktur

25

Page 26: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

EUDAT in H2020• EINFRA-1-2014: Managing, Preserving, and Computing with Big Data • CDI wird als Föderation partnerschaftlich zusammenarbeitender

Zentren etabliert, die die Vielfalt zahlreicher Community-spezifischer Repositories mit der Beständigkeit der größten Europäischen wissenschaftlichen Datenzentren verbindet

• Wirtschaftliche, nutzergetriebene, benutzerfreundliche, anpassbare, belastbare und skalierbare CDI bietet eine integrierte Lösung für das Datenmanagement im gesamten Lebenszyklus (Erzeugung, Verarbeitung, Bewahrung, Zugriff und Wiederverwendung)

• Infrastruktur, die in andere e-Infrastrukturen (Grid, Cloud, HTC, HPC) integriert wird, mit ihnen interoperable ist und so die Cross-Infrastruktur Nutzung vorantreibt

• Infrastruktur mit klaren Dienstangeboten und einem Business- bzw. Einnahmemodell, dass ihren Betrieb ohne Projektförderung ermöglicht

26

Page 27: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

CDI benutzen oder beitreten

CDI benutzen• Suchen und verwenden von Daten bzw. speichern von Datensätze

in der CDI über eines der öffentlichen Front-Ends

CDI beitreten• Integration mit mindestens einem EUDAT Zentrum

27

Page 28: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Netzwerk zuverlässiger Zentren

• Eigenständige Zentren arbeiten in einem gemeinsamen Verbund um Dienste anzubieten

• Universelle Datenzentren mit langjähriger Erfahrung in der Zusammenarbeit

• Community Datenzentren mit Verbindung zu wenigstens einem universellen Datenzentrum

• EUDAT bietet Lösungenin einer föderierten Umgebung

28

Page 29: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

Interagieren mit EUDAT

Existierende EUDAT Dienste evaluieren• B2FIND• B2SAFE• B2STAGE• B2SHARE

Diskussionen zu existierenden und neuen Diensten• EUDAT User Forum• EUDAT Konferenz• EUDAT Partner

EUDAT Observer oder Associated Partner werden29

Page 30: Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

3rd EUDAT ConferenceBringing data infrastructures to Horizon2020

24-25 September 2014

De Meervaart Conference CentreAmsterdam, The Netherlands

Co-located with the Research Data Alliance 4th Plenary Meeting

30