Click here to load reader

Dienste für eine kollaborative Dateninfrastrukturjuser.fz-juelich.de/record/185821/files/FZJ-2014-07201.pdfDienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich

  • View
    2

  • Download
    0

Embed Size (px)

Text of Dienste für eine kollaborative...

  • Dienste für eine kollaborative Dateninfrastruktur

    Daniel MallmannJülich Supercomupting CentreForschungszentrum Jülich GmbH

  • Datenflut

    2

    Increasing complexity and varietyIncreasing complexity and variety

    Gigabytes

    Terabytes

    PetabytesExabytesZettabytes

    Expo

    nential growth Herausforderungen

    • Speichern• Ordnen• Auswerten

  • Datenwachstum – Beispiel Lebenswissenschaften

    3

  • Forschungsinfrastrukturen

    Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?

    4

    Communities einbindenSynergien erkennen

  • Riding the Wave

    Ist die kollaborative Dateninfrastruktur ein Modell für die Zukunft?Wie sehen die gemeinsamen Basisdienste aus?

    5

  • EUDAT Projekt

    6

    Teilnehmer 26 Partner aus 13 LändernDatenzentren, Technologieanbieter, Communities

    Leitung CSC ‐ IT Center for Science, Finnland

    Start 1st October 2011

    Dauer 36 Monate (+6 Monate Verlängerung)

    Budget 16,3 M€, davon 9,3 M€ Förderung durch die EU

    EC Call Call 9 (INFRA‐2011‐1.2.2): Data infrastructure for e‐Science (11.2010)

    Web www.eudat.eu

  • EUDAT …… ist eine europaweite Initiative zur Bildung einer interdisziplinären

    und länderübergreifenden Dateninfrastruktur, die eine Reihe von gemeinsamen Diensten für die Datensicherung und den Zugang zu Daten anbietet

    … unterstützt mehrere Communitiesdurch enge Zusammenarbeit bei der Bereitstellung dieser Dienste als Teil der EUDAT kollaborativenDateninfrastruktur

    7

  • Konsortium

    8

    CommunitiesUniverselle DatenzentrenTechnologieanbieter

  • 9

    EUDAT – europaweite Infrastruktur

    Universelles DatenzentrumCommunity Datenzentrum

  • EPOS: European Plate Observatory SystemCLARIN: Common Language Resources and Technology InfrastructureENES: Service for Climate Modelling in EuropeLifeWatch: Biodiversity Data and ObservatoriesVPH: The Virtual Physiological Human INCF: International Neuroinformatics Coordinating FacilityDRIHM: Distributed Research Infrastructure for HydrometeorologyDiXA: Data Infrastructure for Chemical SafetyLTER: European Long-Term Ecosystem Research Network

    Allen gemeinsam sind die Herausforderungen• Referenzmodell und Architektur der Dateninfrastruktur• Persistent Identifier• Metadaten Management• Verteilte Datenquellen• Interoperabilität der Daten

    Eine nutzergesteuerte Initiative

    10

  • Wachsende Nutzerbeteiligung

    • Dialoge• User Foren• Offene

    Call for Collaboration

    11

  • EUDAT Dienste

    12

  • EUDAT Dienste

    13

  • Robuster, sicherer und hochverfügbarer Replikationsdienst• Schutz vor Datenverlust durch

    Langzeitarchivierung und Datenerhaltung• Optimierung des Zugriffs an verschiedenen Standorten für verteilte

    Communities• Datenhaltung in Zentren mit leistungsstarken Computern für

    rechen-intensive Datenanalysen14

  • Zielt auf kleine und mittelgroße Community Repositories, die …… nicht die Kapazität haben, um

    Forschungsdaten für lange Zeit sicher zu speichern

    … keine langfristige Finanzierung für die sichere Datenhaltung haben

    … nicht ausreichend Rechenleistung zurAnalyse der Daten für eine große Nutzerzahl anbieten können

    Jedes Community Repository, das eine Repository-Infrastruktur mit PIDs und Metadaten hat, die die Eigenschaften und den Inhalt der replizierten Daten beschreiben, kann sich am B2SAFE Dienst beteiligen

    15

  • Einfacher Transfer großer Datenmengen zwischen EUDAT Speicherressourcen und den Arbeitsbereichen von HPC Systemen• Zuverlässige,

    effiziente, benutzerfreundliche Werkzeuge für den Datentransfer

    • Unterstützt Wissenschaftler beim Transfer großer Datenkollektionen von EUDAT Speichersystemen zu HPC und HTC Systemen

    • Hilfsmittel um Rechen- und Analyseergebnisse in die EUDAT Infrastruktur zurückzuschreiben

    • Verfahren für den Import von Datensätzen in die EUDAT Infrastruktur16

  • Zielt auf Communities, die …… Zugriff auf große Datenspeicher und

    HPC Systeme brauchen… Daten von EUDAT Datenspeichern zu

    entfernten HPC Systemen (z.B. PRACE oder XSEDE) versenden wollen

    … einen einfachen Weg für den Datenimport in die EUDAT Infrastruktur suchen

    Nutzbar für alle EUDAT Communities, die Daten aus der EUDAT Infrastruktur exportieren oder Analyseergebnisse bzw. neue Datensätze in die EUDAT Infrastruktur importieren wollen

    17

  • Benutzerfreundlicher, zuverlässiger Dienst zum Speichern und Sharing von Forschungsdaten• Einfache Online Registrierung für Datenanbieter• Vereinfacht das Hochladen und die Speicherung von kleinen

    wissenschaftlichen Datensätzen• Erlaubt Anwendern ihre Daten mit anderen Wissenschaftlern zu teilen

    18

  • Zielt auf Wissenschaftler, die …… keine passende Möglichkeit haben um Forschungsdaten mit

    Metadaten zu speichern… sich um die Haltbarkeit ihrer lokal gespeicherten Daten

    Sorgen machen… keinen passenden Dienst

    haben um ihre Daten, Ergebnisse und Ideen mit Wissenschaftlern weltweit zu teilen

    Offen für alle EuropäischenWissenschaftler auch Citizen Scientists

    19

  • Eigenschaften• Einfacher Upload Prozess• Rechtemanagement• Langzeitdatenhaltung• Metadaten Extraktion für eine

    Vielzahl von Datentypen• Referenzierbare Daten für

    einfaches Sharing und Wiederverwenden

    20

    Metadatenfelder(für alle Daten gleich)

    Community-spezifische Metadatenfelder

  • EUDAT Metadaten Dienst• Einfaches Auffinden von Kollektionen wissenschaftlicher Daten• Zugriff auf Datenkollektionen durch Referenzen in den Metadaten• Kommentieren von Metadaten und Ressourcen und teilen dieser

    Kommentare mit anderen Wissenschaftlern

    21

  • Zielt auf Wissenschaftler, die…… schnell nützliche Daten für

    Forschungszwecke finden wollen… neue Datenkollektionen für

    spezifische Forschungsfragen bilden wollen

    … einen schnellen Überblick über verfügbare Forschungsdaten bekommen möchten

    … Kommentare über Daten und Metadaten mit anderen Wissenschaftlern teilen möchten

    Offen für alle Wissenschaftlerkostenfrei

    22

  • Nutzung• Communities

    entscheiden welcheMetadaten veröffentlichtwerden

    • Metadatenanbieterwerden regelmäßigdurchforstet um umfassende und aktuelleMetadaten anzuzeigen

    23

  • 24

    Community Store EUDAT Site A

    EUDAT Site B

    EUDAT Site C

    OAI‐PMH

    http http

    Citizen scientists

    Angepasster Dienstfür wissenschaftliche Communitiesund Citizen Scientists

    iRodsGridFTP

    Researchers

    Data Managers

    OAI‐PMH

    PID

    PID

    PID

  • Neue Dienste

    • Evaluation und Auswahl geeigneter Technologien• Design des Dienstes und Evaluation mit interessierten

    Communities• Integration des Dienstes mit den etablierten Diensten der

    EUDAT Infrastruktur

    25

  • EUDAT in H2020• EINFRA-1-2014: Managing, Preserving, and Computing with Big Data • CDI wird als Föderation partnerschaftlich zusammenarbeitender

    Zentren etabliert, die die Vielfalt zahlreicher Community-spezifischer Repositories mit der Beständigkeit der größten Europäischen wissenschaftlichen Datenzentren verbindet

    • Wirtschaftliche, nutzergetriebene, benutzerfreundliche, anpassbare, belastbare und skalierbare CDI bietet eine integrierte Lösung für das Datenmanagement im gesamten Lebenszyklus (Erzeugung, Verarbeitung, Bewahrung, Zugriff und Wiederverwendung)

    • Infrastruktur, die in andere e-Infrastrukturen (Grid, Cloud, HTC, HPC) integriert wird, mit ihnen interoperable ist und so die Cross-Infrastruktur Nutzung vorantreibt

    • Infrastruktur mit klaren Dienstangeboten und einem Business- bzw. Einnahmemodell, dass ihren Betrieb ohne Projektförderung ermöglicht

    26

  • CDI benutzen oder beitreten

    CDI benutzen• Suchen und verwenden von Daten bzw. speichern von Datensätze

    in der CDI über eines der öffentlichen Front-Ends

    CDI beitreten• Integration mit mindestens einem EUDAT Zentrum

    27

  • Netzwerk zuverlässiger Zentren

    • Eigenständige Zentren arbeiten in einem gemeinsamen Verbund um Dienste anzubieten

    • Universelle Datenzentren mit langjähriger Erfahrung in der Zusammenarbeit

    • Community Datenzentren mit Verbindung zu wenigstens einem universellen Datenzentrum

    • EUDAT bietet Lösungenin einer föderierten Umgebung

    28

  • Interagieren mit EUDAT

    Existierende EUDAT Dienste evaluieren• B2FIND• B2SAFE• B2STAGE• B2SHARE

    Diskussionen zu existierenden und neuen Diensten• EUDAT User Forum• EUDAT Konferenz• EUDAT Partner

    EUDAT Observer oder Associated Partner werden29

  • 3rd EUDAT ConferenceBringing data infrastructures to Horizon2020

    24-25 September 2014

    De Meervaart Conference CentreAmsterdam, The Netherlands

    Co-located with the Research Data Alliance 4th Plenary Meeting

    30