10
Infraestructures per dades de recerca Ricard de la Vega Cap de Portals i Repositoris 24-04-13

Infraestructures per dades de recerca

Embed Size (px)

Citation preview

Infraestructures per dades de recerca

Ricard de la Vega

Cap de Portals i Repositoris

24-04-13

2

Centre de Serveis Científics i Acadèmics de Catalunya (CESCA)

2

Dades de recerca

� Les dades de recerca estan començant a reconèixer com una font de coneixement propia i independent de les publicacionsque poden ser usades en la validaciódels resultats d’investigació publicats en articles, per generar nou coneixent i per ser explotats de manera interdisciplinar.

Font: http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf

4

Open Acces i Research Data

4

Font: Consulta a Google Trends (24-04-13)

5

� Big Data is a collection of data sets so large and complex that it becomes dificult to process using on-hand database management tools or traditional data processing applications (wikipedia)

� Velocitat

• Sistemes de distribució de processos

• (MapReduce, Hadoop, Solr...)

� Volum

• Sistemes de fitxers distribuits

• (cabines de discs...)

� Varietat

• BBDD no relacionals

� Exemples

• 340 M de tuits/dia

• 1.000 M de consultes/dia a Google

• Large Hadron Collider (LHC)

• European Bioinformatics Institute

Big data

5

Font: http://assets.outliers.es/bdw13/bigdata/BDW_BigData.pdf

6

Research data

� 80.000 estructures en 3D de molècules

� 69 persones

� Aprox. 150 GB

6

Font: http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012

� Worldwide Protein Data Bank Archive

� Patrimoni Digital de Catalunya

� 300K captures de 60K webs

� 380M fitxers en aprox. 20 TB

� www.padicat.cat

7

� Requisits (Strategy for a European Data Infrastructure):

• Accés a les dades (cicle de vida, seguretat, data curation) i capacitat de

càlcul (data mining, data processing...)

• Preservació de les dades a llarg termini (mecanismes autenticitat,

qualitat...)

• Distribució de les dades (x preservació i optimització accés)

• Compatició (data share, data citation)

� HW: Sistemes d’emmagatzematge, Sistemes de distribució de processos,

balancejadors de càrrega, ample de banda, redundància...

� SW: DSpace (Dryad...), Invenio (Eudat Simple Store), Dataverse (Juan

March...), altres...

Arquitectura

7

Difusió Gestió Preservació

Font: http://www.csc.fi/english/pages/parade/whitepaper

8

Sostenibilitat

� Costos elevats tant d’adquisició com de manteniment de les infraestructures (1 ordre de magnitud més que les de publicacions)

� El cost del disc cada vegada és més barat, i el de la preservació? (sempre incremental, diverses còpies, migracions de formats i desuports, etc...) Necessitat de finançament a llarg termini, doncs les dades són acumulatives i es preserven més enllà dels cicles tecnològics

� En les propostes de finançament de projectes, s’hauria

� de detallar un pla de gestió de les dades incloent la

� seva viabilitat econòmica

� Selecció de dades (curation) i economies d’escala

� (compartició de costos + augment sinergies entre investigadors i disciplines)

8

Font: http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf

9

Ecosistema de les dades de recerca

9

Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf

10

http://www.cesca.cat/ca/difusio-i-formacio/publicacions/revista-teraflop

http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf