15
Herfstschool Tools voor Onderzoekers SURF Academy 2 – 4 november 2009 Universiteit Leiden

Herfstschool Tools Voor Onderzoekers Yvd V

Embed Size (px)

DESCRIPTION

Presentation by Ysbrand van der Veen at SURFacademy Autumn School, Tools for Researchers, 2-4 november 2009, Leiden.

Citation preview

Page 1: Herfstschool Tools Voor Onderzoekers Yvd V

Herfstschool Tools voor Onderzoekers

SURF Academy

2 – 4 november 2009

Universiteit Leiden

Page 2: Herfstschool Tools Voor Onderzoekers Yvd V

INLEIDING OP ‘TOOLS VOOR ONDERZOEKERS’ OPSLAAN EN DELEN VAN ONDERZOEKSDATA

Ysbrand van der Veen

Page 3: Herfstschool Tools Voor Onderzoekers Yvd V

Uitgangspunten bij deze presentatie

• opslaan van onderzoeksdata heeft hergebruik van de data ten doel

• onderzoeksdata dienen zowel longitudinaal door de onderzoeker zelf als binnen een discipline of multidisciplinair herbruikbaar te zijn i.e. een ‘Spel zonder grenzen’ in termen van tijd, organisatie en discipline

Page 4: Herfstschool Tools Voor Onderzoekers Yvd V

Randvoorwaarden

• instellingen en sponsoren (o.a. overheden) onderkennen dat herbruikbaarheid kosten met zich mee brengt – ‘de kost gaat voor de baat uit’

• onderzoekers onderschrijven dat doelstellingen rondom hergebruik ‘meerwerk’ voor hen meebrengt i.v.m. de ontsluiting en representatie van de onderzoeksdata

• naadloze samenwerking business-IT met business i.e. onderzoekers ‘in the lead’

Page 5: Herfstschool Tools Voor Onderzoekers Yvd V

Inhoud van de presentatie

A. Prepareren

B. Baseren

C. (je) Realiseren

D. Traceren

E. Presenteren

Page 6: Herfstschool Tools Voor Onderzoekers Yvd V

A. Prepareren: welke (onderzoeks)data sla je op, voor

wie en waaroma) selectiecriteria

b) doelstelling (waarom)

c) doelgroep (voor wie)• speciale aandacht voor ‘tijdloze’ representatie van

de organisatie van de wetenschap

d) a. t/m c. te representeren in metadata bij de onderzoeksdata vanwege gebruik door derden (n.b. ook redenen van uitsluiting expliciet vermelden)

Page 7: Herfstschool Tools Voor Onderzoekers Yvd V

1999: de wereld produceert tussen 1 and 2 exabytes met unieke informatie per jaar, d.w.z. ongeveer 250 megabytes voor iedere man, vrouw, kind en baby op aarde. Eén exabyte is een miljard gigabytes of 1.000.000.000.000.000.000 i.e.1018 bytes. Gedrukte documenten van alle denkbare types zijn slechts .003% van het totaal

2002: in 2002 alleen is ongeveer 5 exabytes aan nieuwe informatie gegenereerd via de print, film/tv, magnetische and optische opslag systemen op de wereld, d.w.z. ongeveer 800 megabytes voor iedere man, vrouw, kind en baby op aarde. De aanwas aan nieuwe, unieke informatie bedroeg ongeveer 30% per jaar tussen 1999 and 2002. Er zijn 500.000 Libraries of Congress voor nodig om 5 exabytes te evenaren! In de Library of Congress bibliotheek bevinden zich 19 miljoen boeken and 56 miljoen manuscripten

2010: tussen 2006 en 2010 zal de jaarlijkse hoeveelheid aan het digitale universum toegevoegde hoeveelheid informatie toenemen tot 988 exabytes (i.e. het tijdperk van praten in zetta- en yottabytes is nabij)

‘How much information’, School of Information Management and Systems, University of California, Berkeley

‘A Forecast of Worldwide Information Growth Through 2010’, IDC, maart 2007

Selectie hoe dan ook noodzakelijk

Page 8: Herfstschool Tools Voor Onderzoekers Yvd V

B. Baseren: waar, hoe sla je de data op

• hosting van de nieuwe digitale data-bibliotheek; creëren van het digitale equivalent van de UB en de UB catalogus

• beheer vraagstuk van de nieuwe digitale bibliotheek

• standaards voor dataopslag en metadata• speciale aandacht voor ‘houdbaarheid’ van

mediaformaten zoals mp3, mpeg4, RAW e.d.• standaards compliant tooling (synchrone en

diachrone dimensie)

Page 9: Herfstschool Tools Voor Onderzoekers Yvd V

B. Waar en hoe sla je de data op

We duizenden jaren oude kleitabletten lezen, duizend jaar oude boeken en honderd jaar oude microfilms, maar kunnen we straks onze moderne media nog lezen variërend van VHS tapes tot Blueray disks en harde schijven ?

Page 10: Herfstschool Tools Voor Onderzoekers Yvd V

C. (je) Realiseren: het gaat om artefacten (1)

• die op een bepaald moment in de tijd• een bepaalde selectie uit de werkelijkheid

representeren

Page 11: Herfstschool Tools Voor Onderzoekers Yvd V

C. (je) Realiseren: het gaat om artefacten (2)

A. Contextsensitiviteit• paradigma van waaruit is onderzocht• welke classificatie (bijv. ICD-10, ICPC), taxonomie of ontologie ligt ten

grondslag; bijv. bij natuurwetenschappelijk onderzoek de explicitering van het bestudeerde fenomeen binnen de fysieke werkelijkheid (verg. Boeing handleiding)

• welke algoritmes zijn gebruikt bij het processen van de data• welke instrumenten zijn toegepast om de data te verzamelen • relatie naar publicatie(s)• e-mail als referentie ?

B. 'tijdloosheid' technisch• zijn de data echt onafhankelijk van enige applicatie opgeslagen• duurzaamheid van de 'drager' (papier, microfilm, tape, harde schijf, DVD etc)• 'tracking and tracing' (data een soort watermerk meegeven zodat de

herkomst altijd duidelijk is’; persistentie bronnen)– vanwege bronvermelding (ere wie ere toekomt)– vanwege herkenbaarheid herkomst (i.v.m. hergebruik data door de decennia

heen in potentieel steeds complexere mengelingen van data) en referenties (wetenschappelijke publicaties)

Page 12: Herfstschool Tools Voor Onderzoekers Yvd V

C. (je) Realiseren: het gaat om artefacten (3)

C. ‘tijdloosheid’ bronnen• publicaties zullen in toenemende mate non-textueel danwel cross-mediaal zijn• speciaal voor de menswetenschappen geldt dat zij fenomenen bestuderen die

steeds meer in de digitale wereld worden gerealiseerd en gerepresenteerd met alle gevolgen van dien voor de ‘houdbaarheid’ van de bronnen (websites, e-books, mp3, user generated content, etc.) waaraan onderzoeksdata refereren

Page 13: Herfstschool Tools Voor Onderzoekers Yvd V

D. Traceren: vindbaarheid en doorzoekbaarheid van

datacollecties• vindbaarheid door derden (maar bijv. tien jaar later

ook door jezelf) is afhankelijk van rijke vormen van metadateren

• en van metametadateren want metadateren (d.w.z. metametadatateren) van de metadata wordt van toenemend belang

• coderen (conform classificaties) en metadateren/metadateren kunnen door de vereiste expertkennis van de onderzoeksdata (n.b. artefacten) niet aan de (faciliterende) ‘bieb' overgelaten worden

Page 14: Herfstschool Tools Voor Onderzoekers Yvd V

E. Presenteren: van tools, metadata en

onderzoeksgegevens (1)• gebruikersvriendelijke tooling met een hoge

gemaksfactor voor onderzoekers is nodig t.b.v. coderen (bijv. diagnotische classificatie) en metadateren / metametadateren

• in nauwe samenwerking tussen business en IT zullen robuuste controlled vocabularies en ontologies ontwikkeld moeten worden

• in zowel het academisch onderwijs als in opleidingen van aankomende onderzoekers zullen coderen, controlled vocabularies en metadateren hoger op de prioriteitenlijst moeten komen te staan

Page 15: Herfstschool Tools Voor Onderzoekers Yvd V

E. Presenteren: van tools, metadata en

onderzoeksgegevens (2)• ‘scanbare’ vormen van fysieke (re)presentatie

van onderzoeksdata en metadata zijn nodig om onderzoekers snel benodigde informatie te kunnen laten vinden