47
1 Architetture e protocolli dell’OPEN ARCHIVE Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito Lezione 10

10.Open Archive

Embed Size (px)

DESCRIPTION

Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito Lezione 10

Citation preview

Page 1: 10.Open Archive

1

Architetture e protocolli dell’OPEN ARCHIVE

Sapienza Università di RomaAnno Accademico 2012 – 2013

Informatica per gli Archivi e le BibliotecheProf.ssa Linda Giuva

Prof. Maurizio CaminitoLezione 10

Page 2: 10.Open Archive

2

Premesse

L’avvento delle nuove tecnologie ha:• portato allo scoperto la crisi del modello

tradizionale di comunicazione scientifica• fornito soluzioni alternative e innovative

per disseminare la letteratura scientificaa costi molto più contenuti

• offerto strategie complementari e nonconcorrenti per garantire l’open access

Page 3: 10.Open Archive

3

Open Archive o E-prints Server

Noti come Open Archive, o E-prints server, sono archivi preposti al deposito dei documenti scientifici, in forma elettronica, alla loro gestione e conservazione.

Page 4: 10.Open Archive

4

Archivi Aperti: tipologie

Contenuti E-prints: pre e post-prints Materiali multimediali

Archivi Aperti IstituzionaliCollezioni che raccolgono la produzione scientifica o le attività

culturali di una istituzione (Università, centri di ricerca, etc) Alma-DL (Università di Bologna) M.U.S. (Università di Messina)

Archivi Aperti DisciplinariCollezione di contributi della stessa disciplina E-LIS (E-prints in Library and Information Science) arXiv (E-prints in Physics, Mathematics, Computer Science

andQuantitative Biology)

Page 5: 10.Open Archive

5

Archivi Aperti: tipologie

• Organizzati a livello istituzionale o a livello disciplinare.

• I documenti elettronici depositati direttamente dagli autori attraverso l’auto-archiviazione.

N.B. Non va confusa l’auto-archiviazione (self-archiving) con l’auto-pubblicazione (self-publishing)

Page 6: 10.Open Archive

6

Archivi Aperti: caratteristiche

• Software “open source” di semplice gestione, distribuiti con licenza GNU-GPL, con interfaccia web grafica sia per l’amministrazione che per l’utente finale

• Funzione di “self-archiving”: l’autore deposita autonomamente i propri lavori

• Accesso aperto ai contenuti dell’archivio:l’utente finale recupera il “full-text”attraverso diverse modalità di ricerca

Page 7: 10.Open Archive

7

Gli strumenti per l’Open AccessMetodi e tecnologie per garantire l’accesso aperto

alla letteratura scientifica

Sono applicativi software per archivi aperti basati sull’interoperabilità,

ossia sulla possibilità di condividere, trasportare, scambiare metadati

attraverso l’architettura e il protocollo della Open Archives Initiative

Sono iniziative di editoria elettronica che garantiscono al

lettore l’accesso al full-text senza pagamento

Page 8: 10.Open Archive

OAI: un po’ di storia

Open Archives Initiative, nota anche con l'acronimo OAI, è un progetto nato per rendere facilmente fruibili gli archivi che contengono documenti prodotti in ambito accademico. L'intento è di promuovere strumenti semplici per consentire di ricercare e creare servizi che, a costi non troppo elevati, rendano utilizzabili tutti i contenuti dell'attività di ricerca degli atenei.Il progetto ha avuto inizio con un convegno di esperti e studiosi tenutosi a Santa Fe (Nuovo Messico) nel 1999. Dopo un paio di anni la comunità che utilizzava l'OAI si è resa conto che il suo schema può essere generalizzato anche per altri tipi di materiali digitali non strettamente legati alla ricerca accademica.

8

Page 9: 10.Open Archive

9

Open Archives Initiative

Open Archives Initiative sviluppa dispositivi per l’interoperabilità con lo scopo di agevolare l’efficacia della disseminazione dei contenuti sul web.I documenti sono depositati in archivi (repository) per consentire:•la condivisione dei metadati, •la pubblicazione dei contentui •l’archiviazione delle risorse

la descrizione dei documenti avviente mediante Dublin Core non qualificato

http://www.openarchives.org

Page 10: 10.Open Archive

10

Open Access Initiative

MISSION: miglioramento dell'accesso ai documenti entro gli archivi e-print:

• mette a disposizione strumenti, software e documentazione (protocolli, standard)

• promuove l'utilizzo di metadati standard

Page 11: 10.Open Archive

11

I protocolli dell’OAI

• L'Open Archives Initiative (OAI) ha sviluppato un protocollo standard per la raccolta dei dati – metadata – relativi ad ogni singolo documento (ad esempio, “data”, “autore”, “titolo”, “rivista”, ecc.).

• In questo modo, anche se i documenti si trovano in archivi e formati differenti, l'utilizzo del protocollo comune assicura la loro interoperabilità e rende possibile la ricerca e il recupero dei documenti proprio come se fossero contenuti in un unico archivio globale, accessibile a tutti.

• Grazie al comune protocollo, tutti i documenti contenuti negli archivi che aderiscono all'OAI rispondono a criteri di interoperabilità.

Page 12: 10.Open Archive

12

Open Access: le strategie

Le Strategie Per raggiungere l’obiettivo dell’accesso aperto alla letteratura scientifica, sono due e sono complementari:

Open Access self-archivingAttraverso l’implementazione di Archivi Aperti gli autori depositano i loro lavori “certificati” in archivi aperti conformi agli standard OAI Open Access Publishing(Per sostenere la creazione di nuove riviste ad accesso aperto

e/o la conversione di riviste accademiche già esistenti)Gli autori pubblicano i loro lavori in riviste ad accesso aperto, in cui il copyright serve ad assicurare l’accesso permanente e non a limitarlo

Page 13: 10.Open Archive

13

La prima strategia:Open Access self-archiving

• Implementare archivi aperti• Favorire e promuovere l’immissione dei

lavori precedentemente pubblicati dai ricercatori (quindi ‘certificati’, già sottoposti al controllo di qualità) nelle riviste scientifiche

Sotto forma di pre-printSotto forma di post-print,

(in accordo con le politiche editoriali della rivista)

Page 14: 10.Open Archive

14

Open Access self-archivingArchivi Aperti: cosa sono

• Collezioni digitali che raccolgono e conservano la letteratura accademica

• Probabilmente, la componente più importante nell’evoluzione della struttura dei nuovi modelli di comunicazione scientifica

Nel caso degli OA istituzionali, indicatori tangibili di

qualità didattica, canale privilegiato di incremento

della visibilità di un’università

Page 15: 10.Open Archive

15

Archivi Aperti e interoperabilità

• Ciascun documento depositato è corredato da metadati in formato standard che vengono esposti per la raccolta (harvesting)

• Gli archivi sono detti “aperti” in quanto possono essere interrogati da un servizio (“service provider”) che si occupa di indicizzare i metadati raccolti dai vari archivi attraverso la funzione di harvesting

Un deposito entro l’architettura OAI Open Archive

Initivative è noto come “data provider”

Page 16: 10.Open Archive

16

La licenza GNU-GPL

GNU's Not Unix !!

GNU General Public License:l’autore del software concede agli utilizzatori di eseguirlo, copiarlo, distribuirlo, modificarlo e ridistribuire le modifiche, nel rispetto dell’unica restrizione imposta, ossia che ciascuna copia o modifica erediti le stesse libertà e sia accompagnata dal codice sorgente “aperto”.

GNU è la licenza basilare del software libero.

Page 17: 10.Open Archive

MEMO: Creative Commons

Le licenze Creative Commons offrono sei diverse articolazioni dei diritti d'autore per chi desideri condividere in maniera ampia le proprie opere secondo il modello "alcuni diritti riservati". Il detentore dei diritti puo' non autorizzare a priori usi prevalentemente commerciali dell'opera (opzione Non commerciale, acronimo inglese: NC) o la creazione di opere derivate (Non opere derivate, acronimo: ND); e se sono possibili opere derivate, può imporre l'obbligo di rilasciarle con la stessa licenza dell'opera originaria (Condividi allo stesso modo, acronimo: SA, da "Share-Alike"). Le combinazioni di queste scelte generano le sei licenze CC, disponibili anche in versione italiana.

17

Page 18: 10.Open Archive

18

Page 19: 10.Open Archive

19

Archivi Aperti: architettura

Centralizzata I contributi vengono depositati tutti in un unico

server centrale

Distribuita I contributi vengono depositati su più servers

remoti che sono connessi tra loro da un’unicainterfaccia di ricerca

Page 20: 10.Open Archive

20

Archivi aperti: modello “tradizionale”

“In un certo senso, il modello OA si basa su una concezione ‘tradizionale’ di archivio: i dati sono registrati, certificati, descritti, messi a disposizione… ma finché qualcuno non li richiede non si muovono dall’archivio, e quando qualcuno li richiede, il trasferimento ha solo conseguenze locali.

In forme diverse, attraverso feed RSS e sistemi P2P i dati si muovono (il trasferimento ha conseguenze sistemiche)”

(Citazione da: G. Roncaglia, Open archives e altre forme di pubblicazione in rete)

Page 21: 10.Open Archive

21

Repertori di Open Archive

Il CILEA raccoglie repertori relativi a Open Archive, archivi elettronici istituzionali o disciplinari ad architettura centralizzata o distribuita, allestiti tramite l'impiego di tecnologia open source e incrementati tramite auto-deposito.

http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=211

Page 22: 10.Open Archive

22

Il caso di E-LIS

• L’archivio E-LIS è stato costituito nel 2003 per il deposito di documenti in biblioteconomia e scienza dell'informazione (LIS – Library and Information Science).

• E‘ la prima esperienza internazionale di e-server in questo

settore ( http://eprints.rclis.org/ )

• Deriva dal progetto DoIS (Documents in Information Science) , promosso dal Ministero della Cultura spagnolo e ospitato su macchine del Consorzio Interuniversitario Lombardo italiano per Elaborazione Automatica (CILEA).

• E-LIS si basa sul lavoro volontario ed è non-commerciale. • E-LIS porta avanti la filosofia Open Access, rendendo disponibili documenti

in LIS e campi correlati.

Page 23: 10.Open Archive

23

Page 24: 10.Open Archive

24

Le regole di E-LIS

• E 'possibile depositare le opere in qualsiasi lingua, anche se abstract e parole chiave devono essere inserite in inglese, oltre a abstract e parole chiave nella lingua originale del documento. 

• COPYRIGHT: Tutti i lavori sul server E-LIS rimangono di proprietà dell'autore. Le opere possono essere lette online, scaricate per uso personale; l'URL di un documento (da questo server) può essere inclusa in altri documenti elettronici. Il testo stesso non può essere pubblicato commercialmente (a stampa o in formato elettronico) o comunque alterato senza il permesso dell'autore. 

Page 25: 10.Open Archive

25

Archivi Aperti: il modello distribuito

RePEc - Research Papers in Economics (http://repec.org/)

E’ la più grande collezione del mondo di documenti per l'economia ad accesso libero, a modello distribuito.

È nato nel 1999 per opera di Thomas Krichel

Ciascun archivio diventa mirrore garantisce l’accesso anche ai dati

di tutti gli altri archivi

Page 26: 10.Open Archive

I numeri di RePEc

RePEc (Research Papers in Economics) is a collaborative effort of hundreds of volunteers in 75 countries to enhance the dissemination of research in Economics and related sciences. The heart of the project is a decentralized bibliographic database of working papers, journal articles, books, books chapters and software components, all maintained by volunteers. The collected data is then used in various services. So far, over 1400 archives from 75 countries have contributed about 1.2 million research pieces from 1,500 journals and 3,300 working paper series. Over 30,000 authors have registered and 70,000 email subscriptions are served every week.

26

Page 27: 10.Open Archive

27

Disponibilità delle informazioni attraverso il servizio RePEc

I dati presenti nell’archivio RePEc sono accessibili da siti web come IDEAS (http://ideas.repec.org), EconPapers(http://econpapers.repec.org), NetEc e Inomics.

Le stesse informazioni sono inoltre utilizzate per il servizio NEP (New Economic Papers – nuovi articoli di economia – disponibile all’url http://nep.repec.org) che fornisce mailing list organizzate per materia degli articoli resi disponibili in un dato momento.

Tutti si possono registrare su RePEc (http://authors.repec.org). Registrandosi e inserendo un link ai propri lavori, inseriti nell’archivio, il sistema crea automaticamente un “CV RePEc” personale collegato ai (e raggiungibile dai) propri articoli.

Page 28: 10.Open Archive

28

Il protocollo per OAI-PMH

OAI-PMH Protocol for Metadata Harvesting E’ un protocollo standard, sviluppato nell'ambito dell'Open Archive Initiative, che permette di migliorare la raccolta delle informazioni – metadata – relative ai documenti contenuti negli archivi di tutto il mondo.

Il protocollo PMH-OAI si basa sui protocolli HTTP per il trasporto e XML per la rappresentazione dei dati e garantisce la massima interoperabilità tra i sistemi che lo utilizzano.

Page 29: 10.Open Archive

29

OAI-PMHOpen Archives Initiative

Protocol for Metadata Harvesting

“The Open Archives Initiative Protocol for Metadata Harvesting provides an application-Independent interoperability framework based on Metadata harvesting.”

Ci sono due tipologie di “attori” nell’architettura OAI-PMH

http://www.openarchives.org/OAI/openarchivesprotocol.html#DefinitionsConcepts

Page 30: 10.Open Archive

30

OAI: gli attori

Data ProvidersSono gli archivi dove vengono depositati sia i metadati che il full-text del lavoro di ricerca (articoli, presentazioni, etc.), essi sono i contenitori “fisici” (repository)

Service ProvidersRispetto ai Data Providers, sono sistemi che offrono servizi a valore aggiunto, come la raccolta e l’indicizzazione di metadati da altri Data Providers(harvesting)

Page 31: 10.Open Archive

31

OAI: gli attori 2

il Data Provider (repository) esporta i propri metadati in formato Dublin Core (simple) a sua volta codificati in uno schema XML

il Service Provider, così come i più importanti motori di ricerca del web, raccoglie i metadati secondo il protocollo OAI-PMH (harvesting)

Page 32: 10.Open Archive

32

Harvesting mediante OAI-PMH

• Data Providers (open archives repositories) forniscono libero accesso ai metadati ed, eventualmente anche ai testi (full text) o ad altre risorse

• Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadata. – le sessioni di ricerca non avvengonodirettamente sulla repository del Data Provider– i servizi si basano sui dati raccolti mediante

harvesting

Page 33: 10.Open Archive

33

Funzionamento di OAI-PMH

Page 34: 10.Open Archive

34

Data providers

• metadati Dublin Core convertiti dinamicamente mediante mappatura da un altro schema di metadati a DCoppure archiviati direttamente come DC

• sono disponibili mappature tra DC, EAD, MARC 21• i dati sono codificati in XML• tutti i record vengono contrassegnati da un

elemento cronologico (datestamp)

Page 35: 10.Open Archive

35

Service providers

• dispongono di dispositivi per l’harvesting– software per l’harvesting automatico– web robots, cioè programmi che scandiscono lo

spazio web automaticamente (crawlers, spiders)• i web robot fanno uso di protocolli HTTP• forniscono servizi relativi a tutti i dati raccolti

– interfaccia di ricerca– sistemi di peer-review

Page 36: 10.Open Archive

36

Archivi Aperti: infrastruttura

Il software per gli archivi aperti è distribuito in modalità “opensource” così come il loro software di supporto:

• MySQL e PostgreSQL come RDBMS databases(Relational DataBase Management System)

• Linux come sistema operativo• Java, Perl, PHP e Python come linguaggi di

programmazione e per la loro implementazione• Metadati standard

Page 37: 10.Open Archive

37

Il modello OAIS

SIP - (Submission Information Package) - IP di Immissione, riversato dal produttore nel deposito.AIP - (Archival Information Package) - IP di Archiviazione, che è il pacchetto conservato nel deposito.DIP - (Dissemination Information Package) - IP di Distribuzione trasferito dal depositoall'utente in risposta ad una richiesta di accesso.

Page 38: 10.Open Archive

38

[e-prints] - archive software- 1

sviluppato dall’Università di Southampton tra i primi progetti a sviluppare un OAS

• oltre 200 implementazioni in tutto il mondo• “semplice” installazione e facilità d’uso• vasta e attenta comunità di supporto

un punto di riferimento tra gli OA

Page 39: 10.Open Archive

39

[e-prints] – archive software - 2

• Facile da installare– Script di installazione automatici nella maggior parte dei

processi di installazione• Requisiti minimi: meno di 500 MB di spazio per lo

storage.• Indipendenza da altri software di supporto• Facile da usare e da amministrare: basato su Web

Page 40: 10.Open Archive

40

http://e-prints.unifi.it/

Page 41: 10.Open Archive

41

Page 42: 10.Open Archive

42

Page 43: 10.Open Archive

43

Page 44: 10.Open Archive

44

La seconda strategia:Open Access Publishing

Implementare (nuove) riviste con accesso aperto agli articoliConvertire le riviste esistenti in riviste ad accesso aperto

Page 45: 10.Open Archive

45

Mendeley

Mendeley (www.mendeley.com) is a free reference managerand academic social network that can help you organize your research, collaborate with others online, and discover the latest research.

• Automatically generate bibliographies• Collaborate easily with other researchers online• Easily import papers from other research software• Find relevant papers based on what you’re reading• Access your papers from anywhere online• Read papers on the go, with our new iPhone app

Page 46: 10.Open Archive

46

Crescita dell’OA nel mondo: i dati (marzo 2011)

Mendeley, che unisce i servizi di un reference manager tool a quelli di un social network di area accademica, è passato da 300.000 a 800.000 Open Access full text nei primi tre mesi del 2011.

• oltre 6000 riviste “peer reviewed” ad accesso aperto (fonte: Directory of Open Access journals (DOAJ) Tasso di crescita : 4 al giorno

• Oltre 1800 archivi ad accesso aperto (fonte OpenDOAR). Tasso di crescita 1 al giorno

• 25 milioni di documenti (di qualità) liberamente disponibili (Fonte: Motore di ricerca (BASE) Tasso di crescita : 6,000 al giorno

• 271 istituzioni hanno deliberato sull’obbligo di deposito degli articoli da parte degli autori (open access mandate policies) Fonte: ROARMAP. Tasso di crescita: 1 a settimana

• 20% della letteratura scientifca “peer reviewed” è disponibile liberamente: 20% (fonte Bjork et al)

Fonte: Heather Morrison: http://poeticeconomics.blogspot.com/2011/03/dramatic-growth-of-open-access-march-31.html

Page 47: 10.Open Archive

Dati e cifre sull'Open Access in Italia - 2012

35 Atenei applicano le Linee Guida OA sulle tesi di dottoratoL'elenco degli atenei che applicano le linee guida CRUI sulle tesi di dottorato sono riportati alla pagina http://wiki.openarchives.it/index.php/Applicazione_delle_linee_guida con la descrizione del Regolamento che prevede il deposito delle tesi di dottorato nell'archivio istituzionale.Nel 2012, si è aggiunta all’elenco l’Università degli studi di Udine.

PLEIADI, il Portale per la Letteratura scientifica Elettronica Italiana su Archivi aperti e Depositi Istituzionali http://www.openarchives.it/pleiadi/, indicizza (al 25/03/2013) oltre 605.000 record da archivi e riviste ad accesso aperto. PLEIADI è il service provider nazionale per l’accesso alla letteratura scientifica prodotta in Italia.

Le nuove riviste open access registrate su DOAJ (Directory of Open Access Journals) nel 2012 sono 37.

47