2c. architettura open archive

Preview:

DESCRIPTION

 

Citation preview

1

Architetture e protocolli dell’OPEN ARCHIVE

SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE

SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARIAnno accademico 2012-2013

Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE

Prof. Giovanni Solimine

Modulo integrativoINFORMATICA PER LE BIBLIOTECHE

Prof. Maurizio Caminito

2

Premesse

L’avvento delle nuove tecnologie ha:• portato allo scoperto la crisi del modello

tradizionale di comunicazione scientifica• fornito soluzioni alternative e innovative

per disseminare la letteratura scientificaa costi molto più contenuti

• offerto strategie complementari e nonconcorrenti per garantire l’open access

3

Open Archive o E-prints Server

Noti come Open Archive, o E-prints server, sono archivi preposti al deposito dei documenti scientifici, in forma elettronica, alla loro gestione e conservazione.

4

Archivi Aperti: tipologie

Contenuti E-prints: pre e post-prints Materiali multimediali

Archivi Aperti IstituzionaliCollezioni che raccolgono la produzione scientifica o le attività

culturali di una istituzione (Università, centri di ricerca, etc) Alma-DL (Università di Bologna) M.U.S. (Università di Messina)

Archivi Aperti DisciplinariCollezione di contributi della stessa disciplina E-LIS (E-prints in Library and Information Science) arXiv (E-prints in Physics, Mathematics, Computer Science

andQuantitative Biology)

5

Archivi Aperti: tipologie

• Organizzati a livello istituzionale o a livello disciplinare.

• I documenti elettronici depositati direttamente dagli autori attraverso l’auto-archiviazione.

N.B. Non va confusa l’auto-archiviazione (self-archiving) con l’auto-pubblicazione (self-publishing)

6

Archivi Aperti: caratteristiche

• Software “open source” di semplice gestione, distribuiti con licenza GNU-GPL, con interfaccia web grafica sia per l’amministrazione che per l’utente finale

• Funzione di “self-archiving”: l’autore deposita autonomamente i propri lavori

• Accesso aperto ai contenuti dell’archivio:l’utente finale recupera il “full-text”attraverso diverse modalità di ricerca

7

Gli strumenti per l’Open AccessMetodi e tecnologie per garantire l’accesso aperto

alla letteratura scientifica

Sono applicativi software per archivi aperti basati sull’interoperabilità,

ossia sulla possibilità di condividere, trasportare, scambiare metadati

attraverso l’architettura e il protocollo della Open Archives Initiative

Sono iniziative di editoria elettronica che garantiscono al

lettore l’accesso al full-text senza pagamento

8

Open Access Initiative

MISSION: miglioramento dell'accesso ai documenti entro gli archivi e-print:

• mette a disposizione strumenti, software e documentazione (protocolli, standard)

• promuove l'utilizzo di metadati standard

9

I protocolli dell’OAI

• L'Open Archives Initiative (OAI) ha sviluppato un protocollo standard per la raccolta dei dati – metadata – relativi ad ogni singolo documento (ad esempio, “data”, “autore”, “titolo”, “rivista”, ecc.).

• In questo modo, anche se i documenti si trovano in archivi e formati differenti, l'utilizzo del protocollo comune assicura la loro interoperabilità e rende possibile la ricerca e il recupero dei documenti proprio come se fossero contenuti in un unico archivio globale, accessibile a tutti.

• Grazie al comune protocollo, tutti i documenti contenuti negli archivi che aderiscono all'OAI rispondono a criteri di interoperabilità.

10

MEMO: la licenza GNU-GPL

GNU's Not Unix !!

GNU General Public License:l’autore del software concede agli utilizzatori di eseguirlo, copiarlo, distribuirlo, modificarlo e ridistribuire le modifiche, nel rispetto dell’unica restrizione imposta, ossia che ciascuna copia o modifica erediti le stesse libertà e sia accompagnata dal codice sorgente “aperto”.

GNU è la licenza basilare del software libero.

MEMO: Creative Commons

Le licenze Creative Commons offrono sei diverse articolazioni dei diritti d'autore per chi desideri condividere in maniera ampia le proprie opere secondo il modello "alcuni diritti riservati". Il detentore dei diritti puo' non autorizzare a priori usi prevalentemente commerciali dell'opera (opzione Non commerciale, acronimo inglese: NC) o la creazione di opere derivate (Non opere derivate, acronimo: ND); e se sono possibili opere derivate, può imporre l'obbligo di rilasciarle con la stessa licenza dell'opera originaria (Condividi allo stesso modo, acronimo: SA, da "Share-Alike"). Le combinazioni di queste scelte generano le sei licenze CC, disponibili anche in versione italiana.

11

12

13

Archivi Aperti: architettura

Centralizzata I contributi vengono depositati tutti in un unico

server centrale

Distribuita I contributi vengono depositati su più servers

remoti che sono connessi tra loro da un’unicainterfaccia di ricerca

14

Il protocollo per OAI-PMH

OAI-PMH Protocol for Metadata Harvesting E’ un protocollo standard, sviluppato nell'ambito dell'Open Archive Initiative, che permette di migliorare la raccolta delle informazioni – metadata – relative ai documenti contenuti negli archivi di tutto il mondo.

Il protocollo PMH-OAI si basa sui protocolli HTTP per il trasporto e XML per la rappresentazione dei dati e garantisce la massima interoperabilità tra i sistemi che lo utilizzano.

15

OAI-PMHOpen Archives Initiative

Protocol for Metadata Harvesting

“The Open Archives Initiative Protocol for Metadata Harvesting provides an application-Independent interoperability framework based on Metadata harvesting.”

Ci sono due tipologie di “attori” nell’architettura OAI-PMH

http://www.openarchives.org/OAI/openarchivesprotocol.html#DefinitionsConcepts

16

OAI: gli attori

Data ProvidersSono gli archivi dove vengono depositati sia i metadati che il full-text del lavoro di ricerca (articoli, presentazioni, etc.), essi sono i contenitori “fisici” (repository)

Service ProvidersRispetto ai Data Providers, sono sistemi che offrono servizi a valore aggiunto, come la raccolta e l’indicizzazione di metadati da altri Data Providers(harvesting)

17

OAI: gli attori 2

il Data Provider (repository) esporta i propri metadati in formato Dublin Core (simple) a sua volta codificati in uno schema XML

il Service Provider, così come i più importanti motori di ricerca del web, raccoglie i metadati secondo il protocollo OAI-PMH (harvesting)

18

Harvesting mediante OAI-PMH

• Data Providers (open archives repositories) forniscono libero accesso ai metadati ed, eventualmente anche ai testi (full text) o ad altre risorse

• Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadata. – le sessioni di ricerca non avvengonodirettamente sulla repository del Data Provider– i servizi si basano sui dati raccolti mediante

harvesting

19

Funzionamento di OAI-PMH

20

Data providers

• metadati Dublin Core convertiti dinamicamente mediante mappatura da un altro schema di metadati a DCoppure archiviati direttamente come DC

• sono disponibili mappature tra DC, EAD, MARC 21• i dati sono codificati in XML• tutti i record vengono contrassegnati da un

elemento cronologico (datestamp)

21

Service providers

• dispongono di dispositivi per l’harvesting– software per l’harvesting automatico– web robots, cioè programmi che scandiscono lo

spazio web automaticamente (crawlers, spiders)• i web robot fanno uso di protocolli HTTP• forniscono servizi relativi a tutti i dati raccolti

– interfaccia di ricerca– sistemi di peer-review

22

Archivi Aperti: infrastruttura

Il software per gli archivi aperti è distribuito in modalità “opensource” così come il loro software di supporto:

• MySQL e PostgreSQL come RDBMS databases(Relational DataBase Management System)

• Linux come sistema operativo• Java, Perl, PHP e Python come linguaggi di

programmazione e per la loro implementazione• Metadati standard

23

Il modello OAIS

SIP - (Submission Information Package) - IP di Immissione, riversato dal produttore nel deposito.AIP - (Archival Information Package) - IP di Archiviazione, che è il pacchetto conservato nel deposito.DIP - (Dissemination Information Package) - IP di Distribuzione trasferito dal depositoall'utente in risposta ad una richiesta di accesso.

24

[e-prints] - archive software- 1

sviluppato dall’Università di Southampton tra i primi progetti a sviluppare un OAS

• oltre 200 implementazioni in tutto il mondo• “semplice” installazione e facilità d’uso• vasta e attenta comunità di supporto

un punto di riferimento tra gli OA

25

[e-prints] – archive software - 2

• Facile da installare– Script di installazione automatici nella maggior parte dei

processi di installazione• Requisiti minimi: meno di 500 MB di spazio per lo

storage.• Indipendenza da altri software di supporto• Facile da usare e da amministrare: basato su Web

26

http://e-prints.unifi.it/

27

28

Repertori di Open Archive

Il CILEA raccoglie repertori relativi a Open Archive, archivi elettronici istituzionali o disciplinari ad architettura centralizzata o distribuita, allestiti tramite l'impiego di tecnologia open source e incrementati tramite auto-deposito.

http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=211

29

Il caso di E-LIS

• L’archivio E-LIS è stato costituito nel 2003 per il deposito di documenti in biblioteconomia e scienza dell'informazione (LIS – Library and Information Science).

• E‘ la prima esperienza internazionale di e-server in questo

settore ( http://eprints.rclis.org/ )

• Deriva dal progetto DoIS (Documents in Information Science) , promosso dal Ministero della Cultura spagnolo e ospitato su macchine del Consorzio Interuniversitario Lombardo italiano per Elaborazione Automatica (CILEA).

• E-LIS si basa sul lavoro volontario ed è non-commerciale. • E-LIS porta avanti la filosofia Open Access, rendendo disponibili documenti

in LIS e campi correlati.

30

31

Le regole di E-LIS

• E 'possibile depositare le opere in qualsiasi lingua, anche se abstract e parole chiave devono essere inserite in inglese, oltre a abstract e parole chiave nella lingua originale del documento. 

• COPYRIGHT: Tutti i lavori sul server E-LIS rimangono di proprietà dell'autore. Le opere possono essere lette online, scaricate per uso personale; l'URL di un documento (da questo server) può essere inclusa in altri documenti elettronici. Il testo stesso non può essere pubblicato commercialmente (a stampa o in formato elettronico) o comunque alterato senza il permesso dell'autore. 

Recommended