La Internet científica de libre acceso:

La Internet científica de libre acceso:

nuevos canales e iniciativas de publicación científica en archivos abiertos

José Ramón Pérez Agüera

Universidad Complutense de Madrid

Becario FPI Comunidad de Madrid

Sumario

1. Evolución de la publicación científica en Internet

2. La necesidad de una Web Semántica

3. La publicación científica en Internet y la Web Semántica

1- Evolución de la publicación científica en

Internet

La prensa científica

• La validez del conocimiento científico es inversamente proporcional al tiempo que tarda en difundirse y directamente proporcional al número de científicos que reciben este conocimiento.

• No se hace Ciencia si no se difunde ... rápidamente.

• Necesidad de difundir y de hacerlo lo antes posible

Internet: Herramienta de difusión científica I

• Desde finales de los 80 ya existe una infraestructura tecnológica usada para el intercambio de información científica entre universidades y centros de investigación

Internet: Herramienta de difusión científica II

• El Protocolo de transferencia de hipertexto (HTTP) fue creado en 1990 en el CERN (Laboratorio Europeo de Física de las Partículas), como un medio para compartir los datos científicos a nivel internacional, instantáneamente y a bajo costo.

Los archivos de e-prints

• En 1991 Paul Ginsparg, del Laboratorio Nacional de Los Alamos, Estados Unidos, funda el primer archivo de e-prints reconocido como tal, llamado arXiv.org y centrado en el campo de la Física.

El concepto de pre-publicación

• Los repositorios de e-prints se establecen con el objetivo de comunicar a la comunidad científica los resultados de una investigación antes de su publicación en una revista.

• Se busca un menor tiempo de publicación

Algunos ejemplos de e-prints

• ArXiv.org: – http://www.arxiv.org/

• CogPrints: – http://cogprints.soton.ac.uk/

• NCSTRL: – http://www.ncstrl.org/

• NDLTD: – http://www.ndltd.org/

• RePEc: – http://netec.mcc.ac.uk/RePEc/

• Para ver más ejemplos:– http://www.osti.gov/eprints/ppnbrowse.html

2- La necesidad de una Web Semántica

El contexto en la Red

• Problemas de recuperación de información científica:– Entre el silencio y el ruido documental

• Del caos al orden• De la Web a la Web Semántica

XML y los lenguajes de marcado

• Un sintaxis para la estructuración de documentos

• La información es analizable por el hombre y por la máquina

• Se trata de un esfuerzo global de la industria

Metadatos: Uso y necesidades

• Intercambio

• Distribución

• Interoperabilidad entre aplicaciones

3- Publicación científica en Internet y Web Semántica

Archivos abiertos

• De los archivos abiertos a los archivos distribuidos

• De z39.50 a OAI-PMH:– complejidad frente a simplicidad– obsolescencia frente tecnologías punta– fuerte inversión frente a bajo coste

Algunos conceptos previos

• Archivo como repositorio de artículos científicos

• Harvesting como recolección de metadatos

• Proveedor de Datos (Data Provider) • Proveedor de Servicios (Services

Provider)• Interoperabilidad

Open Archives Initiative (OAI)

• El principal objetivo de OAI es facilitar un entorno de interoperabilidad entre los archivos de e-prints.

OAI- Protocol Metadata Harvesting

• El protocolo OAI (OAI-PMH) define un mecanismo para recolectar metadatos contenidos en los distintos archivos o repositorios

Funcionamiento básico de OAI-PMH

•imagen extraída de http://www.oaforum.org

Estructura de OAI-PMH


Arquitectura básica de OAI-PMH

SGBD 1

SCRIPTS SCRIPTS

SGBD 2

SQL

SQL

Data Provider Service Provider

OAI-PMH (XML) sobre HTTP

Petición por HTTP

Elementos a identificar


Ejemplo I


Ejemplo II


¿Como creamos un sistema basado en OAI-PMH?

• Existen múltiples implementaciones del protocolo

• Data Providers y Services Providers (Harvesters) ya implementados y de libre acceso GNU/GPL

• Multiples Tecnología: Java, PHP, Perl, ASP, etc

Software

• CDSware del CERN• DSpace MIT• GNU E-prints • Greenstone Universidad de Waikato • OAICat, OAIHarvester OCLC • Para saber más:

http://www.oaforum.org/oaf_db/list_db/list_software.php

¿Que más necesito?

• Servidor Web (Apache)

• Servidor BBDD (MySql, PosgresSQL)

• Una implementación de OAI-PMH

• Requerimientos específicos de cada implementación: Máquina Virtual Java, módulos Perl, PHP, etc

Mi experiencia

• Plataforma: Linux (Debian)• SGBD MySQL• Servidores Apache 1.3.. TomCat (Para Java)• Implementaciones Services y Data Providers:• OAICat, OAIHarvester, OJS, implementación

propia PHP

=• COSTE 0

Otros campos de aplicación

• Bibliotecas digitales• Cualquier tipo de colección de

documentos electrónicos

Conclusiones y cuestiones para el debate

• OAI surge de la necesidad de los científicos de optimizar el proceso de publicación de sus investigaciones, lo que garantiza su continuidad, ya que no es una necesidad creada a priori

• OAI-PMH es aplicable más allá de los depósitos de e-prints

• ¿Como encajan las editoriales en este entorno?

Documents

La Internet científica de libre acceso: