15
CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará: CLARIN garantizará la integración de recursos y servicios mediante la tecnología Grid formando un dominio virtual integrado Los recursos y servicios se basarán en tecnologías como la Web Semántica para superar las diferencias de formato, estructura y terminología actualmente existentes Garantizará la estabilidad de los recursos La persistencia y durabilidad de los recursos son clave para el futuro Fácil accesibilidad vía web atendiendo a las necesidades de cada comunidad La infraestructura garantatizará la escalabilidad facilitando el crecimiento de la red

CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Embed Size (px)

Citation preview

Page 1: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará:

CLARIN garantizará la integración de recursos y

servicios mediante la tecnología Grid formando

un dominio virtual integrado

Los recursos y servicios se basarán en tecnologías como la Web Semántica para superar las

diferencias de formato, estructura y terminología actualmente existentes

Garantizará la estabilidad de los

recursos

La persistencia y durabilidad de los

recursos son clave para el

futuro

Fácil accesibilidad vía web atendiendo a las necesidades de cada

comunidad

La infraestructura garantatizará la

escalabilidad facilitando el

crecimiento de la red

Page 2: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

CLARIN proveerá infraestructura para todas las fases del proceso de investigación

acceso y extracción de la información, ‘Knowledge Discovery’, ...

Localización

gestión de la información y contenidos, depuración, meta-información, data-sharing, gestión del workflow, ...

Data Managingpublicación e

indexación de resultados, visibilidad, reusabilidad, Web Semántica, ...

Difusión

explotación de datos, herramientas de análisis, “análisis distribuido”,...

Análisis

Page 3: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

LOCALIZACIÓN de la INFORMACIÓN

Dificultad en localizar y acceder a la información

y recursos en un escenario donde éstos

crecen de manera espectacular y de modo

distribuido

LOCALIZACIO

N

Page 4: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

CLARIN facilitará la localización y acceso a los recursos (tanto de la

web visible como de la web invisible), sobre la base de una red

de centros capaces de ofrecer repositorios y servicios

persistentes y estables registrando los recursos para facilitar su

localización.

LOCALIZACIO

N

Page 5: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Una vez localizados los recursos, su acceso es complejo y

redundante ...ACCESO

Obtenemos resultados en diferentes formatos y criterios de ordenación...

C om puter

formulario

búsqueda

formulario

búsqueda

navegación

navegación

loginlogin

formulario

búsqueda

formulario

búsqueda

formulario

búsqueda

formulario

búsqueda

navegación

navegación

navegación

navegación

formulario

búsqueda

formulario

búsqueda

navegación

navegación

loginlogin

Page 6: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

CLARIN permitirá personalizar los resultados......

Com puter

CLARIN actuará como interfaz única, simplificando tanto la autentificación de usuarios como el acceso a los datos..... ACCESO

CLARIN guardará registro de consultas y sesiones para poder reproducirlas,...

Page 7: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

GESTION de

DATOS

Una vez obtenidos los datos y recursos, CLARIN facilitará el acceso a herramientas de gestión y organización

almacenamientoalmacenamiento

clasificaciónclasificación

anotaciónanotación

indexaciónindexación

visualizacionesvisualizaciones

meta-informaciónmeta-información

búsquedasbúsquedas

data-sharingdata-sharing

Page 8: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

ANALISIS Nos encontramos ante un escenario en el cual tenemos

(i) gran cantidad de datos heterogéneos y dispersos.

(ii) gran variedad de recursos computacionales distribuidos que nos ofrecen infinidad de posibilidades de análisis y procesos.

CLARIN afrontará el reto de la heterogeneidad de datos, plataformas, aplicaciones y recursos computacionales dispersos.

La tecnología (Grid, servicios web,...) nos permite definir un nuevo escenario en el que el investigador tenga (i) fácil acceso a datos, (ii) herramientas de análisis y (iii) suficiente capacidad de procesamiento

Page 9: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

ANALISIS

ontologías

clasificación visualización

estadísticas

análisis cualitativos

data-mining

resumen automático

anotación automática

análisis cuantitativos

query expansion

etiquetadores

analizadores

búsquedas

named entity recognition

extracción informacion

reconocimiento voz

diccionarios

segmentadores

conversión formato

Page 10: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

DIFUSION CLARIN dará acceso a servicios que facilitarán la difusión de los resultados de la investigación. Para ello dará soporte a la integración de recursos y resultados en la infraestructura.

El objetivo es garantizar la interoperabilidad y reusabilidad de los recursos generados,

asegurar que los esfuerzos invertidos no caen en saco roto dotando al sistema de repositorios estables y persistentes.

aumentar la visibilidad y el impacto estratégico de la investigación así como favorecer sinergias y un mayor retorno de las investigaciones

UDDI, Web Semántica, open terminology, APIS, repositorios RDF, editores de metadatos, OWL, herramientas para añadir conocimiento a recursos existentes, integración de recursos en dominios, ISO, estándares, ...

Page 11: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

CLARIN, un paso hacia las e-HUMANIDADES

La nuevas tecnologías no sólo nos permiten hacer lo que siempre hemos hecho de manera más eficiente, sino que nos abren nuevas posibilidades hasta ahora inimaginables.

Podemos realizar nuevos tipos de experimentos y operaciones que generan nuevos tipos de datos. Tenemos ante nosotros el reto de ser capaces de usar, explotar y compartir esos datos.

La ‘investigación distribuida’ sólo es posible bajo estándares que garanticen la interoperabilidad entre sistemas heterogéneos de modo que puedan intercambiar procesos y datos.

Un escenario así favorece sinergias y permite aprovechar y maximizar los resultados de la investigación así como garantizar la reusabilidad de los recursos generados.

El investigador en humanidades debería poder acceder a los datos de estudio de manera fácil (estén dónde estén) y disponer de suficiente capacidad de procesamiento para realizar los análisis y operaciones que desee.

Page 12: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Escenario I en el que un investigador en lingüística accede a diferentes corpus, utiliza otro servidor para desformatear los textos, los envía a un etiquetador morfosintáctico (que a su vez consulta un léxico) y, finalmente, utiliza herramientas estadísticas localizadas en otro servicio web para obtener los cálculos deseados. Todo ello desde su propio ordenador y con una única interfaz.

ESCENARIO

e-HUMANIDADES

(lingüística)

Page 13: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Escenario II en el que un investigador en sociolingüístico o comunicación accede a diferentes corpus, utiliza otro servidor para desformatear los textos, y, finalmente los envía a un nuevo servidor que, consultando servicios externos (diccionarios y corpus de referencia) extrae indicadores de lengua. Estos indicadores permitirán al investigador tener datos sobre el uso de la lengua en el corpus de estudio. Todo ello desde su propio ordenador y con una única interfaz.

ESCENARIOe-HUMANIDADES(comunicación- sociolingüística)

corpus

corpus

corpus

diccionario

desformateador

Page 14: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Escenario III en el que un experto en archivística utiliza CLARIN para obtener metadatos documentales de los e-textos que se encarga de archivar e indexar. Para ello, los textos son segmentados y etiquetados antes de ser enviados a un servicio de extracción de palabras clave y a un reconocedor de nombres propios. A su vez, este servicio, utiliza diferentes recursos (gazeteer, léxico).

ESCANARIOe-HUMANIDADES

(archivística)

Desformateador segmentador

reconocedor nombres propios

tagger

Extracción palabras clave

léxico

gazeteer

Page 15: CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará : CLARIN garantizará la integración de recursos y

Escenario IV en el que un investigador en literatura utiliza CLARIN para obtener análisis cuantitativos de las obras literarias que investiga. Para ello los textos, son enviados a diferentes servicios que (i) proporcionan información estadística sobre el léxico utilizado, (ii) analizan los campos semánticos cubiertos por los textos, (iii) cuantifican el uso de los signos de puntuación, ... Estos indicadores permiten al investigador obtener datos sobre el uso de la lengua y estilo en el corpus de estudio.

ESCENARIOe-HUMANIDADES

(filología - literatura)

Desformateador / segmentador

Analizador cuantitativo

léxico

analisis campos

semanticos

léxico

tesaurus

análisis puntuación

ontología