Clarin – ESBarcelona, 19-12-2007
CLARIN - ES
Fase Preparatoria CLARIN en España
Clarin – ESBarcelona, 19-12-2007
Índice
• Infraestructura CLARIN• Antecedentes• El proyecto CLARIN• Objetivos y plan de trabajo
Clarin – ESBarcelona, 19-12-2007
INFRAESTRUCTURA CLARIN
Basarse en tecnología grid, metadatos y servicios-web - para garantizar la interoperabilidad que haga de un conjunto de elementos sin relación, diferentes y remotos, un sistema estructurado de componentes funcionales interconectados, y- para facilitar la identificación, la ubicación, el acceso y la explotación de recursos lingüísticos.
Clarin – ESBarcelona, 19-12-2007
Una infraestructura?
Clarin – ESBarcelona, 19-12-2007
Recursos Lingüísticos
Clarin – ESBarcelona, 19-12-2007
Antecedentes
• Archivo y gestión de datos lingüísticos: LAT, LAMUS,
• Estandarización: EAGLES, ISLE, LIRICS-ISO• Prueba de concepto: IMDI, DAM-LR• Proyecto aprobado:
– ESFRI: European Strategy Forum on Research Infrastructures
– 7PM de la UE Capacities– AACC, Infraestructuras Científicas y
Tecnológicas
Clarin – ESBarcelona, 19-12-2007
Proyecto CLARIN.eu
• Conseguir el apoyo de suficientes estados miembros: 22 estados en el consorcio, con apoyo expreso de sus gobiernos.
• En España, hubo que demostrar el interés y la viabilidad. Se consiguió gracias a las cartas de apoyo recibidas.
Clarin – ESBarcelona, 19-12-2007
Avales iniciales de CLARIN-ES
• Centro TALP, UPC• Laboratorio de Lingüística
Informática , UAM• Dep. de Filología
Española, UAB• Departamento de
Traducción y Lingüística, UVigo
• Departamento de Lengua Española, USantiago
• Grupo IXA, Facultad de Informática, UPV
• Real Academia Española• Institut d’Estudis
Catalans• Dep. de Humanidades, U
Castilla la Mancha• Dep. de Humanidades, U
Carlos III• Dep. de Humanidades,
UPF
Clarin – ESBarcelona, 19-12-2007
El proyecto CLARIN-ES
MEC: Acciones Complementarias paraRealización de actividades de carácter técnico de elementos o paquetes de trabajo correspondientes a la fase preparatoria de los proyectos de instalaciones científico-tecnológicas incluidas en la “Hoja de Ruta” del Foro Europeo Estratégico sobre Infraestructuras de Investigación (ESFRI).
Dirección General de Política TecnológicaSubdirección Gral. de promoción e infraestructuras tecnológicas y grandes instalaciones.
Clarin – ESBarcelona, 19-12-2007
Plan de trabajo (EU)
• WP1 – Management of the project• WP2 – Technical Infrastructure• WP3 – Humanities overview• WP5 – LRT overview• WP6 – Information gathering &
dissemination• WP7 – Intellectual Property Rigth Issues• WP8 – Construction & Explotation
Agreement
Clarin – ESBarcelona, 19-12-2007
Objetivos de la Fase Preparatoria
• Acuerdo documentado y consensuado
• Construcción de una maqueta:– Evaluar el coste de construcción– Solucionar problemas técnicos– Tener en cuenta todas las lenguas de
la UE
• Planificación detallada del desarrollo
Planificación Clarin
• Construcción de CLARIN 2011-2015: integración de recursos y tecnología desarrollo de aplicaciones piloto
• Explotación del recurso 2016 - ... : desarrollo de aplicaciones
• Hay que garantizar el mantenimiento de los servicios y recursos:
CENTROS PERSISTENTES
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Plan de trabajo (ES)
• Difusión y creación de comunidades – Recopilación de información sobre usuarios y proveedores posibles
• Demostradores en el ámbito de humanidades: crear interés
• Integración de RRLL españoles en la maqueta europea [de todas las lenguas del estado]
Clarin – ESBarcelona, 19-12-2007
Detalles técnicos de CLARIN
Índice
• Integración en la Federación Clarin• Metadatos y estándares
considerados• Ejemplos de herramientas posibles
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Federación Clarin (1)
• Despliegue de la red “grid”: funcionalidades, identificación específica de recursos, y protocolos de sincronización, identificación y autenticación.
• Compartir metadatos para la descripción de los recursos y las herramientas de búsqueda y localización de recursos que los utilizan
• Compartir metadatos para describir los contenidos lingüísticos, y poder construir, gracias a la interoperabilidad, herramientas de acceso, análisis y explotación .
Funcionalidades GRID
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Federación Clarin (2)
• Despliegue de la red “grid”: funcionalidades, identificación específica de recursos, y protocolos de sincronización, identificación y autenticación.
• Compartir metadatos para la descripción de los recursos y las herramientas de búsqueda y localización de recursos que los utilizan.
• Compartir metadatos para describir los contenidos lingüísticos, y poder construir, gracias a la interoperabilidad, herramientas de acceso, análisis y explotación .
Clarin – ESBarcelona, 19-12-2007
Metadatos
Clarin – ESBarcelona, 19-12-2007
Ejemplo de metadatos (2)
Clarin – ESBarcelona, 19-12-2007
Ejemplo de metadatos (3)
Clarin – ESBarcelona, 19-12-2007
Federación Clarin (3)
• Despliegue de la red “grid”: funcionalidades, identificación específica de recursos, y protocolos de sincronización, identificación y autenticación.
• Compartir metadatos para la descripción de los recursos y las herramientas de búsqueda y localización de recursos que los utilizan
• Compartir metadatos para describir los contenidos lingüísticos, y poder construir, gracias a la interoperabilidad, herramientas de acceso, análisis y explotación .
Estándares para la descripción de contenidos lingüísticos
• EAGLES, ISLE, LIRICS, ISO:– codificación morfosintáctica, sintáctica y
semántica;– Para corpus y léxico - LMF
• Data Category Registry, de ISO• Para descripción de voz SAMPA• queda trabajo, el problema es la
definición!!!
Clarin – ESBarcelona, 19-12-2007
Ejemplo del Lexical Markup Framework ISO TC37/SC 4
part of speech grammatical category word class
Category assigned to a word based on its grammatical and semantic properties NOTE: ISO 12620 provides a comprehensive list of values for European languages. Examples of such values are: /noun/ and /verb/.
LMFEstructura
Clarin – ESBarcelona, 19-12-2007
Data Category Registry
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Federación Clarin (4)
• Posibles aplicaciones que acceden a diferentes recursos y herramientas de análisis
– Creación de un corpus de conversaciones entre personas de 16 a 18 años con ejemplos de abertura vocálica para marcar el plural en castellano peninsular
– “Query expansion” para hacer búsquedas en textos históricos
Clarin – ESBarcelona, 19-12-2007
Ejemplo de herramienta
Clarin – ESBarcelona, 19-12-2007
Ejemplo de herramienta
• Pero serán herramientas de las de aquí a diez años!!
• Los instrumentos de análisis y explotación serán herramientas basadas en tecnologías lingüísticas.Analizar los artículos de opinión de un periódico X y obtener la distribución temporal de los marcadores discursivos de opinión negativa sobre el tema “educación” en los últimos diez meses.
Definición de aplicaciones básicas
• Importancia de los usuarios• Necesitamos saber sus procesos más
repetidos y sus necesidades más futuribles!!!
• Acceso y uso de instrumentos de explotación y análisis mediante tecnología lingüística
• Creando la e-ciencia en humanidades y ciencias sociales
Clarin – ESBarcelona, 19-12-2007
Resumiendo …
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Tipología de centros CLARIN
• Proveedor de RRLL: datos y tecnología
• Archivos CLARIN, que garanticen la persistencia
• Centros de entrada al sistema (portales)
• Creadores de aplicaciones que exploten los RRLL
Proveedores de recursos
• Describir sus recursos con los metadatos usados en CLARIN
• Convertir sus recursos en “interoperativos”: que puedan ser input/output de procesos.
• Convertir sus herramientas/aplicaciones para que acepten i/o CLARIN
Clarin – ESBarcelona, 19-12-2007
Gracias!
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Índice
• Objetivos de la Fase Preparatoria• Organización en España• Calendario• Canales de comunicación
Clarin – ESBarcelona, 19-12-2007
Objetivos Fase Preparatoria
• Obtener apoyo y financiación del Estado español para la construcción de Clarin 2011-2015
• Obtener financiación para el mantenimiento y explotación de Clarin 2016 - ....
Necesitamos
• Suficiente respaldo para demostrar que en España hay una masa crítica de usuarios y proveedores.
• Documentación:– Planificación detallada de la
construcción (incluya centros proveedores, aplicaciones piloto, etc.)
– Evaluación económica de los costes
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Estructurar la colaboración de organismos españoles
para:- participación en la solicitud del proyecto
español- evaluación del coste (económico y
temporal) de la integración de los recursos/servicios
- evaluación del coste (económico y temporal) del mantenimiento del recurso/servicio
- desarrollo del modelo de organización español (con el modelo europeo, o no)
FP: Evaluación y planificación
• Integración:– Evaluar el coste de la integración de un
centro en la red CLARIN (autenticación, etc.)– Evaluar el coste de la integración de los
recursos/servicios: descripción y estandarización.
• Garantizar la persistencia del recurso/servicio
Clarin – ESBarcelona, 19-12-2007
FP: Organización de comunidades
- Invitación a proponer recursos/aplicaciones para su integración
- Búsqueda y recopilación de datos para hacer una lista definitiva de integrables que conste en la solicitud
- Estos recursos entrarán en la planificación y evaluación de costes
Clarin – ESBarcelona, 19-12-2007
Organización en España FP:
propuestas....• Firma de un convenio bilateral (UPF-X)
que declare el compromiso de los centros en la construcción de CLARIN– Interés en integrar recursos y/o aplicaciones– Interés en solicitar aplicaciones propias
• Acuerdo con los usuarios?• Para discutirlo en el coloquio ...
Clarin – ESBarcelona, 19-12-2007
Calendario
• Enero 2008 – Inicio CLARIN.eu• Abril 2008 – 1 Lista Centros CLARIN-ES• Junio 2008 – CLARIN-ES (2) AACC • Junio 2008 - Requisitos del Registro
Clarin – ESBarcelona, 19-12-2007
Clarin – ESBarcelona, 19-12-2007
Canales de comunicación
Página web– Información y enlaces– Módulo foros– Módulo usuarios: danos una idea,
dinos un posible usuario– Módulo descripción de recursos (en
construcción)