IMPACT implicación de la BNE-UA y resultados preliminares del proyecto. Isabel Bordes Cabrera

  • View
    583

  • Download
    5

Embed Size (px)

DESCRIPTION

Presentada en "FESABID. XII Jornada Española de Documentación". 26 de mayo de 2011. Málaga

Text of IMPACT implicación de la BNE-UA y resultados preliminares del proyecto. Isabel Bordes Cabrera

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT implicacin de la BNE-UA(Universidad de Alicante) y resultadospreliminares del proyecto FESABID, XII Jornadas Espaolas de Documentacin- 26 mayo de 2011 TALLER FESABID 2011 26 MAYO

2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.AntecedentesEl texto no digitalizado es virtualmente invisibleDisponibilidad de material digitalizado demasiado lento, pequeas cantidades ypocas fuentesTecnologa OCR (reconocimiento ptico de caracteres) no resultados satisfactoriospara documentos histricosFalta de conocimiento institucional y especializacinineficiencia y reinventar larueda TALLER FESABID 2011 26 MAYO 2 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Texto histrico: tpicos resultados OCRVVt Venetien den 1.Junij, Anno 1618.DJgn i f paffato te S aJifeert mo?en/bah .)etgiuotbciraetail)i.r/JtmelchontDecht te /sbnbe bele btr felbrr geiufttceert baer bnber eeniglje jprant o^fen/bie ftcb .metbeSpaenfcbeu enbeeemgljen bifet Cbeiiupcen berbonbru befe TALLER FESABID 2011 26 MAYO 3 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Retos OCR: pginas daadas, alabeadas, tintas traspasadas,maquetacin compleja, fuentes histricasetc. TALLER FESABID 2011 26 MAYO 4 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Retos lingsticos: variantes ortogrficas, variantes de grafa, formas conjugadas, declinadasy msVariantes histricas para la forma verbal hubo:hubo, huvo, uvo, vuo, uuo, huuoVariantes histricas para la palabra holandesa wereld (mundo):werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldtsvveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swereltswerelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weireltweireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldjewaereldje weurlt wald weledTALLER FESABID 2011 26 MAYO 5 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Reto institucional: falta de conocimiento y experiencia ineficiencia TALLER FESABID 2011 26 MAYO 6 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Cmo afrontar estos retos: La visin de IMPACT Digitalizar los textos impresos histricos enEuropa mejor, ms rpido , ms barato Proporcionar herramientas, servicios einstalaciones para continuar avanzando eneste campo TALLER FESABID 2011 26 MAYO 7 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.El proyecto en cifrasApoyado por la Comunidad Europea a travs de la lnea ICT del FP7Coordinacin Biblioteca Nacional de Pases Bajos (KB)Tipo de proyecto: Proyecto de integracin a Gran EscalaFinanciacin de la UE : 11 500 000Fecha de inicio: 1 enero 2008Duracin: 48 mesesA partir de 2012: Centro de competencia sostenibleContacto: impact@kb.nlSitio web: www.impact-project.eu TALLER FESABID 2011 26 MAYO 8 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Consorcio IMPACT - InicialBibliotecas Universidades y Centros de Investigacin National Library of the Netherlands (KB) Dutch Institute for Lexicology (INL) The British Library (BL) National Centre for Scientific Research Bibliothque nationale de France (BNF) Demokritos (NCSR) German National Library (DNB) University of Salford (USAL) Bavarian State Library (BSB) University of Munich (CIS group) Gttingen State and University Library University of Innsbruck (InfMath group) (UGOE) University of Bath (UKOLN) Austrian National Library (ONB) University of Innsbruck Library (UIBK) Proveedores comerciales IBM (Haifa Research Lab) ABBYY (Moscow) TALLER FESABID 2011 26 MAYO 9 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.OBJETIVOSMejora significativa de la digitalizacin masiva del texto impreso histricos mediante:Innovacin del software OCR y tecnologas en torno a los idiomasCompartir conocimientos y poner en pie habilidades a nivel europeoGarantizar existencia a largo plazo herramientas y servicios al finalizar el proyectoConseguir el intercambio de procesos o datos entre sistemas heterogneos(interoperabilidad)Proporcionar una Gua de Mejores Prcticas en el mbito de la digitalizacinAtender las necesidades de usuarios en diversos idiomas TALLER FESABID 2011 26 MAYO 10 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Inicio 2010 nuevos socios i.a.: ... 23 Biblioteca Nacional de EspaaBNE ES24 Fundacin Biblioteca Virtual Miguel de Cervantes BVC ES25 Pozna Supercomputing and Networking Center PSNC PL BNE/UA = marzo de 2010TALLER FESABID 2011 26 MAYO 11 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. TALLER FESABID 2011 26 MAYO 12 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Extensin de objetivosUtilizar las herramientas de IMPACT para construir un lxico eficiente para idiomasfuera de los objetivos iniciales de IMPACT Inicialmente: ingls, alemn, holands Dp: lenguas romance y eslavas ej espaolDemostrar y difundir los resultados del proyecto en Europa del Sur y del Este, yapoyar la adquisicin de conocimientos en digitalizacin en dichos pasesReforzar la cooperacin y mejorar la explotacin de las sinergias de I+D sobre ICTa lo largo de la Unin EuropeaEstablecer vnculos estratgicos con el fin de avanzar en:el acceso al conocimiento,desarrollo de estndares ysoluciones interoperables TALLER FESABID 2011 26 MAYO 13 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Estructura del proyecto: 4 subproyectosOPERATIONAL CONTEXT (OC)Requisitos, documentacin wfs y medicionesMejores prcticas y directricesMarco de trabajo e integracin tcnica - interoperabilidad TEXT RECOGNITION (TR) -5 WG ENHANCEMENT & ENRICHMENT (EE) Pre-procesamiento y segmentacinCorreccin colaborativaOCR adaptativo y experimental Lexica e ndices geogrficos Modelos y diccionariosMetadatos estructurales CAPACITY BUILDING (CB)Publicacin recursos Formacin y apoyo Demostraciones TALLER FESABID 2011 26 MAYO 14 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Herramientas de OCRTecnologas para la extraccin de texto en formato digital a partir de una pginaMotor de OCR adaptativo: Clave del proyecto IMPACT, software de primera lneaadaptado especficamente a las necesidades de las bibliotecas y que se adapta durante elproceso de OCR, integrando otras herramientas: Image enhancement toolkit Segmentation toolkit Mdulos de post-correccin Otros motores OCRPrototipos y herramientas experimentales Prototipo OCR sobre textos escritos a mquina (Typewritten OCR prototype) Wordspotting OC TREECB TALLER FESABID 2011 26 MAYO 15 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Herramientas de enriquecimiento (tecnologalingstica)Conseguir que los resultados de OCR sean ms precisos y accesibles Correccin colaborativa Sistema de correccin colaborativa a travs de web: plataforma web, adecuada para participacin voluntaria masiva, valida y corrige resultados OCR. La primera herramienta de este tipo que se relaciona directamente a un motor de OCRLexicon e ndices geogrficosLxicos generales y NER (nnll-uk-ger)Herramientas para proporcionar medios que permitan superar barrera lingsticahistricaMetadatos estructuralesFEP: un conjunto de servicios web que pueden explotarse para detectar y etiquetarautomticamente metadatos estructurales del material escaneadoOC TR EECB TALLER FESABID 2011 26 MAYO 16 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Herramientas y servicios estratgicosSitio web proporciona acceso a todos los resultados del proyecto y constituye el ncleo de una red virtual formadapor todos los centros de competencia europeos en materia de digitalizacin y las actividades de investigacinasociadasUn conjunto de herramientas de Apoyo a la Toma de Decisiones que puede utilizarse para inciar,organizar, gestionar y evaluar el coste de los proyectos de digitalizacin masivaRecursos de aprendizaje (learning resource toolbox) con directrices de funcionamiento que sirvande gua para la implementacin real de todas las herramientas producidas en el proyecto.Formacin y apoyo Sistema Help Desk peticiones, ayuda entre usuarios, socios del proyecto, centros de competencia de digitalizacin. Programa de formacin sobre temas y tecnologas en torno a la digitalizacin a gran escala con una amplia gama de documentacin de apoyo disponible a travs del sitio web del proyectoDemosOC TR EE CB TALLER FESABID 2011 26 M