Upload
hakhanh
View
226
Download
3
Embed Size (px)
Citation preview
GROBID: Un outil d’extractionpour les publications
scientifiques
en 20 slides !
25.11.2014
Nancy
GROBID• GeneRation Of BIbliographic Data• Un outil d’analyse et d’extraction d’informations
bibliographiques et de contenu, début en 2008• Entrée:
– ciblée sur les domaines scientifiques et techniques– publications académiques, manuels et brevets– PDF ou texte (XML, brut)
• Approche par apprentissage automatique: cascade de modèles CRF (Conditional Random Fields)
• Normalisation des métadonnées• Ensemble des données en TEI (Text Encoding Initiative)
GROBID• 3 principaux modèles à différents niveaux de maturité
d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré
• Extraction des informations bibliographiques disponibles dans l’en-tête d’article
Extraction de l’en-tête
Extraction de l’en-tête
Extraction de l’en-tête
Extraction de l’en-tête
(XY-Cut algorithm)
Extraction de l’en-tête
title
authors
affiliation
abstract
Extraction de l’en-tête : résultat structuré et normalisé en TEI
Extraction de l’en-tête : résultat structuré et normalisé en TEI
• Extraction des informations bibliographiques disponibles dans l’en-tête d’article
• Différentes caractéristiques (features) sont exploitées :– positionnement (ligne, document, etc.)– information lexicale (gazetteers, préfixes, etc.)– information de présentation (taille/style de fonte, etc.)
• Conditional Random Fields (CRF) (Peng & McCallum 04)• Données d’entrainement: 4000 exemples globaux + 600 blocs affiliations/adresses + 2000
séquences d’auteurs + 4150 références• Exploitation de bases bibliographiques externes pour corriger/compléter les
résultats d’extraction: CrossRef
Extraction de l’en-tête
Évaluation en-tête:
from (Lipinski et al., 2013)
Usage - extraction de l’en tête
• En production (service web) à ResearchGate, Mendeley, HAL, OEB, ...
GROBID• 3 principaux modèles à différents niveaux de maturité
d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques
Extraction des références bibliographiques
• Extraction des références bibliographiques d’un article en PDF (avec les contextes de citations)
• Extraction des références bibliographiques dans les brevets– références dans le flux de texte– références aux brevets
• Analyse de référence: analyse d’une référence en isolation
Évaluation sur références en isolationFeatures Accuracy Precision Recall F1
Token 99.72 97.62 97.62 97.62
Field 99.77 96.56 96.39 96.49
Instance - - - 77.60
Article title 99.44 96.02 96.91 96.47
Author 99.42 96.31 96.86 96.58
Date 99.88 98.98 99.74 99.36
Journal title 99.54 95.66 97.95 96.79
Volume 99.68 98.31 97.32 97.81
(4150 références)
Usage - référence bibliographiques
• Grobid a été utilisé “en batch” dans plusieurs projects de recherche: PEER (EU), Cosmat (ANR), SLING (EU), ZNF digitalization (with the MPDL), ...
• En cours: OMPI (CJK, brevets), ResearchGate et ISTEX
GROBID• 3 principaux modèles à différents niveaux de maturité
d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré
Extraction du contenu structuré
• Extraction et restructuration du plein texte :– titres et sous-titres de section– marqueurs de référence (biblio., figures, tables)– paragraphes, enumérations, notes, etc.– figure, tables, etc.
Extraction du contenu structuré
Extraction du contenu structuré
• Extraction et restructuration du plein texte :– titres et sous-titres de section– références (biblio, figures, tables)– paragraphes, énumérations, notes, etc.– figure, tables, etc.
• Expérimental, mais meilleur pour la littérature scientifique que les extracteurs PDF “de base”
• Utile pour l’indexation en vue de recherche structurée
Détails techniques...• Grobid est Open Source depuis 02/2011:
–https://github.com/kermitt2/grobid• License: Apache 2.0 • Java et C++ (CRF++, Wapiti) via JNI/JNATI• xpdf pour l’import. du PDF• Batch, API Java & interface RESTful • Thread-safe• 3 documents PDF par second (en-tête), 3000
références en moins de 10 seconds
Version 0.3 est en pre-release.
23
Cas d’usage 1 : workflow acquisition Exploitation des références biblio.
• Problème: metadonnées de qualité en phase d’acquisition• ResearchGate
– Workflow “acquisition” : plusieurs milliers de PDF chargés par jour• Grobid extrait les citations bibliographiques pour chaque PDF• matching de la citation avec la base biblio. interne• Services :
– notification de citation aux chercheurs– pertinence du ranking pour la recherche
25
Cas d’usage 2 : service “temps réel” Orchestration de services web
• Il est possible de tirer un grand profit d’outils comme un link resolver ou un central index (Primo, Summom) sous forme de web services
• Les services web de Grobid viennent alors compléter les outils d’aide à l’utilisateur
Cas d’usage 2 : service “temps réel” Orchestration de services web
• Office Européen des brevets : 150.000 citations de littérature non-brevet par an dans les rapports de recherche d’antériorité – citation bibliographique à produire– chargement (metadonnées+fulltext) dans base interne
• Souscription à 24 000 journaux en ligne• Link resolver Web API (SFX) :
– accès transparent aux fulltexts via plug-in pour le navigateur web– récupération des info. biblio. via OpenURL pour la citation
(“metadata push”)• Consolidation avec CrossRef + Summon web services• Grobid vient compléter la récupération des info. biblio (20%)
Évaluation en-tête: Corpus CORAFields Accuracy Precision Recall F1
Token 99.71 97.56 97.56 97.56
Field 98.97 90.72 90.18 90.45
Instance - - - 74.91
Instance after consolidation - - - 82.20
Title 99.70 98.24 95.48 96.84
Author 99.38 90.27 96.36 93.21
Date 99.86 97.53 81.07 87.29
Affiliation 99.52 98.25 93.26 95.69
Abstract 98.95 99.64 98.81 99.22
(+9.7%)
(Grobid produit de telles métriques pour tous les modèles)
Exemple: référence bibliographique
CRF Segmentation
PDF file
PDF extraction
Segmentationmodel
Segmenteddocument
Bibliographysegmentation
model
References
xml: content & layout
cover header
CRF Reference Segmentation
body foot-notes
head-notes
biblio Annexes
referencelabel referencelabel referencelabel ...
Graff, Expert. Opin. Ther. Targets (2002) 6(1): 103-113
CRF Citation model
Graff, Expert. Opin. Ther. Targets (2002) 6 (1): 103-113
CRF Author sequence CRF Date
Reference
Global citation model
First-level citation parsing
Second level models
Full parsing
Consolidation
Final formatting
author journal date pages
volu
me
issu
e
OpenURL
Graff Expert. Opin. Ther. Targets 2002 6 1 103 113
authorjournal
date pages
volu
me
issu
e
lastname year first last
DOI: 10.1517/14728222.6.1.103
Jeremy R Graff etc.ISSN: 1472-8222
Exemple: référence bibliographique
Assisted generation of training datacurrent
CRF models
Affiliations
Authors
Header
new document
intermediarytraining data
human correction
newtraining data
etc.
newCRF models
Affiliations
Authors
Header
etc.re-training
next new document
enough!
EPO project: Augmentation of training data for headers (2013-14)
0.10
0.15
0.20
0.25
0.30
oct. Nov. Dec. Jan. Feb. Mar. Apr. May
Instance level accuracy of header extraction against the October set
1530 39712505 2855
~+50%
Annotatedheaders 1849 2154 3078 3513
Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console
Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console• Automatic web application deployment• Linux (32,64), Mac OS X (64) and Windows (32,64) supported (0.3)• Performance: 3 pdf/s (server), 3000 references in 18s (CRF++)
Ongoing works• CJK support (work with WIPO)• Improvement of references (articles & patent)• Document type classification• Citation type classification• Full text model: full conversion of a PDF into a TEI compliant document
(ANR Project TermITH)• Central repository of training data: sharing of training data and
automatic update of CRF models
Consolidation des métadonnées
• Exploitation de bases bibliographiques externes pour corriger/compléter les résultats d’extraction
• Crossref: La notice bibliographique complète peut être obtenue soit via :– DOI– Journal title, volume, first page– Title + author first name ➞ fréquent
• Également utilisé à l’EPO : Summon. Autres bases expérimentales: xISSN, xISBN, Amazon Web Service
• Contrainte : accès en ligne difficile pour du temps réel• Idéalement exploitation de bases biblio. “maison”
But wait... why are you doing that? • Cataloguing: e.g. mass digitalization• User needs:
– self-archiving of scholar papers by authors, e.g. in open archives– help when metadata are not easily available
• Extraction of additional metadata: references, keywords, etc. for enriching/correcting existing ones– improvement in search & retrieval
• Ease document access from citation strings (OpenURL)• Playground for experimenting with CRF models for text mining
Pourquoi des métadonnées de bonne qualité sont considérées importantes?
• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage– Accès : exploitable par un link resolver (OpenURL) – Recherche : représentation des informations clefs d’un objet
bibliographique – Interopérabilité : application de différents services aux informations
bibliographiques
Pourquoi des métadonnées de bonne qualité sont importantes
• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage Extraction +
consolidation via DB externes/mass digitalisation
– Accès : exploitable par un link resolver (OpenURL) Grobid produit des résultats en OpenURL
– Recherche : représentation des informations clefs d’un objet bibliographique Extraction + structure
– Interopérabilité : application de différents services aux informations bibliographiques Grobid produit des résultats en TEI, BibTex avec DOI/ISSN/ISBN si disponibles après consolidation
+ catalog
Extraction de l’en-têteCollection Pre-
processing
Documentsegmentation
Token + features CRF models
- text segmentation- feature generation train
Affiliations
Authors
Header
+ catalog + expected result etc.
+ catalog
Collection Pre-processing
Documentsegmentation
Token + features
- text segmentation- feature generation
+ catalog + expected result
terms +labels
Final biblio.record Document Segmented
documentTerm candidates
+ features
post-processingconsolidation
train /classify
CRF models
Affiliations
Authors
Header
etc.
Extraction de l’en-tête
Grobid “Extensions”• Grobid offers a generic CRF-based text mining environment• Existing CRF-based tools:
– Biotech entities: reimplementation of BANNER– NERD: NER (26 classes + sense) and Disambiguation/resolution against FreeBase &
Wikipedia (EU Cendari)– Chemical formula in patents
• In development: scientific & technical quantities/measures focusing on patents
• Also existing: – exension for calling a Grobid model directly in XSLT– Key-phrases extraction (SemEval 2010)
• Not included so far in the open source distribution
51