GROBID: Un outil d’extraction pour les publications ... · en 20 slides ! 25.11.2014 Nancy. GROBID ... • Idéalement exploitation de bases biblio. “maison

GROBID: Un outil d’extractionpour les publications

scientifiques

[email protected]

en 20 slides !

25.11.2014

Nancy

mailto:[email protected]

mailto:[email protected]

GROBID• GeneRation Of BIbliographic Data• Un outil d’analyse et d’extraction d’informations

bibliographiques et de contenu, début en 2008• Entrée:

– ciblée sur les domaines scientifiques et techniques– publications académiques, manuels et brevets– PDF ou texte (XML, brut)

• Approche par apprentissage automatique: cascade de modèles CRF (Conditional Random Fields)

• Normalisation des métadonnées• Ensemble des données en TEI (Text Encoding Initiative)

GROBID• 3 principaux modèles à différents niveaux de maturité

d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

Extraction de l’en-tête




(XY-Cut algorithm)


title

authors

affiliation

abstract

Extraction de l’en-tête : résultat structuré et normalisé en TEI

Extraction de l’en-tête : résultat structuré et normalisé en TEI

• Extraction des informations bibliographiques disponibles dans l’en-tête d’article

• Différentes caractéristiques (features) sont exploitées :– positionnement (ligne, document, etc.)– information lexicale (gazetteers, préfixes, etc.)– information de présentation (taille/style de fonte, etc.)

• Conditional Random Fields (CRF) (Peng & McCallum 04)• Données d’entrainement: 4000 exemples globaux + 600 blocs affiliations/adresses + 2000

séquences d’auteurs + 4150 références• Exploitation de bases bibliographiques externes pour corriger/compléter les

résultats d’extraction: CrossRef


Évaluation en-tête:

from (Lipinski et al., 2013)

Usage - extraction de l’en tête

• En production (service web) à ResearchGate, Mendeley, HAL, OEB, ...


d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques

Extraction des références bibliographiques

• Extraction des références bibliographiques d’un article en PDF (avec les contextes de citations)

• Extraction des références bibliographiques dans les brevets– références dans le flux de texte– références aux brevets

• Analyse de référence: analyse d’une référence en isolation

Évaluation sur références en isolationFeatures Accuracy Precision Recall F1

Token 99.72 97.62 97.62 97.62

Field 99.77 96.56 96.39 96.49

Instance - - - 77.60

Article title 99.44 96.02 96.91 96.47

Author 99.42 96.31 96.86 96.58

Date 99.88 98.98 99.74 99.36

Journal title 99.54 95.66 97.95 96.79

Volume 99.68 98.31 97.32 97.81

(4150 références)

Usage - référence bibliographiques

• Grobid a été utilisé “en batch” dans plusieurs projects de recherche: PEER (EU), Cosmat (ANR), SLING (EU), ZNF digitalization (with the MPDL), ...

• En cours: OMPI (CJK, brevets), ResearchGate et ISTEX


d’extraction, normalisation et structuration du texte :– métadonnées d’en-tête– références bibliographiques– ensemble du texte structuré

Extraction du contenu structuré

• Extraction et restructuration du plein texte :– titres et sous-titres de section– marqueurs de référence (biblio., figures, tables)– paragraphes, enumérations, notes, etc.– figure, tables, etc.



• Extraction et restructuration du plein texte :– titres et sous-titres de section– références (biblio, figures, tables)– paragraphes, énumérations, notes, etc.– figure, tables, etc.

• Expérimental, mais meilleur pour la littérature scientifique que les extracteurs PDF “de base”

• Utile pour l’indexation en vue de recherche structurée

Détails techniques...• Grobid est Open Source depuis 02/2011:

–https://github.com/kermitt2/grobid• License: Apache 2.0 • Java et C++ (CRF++, Wapiti) via JNI/JNATI• xpdf pour l’import. du PDF• Batch, API Java & interface RESTful • Thread-safe• 3 documents PDF par second (en-tête), 3000

références en moins de 10 seconds

Version 0.3 est en pre-release.

23

http://sourceforge.net/projects/grobid

http://sourceforge.net/projects/grobid

Cas d’usage 1 : workflow acquisition Exploitation des références biblio.

• Problème: metadonnées de qualité en phase d’acquisition• ResearchGate

– Workflow “acquisition” : plusieurs milliers de PDF chargés par jour• Grobid extrait les citations bibliographiques pour chaque PDF• matching de la citation avec la base biblio. interne• Services :

– notification de citation aux chercheurs– pertinence du ranking pour la recherche

25

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Il est possible de tirer un grand profit d’outils comme un link resolver ou un central index (Primo, Summom) sous forme de web services

• Les services web de Grobid viennent alors compléter les outils d’aide à l’utilisateur

Cas d’usage 2 : service “temps réel” Orchestration de services web

• Office Européen des brevets : 150.000 citations de littérature non-brevet par an dans les rapports de recherche d’antériorité – citation bibliographique à produire– chargement (metadonnées+fulltext) dans base interne

• Souscription à 24 000 journaux en ligne• Link resolver Web API (SFX) :

– accès transparent aux fulltexts via plug-in pour le navigateur web– récupération des info. biblio. via OpenURL pour la citation

(“metadata push”)• Consolidation avec CrossRef + Summon web services• Grobid vient compléter la récupération des info. biblio (20%)

Évaluation en-tête: Corpus CORAFields Accuracy Precision Recall F1

Token 99.71 97.56 97.56 97.56

Field 98.97 90.72 90.18 90.45

Instance - - - 74.91

Instance after consolidation - - - 82.20

Title 99.70 98.24 95.48 96.84

Author 99.38 90.27 96.36 93.21

Date 99.86 97.53 81.07 87.29

Affiliation 99.52 98.25 93.26 95.69

Abstract 98.95 99.64 98.81 99.22

(+9.7%)

(Grobid produit de telles métriques pour tous les modèles)

Exemple: référence bibliographique

CRF Segmentation

PDF file

PDF extraction

Segmentationmodel

Segmenteddocument

Bibliographysegmentation

model

References

xml: content & layout

cover header

CRF Reference Segmentation

body foot-notes

head-notes

biblio Annexes

referencelabel referencelabel referencelabel ...

Graff, Expert. Opin. Ther. Targets (2002) 6(1): 103-113

CRF Citation model

Graff, Expert. Opin. Ther. Targets (2002) 6 (1): 103-113

CRF Author sequence CRF Date

Reference

Global citation model

First-level citation parsing

Second level models

Full parsing

Consolidation

Final formatting

author journal date pages

volu

me

issu

e

OpenURL

Graff Expert. Opin. Ther. Targets 2002 6 1 103 113

authorjournal

date pages

volu

me

issu

e

lastname year first last

DOI: 10.1517/14728222.6.1.103

Jeremy R Graff etc.ISSN: 1472-8222

Exemple: référence bibliographique

Assisted generation of training datacurrent

CRF models

Affiliations

Authors

Header

new document

intermediarytraining data

human correction

newtraining data

etc.

newCRF models

Affiliations

Authors

Header

etc.re-training

next new document

enough!

EPO project: Augmentation of training data for headers (2013-14)

0.10

0.15

0.20

0.25

0.30

oct. Nov. Dec. Jan. Feb. Mar. Apr. May

Instance level accuracy of header extraction against the October set

1530 39712505 2855

~+50%

Annotatedheaders 1849 2154 3078 3513

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console

Production level• JNI integration of the CRF libraries (CRF++, Wapiti)• Automatic linking of the native lib per platform• Thread-safe at parser-level (0.3)• RESTful web services with console• Automatic web application deployment• Linux (32,64), Mac OS X (64) and Windows (32,64) supported (0.3)• Performance: 3 pdf/s (server), 3000 references in 18s (CRF++)

Ongoing works• CJK support (work with WIPO)• Improvement of references (articles & patent)• Document type classification• Citation type classification• Full text model: full conversion of a PDF into a TEI compliant document

(ANR Project TermITH)• Central repository of training data: sharing of training data and

automatic update of CRF models

Consolidation des métadonnées

• Exploitation de bases bibliographiques externes pour corriger/compléter les résultats d’extraction

• Crossref: La notice bibliographique complète peut être obtenue soit via :– DOI– Journal title, volume, first page– Title + author first name ➞ fréquent

• Également utilisé à l’EPO : Summon. Autres bases expérimentales: xISSN, xISBN, Amazon Web Service

• Contrainte : accès en ligne difficile pour du temps réel• Idéalement exploitation de bases biblio. “maison”

But wait... why are you doing that? • Cataloguing: e.g. mass digitalization• User needs:

– self-archiving of scholar papers by authors, e.g. in open archives– help when metadata are not easily available

• Extraction of additional metadata: references, keywords, etc. for enriching/correcting existing ones– improvement in search & retrieval

• Ease document access from citation strings (OpenURL)• Playground for experimenting with CRF models for text mining

Pourquoi des métadonnées de bonne qualité sont considérées importantes?

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage– Accès : exploitable par un link resolver (OpenURL) – Recherche : représentation des informations clefs d’un objet

bibliographique – Interopérabilité : application de différents services aux informations

bibliographiques

Pourquoi des métadonnées de bonne qualité sont importantes

• Les métadonnés biblio. ont plusieurs objectifs: – Identification d’objet bibliographique : but du catalogage Extraction +

consolidation via DB externes/mass digitalisation

– Accès : exploitable par un link resolver (OpenURL) Grobid produit des résultats en OpenURL

– Recherche : représentation des informations clefs d’un objet bibliographique Extraction + structure

– Interopérabilité : application de différents services aux informations bibliographiques Grobid produit des résultats en TEI, BibTex avec DOI/ISSN/ISBN si disponibles après consolidation

+ catalog

Extraction de l’en-têteCollection Pre-

processing

Documentsegmentation

Token + features CRF models

- text segmentation- feature generation train

Affiliations

Authors

Header

+ catalog + expected result etc.

+ catalog

Collection Pre-processing

Documentsegmentation

Token + features

- text segmentation- feature generation

+ catalog + expected result

terms +labels

Final biblio.record Document Segmented

documentTerm candidates

+ features

post-processingconsolidation

train /classify

CRF models

Affiliations

Authors

Header

etc.


Grobid “Extensions”• Grobid offers a generic CRF-based text mining environment• Existing CRF-based tools:

– Biotech entities: reimplementation of BANNER– NERD: NER (26 classes + sense) and Disambiguation/resolution against FreeBase &

Wikipedia (EU Cendari)– Chemical formula in patents

• In development: scientific & technical quantities/measures focusing on patents

• Also existing: – exension for calling a Grobid model directly in XSLT– Key-phrases extraction (SemEval 2010)

• Not included so far in the open source distribution

51