Upload
impact-centre-of-competence
View
392
Download
3
Tags:
Embed Size (px)
Citation preview
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen
Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz CIS, University of Munich
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
Fragen, Methoden, Evaluation Welche Art lexikalischer Ressourcen sind für
welche Periode geeignet? Welche Art von Verbesserungen sind zu
erwarten?
------------ (1) Analyse historischer Korpora (2) Expliziter Lexikonaufbau (3) Approximative Methode
------------ (4) Experimente zum Information Retrieval (5) Experimente zur OCRBSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
1900 1800 1700 1600 1500
• Qualität der Dokumente• Problematische Fonts• Historische Varianten• unbekannte Wörter
Herausforderungen bei der Digitalisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
Orthografische Variation
Fehlende Normalisierung der Orthografie führt zu einer Vielzahl orthografischer Varianten in historischen Dokumenten
– Teil als theil, Teyl, theyl
– Kräuter als kra ͤuter, Kreuther, kreüter, Kreuter, creuther
– fragte als frug, fruk
Standardlexika enthalten diese Varianten nichtBSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Suche auf historischen Texten
???
Keine Resultate für die moderne Query “Kräuter” -Mapping von den historischen Varianten zum modernen
Äquivalent
Kräuterkraͤuter
Kreüter
kreuter
creuther
creuter
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR historischer Texte: gute Qualität
Städte den römischen mumcizmg gleich zu stellen. Allem wenn sich je in einem Rechtstheile die altrechtlichen teutschen Gewohnheiten, und Gesetze erhalten haben, so ist es gewiß in dieser Lehre, man mag entweder auf die Befugniß, die Stadtgerechtigkeit zu ertheilen , oder auf die innere Regimentsverfftssung so-
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR historischer Texte: mittlere Qualität
Fürsten zu Gstternwerden/wer wollte vermainen / daßwtIhroKhurftrstl Durchl gnädiglsterHcttVatterinderpictcrrndFrombkcltallmFürstenvorzusetzen!scyn/vnd das halst> in^cclcQ^ vci pluz^uäzn 5accr6o5 daß tl iN KilchkN GottW wehr als ein Priester.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR historischer Texte: Fehlerbeispiele (1)Verarbeitete Wortbilder können zu False Friends
führen
Fischerei - Tischlerei: F->T, h -> hl
(2) Verarbeitete Wortbilder können zu Nichtwörtern führen
(3) Schwere Wortsegmentierungsfehler
OCR auf Fraktur:
gut (WER < 10%); mittel (10-30%); schlecht (< 30%)
vndExcmpelFürstl-vnd HeroischerTuzenF
^.uglltt. schreibet/
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
• Lexika für IR: modernes Wort – historische Variante • Lexika für OCR (aktives Lexikon, Wortliste)• Listen historischer Patterns: Hypothetisches Lexikon• Sprachmodelle für OCR • Syntaktische Information zur Paradigmenexpansion
Sprachressourcen zur OCR/IR Verbesserung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Mögliche Quellen historischer Korpora:
• Korpora im Web (Abgetippte hist. Dokumente)
• Nichtöffentliche elektronische Korpora
• Eigenes Keying/korrigierte OCR digitalisierter Bilder
• Unkorrigierte OCR Korpora
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Sprachressourcen basieren auf Korpora
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
1. Entwicklungskorpus 1.0 • Getippte Texte von 1450 bis 1900 • Mittlere Größe: 2.7 Mill. Token • Für Lexikonkonstruktion
2. Evaluationskorpus für OCR Tests• OCRte Bilder + Groundtruth aliniert• Texte aus dem 16th, 18th, 19th Jahrhundert
3. Evaluationskorpus für IR Tests• Linguistisch annotierte Groundtruth• Texte aus dem 16th, 17th, 18th, 19th Jahrhundert
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Erste Sammlung historischer Korpora
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Abdeckung Modernes Lexikon
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Anteil Komposita
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Korpus basierter Lexikon Aufbau IMPACTZiel unserer Arbeit am historischen
LexikonEin Lexikon das für jeden Eintrag enthält:
– die historische Variante– das korrespondierende moderne Lemma
(Grundform) – mindestens ein Auftreten der
historischen Variante in realen historischen Daten (= “attestation”)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Korpus basierter Lexikon Aufbau IMPACTWas wir brauchen um effizient zu arbeiten:
– Korpus mit historischen Texten (Groundtruth)– Modernes Vollformenlexikon (= flektierte
Wortformen) mit Information zur Lemmatisierung
– “Hypothetisches Lexikon”: mapping pattern-basierter historischer Varianten auf Einträge im modernen Lexikon
– Speziell zu älteren Texten (16. Jahrhundert): geduldige Menschen mit Hintergrund in historischer Linguistik.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
“Preprocessing”
Korpus Files Normalisierung (UTF-8),
Tokenisierung, Frequenzliste
Filter:
- Token im modernen Lexikon
- Token bereits im gesammelten historischen Lexikon
Varianten Matcher
Frq.-Liste der pattern-basierten Varianten
Frq.-Liste der „unbekannten“ Varianten
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lexikograph wählt ein Wort aus
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Pattern Varianten automatisch erzeugt - Lexikograph bestätigt gültige
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lemma Lesarten automatisch erzeugt – LexikographIn bestätigt gültige
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lemma Attestate automatisch gesucht- Lexikograph wählt für die Lesart gültige aus
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Resultierende Lexikon Struktur
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Für IR Explizites Lexikon für IR derzeit ca. 15,000 Einträge Hypothetisches Lexikon für IR: Matching Prozedur basierend auf 140
Pattern theoretisch 100 Mio Einträge
Für OCR Witnessed lexicon aus hist. Korpus 1.0, ca. 200,000 Types
Erstellte lexikalische Resourcen
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Experimente zum Information Retrieval
Anwendung Lexika 1: Information Retrieval
? Genügt Approximatives Matching für IR auf historischen Texten?
? Benötigen wir ein manuell erstelltes Lexikon und wenn ja für welches Szenario?
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Herausforderung für IR auf hist. Texten:Orthografische Variation
0 Results
Kräuterkraͤuter
Kreüter
kreuter
creuther
creuter
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Methoden zur Variantenbehandlung
Hypothetisches LexikonDurch spezielles approximatives Matching basierend auf historischen Pattern werden Eingabestrings mit modernen Wörtern assoziert
Explizites Lexikon erstellt von Linguisten
Lexikoneintrag ist eine historische Variante assoziiert mit dem modernen Lemma
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
theile
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
theile
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Approximate matching procedure
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
theile
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
theile
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
frug
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
~ 140 Patterns
…
th → t
ei → ai
ey → ei
l → ll…
Spelling variation
?
frug
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching - Hypothetisches Lexikon Vorteile:
– Keine manuelle Arbeit– Dynamische Lösung
Grenzen:– Mismatches verbinden eine künstliche Variante mit
einem unverbundenen modernen Wort– Ein Teil des historischen Vokabulars kann nicht
durch einfaches Matching auf ein modernes Wort reduziert werden (komplizierte historische Flexionsvarianten, nicht pattern-basierte historische Wörter).
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Manuell validierte Lexika
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
Spelling variation
theile
frug
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Manuell validierte Lexika
Modern lexicon
Inflected forms
…
teile
...
taille
fragte
…
Lemmatizing information
…
teil (= part)
teilen (= to share)
taille (= waist)
fragen (= to ask)
…
Spelling variation
theile
frug
Manual mapping
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Manuell validierte Lexika Vorteile:
– Assoziationen zwischen historischer Variante und modernem Lemma sind sicher
– Nicht patternbasierte Assoziationen können explizit gespeichert werden
Grenzen:– Zeitaufwändig, z. T. werden Spezialisten
benötigt– Kaum je komplett wegen der großen Zahl
historischer Varianten
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Evaluation des hypothetischen Lexikons für ein Suchszenario
Liste moderner und historischer Stopwörter
Definition von “Präzision” und “Recall” für unser Szenario (Erreichbarkeit des Textes)
Aufwändige manuelle Erstellung eines Evaluationskorpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Speziell annotiertes IR Groundtruth
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Präzision und Recall
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Fehlender Recall des hypoth. Lexikons
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Anwendung Lexika 2: OCR
Erste Experimente zur OCR mit dem IMPACT Abbyy External Dictionary Interface FR9
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
43
Erneut die Frage: brauchen wir ein historisches Lexikon?
– OCR Ausgabe– Groundtruth (abgetippt vom Original
oder korrigierte OCR)– Alignierung zwischen OCR und
Groundtruth– Messung der Performanz: Reduktion
von Erkennungsfehlern
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Alignierung zwischen OCR und Groundtruth
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Mittlere Erkennung
Gute Erkennung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
1.Kein Lexikon, nur historisches Zeichenmodell
2.Modernes deutsches Lexikon3.Korpusbasiertes historisches
Lexikon4.Hypothetisches Lexikon---------------------------------------------------
-Oberes Limit: optimales Lexikon
OCR Experimente für Lexikon Settings
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
46
Dictionary16th century
No. of word errors
Reduction of error rate
18th century
No. of word errors
Reduction of error rate
19th century
No. of word errors
Reduction of error rate
No Lexicon 1306 - 827 - 2074 -
Optimal Lexicon 756 42% 395 52% 612 70%
Modern Lexicon 1096 16% 501 39% 888 57%
W.Historical Lexicon 938 28% 481 42% 856 59%
Modern + Virtual H.L. 1011 25% 480 42% 849 59%
WER > 50% WER ~ 10%
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Ergebnis: lexikalische Ressourcen für IR/OCR
Kann Approximatives Matching ein Lexikon für historische Texte ersetzen?
Antwort ist abhängig von der Zeit aus der die Kollektion stammt– Nur modernes Lexikon genügt auf keinen Fall– Für Kollektionen aus dem 19. und 18. Jahrhundert:
automatisches Matching akzeptabel – Für Kollektionen aus dem 16. und 17. Jahrhundert:
Manuell erstellte Lexika notwendig
Eine Kombination scheint optimal
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
48
Zwischenergebnis LMU/BSB Studie VD16
Fokuskollektion der Bayerischen StaatsbibliothekVD16: Größte Sammlung Frühneuhochdeutscher
Bücher Manuelle Lexikonerstellung nötig Keine elektronischen Korpora verfügbar Theologische Domäne als Fokusbereich Spezifikation + Pflichtenheft zusammen mit BSB Ausgewählte repräsentative Materialien ca. 90
Bücher, 500,000 Token wurden von Serviceprovidern abgetippt
Qualitätssicherung durch BSB/LMUBSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
49
Ressourcen für Frühneuhochdeutsch
Integration der OCR Anbieter
Spezielle Font- und Zeichenmodelle
Verbesserung der OCR durch
spezielles VD16 Lexikon
Verbesserung der Suche durch
IR Variantenlexikon
Linguistische Datenbank
für VD16
BSB IMPACT Workshop 04.03.2010: LMU/CIS
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
BSB IMPACT Workshop 04.03.2010: LMU/CIS
Herzlichen Dank.