onnen im T - uni-due.de

Preview:

Citation preview

p

4.1 Problemstellung

Repr�asentation von Textinhalten:

Problem: Konzepte aus der Anfrage k�onnen im Text aufunterschiedlichste Weise formuliert werden

L�osungsans�atze

� semantischer Ansatz:Zuordnung von Deskriptionen zu Texten! Dokumentationssprachen� Freitextsuche

{ informatischer Ansatz:Textretrieval als Zeichenkettensuche

{ computerlinguistischer Ansatz:i.w. Normalisierung von Wortformen

p

4.2.1 Allgemeine Eigenschaften

formulierungsunabh�angige Repr�asentation vonTextinhaltendurch Verwendung eines speziellen Vokabulars

4.2.2 Klassi�kationen

Strukturierung eines Wissensgebietes nach einemvorgegebenen formalen Schemaz.B. Dezimalklassi�kation: Baum der Ordnung 10

Monohierarchie | Polyhierarchie

ccc

###

ccc

###

����

�� PPPPPP

Steinobstbaum

Kirschbaum P�rsischbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

������

XXXXXXX

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Monodimensionalit�at | Polydimensionalit�atProblem: auf einer Stufe gibt es mehrere Kriterien, nachdenen eine weitere Aufteilung in Unterklassenvorgenommen werden kann

��

HHHBBBBBB

@@�������

������

Steinobstbaum

hochst�ammiger Obstbaum

halbst�ammiger Obstbaum

niederst�ammiger ObstbaumKernobstbaum

Abbildung 1: Polydimensionalit�at

EEEEEEEEEE

���������

@@

###

PPPPPP

������

nach Stammbildungnach Fruchtart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern-

obstbaum

Stein-

Abbildung 2: Aufgel�oste Polydimensionalit�at

Analytische vs. synthetische Klassi�kationanalytische Klassi�kation: top-down Vorgehensweise(wie oben)

synthetische Klassi�kation: bottom-up

1. Erhebung der Merkmale der zu klassi�zierendenObjekte und Zusammenstellung imKlassi�kationssystem

2. Bildung der Klassen durch Kombination derMerkmale

Facettenklassi�kation

Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochst�ammig C1 fr�uhA2 Birne B2 halbst�ammig C2 mittelA3 Kirsche B3 niederst�ammig C3 sp�atA4 P�rsischA5 P aume

A1B3C1 = niederst�ammiger Fr�uhapfelbaum

Regeln:

� Facetten m�ussen disjunkt sein� monodimensionale Unterteilung innerhalb einerFacette

Ursprung: Dewey Decimal Classi�cation (DDC),1876 von Melvil Dewey (USA) entwickelt

Universalklassi�kation zur Aufstellung von Buchbest�anden

Weiterentwickelt durch Paul Otlet und Henri Lafontaine(Belgien) zur Universellen Dezimalklassi�kation(DK)

Grundelemente der DK

� Hierarchisch gegliederten Klassen (130000)� Anh�angezahlen zur Facettierung� Sonderzeichen zur Verkn�upfung mehrerer DK-Zahlen

Hauptklassen der DK

0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angwandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik,Spiel, Sport

8 Sprachwissenschaft, Philologie, Sch�oneLiteratur, Literaturwissenschaft

9 Heimatkunde, Geographie, Biographien,Geschichte

Beispiel:

3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. B�orsenwesen336.76 B�orsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. E�ekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe

Anh�angezahlen: durch spezielle Zeichen eingeleitet

allgemeine Anh�angezahlen: Facetten, die �uberall in derDK verwendet werden d�urfenZeichenfolgen/Facetten:

= Sprache(0...) Form(...) Ort

(=...) Rassen und V�olker

"...\ Zeit.00 Gesichtspunkt-05 Person

spezielle Anh�angezahlen: nur f�ur bestimmte Klasseninnerhalb der DK erlaubt

Verkn�upfung von DK-Zahlenspezielle Sonderzeichen zur Verkn�upfung von DK-Zahlen:

+ Aufz�ahlung mehrerer Sachverhalte: symmetrische Beziehung zwischen zweiSachverhalten (umkehrbar)

:: asymmetrische Beziehung zwischen zweiSachverhalten

/ Erstreckungszeichen (zur Zusammenfassungmehrerer nebeneinanderstehender DK-Zahlen)

' Zusamenfassungszeichen zur Bildung neuerSachverhalte aus der Kombination einzelnerDK-Komponenten

Klassi�kation in der Zeitschrift ACM Computing Reviews,liegt auch der Datenbank Compuscience zugrunde

Elemente:

� general terms: vorgegebene Menge vonallgemeinen Begri�en� classi�cation codes: dreistu�ge monohierarchischeKlassi�kation

� subject headings: vorgegebene Menge vonnat�urlichsprachliche Bezeichnungen f�ur jede einzelneKlasse, die diese weiter di�erenzieren; au�erdem alleEigennamen� free terms: zus�atzliche, frei w�ahlbare Stichw�orter

General terms:These apply to any elements of the tree that are relevant

ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION

A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX

TeilgebietesH.3 INFORMATION STORAGE AND RETRIEVAL

H.3.0 GeneralH.3.1 Content Analysis and Indexing

Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses

H.3.2 Information StorageFile organizationRecord classi�cation

H.3.3 Information Search and RetrievalH.3.2 Information Storage

ClusteringQuery formulationRetrieval modelsSearch processSelection process

H.3.4 System and SoftwareCurrent awareness systems(selective dissemination of information-SDI)Information networksQuestion-answering (fact retrieval) systems

H.3.5 Online Information ServicesData bank sharing

H.3.6 Library AutomationLarge text archives

H.3.m Miscellaneous

DIN 1463:

"Thesaurus ist geordnete Zusammenstellung von Begri�enmit ihren (nat�urlichsprachlichen) Bezeichnungen.Merkmale eines Thesaurus:

a) terminologische Kontrolle durch{ Erfassung von Synonymen{ Kennzeichnung von Homonymen undPolysemen

{ Festlegung von Vorzugsbenennungenb) Darstellung von Beziehungen zwischen Begri�en\

Reduktion von Mehrdeutigkeiten und Unsch�arfe dernat�urlichen Sprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu�Aquivalenzklassen

Arten von Synonymie:

� SchreibweisenvariantenFriseur | Fris�orUN | UNO | Vereinte Nationen� unterschiedlichen Konnotationen, Sprachstile,VerbreitungTelefon | FernsprecherPferd | GaulMyopie | Kurzsichtigkeit

� Quasi-SynonymeSchauspiel | Theaterst�uckRundfunk | H�orfunk

geringen / irrelevanten Bedeutungsdi�erenzen zu�Aquivalenzklassen zusammengefa�t:

� unterschiedliche Spezi�t�atSprachwissenschaft | Linguistik� AntonymeH�arte | Weichheit

� zu spezieller Unterbegri�Weizen | Winterweizen� Gleichsetzung von Verb und Substantiv / T�atigkeitund ErgebnisWohnen | Wohnung

PolysemkontrolleAufteilung von einer (mehrdeutigen) Bezeichnung aufmehrere �Aquivalenzklassen

� Homonyme (Bs. Tenor)� Polyseme (Bs. Bank)

Problem: Wie spezi�sch sollen einzelne Begri�e imThesaurus sein?

"Donaudampfschi�ahrtskapit�an\

Nachteile zu spezieller Begri�e:

� Thesaurus zu umfangreich / un�ubersichtlich� nur wenige Dokumente zu einer �Aquivalenzklasse

UNITERM-Verfahren:Nur Begri�e, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe einesSachverhaltes (Postkoordination)Nachteil: gr�o�ere Unsch�arfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromi� zwischen beiden Ans�atzen

Terminologische Kontrolle liefert �Aquivalenzklassen vonBezeichnungen

Darstellung dieser �Aquivalenzklassen:

� Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der�Aquivalenzklasse

� Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der �Aquivalenzklasse zurBenennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennungbetrachtet)

�Aquivalenzrelationzwischen Nicht-Deskriptoren und Deskriptoren

Bezeichnungen:BS Benutze Synonym (use)BF Benutzt f�ur (used for, UF)

Fernsprecher BS TelefonTelefon BF Fernsprecher

Hierarchische Relationzwischen Deskriptoren

Bezeichnungen:UB Unterbegri� (narrower term, NT)OB Oberbegri� (broader term, BT)

Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum

Assoziationsrelationzwischen begri�sverwandten Deskriptoren, symmetrisch

Bezeichnung: VB verwandter Begri� (see also, SEE)

Obstbaum VB ObstObst VB Obstbaum

Deskriptor-Eintr�age

� Begri�snummer� Notation / Deskriptor-Klassi�kation� Scope note / De�nition� Synonyme� Oberbegri�e / Unterbegri�e� Verwandte Begri�e� Einf�uhrungs-/Streichungsdatum

Gesamtstruktur des Thesaurus(in gedruckter Form)Hauptteil mit den Deskriptor-Eintr�agenalphabetisch / systematisch geordnet

zus�atzliche Register mit Verweisen auf dieDeskriptor-Eintr�age

� systematisch / alphabetisch (komplement�ar zumHauptteil)� Index f�ur Komponenten mehrgliedrigerBezeichnungenKWIC | keyword in contextKWOC | keyword out of context

Anpassung des Thesaurus an Ver�anderungen in derAnwendung notwendig aufgrund von

� Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimedialeSysteme� Entwicklung der Fachsprache� Indexierungsverhalten / Indexierungsergebnisse� Benutzerverhalten� Rechercheergebnisse

Problem: �Uberwachung der Konsistenz des Thesaurus

Voraussetzungen:

� Zerlegung von Texten in W�orter� (Stopworteliminierung)� (Satzendeerkennung)

Probleme bei der Freitextsuche:

� HomonymeTenor: S�anger / Ausdrucksweise� PolysemeBank: Sitzgelegenheit / Geldinstitut� FlexionsformenHaus { (des) Hauses { H�auserschreiben { schreibt { schrieb { geschrieben� DerivationsformenFormatierung { Format { formatieren� Komposita (mehrgliedrige Ausdr�ucke)Bundeskanzlerwahl { Wahl des Bundeskanzlersinformation retrieval { retrieval of information {information was retrieved

Das Problem der Wortwahl bleibt ungel�ost!

Zeichenketten-Operatoren f�ur die Freitextsuche

� TruncationFront-/End-Truncation,beschr�ankt ($) / unbeschr�ankt(#)schreib#: schreiben, schreibt, schreibst, schreibe

schreib$$: schreiben, schreibst

#schreiben: schreiben, beschreiben, anschreiben,verschreiben

$$schreiben: beschreiben, anschreiben� (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von W�ortern zusammenzuf�uhrenVorteil: weniger Schreibarbeit als beim explizitenAufz�ahlenNachteil: m�oglicherweise unerw�unschte W�orter dabei

Ausdr�uckeninformation AND retrieval:boolesche Operatoren beziehen sich nur auf dasVorkommen irgendwo im Text!{ genauer Wortabstand ($):retrieval $ information: retrieval of information,retrieval with information loss

{ maximaler Wortabstand (#):text # # retrieval: text retrieval, text and factretrieval

{ Wortreihenfolge (,):information # , retrieval: information retrieval,retrieval of information

{ gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Arten von Verfahren:

� graphematische Verfahrenauf der Analyse von Buchstabenfolgen basierendeAlgorithmen, haupts�achlich zur Zusammenf�uhrungvon Flexions- oder Derivationsformen (Morphologie)

� lexikalische VerfahrenW�orterbuch-basierte Verfahren zurZusammenf�uhrung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdr�ucken� syntaktische Verfahrenzur Identi�kation von mehrgliedrigen Ausdr�ucken

(Sprache)

� GrundformreduktionZur�uckf�uhren auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im In�nitiv{ lexikographische Grundformentsteht durch Abtrennen der Flexionsendungund ggfs. Rekodierungapplies ! appl ! apply

{ formale Grundformnur Abtrennen von Endungen, ohneRekodierungactivities ! activit

� StammformreduktionEntfernen der Derivationsendungen, d.h.Zur�uckf�uhren auf den Wortstammcomputer, compute, computation, computerization! comput

(nach Kuhlen 77)

% alle Vokale (einschlie�lich Y)� alle KonsonantenJ L�ange des Wortes/ ,oder'

Leerzeichen! ,zu' ,aus': ,nicht'

)2) ES ! wenn �O / CH / SH / SS / ZZ / X

vorangehen3) S ! wenn � / E / %Y / %O / OA / EA

vorangehen4) S' !

IES' ! YES' !

5) 'S !

' !6) ING ! wenn �� / % / X vorausgehen

ING ! E wenn %� vorausgehen7) IED ! Y8) ED ! wenn �� / % / X vorausgehen

ED ! E wenn %� vorausgehen

g

Beispiele zu 1:APPLIES ! APPLYIDENTIFIES ! IDENTIFYACTIVITIES ! ACTIVITY

Regel 2 ES ! , wenn �O / CH / SH / SS / ZZ /

X vorangehen

Beispiele zu 2:BREACHES ! BREACHPROCESSES ! PROCESSFISHES ! FISHCOMPLEXES ! COMPLEXTANGOES ! TANGOBUZZES ! BUZZ

g , / / % / % / /

EA vorangehen

Beispiele zu 3:METHODS ! METHODHOUSES ! HOUSEBOYS ! BOYRADIOS ! RADIOCOCOAS ! COCOAFLEAS ! FLEA

Regel 4 S' !

IES' ! Y

ES' !

Beispiele zu 4:MOTHERS' ! MOTHERLADIES' ! LADYFLAMINGOES ! FLAMINGO

Regel 5 'S !

' !

Beispiele zu 5:MOTHER'S ! MOTHERCHILDREN'S ! CHILDRENPETRUS' ! PETRUS

g , / % / g

ING ! E, wenn %� vorausgehen

Beispiele zu 6:DISGUSTING ! DISGUSTGOING ! GOMIXING ! MIXLOOSING ! LOOSERETRIEVING ! RETRIEVE

Regel 7 IED ! Y

Beispiel zu 7:SATISFIED ! SATISFY

Regel 8 ED ! , wenn �� / % / X vorausgehen

ED ! E, wenn %� vorausgehen

Beispiel zu 8:DISGUSTED ! DISGUSTOBEYED ! OBEYMIXED ! MIXBELIEVED ! BELIEVE

besonders f�ur stark ektierte Sprachen (z.B. deutsch)geeignet

Relationen im W�orterbuch:

� Flexionsform (Vollformen) | zugeh�orige GrundformHauses - Haus, ging - gehen� Derivationsform | zugeh�orige GrundformenLieblosigkeit | lieblos, Berechnung | rechnen� Komposita | zugeh�orige DekompositionHaust�ur | T�ur, Armbanduhr | Uhr.

(zur Identi�kation von Komposita)

1. Wortklassenbestimmung2. Parsing

typische Wortklassen:AT articleBEZ \is"CONJ conjunctionIN prepositionJJ adjectiveJJR comparative adjectiveMD modal (can, have, may, shall. . . )NN singular or mass nounNNP singular proper nounNNS plural nounPERIOD .:?!PN personal pronounRB adverbRBR comparative adverbTO \to"VB verb, base formVBD verb, past tenseVBG verb, present participle, gerundVBN verb, past participleVBP verb, non 3rd singular presentVBZ verb, 3rd singular presentWDT wh-determiner (what, which)

� (Vollformen-)W�orterbuch� graphematische Verfahren(insbesondere f�ur nicht im W�orterbuch enthalteneW�orter)

Problem:Wortklassenbestimmung in wenig ektierten Sprachen

The boys play football vs.She saw the new play

! zus�atzliche Ber�ucksichtigung der syntaktischenStruktur (Bigramme, Trigramme) notwendig:

AT NNS VBP/NN NN ! VBPPN VBD AT JJ NN/VBP ! NN

Wortklassenbestimmung basierend auf demKuhlen-Algorithmus

Nr. Regel Klasse1 IES ! Y NNS/VBP2 ES ! NNS/VBP3 S ! NNS/VBP4 S' ! NNS

IES' ! YES' !

5 'S ! NN' !

6 ING ! VBGING ! E

7 IED ! Y VBD/VBN/JJ8 ED ! VBD/VBN/JJ

ED ! E

Kombination von graphematischem Verfahren undVollformen-WB:(R�uckf�uhrung unbekannter W�orter auf WB-Eintr�agemittels graphematischer Verfahren)

Beispielregeln:

Pr�a�x WB-Klassen Wortklassenre JJ NN VBG JJ NN VBGex NN NNself- NN NNinter JJ JJnon JJ JJun RB RBdis JJ JJanti- NN JJde JJ VBD VBN JJ VBD VBNin RB RB

Post�x WB-Klassen Wortklassenment NN VB VBP NNing NN VB VBP JJ NN VBGed NN VB VBP JJ VBD VBNs NN VB VBP NNS VBZly JJ NN RB RBness JJ NNship NN NNable NNVBVBP JJs NN NNS

Wortklassenbestimmung mit deterministischem Taggernur 70 % korrekte Zuordungen!

aber:die meisten W�orter kommen in einer bevorzugtenWortklasse vorto our a pan

to web the �nal report

! seltene Verwendungen ignorieren!Charniak et al. 93: 90 % korrekte Zuordungen!

Verbesserung:statistische Ans�atze zur Ber�ucksichtigung dersyntaktischen Struktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

eine einfache Grammatik:

S ! NP VPNP ! AT? JJ* NNS+

! AT? JJ* NN+! NP PP

VP ! VB PP! VBZ! VBZ NP

PP ! IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistent

retrieval performance.

AT NN IN JJ NN NNS VBZ JJ NN NN

A good indexing technique for Web retrieval is manual

classi�cation.

AT JJ NN NN IN VBG NNS NNS VBZ JJ NNS

nur bestimmte syntaktische Strukturen relevant! partielles parsing

einfache Muster (ohne Unterscheidung (NN/NNP/NNS):

phrase ! NN NN+! NN+ IN JJ* NN+

Beispiele:indexing algorithms

retrieval performance

retrieval of Web documents

retrieval of new documents

aber:text and image retrieval

retrieval of text or images

! zus�atzliche Transformationsregeln:NN1* CONJ NN2 NN+ ! NN1 NN+NN+ IN NN1 CONJ NN 2 ! NN1 NN+, NN2 NN+

g

Repr�asentation von Textinhalten

� Dokumentationssprachen bieten prinzipiell Vorteilegegen�uber der Freitextsucheaber: dieser Vorteil ist bislang experimentell nichtbelegt, es gibt sogar gegenteilige Ergebnisse

� Erfahrungen aus TREC1:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nichtabzudecken� wissensbasiertes IR:ben�otigt zun�achst gro�e Wissensbasen, die bislangnicht verf�ugbar sind (CYC Project)� syntaktische Verfahren:f�ur Nominalphrasen� maschinenlesbare W�orterb�ucher:f�ur Nominalphrasen und zur Disambiguierung

g

und Repr�asentationen

4.5.1 Einfache statistische Modelle

Beispiel f�ur computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not producedconsistent retrieval performance. The best indexingtechnique for retrieving documents is not known.

Stoppworteliminierung:experiments indexing methods analysis indexingalgorithms produced consistent retrieval performance bestindexing technique retrieving documents known

Stammformreduktion:experiment index method analys index algorithm producconsistent retriev perform best index techni retrievdocument

Multimenge von Terms

Modell:

� Abbildung auf Attribute� Semantik durch Statistik!

Computerlinguistische Verfahren sind pr�aziser (undbenutzerfreundlicher) als der informatische Ansatz

aber:alle Verfahren sind mit Fehlern behaftet!