Advanced Information Retrieval
Wintersemester 2009/10Teil 1
Uwe Quasthoff
Universität LeipzigInstitut für Informatik
U. Quasthoff Advanced Information Retrieval 2
Termine
Vorlesung: Mi, 11.15 – 12.45 Uhr in S312
Praktikum: nach VereinbarungVerantwortlich: Sven Teresniak, [email protected] Themenvergabe, allg. Modalitäten – SG 312, 17:15 - 18:45
U. Quasthoff Advanced Information Retrieval 3
Themen zur VorlesungAdvanced Information Retrieval (V+P)1. Kookkurrenz2. Wort- und Dokumentenähnlichkeit 3. LSA 4. Linkanalyse und NextLinks5. Text Summarization (1. Vorl.)6. Text Summarization (2. Vorl.)7. Small Worlds, Communities und Linkstruktur 8. Chinese Whispers9. NER + Pendel10. Question Answering11. Language Models12. Erschließung und Retrieval multimedialer Objekte13. Web Directories14. Grafische IR-Schnittstellen
U. Quasthoff Advanced Information Retrieval 4
Wörter – Dokumente – Interessen –Communities – LinkstrukturCommunities sind Gruppen von Menschen, die ein gleiches Interessensgebiet
besitzen. Jedes Mitglied kann weitere Interessen haben, diese müssen nicht übereinstimmen und nicht bekannt sein. Die Mitglieder einer Community können einander bekannt sein, müssen es aber nicht.
Dokumente bedienen jeweils eine oder mehrere Interessen. Es gibt Dokumente zu ähnlichen Themen, diese sind teilweise im Web verlinkt.
Sowohl Dokumente wie auch Interessen lassen sich durch (meist wenige) Wörter charakterisieren.
Zwischen Wörtern untereinander bestehen zahlreiche Relationen.
U. Quasthoff Advanced Information Retrieval 5
Zusammenhänge
Die These zu dieser Vorlesung ist:
Es gibt eine Theorie der inhaltlichen Zusammenhänge. Gemeint sind hier die Zusammenhänge
• zwischen den „wichtigen“ Wörtern• zwischen den Dokumenten einer Dokumentenkollektion• in der Linkstruktur im Web• zwischen Personen und Communities
Das größte Problem besteht in Mehrdeutigkeiten, da an vielen Stellen eindeutige Zuordnungen schwierig sind.
U. Quasthoff Advanced Information Retrieval 6
Mehrdeutigkeiten
Es ist häufig nicht möglich, genau eine charakteristische Eigenschaft auszuzeichnen.Wir unterscheiden mehrfache Zugehörigkeiten und die Alternative zwischen mehreren
Bedeutungen.Mehrfache Zugehörigkeiten:• Eine Person gehört gewöhnlich mehreren Communities an, z.B. beruflich, als
Freizeitsportler, mit seinem Hobby usw.• Dokumente sind aus der Sicht mehrer Aspekte interessant, ein Text über
Dampflokomotiven z.B. technisch und historisch.Alternative zwischen mehreren Bedeutungen:• Links im Web können verschiedene „Bedeutungen“ haben, es gibt Links auf
ähnliche Inhalte, organisatorische Links, Verzeichnisse, ...• Wörter haben gelegentlich mehrere Bedeutungen, aus dem Auftreten des Wortes
Bank allein lässt sich nicht das Thema eines Dokuments ermitteln.
U. Quasthoff Advanced Information Retrieval 7
Ausblick
Struktur zwischen Wörtern• Textanalyse im Projekt „Deutscher Wortschatz“• Wortähnlichkeit und Dokumentenähnlichkeit
Linkstruktur im Web• Ähnlichkeit von Websites
Small Worlds
U. Quasthoff Advanced Information Retrieval 8
Suche nach ähnlichen Wörtern
Fragen: • Wie ähnlich sind die folgenden Paare von Wörtern? • Wie äußert sich die Ähnlichkeit? • Wofür ist die Ähnlichkeit möglicherweise nützlich?
(1) Los – Angeles,(2) schwere – Krankheit(3) Romeo – Julia(4) Polizei – verhaftet(5) der – die(6) Paris – London
U. Quasthoff Advanced Information Retrieval 9
Kookkurrenzen und Ähnlichkeit
Idee: Ähnliche Wörter treten in ähnlichen Kontexten (= Umgebungen auf)• Die Art des Kontextes bestimmt die Art der Ähnlichkeit• Bei häufigen Wörtern sind nur die typischen Kontexte wichtig.
Wörter aus typischen Kontexten heißen Kookkurrenzen. Uns interessieren: • Nachbarschaftskookkurrenzen, falls die Wörter unmittelbar benachbart
auftreten, bzw.• Satzkookkurrenzen, falls das gemeinsame Auftreten der zwei Wortformen in
einem Satz betrachtet wird.
U. Quasthoff Advanced Information Retrieval 10
Typen von Kookkurrenzen
• Eigennamen und feste Fügungen liefern signifikante Kookkurrenzen, weil die beteiligten Wortformen immer wieder zusammen auftreten. Hierbei handelt es sich um signifikante Nachbarschaftskookkurrenzen.
• Substantive mit Adjektiven, die typische Eigenschaften beschreiben, bilden signifikante Nachbarschaftskookkurrenzen.
• Handlungen mit typischen Subjekten oder Objekten bilden signifikante Satzkookkurrenzen.
• Wortformen, die häufig zusammen aufgezählt werden, bilden signifikante Satzkookkurrenzen.
• Alle signifikanten Nachbarschaftskookkurrenzen sind auch signifikante Satzkookkurrenzen.
U. Quasthoff Advanced Information Retrieval 11
Beispiele für Kookkurrenzen 1
Stärkste SatzkookkurrenzenSilber »Gold«, »Bronze«, »gewann«, »holte«, »Kupfer«, »zweimal«,»gewonnen«, »Medaillen«, »Porzellan«, »Atlanta«, »Medaille«,»Schmuck«, »dreimal«, »Zinn«, ...grünes »Gras«, »rotes«, »Profil«, »gelbes«, »Ampellicht«, »Band«, »Tal«,»kleines«, »blaues«, »Blatt«, »braunes«, »weißes«, »Kleid«,»Paradies«, ...Blei »Zink«, »Kupfer«, »Cadmium«, »Quecksilber«, »Arsen«, »Zinn«,»Aluminium«, »Kadmium«, »Tonnen«, »Leitzwecke«,»Schwermetalle«, »Silber«, »Nickel«, »Crom«, ...
U. Quasthoff Advanced Information Retrieval 12
Beispiele für Kookkurrenzen 2
Stärkste linke NachbarnT-Shirt »weißes«, »schwarzes«, »weißen«, »blaues«, »weißem«,»schwarzem«, »rotes«, »schwarzen«, ...Merker »Hans-Joachim«, »Hannah«, »Claudia«, »Helmut«, »ergötzlichen«,»Moritz«, »Wolfgang«, »Jörg«, »Peter«, »Jürgen«, »Hans«,»Michael«, ...bewohnt »Armenien«, »Albanern«, »Appartment«, »Moslems«, »Familien«,»Familie«, »Serben«, »Fehlbelegern«, »Mönchen«, »Negern«,»Völkern«, »Bayer-Mitarbeitern«, ...
U. Quasthoff Advanced Information Retrieval 13
Beispiele für Kookkurrenzen 3
Stärkste rechte NachbarnInsel »Rügen«, »Jolo«, »Usedom«, »Sachalin«, »Sylt«, »Mindanao«,»Okinawa«, »Hainan«, »Sumatra«, »Basilan«, »Borneo«,»Hokkaido«, »Mainau«, »Kyushu«, »Poel«, »Hiddensee«, »Kreta«,»Eiswerder«, »Fehmarn«, »Sulawesi«, »Korfu«, ...Kubikmeter »Luft«, »Wasser«, »Erdgas«, »Gas«, »Beton«, »Abwasser«, »Sand«,»Trinkwasser«, »Müll«, »Erde«, »Raumluft«, »Holz«, »Erdreich«, ...mutmaßliche »Täter«, »Mörder«, »Kriegsverbrecher«, »Terroristen«,»Mitglieder«, »Drahtzieher«, »Terrorist«, »Haupttäter«,»Attentäter«, »Dealer«, »islamische«, »Entführer«, »Reemtsma-Entführer«, »Brandstifter«, »RAF-Terroristin«, »Drogenhändler«,...
U. Quasthoff Advanced Information Retrieval 14
Signifikanzmaße
Um die Anzahl der gemeinsamen Vorkommen von A und B richtig beurteilen zu können, benötigt man zusätzlich die Anzahlen für die Wortformen A und B einzeln. Möglicherweise ist auch die Gesamtanzahl der Sätze wichtig.
Damit hat man die folgenden vier Größen:a, b Anzahl der Sätze, die A bzw. B enthaltenk Anzahl der Sätze, die A und B gemeinsam enthaltenn Gesamtzahl der Sätze
Ein Signifikanzmaß soll folgende Eigenschaften haben:• Die Signifikanz soll mit mit k wachsen: Je häufiger, desto auffälliger.• Die Signifikanz soll klein (z.B. null) sein, falls A und B nur zufällig miteinander auftreten.• Vergleichbarkeit: Vergleichbare Signifikanzen sollen eine ähnliche Aussage treffenAchtung: Die reine Anzahl k eignet sich damit weder als Signifikanz noch als Vergleichszahl.
U. Quasthoff Advanced Information Retrieval 15
Kokkurrenzen höherer Ordnung
The production of collocations is now applied on sets of (next neighbour or sentence) collocations instead of sentences.
The collection of 500.000 sentence collocations has the following ‚sentence‘ for Hemd:Hemd Krawatte Hose weißes Anzug weißem Jeans trägt trug
bekleidet weißen Jacke schwarze Jackett schwarzen Weste kariertes Schlips Mann
The collection of 250.000 next neighbour collocations has the following two ‚sentences‘ for Hemd:
weißes weißem weißen blaues kariertes kariertem offenem aufs karierten gestreiftes letztes ...
näher bekleidet ausgezogen spannt trägt aufknöpft aus-geplündert auszieht wechseln aufgeknöpft ausziehen ...
U. Quasthoff Advanced Information Retrieval 16
Auto: Gewöhnliche Satzkookkurrenzen
fahren (1396), Wagen (979), prallte (914), Fahrer (809), seinem (723), fuhr (709), fährt (638), Polizei (609), erfaßt(587), gefahren (485)
U. Quasthoff Advanced Information Retrieval 17
Auto: Satzkookkurrenzen 2. Ordnung
Wagen (114), Fahrzeug (54), Fahrer (41), Fahrbahn (35), prallte (35), Polizei (28), verletzt (27), Schleudern (24), fuhr (24), Richtung (21),
U. Quasthoff Advanced Information Retrieval 18
Auto: NB-Kookkurrenzen 2. Ordnung
Wagen (35), Lastwagen (14), Fahrzeug (13), Autos (9), Personenwagen (9), Bus (8), Zug (7), Haus (5),Lkw (5), Pkw (5)
U. Quasthoff Advanced Information Retrieval 19
viel: Satzkookkurrenzen
sehr (8012), zu (5595), Geld (4955), so (4880), mehr (3089), nicht (2977), als (2440), tun (1621), wenig (1565), noch (1557),
U. Quasthoff Advanced Information Retrieval 20
viel: Satzkookkurrenzen 2. Ordnung
etwas (21), wenig (15), nichts (14), desto (13), wesentlich (12), geworden (9), weitaus (9), Je (8), Geld (7), alles (7)
U. Quasthoff Advanced Information Retrieval 21
viel: NB-Kookkurrenzen 2. Ordnung
etwas (69), desto (52), wesentlich (43), Noch (36), Je (35), weitaus (34), Ein (31), Viel (28), deutlich (24), nichts (21),
U. Quasthoff Advanced Information Retrieval 22
erklärte: Satzkookkurrenzen
Sprecher (2581), werde (2302), gestern (1696), seien (1440), Wir (1187), bereit (929), wolle (839), Vorsitzende (807), Anfrage (775), Präsident (721)
U. Quasthoff Advanced Information Retrieval 23
erklärte: NB-Kookkurrenzen 2. Ordnung
sagte (137), betonte (59), sprach (55), kündigte (44), wies (37), nannte (36), warnte (27), bekräftigte (24), meinte (24),kritisierte (23)
U. Quasthoff Advanced Information Retrieval 24
knapp: Satzkookkurrenzen
### (8248), Prozent (8180), ## (5551), Millionen (4865), DM (4827), Mark (4366), Milliarden (3414), #### (3244), #,# (3063), Mrd (1979)
U. Quasthoff Advanced Information Retrieval 25
knapp: NB-Kookkurrenzen 2. Ordnung
etwa (44),fast (33), Rund (14), Nach (12), gut (12), mindestens (11), Etwa (9), Vor (9), rund (8), ungefähr (8), Fast (7)
U. Quasthoff Advanced Information Retrieval 26
First Iteration Step
• The two black nodes A and B get connected in the step if there are many nodes C which are connected to both A and B
• The more Cs, the higher the weight of the new edge
new connectionexisting connection
U. Quasthoff Advanced Information Retrieval 27
Second Iteration Step• The two black nodes A and B get connected in the step if there are many
(dark grey) nodes Ds which are connected to both A and B. • The connections between the nodes Ds and the nodes A and B were
constructed because of (light gray) nodes Es and Fs, respectively
new connection
former connectionexisting connection
AB
DsEsFs
U. Quasthoff Advanced Information Retrieval 28
Collapsing bridging nodes
• Upper bound for path length in iteration n is 2n. • However, some of the bridging nodes collapse, giving rise to self-keeping clusters
of arbitrary path length, which are invariant under iteration.
Upper 5 nodes: invariant clusterA, B are being absorbed by this cluster
U. Quasthoff Advanced Information Retrieval 29
Examples of Iterated Co-occurrences
Order Reference word
TOP-10 collocations
N2 wine wines, champagne, beer, water, tea, coffee, Wine, alcoholic, beers, cider
S10 wine wines, grape, sauvignon, chardonnay, noir, pinot, cabernet, spicy, bottle, grapes
S1 ringing phone, bells, phones, hook, bell, endorsement, distinctive, ears, alarm, telephone
S2 ringing rung, Centrex, rang, phone, sounded, bell, ring, FaxxMaster, sound, tolled
S4 ringing sounded, rung, rang, tolled, tolling, sound, tone, toll, ring, doorbell
S10 pressing Ctrl, Shift, press, keypad, keys, key, keyboard, you, cursor, menu, PgDn, keyboards, numeric, Alt, Caps, CapsLock, NUMLOCK, NumLock, Scroll
U. Quasthoff Advanced Information Retrieval 30
Latent Semantic Indexing
Objective
Replace indexes that use sets of index terms by indexes that use concepts.
Approach
Map the index term vector space into a lower dimensional space, using singular value decomposition (SVD).
http://courses.cs.cornell.edu/cs430/2002fa/slides/lecture11.ppt
U. Quasthoff Advanced Information Retrieval 31
Why “Latent Semantic” Indexing?
• “Latent Semantic” claim derives from belief that reduced dimension representation of documents reveals semantic correlations among index terms.– E.g. while one author may use the word car and another auto, the correlation
of both of these with other terms like highway, gasoline, and driving will result in an abstracted doc on which queries using either KW car or auto will project equivalently.
U. Quasthoff Advanced Information Retrieval 32
Deficiencies with Conventional Automatic Indexing1. Synonymy: there are many words to express a given concept or object (lowers
recall)– For example, the word “picture” can also be referred to as an “image” or
“photograph”2. Polysemy: most words have more than one meaning (lowers precision)
– For example, depending on its context, the word “chip” could refer to the potato or the computer.
U. Quasthoff Advanced Information Retrieval 33
Example! Deficiencies in Term-Based Retrieval
• An “R” in the REL column indicates that the user would have judged the document relevant to the query (here docs 1 and 3)
• Terms occurring in both the query and doc are indicated by an asterisk
• An “M” in the Match column indicates that the document matches the query and would have been returned to the user
U. Quasthoff Advanced Information Retrieval 34
How do we uncover Latent Semantic Structure?
• We want to predict that a given term should be associated with a document, even though, because of variability in word use, no such association was observed
• What mathematical model to use?– The notion of semantic similarity between docs and terms restricted
consideration to only proximity models: • E.g. hierarchical, partition and overlapping clusterings; ultrametric and
additive trees, and factor-analytic and multidimensional distance models.
U. Quasthoff Advanced Information Retrieval 35
Model Criteria
– Adjustable representational richness– Explicit representation of both terms and documents– Computational tractability for large datasets
The only model which satisfied all three criteria: two-mode factor analysis (based on SVD).
U. Quasthoff Advanced Information Retrieval 36
Basic Concepts of LSI
• LSI projects queries and documents into a space with “latent” semantic dimensions.– A query and a doc can have high cosine similarity even if they do not share
any terms!– LSI can be viewed as a similarity metric that is an alternative to word/term
overlap measures like tf.idf
U. Quasthoff Advanced Information Retrieval 37
Basic Concepts Cont.
• The Latent Semantic Space– Has fewer dimensions than the original space (which, remember, has as many
dimensions as terms)– Thus, LSI is a method of dimensionality reduction; takes objects that exist in a
high-dimensional space and represents them in a low-dimensional space.
U. Quasthoff Advanced Information Retrieval 38
Simple Dimension Reduction Example
Figure 5.3 (from FOA) Showing Weight & Height Data Reduction
• Imagine that we’ve collected data on the height and weight of everyone in the classroom and plotted on a graph.
• Notice the correlation around an axis we could call “size”– Size captures most of the information about the students’ distribution
U. Quasthoff Advanced Information Retrieval 39
Why Dimensionality Reduction?
Two Reasons:1. A matrix of “terms by documents” is not easily manageable. The vector matrix
space is large & is very sparse.– Dimensionality Redux tries to represent data in a denser, more compressed
fashion
2. Ordinarily, when we make each term a dimension, we are effectively assuming they are orthogonal to one another; we expect independence.
– However, index terms can be highly dependent, highly correlated with one another. Exploit this by capturing only those axes of maximal variation and throwing away the rest.
U. Quasthoff Advanced Information Retrieval 40
LSI applies SVD
• LSI uses Two-Mode Factor analysis which applies the mathematical technique, Singular Value Decomposition, for dimensionality reduction
• What is SVD?– Represents both terms and documents as vectors in space of choosable
dimensionality– Uses cosine similarity between points in space to find semantic similarity
U. Quasthoff Advanced Information Retrieval 41
How does SVD work?Any rectangular matrix X, for example a txd matrix of terms and documents, can be
decomposed into the product of three other matrices: X = Tm Sm Dmt
U. Quasthoff Advanced Information Retrieval 42
How Does SVD work? cont.
Keep only the k largest values of Sm with their corresponding columns in the Tm and Dm matrices and delete the rest! The resulting matrix, X1 = Tk Sk Dk
T
The idea is that this new matrix, by containing only the k largeThe idea is that this new matrix, by containing only the k largest independent st independent linear components of linear components of XX, captures the major associational structure of the , captures the major associational structure of the data and throws out much of the noisedata and throws out much of the noise..
U. Quasthoff Advanced Information Retrieval 43
How does SVD include the query?
• The query must be given a representation within the SVD model– Its representation must yield results consistent with the procedure in the term-
matching conceptualization– The query is a “pseudo-document” assigned coordinates in the SVD space
U. Quasthoff Advanced Information Retrieval 44
LSI-SVD Example
Technical Memo Titlesc1: Human machine interface for ABC computer applicationsc2: A survey of user opinion of computer system response timec3: The EPS user interface management systemc4: System and human system engineering testing of EPSc5: Relation of user perceived response time to error measurement
m1: The generation of random, binary, ordered treesm2: The intersection graph of paths in treesm3: Graph minors IV: Widths of trees and well-quasi-orderingm4: Graph minors: A survey
Query: “human interaction with computers”
Note: using only the set of nine titles, in traditional keyword matching techniques, all of the documents would be rejected.
U. Quasthoff Advanced Information Retrieval 45
LSI-SVD Example: Query
Terms Query xq
human 1interface 0computer 1user 0system 0response 0time 0EPS 0survey 0trees 0graph 0minors 0
Query:"human interaction on computers"
In term-document space, a query is represented by xq, a t x 1 vector.
In concept space, a query is represented by dq, a 1 x k vector.
U. Quasthoff Advanced Information Retrieval 46
LSI-SVD Example cont.
U. Quasthoff Advanced Information Retrieval 47
LSI-SVD Example cont.
U. Quasthoff Advanced Information Retrieval 48
LSI-SVD Example cont.
c1 c2 c3 c4 c5 m1 m2 m3 m4
c3: The c3: The EPSEPS useruser interfaceinterface management management systemsystemc5: Relation of c5: Relation of useruser perceived perceived responseresponse timetime to error measurementto error measurement
U. Quasthoff Advanced Information Retrieval 49
LSI-SVD Example cont.
U. Quasthoff Advanced Information Retrieval 50
LSI-SVD Example cont.
U. Quasthoff Advanced Information Retrieval 51
Benefits of LSI
• The Latent Semantic Indexing method works better than simple-term matching in Deerwester’s tests– LSI performed better than Voorhees in both tests and better than SMART in
one case and equal to it in another
• LSI method deals nicely with synonymy problem– But offers only a partial solution to polysemy problem
U. Quasthoff Advanced Information Retrieval 52
Drawbacks of LSI• Performance
– The SVD algorithm is O(N2 k3), where N is the number of terms plus documents, and k is the number of dimensions in the concept space.
• Determining the optimal number of dimensions– This paper used trial and error to empirically determine the optimal number of
dimensions (they tested between 50-150 dimensions). Still an open issue…
• What to do with new documents and new terms– Performing an SVD is simply too time consuming to do on a regular basis.
U. Quasthoff Advanced Information Retrieval 53
• Latent Semantic Indexing was developed at Bellcore (now Telcordia) in the late 1980s (1988). It was patented in 1989.
• http://lsi.argreenhouse.com/lsi/LSI.html
Aktuelle Literatur:Singular Value Decomposition:
http://mathworld.wolfram.com/SingularValueDecomposition.htmlLSA-Tutorial (für Einsteiger):
http://www.dcs.shef.ac.uk/~genevieve/lsa_tutorial.htm
Some History
U. Quasthoff Advanced Information Retrieval 54
Satz-Kookkurrenzen, IR und LSA
Beobachtung: Über das Vektorraum-Modell hängen die Dinge mehr zusammen, als man zunächst denkt.
Schritt1: Term-Dokument-Matrix D=(dij) mit dij = Anzahl des Wortes i im Dokument j
Wort 1
Wort 2
Wort 3
. . .
Wort n
Summ
e
Dokument 1 d11 d12 d13 ... d1n
d2n
d3n
...dmn
nn
d1
Dokument 2 d21 d22 d23 ... d2
Dokument 3 d31 d32 d33 ... d3
... ... ... ... ... ...Dokument m dm1 dm2 dm3 ... dn
Summe n1 n2 n3 ... nges
Wir benutzen unsere Sätze als Dokumente und Wörter als Terme. Typischerweise haben wir ein Mehrfaches an Sätzen gegenüber Wörtern. Viele Einträge sind null.
U. Quasthoff Advanced Information Retrieval 55
Information Retrieval
Verwendet wird die (mxn)-Matrix D.IR bestimmt Dokumentenähnlichkeit, indem die Zeilenvektoren von D verglichen
werden.Analog Termähnlichkeit, indem Spaltenvektoren von D verglichen werden.Der Vergleich erfolgt über das Skalarprodukt, vorher wird die Matrix noch
umgerechnet, indem dij multipliziert wird mit der inversen Dokumentfrequenz log(m/ni). Damit werden seltenere Terme höher gewichtet. (Die Formel stimmt mit der üblichen idf-Definition überein für den Fall, das jedes Wort pro Dokument maximal einmal vorkommt.)
Merke: • Matrix D wird verwendet.• Darauf Transformation, die „unwichtige“ Terme verkleinert.• Dann Vergleich mit Skalarprodukt von (normierten!) Zeilen bzw. Skalarprodukt
von (normierten!) Spalten.
U. Quasthoff Advanced Information Retrieval 56
Kookkurrenzen
Zunächst berechnen wir eine (nxn)-Matrix A, wobei aij die Anzahl des gemeinsamen Auftretens des Wortes i mit dem Wort j in einem Satz beschreibt.
Beobachtung: A = DTDDanach wird mit der Signifikanzformel eine Transformation ausgeführt, die außer
dem Zellenelement die entsprechende Zeilen- und Spaltensumme und die Anzahl der Sätze (die steckt nicht mehr in A) verwendet. Ergebnis: A‘
Merke: • Matrix A = DTD wird verwendet.• Darauf Signifikanztransformation A -> A‘=K(A), die z.B. „unwichtige“ Terme
null setzt.• Dann Vergleich von Wörtern auf der Basis eines Elements von A‘, als
Skalarprodukt: a‘i,j = sig(wi, wj) = <xi, A‘xj> (dabei sind xi, xj die Basisvektoren zur Term-Dokument-Matrix.)
U. Quasthoff Advanced Information Retrieval 57
Semantische Ähnlichkeit auf der Basis von KookkurrenzenVorgehen: Wörter sind ähnlich, wenn sie ähnliche Kookkurrenzen haben. Die
Kookkurrenzen zu Wort i werden durch A‘xj beschrieben, die gemessene Ähnlichkeit ist also sim(wi, wj) = <A‘xi, A‘xj>
Beobachtung:• Hier wird auch ein Skalarprodukt von Zeilen einer Matrix berechnet, genau wie bei
Termähnlichkeit bei IR mit Spalten von D.• Die Ergebnisse sind besser (können wir das verifizieren?), also ist die
Kookkurrenztransformation A->A‘=K(A) nützlich.
U. Quasthoff Advanced Information Retrieval 58
Iterierte Kookkurrenzen
Was passiert, wenn wir die (quadratische) Matrix A‘ als neue Term-Dokument-Matrix nehmen? Da eine Term-Dokument-Matrix nur Nullen und Einsen enthält, ersetzen wir alle positiven Zahlen durch eins und erhalten A“. Dabei betrachten wir die Kookkurrenzmengen (Zeilen) als Dokumente, bestehend aus den in den Mengen enthaltenen Wörtern.
Zur Kookkurrenzberechnung bilden wir A“TA“ und mit der Kookkurrenztransformation K(A“TA“). Analog ist jetzt
sig2(wi, wj) = <xi, K(A“TA“)xj> Verglichen damit stellt sich die semantische Ähnlichkeit folgendermaßen dar:
sim(wi, wj) = <A‘xi, A‘xj> = <xi,A‘TA‘xj>.Unterschied: • sim benutzt Signifikanzen, sig2 nicht.• sig2 benutzt dafür noch einmal die Signifikanztransformation, die evtl. Rauschen
unterdrückt.Die Kombination wäre sig*(wi, wj) = <xi, K(A‘TA‘)xj>
U. Quasthoff Advanced Information Retrieval 59
Dokumentenähnlichkeit: Theorie
Was passiert, wenn man statt A=DTD jetzt B= DDT verwendet?In der (mxm)-Matrix B enthält bij die Anzahl der gemeinsamen Wörter in den
Dokumenten i und j.Das ist nicht aussagekräftig, da verschiedene Wörter eine unterschiedliche Rolle
spielen. Also können wir jetzt keine Transformation auf B anwenden, sondern müssen vorher schon etwas tun:
Statt der Anzahl der gemeinsamen Wörter (z.B. 3) nehmen wir die Wörter selbst (Stich, Becker, Open) und benutzen die Kookkurrenzformel schon jetzt. Ergebnis: B‘
Merke: • Statt A=DTD (fast) analoges Vorgehen für B= DDT.• Darauf Transformation mit Kookkurrenzformel, die „unwichtige“ Terme null setzt.• Dann Vergleich von Dokumenten auf der Basis eines Elements von B‘.
U. Quasthoff Advanced Information Retrieval 60
Dokumentenähnlichkeit: FormelnDie Berechnungsformel ist simpel und lehnt sich an die Mehrwort-Kookkurrenzen an. Sind a1,
a2, ..., as die Anzahlen der Wörter aus dem Durchschnitt, so nehmen wir die ganz normale Kookkurrenzformel mit k=2 und x=a1a2...as / ns-1. Stoppwörter können wir zusätzlich mitnehmen, die verändern das Ergebnis kaum.
Wir messen damit unsere Verwunderung darüber, dass die gemeinsamen Wörter tatsächlich zweimal zusammen auftreten. Eventuelle weitere gemeinsame Vorkommen werden ignoriert.
Format der Beispiele:(Bewertung) ---> Wörter aus Durchschnitt (Anzahl des Wortes)Treffersatz (leider ohne Satzzeichen).
Eingabe: Der Vorsitzende des Deutschen Bundeswehrverbandes Oberst Bernhard Gertzrechnet mit drastischen Protestdemonstrationen der Soldaten gegen eine Verringerung der Bundeswehr auf 350 000 Mann
17.38 ---> Oberst (1348) Gertz (144) Soldaten (24417) Verringerung (2055)Ferner führt Oberst Gertz an daß eine Verringerung der Mannschaftsstärke die bisherige
Stationierungsplanung ungültig werden läßt und hierdurch die Familien der Soldaten verunsichert würden
U. Quasthoff Advanced Information Retrieval 61
Dokumentenähnlichkeit: Beispiel 1Die Bundesregierung hat Drohungen des russischen Nationalistenführers Schirinowskij
gegen Deutschland entschieden zurückgewiesen
12.86 ---> russischen (20030) Nationalistenführers (24) Schirinowskij (245)Als Beispiele nannte Kohl die Ereignisse auf dem Balkan und das Abschneiden des
Nationalistenführers Schirinowskij bei den russischen Parlamentswahlen11.33 ---> Drohungen (2020) Schirinowskij (245) Deutschland (138524)Der Sprecher des Auswärtigen Amtes in Bonn sagte Schirinowskij habe sich abfällig über die
Bundesrepublik Deutschland geäußert Drohungen ausgesprochen und einen Bediensteten der deutschen Botschaft persönlich verunglimpft
. . .1.82 ---> Bundesregierung (29533) zurückgewiesen (4568)Die Bundesregierung hat Vorwürfe von Bündnis 90/Die Grünen und der PDS zurückgewiesen
sie wolle Flüchtlinge aus Bürgerkriegsregionen des ehemaligen Jugoslawien in deren Heimat abschieben
U. Quasthoff Advanced Information Retrieval 62
Dokumentenähnlichkeit: Beispiel 2Ungeachtet der Offensive der Regierungstruppen hat der kambodschanische
Ministerpräsident Ranaridh zum ersten Mal Friedensverhandlungen mit den Roten Khmer in Aussicht gestellt
17.30 ---> kambodschanische (173) Ministerpräsident (21391) Roten (5000) Khmer (1100)Der erste kambodschanische Ministerpräsident Prinz Ranariddh teilte dagegen mit die
Regierung und die Roten Khmer hätten sich darauf geeinigt über den Friedensvorschlag von König Sihanouk zu verhandeln
15.95 ---> Offensive (4052) Regierungstruppen (1614) Roten (5000) Khmer (1100)Wie Informationsminister Mouly offiziell bestätigte hatten die Regierungstruppen unmittelbar
vor dem Treffen eine Offensive gegen das strategisch wichtige Hauptquartier Anlong Vengder Roten Khmer in der Nordwest-Provinz Siem Reap eingeleitet
. . . 0.00 ---> Ministerpräsident (21391) gestellt (28993)Italiens Ministerpräsident Ciampi hat am Donnerstag sein Amt zur Verfügung gestellt um den
Weg für Neuwahlen freizumachen
U. Quasthoff Advanced Information Retrieval 63
Dokumentenähnlichkeit: Beispiel 3Die deutschen Wimbledonsieger Michael Stich Boris Becker und Steffi Graf hatten in den
beiden vergangenen Jahren in Perth beim Hopman-Cup der sich hochstaplerisch mit dem Titel einer inoffiziellen Mixed-Weltmeisterschaft schmückt gespielt
16.40 ---> inoffiziellen (619) Mixed-Weltmeisterschaft (11) Perth (512)Bei der inoffiziellen Mixed-Weltmeisterschaft im australischen Perth erreichten die
Tennisprofis Anke Huber aus Heidelberg und der Münchener Bernd Karbacher das Viertelfinale
11.41 ---> Titel (30144) vergangenen (90904) Steffi Graf (4044) Michael Stich (1467) Damit können sie erfolgreich den Titel verteidigen den im vergangenen Jahr erwartungsgemäß
die Wimbledon-Sieger Steffi Graf und Michael Stich errungen hatten. . .1.55 ---> vergangenen (90904) vergangenen (90904) Jahren (218773)Einen Wachstumsschub verspricht sich Sanofi von dem im Herbst vergangenen Jahres
begonnenen Verkauf des neuartigen Immundiagnosegerätes Access in dessen Entwicklung in den vergangenen Jahren alleine 700 Millionen Franc investiert wurden
U. Quasthoff Advanced Information Retrieval 64
Das Komplexitätsproblem
• Die Term-Dokument-Matrix D ist schwach besetzt.• Die Kookkurrenzmatrizen A=DTD und speziell A‘ sind schwach besetzt.• Das Problem: Die Dokumentenähnlichkeitsmatrix B= DDT ist leider nicht schwach
besetzt.Die folgenden Beispiele nehmen die 35 Millionen Sätze aus dem Wortschatz als
einzelne Dokumente.Ein Wort mit Anzahl na tritt (bei mittlerer Satzlänge 11) mit maximal 10 na anderen
Wörtern auf, erzeugt also maximal 10 na Einträge in A, d.h. wir erzeugen rund 3,5 *109 Einträge in A.
Anders bei B= DDT . Hier sorgt ein Wort mit Anzahl na für rund na2/2 Einträge >0.
Selbst wenn wir 400 Stoppwörter weglassen, füllen weiter 4000 Wörter mit Anzahl >10000 ca. 2*1012 Elemente, das ist kaum möglich zu berechnen.
U. Quasthoff Advanced Information Retrieval 65
1. Versuch 2002 Test auf den Wörtern des Tages, Umfang: ca. 20.000 SätzeAttribute: Alle Wörter mit Anzahl<255. D.h. wir lassen folgende Stoppwörter weg: Auch Das Der
Deutschland Die Er Es Euro Ich Im In Jahr Jahren Prozent Sie Und aber als am an auch auf aus bei bis dann das dass dem den der des die durch ein eine einem einen einer er es für gegen habe haben hat hatte ich ihre im in ist kann keine können man mehr mit nach nicht noch nur oder sagt sagte schon sei sein seine sich sie sind so soll um und unter vom von vor war was wenn werden wie wieder will wir wird wurde zu zum zur zwei über
Gefunden wurden ähnliche Sätze wie die folgenden wegen der Übereinstimmung in den 6 Wörtern Staatsanwaltschaft Christoph_Schlingensief Volksverhetzung ermittelt Verdachts wegen
bsp_nr=16042: Gegen den Theatermacher Christoph Schlingensief ermittelt die Staatsanwaltschaft wegen des Verdachts der Volksverhetzung.
bsp_nr=15634: Düsseldorf (dpa) Die Staatsanwaltschaft ermittelt gegen den Regisseur Christoph Schlingensief wegen des Verdachts der Volksverhetzung.
Test war erfolgreich aber vermutlich nicht skalierbar auf große Textmengen wegen quadratischer Komplexität.
U. Quasthoff Advanced Information Retrieval 66
Algorithmus Satzähnlichkeit grob
• Berücksichtige nur Wörter mit Anzahl <250 und Anzahl >2• Alle Wörter mit Gewicht 1• Die Ähnlichkeit zweier Sätze ergibt sich als Anzahl der gemeinsamen Wörter
Achtung: Hier werden die Top-87.839 Wörter ignoriert. Dies ist ein Großteil des Alltags-Wortschatzes. Kann das gut gehen?
U. Quasthoff Advanced Information Retrieval 67
Algorithmus Satzähnlichkeit fein
Schritt 1: Inverse Liste exportieren, Format: wort_nr, anzahl, satz_nr Schritt 2: Zeilenweise sortierenSchritt 3: Dubletten entfernenSchritt 4: Für jedes Wort alle Paare von Sätzen ermitteln, die dieses Wort enthalten.
Format: satz_nr1, satz_nr2Schritt 5: Zeilenweise sortierenSchritt 6: Anzahlen für gleiche Paare ermitteln und ausgeben, falls Schwellwert
überschritten.
Zusätzlich werden ggf. noch die Wörter durchgeschleift und zusammengefasst, damit man die Ausgabe beurteilen kann.
Zu sortierende Datenmenge für 35 Mill. Sätze zwischenzeitlich ca. 30GB
U. Quasthoff Advanced Information Retrieval 68
Bsp. Mind. 4 Wörter gemeinsam
Rabah Kebir und die ebenfalls als anerkannte politische Flüchtlinge in Deutschland lebenden Söhne des FIS-Gründers Madani Abassi, Ikbal und Salim Abassi, waren in Algerien 1993 als 'Terroristen' zum Tode verurteilt worden.
Rabah Kebir und die beiden Söhne des FIS-Gründers Madani Abassi, Ikbal und Salim Abassi, wurden in ihrer algerischen Heimat 1993 von einem Sondergericht als angebliche Terroristen zum Tode verurteilt.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Die Leica Camera Gruppe, Solms bei Wetzlar, will den seit sieben Jahren unter Konkursverwaltung stehenden Kamerahersteller Minox, Heuchelheim bei Gießen, kaufen.
Die Leica Camera Gruppe in Solms will den seit sieben Jahren unter Konkursverwaltung stehenden Kamerahersteller Minox, Heuchelheim, kaufen.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Außer in Bad Cannstatt werden sie auch in den Bezirken Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Rohracker/Frauenkopf, Uhlbach und Wangen an jeder Haustüre klingeln.
Bad Cannstatt, Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Rohracker/Frauenkopf, Uhlbach und Wangen.
Dennoch waren die Knotenpunkte der Straßen in Cannstatt, Neugereut, Steinhaldenfeld, Hofen, Luginsland, Hedelfingen, Uhlbach, Frauenkopf und Wangen am Samstag voller Tannen und Fichten.
U. Quasthoff Advanced Information Retrieval 69
Folgerung für >=4
Enthalten zwei Sätze >= 4 seltene Wörter gemeinsam, so haben sie meist die gleiche Aussage oder sind sogar beide nicht wohlgeformt.
Im Wortschatz kann jeweils einer weggelassen werden.
Diese Aussage ist für kleinere Übereinstimmung sicher nicht mehr richtig. Aber vielleicht geht es noch um das selbe Thema.
U. Quasthoff Advanced Information Retrieval 70
Vorgehen für >=2
Sätze mit Ähnlichkeit >=2 werden verbunden.Darauf Clustering-Algorithmus (CB).Manuelle Inspektion der einzelnen Cluster.
Die Top-Cluster haben die folgenden Anzahlen von Sätzen:2185, 801, 669, 430, 430, 426, 424, ...Insgesamt 80.000 Cluster mit >=4 Elementen
U. Quasthoff Advanced Information Retrieval 71
Jazz (105)Der Tenorsaxophonist aus New Orleans geht selbstbewußt mit dem Erbe von Sonny Rollins und John
Coltrane um und vermeidet auch durch die Wahl seiner Themen und Eigenkompositionen.Seine eigenwillige Zitation der schwarzen Saxophontradition von Lester Young bis zu seinem
Lehrmeister John Coltrane ist inzwischen klassisch.Charlie Parker war ein Bluesspieler, hat nicht auch John Coltrane mal bei Big Mama Thornton
begonnen?Mit John Coltrane nahm er "The Avantgarde" auf und mit Sonny Rollins "Dearly
Beloved".Frank Sinatra, Ella Fitzgerald, Sarah Vaughan, Thelonius Monk, die Saxophonisten Gerry Mulligan und
Stan Getz sowie Henry Marcini und Frank Pourcel schufen eigene Versionen der über vierhundert Jobim-Themen.
Dazwischenmontiert sind alte Dokumentaraufnahmen mit Konzerten von Charlie Parker und Lester Young, Ausschnitte aus Hollywood-Filmen der 30er Jahre und Interviews mit Count Basie, Big Joe Turner, Jay McShann und anderen Swing-Musikern.
Der Saxophonist Mulligan spielte schon mit Louis Armstrong, Count Basie und Lester Young.Ich wollte mein Instrument nicht als Schlagzeug zweiter Klasse spielen, sondern als Melodieinstrument,
wie es Dizzy Gillespie machte und Charlie Parker.Der Jazzsänger Earl Coleman, der mit Charlie Parker, Sonny Rollins und Shirley Scott
zusammengearbeitet hat, ist am Mittwoch im Alter von 69 Jahren gestorben.Darauf folgt ein furioses Deklinieren der schwarzen Jazzmusik, eine heftige Bekenntnissuada ohne
Punkt und Komma - mehr als eine bloße Hommage an die Großen seines Instruments, an John Coltrane und Lester Young.
In Amerika konnte ich mit einigen der größten Jazzmusiker des Jahrhunderts zusammenspielen - Stan Getz, Buddy Rich, Dizzy Gillespie, Sarah Vaughan.
Doch kann man von John Coltrane und Charlie Parker auch leben?Du kannst damit so wunderbar gehauchte Töne spielen wie zum Beispiel Coleman Hawkins oder Stan
Getz; das Altsaxophon dagegen klingt irgendwie netter.Innerhalb weniger Monate starben Bud Freeman, Jimmy McPartland, Stan Getz und Dizzy Gillespie.
U. Quasthoff Advanced Information Retrieval 72
Spezielles IT-Thema (8)Der Callserver Succession steht im Mittelpunkt der Lösung.Der Callserver Succession ist auch das erste Produkt, das den Datenverkehr zwischen
und innerhalb von TDM- und Paketnetzwerken verarbeiten kann, ohne daß ein kostenintensives separat verwaltetes Überlagerungssystem erforderlich ist.
Der Callserver Succession ist die Anfangsphase einer umfassenden neuen Architektur von vereinten Dienstleistungen, die netzwerkübergreifend auf Dienstleistungen diverser verteilter IP-Server basiert.
Der Callserver Succession unterstützt und integriert sowohl werterhöhende IP-Dienstleistungen als auch fortgeschrittene Telefondienstleistungen.
Das Netzwerk Succession transformiert die gegenwärtige zentralisierte Topologie zu einer Architektur mit verteiltem Zugang und verteilter Kontrolle, in der Serviceinitiation und auslieferung nicht durch eingebaute Netzwerkbeschränkungen begrenzt werden.
Der Backbone-Kern des Netzwerks Succession ist von 672 Ports auf 512.000 Ports auf einem Succession- Callserver skalierbar, der zur Geschäftszeit 4 Millionen Anrufe verarbeiten kann.
Die IP-Dienstleistungen kommen auf diese Weise zu den traditionellen Telefondienstleistungen in derselben Infrastruktur hinzu.
Der Succession Call Server ermöglicht es, die volle Palette der vorhandenen Telefondienstleistungen über eine Paket-Infrastruktur anzubieten.
U. Quasthoff Advanced Information Retrieval 73
Spezielles Kunst-Thema (8)
Begleitet wird sie von Reinmar Henschke am Flügel, der sich etwas ungelenk durch die Songs holpert und stolpert.
Mit Reinmar Henschke hat Ulla Meinecke einen Partner gefunden, dessen exzellente undsensible Begleitung vergessen läßt, daß die Songs mal wesentlich aufwendiger arrangiert waren.
Museum für Naturkunde 18.00: Schauplatz Museum: Lesung Tänze Musik; UbenjakumaLieder und Märchen aus Afrika; George MacLean (Gesang, Erzählung, Saxophon), Reinmar Henschke (Tasteninstrumente, Harald Kündgen (Marimbaphon u.a.
Als Zwiegespräch in einer Art Bar-Atmosphäre zelebriert sie deshalb heute ihre Auftritte, mit Reinmar Henschke am Flügel und kleiner Begleitcombo.
Kaum hat Reinmar Henschke, ihr exzellenter Begleiter am Flügel, den Tasten die ersten Töne entlockt, weiß auch das Publikum Bescheid: "Die Tänzerin".
Unterwegs mit dem Pianisten Reinmar Henschke, dem Bassisten Ingo York und dem Gitarristen/ Vocalisten Leeman, gastiert die Rock-Poetin am heutigen Donnerstag im Oberhausener Ebertbad und drei Tage später, am Sonntag, im Rex-Theater Wuppertal.
Derweil verlegen sich Reinmar Henschke (Synthesizer) und Ingo Wernsdorf (Percussion) auf bis ins Ekstatische anschwellende Untermalung.
Nun hat Victor Schefé sich eine neue Rolle auf den Leib geschrieben, die er mit seiner Band - Reinmar Henschke (Piano), Michael Joch (Percussion), Ingo York (Bass) -brillant ausfüllt.
U. Quasthoff Advanced Information Retrieval 74
Platt (2185)Man partu nöömen mööt wi Sonja Kramer, de mit twolf Johren de lüttje Dochter vun
Amandus speelen deit, seut un plietsch, un de vun em orntlich 'n Moorsvull kriggt.Ob de plattdüütsche Fassung dat gerecht ward, wat de Autor vör över dreehunnert Johren
meent hett, mööt wi hier nich spitzfinnig uteneen kleien.As ick vör Johren mal ne Tidlang in Parchen wahnen ded, dunn lewte Herr Rathsherr
Zarnekow in Güstrow noch mit sin Fru un sin Dochter un hadd ok sin Swägerin bi sick.
Na, de Herr Rathsherr Zarnekow, de schull denn nu un gung in de Stuw rüm un argert sick.
Grad as hei dit Geschäft nah Kräften besorgen deiht, führt sin Swager, de Herr Rathsherr Darjus ut Parchen, vör de Dör vör.
Herr Rathsherr Darjus führte also nah Rostock, un nah fiw, söß Dagen kamm hei wedder taurügg un hadd, ne grote Kist hinnen up den Wagen, un sin Swager Zarnekow fröggt: "Wat is in de grote Kist?"
De findt sick denn ok bald, un Herr Rathsherr Zarnekow seggt tau den Fuhrmann: "En Breif is wider nich nödig.
De Fuhrmann führt in Parchen vör de Dör von den Herrn Rathsherrn, un as hei de Kist von den Wagen laden ward, steiht oll Goldsmid Bohn vör de Dör un fröggt: "Wat is in de Kist?"
Während deß kümmt denn nu de Rathsherr Darjus ut den Rath taurügg, un as hei in sin Strat rin kümmt, steiht oll Jochen Hilgendörp in de Dör un seggt: "Gun Morrn, Herr Rathsherr, Ehr Gir=Ap is ok ankamen." -"Wat Deuwel!"
De Fru Rathsherrn Darjussen schickt nu also bi de Koplüd in de Stadt rüm, wat sei kein Frachtgelegenheit nah Güstrow un nah Rostock wüßten; sei hadd ne Kist nah Güstrow tau schicken un ne Partie leddige Win=Ankers nah Rostock.
U. Quasthoff Advanced Information Retrieval 75
Bayerischer Wald (gemischt)Die Gegner einer Ausweitung des Nationalparks Bayerischer Wald haben am Wochenende
in Zwiesel gegen das Vorhaben demonstriert.Im Hans-Eisenmann-Haus in Neuschönau (Landkreis Freyung/Grafenau), dem
Besucherzentrum des Nationalparks Bayerischer Wald, wurde jetzt der dreimillionsteGast begrüßt.
Der Passauer Bischof Franz-Xaver Eder hat den Pfarrer der Bayerwaldgemeinde Hinterschmiding (Landkreis Freyung/Grafenau) aufgefordert, seinen Posten zu räumen.
Doch das 10 000 Hektar große Areal des Forstamtes Zwiesel soll für die Erweiterung des Nationalparkes Bayerischer Wald herangezogen werden.
Gegen die Erweiterungspläne haben sich der Kreistag in Regen, die Stadt Zwiesel - die um ihre Trinkwasserversorgung fürchtet -, die Gemeinden Lindberg und Bayerisch Eisenstein ausgesprochen.
Ministerpräsident Edmund Stoiber mußte das Jubiläums-Geschenk dann aber doch eingepackt lassen, weil sich die Stadt Zwiesel sowie die Gemeinden Bayerisch Eisenstein und Spiegelau und auch der Landkreis Regen quergelegt hatten.
Bayerischer Wald: Bayerisch Eisenstein 20/50, L 50, 3 Li; Bischofsmais 10/15, L 16, 3 Li; Bodenmais 10/35, L 45; Frauenau 10/20, L 20; Hauzenberg 10/15; Mauth/Finsterau 20/25, L7.
Bayerischer Wald: Bayerisch Eisenstein 25/40, L 50; Bodenmais 10/35; Neukirchen b. Heiligenblut 20/30.
Bayerischer Wald: Arnbruck 10/25, L 30; Bayerisch Eisenstein 30/60, L 40; Bischofsmais 20/25, L 16; Bodenmais 30/50, L 30; Haidmühle 25/30; Lohberg 25/45; Neureichenau 30/35; Philippsreuth 30/35; St. Englmar 15/30; Zwiesel 20/30.
U. Quasthoff Advanced Information Retrieval 76
Negativ-BeispielEs gibt Mengen von stark ähnlichen Sätzen, die so nicht gefunden werden, weil sie
ausschließlich höherfrequente Wörter enthalten.Der Gesellschaftsvertrag ist am 21. Februar 1996 abgeschlossen und am 4. Dezember 1996 abgeändert in 1 Absatz 1
(Firma) und 2 (Gegenstand). Der Gesellschaftsvertrag ist am 11. März 1997 abgeschlossen und am 21. März 1997 abgeändert in 2 (Gegenstand). Der Gesellschaftsvertrag ist am 2. Juli 1996 abgeschlossen und am 21. Januar 1997 abgeändert in 1 (Firma) und 2
(Gegenstand). Der Gesellschaftsvertrag ist am 28. Januar 1997 abgeschlossen und am 25. Februar 1997 abgeändert in 2
(Gegenstand des Unternehmens). Der Gesellschaftsvertrag ist am 27. Januar 1997 abgeschlossen und am 17. März 1997 abgeändert in 6
(Gesellschafterversammlung) und 12 (Einziehung von Geschäftsanteilen). Der Gesellschaftsvertrag ist am 20. Dezember 1996 abgeschlossen und am 24. März 1997 abgeändert in 3
(Stammeinlagen) sowie aufgehoben in 13 Abs. 2 (Schiedsgericht). Der Gesellschaftsvertrag ist am 14. November 1994 abgeschlossen und am 7. März 1995 abgeändert.
Und ca. 100 weitere ...Dies verdirbt auch die Kookkurrenzen: Signifikante Kookkurrenzen für abgeändert: Gesellschaftsvertrag (11830), abgeschlossen
(9862), Gegenstand (4651), Firma (2831), Dezember (1569), März (1304), November (1206), Januar (1169), Februar (1162), Absatz (1084), Stammkapital (1026), Oktober (861), Juni (844), August (805), September (779), April (776), Stammeinlagen (775), Juli (716), Mai (685), ...
U. Quasthoff Advanced Information Retrieval 77
Latent Semantic Analysis
LSA macht folgendes:• Gearbeitet wird mit der Matrix A = DTD (wie bei Kookkurrenzen)• Diese Matrix ist symmetrisch, hat also reelle Eigenwerte.• Für die (z.B. 50) größten Eigenwerte werden die Eigenvektoren berechnet• Diese werden zu „Konzepten“ erklärt. (Es gibt aber bisher keinen Grund, warum
Eigenvektoren zu Konzepten gehören sollten.)• Die Projektionen der normalen Wörter auf diese Eigenvektoren zeigt die Stärke der
Zugehörigkeit eines Wortes zu dem entsprechenden Konzept.• Achtung: Es entstehen auch negative Koeffizienten.
Merke: • Matrix A = DTD wird verwendet.• Davon werden die „wichtigsten“ Eigenvektoren ei ermittelt.• Dann Vergleich mit Skalarprodukt: Zugehörigkeit von Wort i zu Konzept j wird
gemessen durch <xi, ej>
U. Quasthoff Advanced Information Retrieval 78
Zusammenhang LSA-KookkurrenzenVermutung über die Art eines inhaltlichen Zusammenhangs:Wir erzeugen die Konzepte anders: Wir nehmen disjunkte Kookkurrenzmengen (d.h.
notfalls Dubletten weglassen) zu verschiedenen Begriffen, d.h. tatsächlichen Konzepten. Diese seien durch Vektoren fi beschrieben. Diese Vektoren sind dann automatisch orthogonal.
Die Zugehörigkeit von Wort i zu Konzept j wird gemessen durch <xi, fj>
Prozedurale Unterschiede:• LSA verlangt eine Analyse der kompletten Daten, während Kookkurrenzen auch
lokal berechnet werden können.• Dafür ermöglicht LSA ein globales Orthogonalisieren, was wir mit Kookkurrenzen
nicht können, da eine „Startrichtung“ fehlt.
U. Quasthoff Advanced Information Retrieval 79
Spektrum des Kookkurrenzgraphen für Stich
Wir berücksichtigen nur: Stich Doppel Becker DTB | Vorhand Mittelhand HinterhandDiese fallen in zwei Klassen. Lässt sich das mit Eigenwerten berechnen?
U. Quasthoff Advanced Information Retrieval 80
Spektrum des Kookkurrenzgraphen für StichBerücksichtigt: Stich Doppel Becker DTB | Vorhand Mittelhand Hinterhand;
[ 0 175 1447 161 557 591 573][ 175 0 196 0 0 0 0][1447 196 0 312 11 0 0]
A := [ 161 0 312 0 0 0 0][ 557 0 11 0 0 1449 1329][ 591 0 0 0 1449 0 1503][ 573 0 0 0 1329 1503 0]
Eigenwerte:[-1540., -1500., -1330., -133., -16.4, 1300., 3210.]
Eigenvektoren (Spalten):[.704 , -.147 , .0171 , .226 , .0276 , -.558 , .358][.0064 , -.0019 , .0007 , -.592 , .785 , -.182 , .030][-.661 , .130 , -.0182 , .190 , -.0198 , -.702 , .169][.0588 , -.0142 , 0. , -.750 , -.615 , -.242 , .034][-.131 , -.285 , -.769 , -.041 , -.004 , .206 , .512][ .061 , .800 , .115 , -.047 , -.0064 , .206 , .535][-.209 , -.489 , .632 , -.044 , -.0057 , .210 , .528]
U. Quasthoff Advanced Information Retrieval 81
Spektrum des Kookkurrenzgraphen für space
Wir berücksichtigen nur: space memory disk | address leased | NASA shuttle stationDiese fallen in drei Klassen. Lässt sich das mit Eigenwerten berechnen?
U. Quasthoff Advanced Information Retrieval 82
Spektrum des Kookkurrenzgraphen fürspace
[0 , 718 , 2629 , 653 , 127 , 821 , 920 , 2618 , 991] [718 , 0 , 3181 , 585 , 0 , 0 , 0 , 0 , 0][2629 , 3181 , 0 , 0 , 0 , 0 , 0 , 0 , 0][653 , 585 , 0 , 0 , 0 , 0 , 0 , 0 , 0]
A := [127 , 0 , 0 , 0 , 0 , 617 , 0 , 0 , 0][821 , 0 , 0 , 0 , 617 , 0 , 0 , 0 , 0][920 , 0 , 0 , 0 , 0 , 0 , 0 , 1191 , 143][2618 , 0 , 0 , 0 , 0 , 0 , 1191 , 0 , 65][991 , 0 , 0 , 0 , 0 , 0 , 143 , 65 , 0]
Eigenwerte:[-4330., -2380., -876., -536., -3.00, 51.1, 654., 2230., 5180.]
Eigenvektoren (Spalten):[-.580 , .418 , .210 , .147 , -.006 , .098 , .048 , -.267 , .577][-.364 , -.611 , -.184 , -.121 , .005 , -.085 , -.045 , .504 , .418][ .612 , .358 , .007 , -.002 , -.170 , -.078 , -.023 , .404 , .551][ .134 , .037 , -.042 , -.047 , .932 , .290 , .015 , .054 , .118][ .002 , .018 , .233 , -.693 , .009 , -.128 , .668 , -.045 , .025][ .108 , -.146 , -.362 , .567 , -.002 , -.028 , .705 , -.115 , .092][ .029 , .096 , -.750 , -.341 , .032 , -.269 , -.188 , -.416 , .185][ .331 , -.510 , .402 , .065 , .043 , -.193 , -.150 , -.541 , .338][ .124 , -.167 , -.145 , -.187 , -.305 , .873 , .017 , -.158 , .119]