Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Visuelle Textanalyse
Dr. Stefan Jänickehttp://www.vizcovery.de
2. Mai 2019
Digital Humanities & Visualisierung
Information Seeking Mantra (Ben Shneiderman)"Overview first, zoom and filter, details-on-demand"
Close Reading
Distant Reading
Close Reading
Close Reading
Close Reading
350 BC
Close Reading
Close Reading
Close Reading
1. Grundidee– Was ist die Grundidee des Textes?
2. Erzählweise– Wer erzählt?– Wie wird erzählt?
3. Sprache– Ausdruck & Wortwahl– Welche Worte werden wiederholt bzw. besonders hervorgehoben?
4. Syntax– In welcher Reihenfolge erscheinen die Wörter/wird erzählt?
5. Kontext– Historischer Kontext & Biografie des Autors
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV
NE
GA
TIV
POSI
TIV
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV5. Kontext– 1990 veröffentlicht– letztes Buch von Dr. Seuss
NE
GA
TIV
POSI
TIV
Close Reading Beispiel
You'll get mixed up, of course,as you already know.You'll get mixed up with many strange birds as you go.So be sure when you step.Step with care and great tactand remember that Life's a Great Balancing Act.Just never foget to be dexterous and deft.And never mix up your right foot with your left.
And will you succeed?Yes! You will, indeed!(98 and 3/4 percent guaranteed.)
--- aus Dr. Seuss' „Oh, the Places You'll Go!“
1. Grundidee– Life's a Great Balancing Act2. Erzählweise– „Ratschlag“ an den Hauptcharakter You– Futur/2.Person → spricht Leser an3. Sprache– Wiederholung „You'll get mixed up“– „strange birds“ (Menschen, Freiheit???)4. Syntax– NEGATIV zu POSITIV5. Kontext– 1990 veröffentlicht– letztes Buch von Dr. Seuss
NE
GA
TIV
POSI
TIV
Close Reading: How-to
Ziel(e) des Close Readings– Wie ist der Fokus? Was mache ich mit den gewonnenen Informationen?
Textstruktur– Nummerierung von Textabschnitten, Verlinkung zusammengehöriger Abschnitte
Linker Margin– kurze Zusammenfassung eines Paragraphs
Rechter Margin– Fragen mit Bezug auf Text formulieren– Was versucht der Autor zu sagen? Ist das sinnvoll?
Annotieren→ bedeutsame Textabschnitte hervorheben
Traditionelles Close Reading
Digitales Close Reading
Digitales Close Reading
Digitales Close Reading
Gemeinsam– Zusammenarbeit, Teilen in soziales Netzwerken, Fragen stellen & diskutieren
Veränderbar– Weniger Aufwand als auf Papier
Annotationsvielfalt– nicht „nur“ Text, sondern auch Bilder, Audio, Video, ...
Distant Readings– Vergleich einer Textpassage zum Gesamttext?– aber: Gefahr der Ablenkung
Automatisches Annotieren– Anreichern des Textes mit Zusatzinformationen (vorab)
Digitales Close Reading
Named Entity Recognition (NER)
Aufgabe der Informationsextraktion zum Auffinden und Klassifizieren sogenannter Named Entities in vordefinierte Kategorien
Named Entity Recognition (NER)
Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Dieter Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären…
Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Dieter Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht <Ort>Bochum</Ort></Organisation> klären…
Named Entity Recognition (NER)
Interne Evidenz:– ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt – Eintrag im Lexikon oder anderer lexikalischer Ressourcen, z.B. Berlin → Ort, Mercedes → Marke, Merkel → Person– bestimmte Wortbestandteile, z.B. „-burg“ deutet auf Ort hin– Groß- und Kleinschreibung
Externe Evidenz:– nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen– „die französische Stadt XYZ“ deutet stark darauf hin, dass als nachfolgendes Wort XYZ ein Ortsname folgt– „der deutsche Politiker ABC“ → Person– „die Kathedrale St. Paul“ → religiöser Ort
Named Entity Recognition (NER)
Interne Evidenz:– ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt – Eintrag im Lexikon oder anderer lexikalischer Ressourcen, z.B. Berlin → Ort, Mercedes → Marke, Merkel → Person– bestimmte Wortbestandteile, z.B. „-burg“ deutet auf Ort hin– Groß- und Kleinschreibung
Externe Evidenz:– nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen– „die französische Stadt XYZ“ deutet stark darauf hin, dass als nachfolgendes Wort XYZ ein Ortsname folgt– „der deutsche Politiker ABC“ → Person– „die Kathedrale St. Paul“ → religiöser Ort
Named Entity Recognition (NER)
Preprocessing
Tokenisierung:– Erkennen der Wortgrenzen: einfach für europäische Sprachen (Leerzeichen), schwierig für japanisch oder chinesisch– Satzzeichen markieren Struktur des Textes– Großschreibung → zu einfach?
Named Entity Recognition (NER)
Preprocessing
Tokenisierung:– Erkennen der Wortgrenzen: einfach für europäische Sprachen (Leerzeichen), schwierig für japanisch oder chinesisch– Satzzeichen markieren Struktur des Textes– Großschreibung → zu einfach?
Named Entity Recognition (NER)
Preprocessing
Tokenisierung:– Erkennen der Wortgrenzen: einfach für europäische Sprachen (Leerzeichen), schwierig für japanisch oder chinesisch– Satzzeichen markieren Struktur des Textes– Großschreibung → zu einfach?
Morphologische Analyse:– Vereinfachung einzelner Wörter– Erkennen von Präfix bzw. Suffix→ Endungen wie „-burg“,“-stadt“, „-dorf“ → Ortsname– Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma→ viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin, z.B. denken → Mensch
Named Entity Recognition (NER)
Preprocessing
Lexikalische Analyse:– viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden– ABER: Mehrdeutigkeiten machen Einbezug des Kontextes erforderlich
- Essen: Ort oder Mahlzeit? - Bank: Finanzeinrichtung oder Sitzmöbel?- „Buchen Sie mir einen Flug“ vs. „Es gibt viele Buchen im Wald.“- Jordan: Person vs. Ort- JFK: Person vs. Flughafen- May: Person vs. Monat
Named Entity Recognition (NER)
Preprocessing
POS-Tagging (Part-of-Speech):– Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen– jedem Wort wird Wortklasse zugeordnet → Auflösen von Mehrdeutigkeiten?– Satzstrukturierung: Clause/Phrase/Word Level
Named Entity Recognition (NER)
NER–Methoden
1) Listenbasiert:– theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden.– Vorteile: Einfach zu Erstellen und schnelle Erkennung– ABER:
- oftmals unmöglich, alle NE zu speichern- nicht in der Lage mehrdeutige Wörter zu disambiguieren- ständig neue Entitäten, Abkürzungen- kaum möglich Zeitangaben oder quantitative Aussagen in einer solchen Liste zu speichern
Named Entity Recognition (NER)
NER–Methoden
2) Regelbasiert:
– definiere Regeln, die das Einsortieren der einzelnen Token ermöglichen– Nutzung von Lexika– Nutzung von syntaktischem, morphologischem domänenspezifischen Wissen– Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities
Named Entity Recognition (NER)
NER–Methoden
2) Regelbasiert: Beispiele– großgeschriebene Worte Hinweise auf eine Organisation: NASA, ADAC, UNICEF– Vorkommen von „-burg“, „-dorf“, -„stadt“ weist auf deutschen Ort hin– „denken“ ist Hinweis auf Mensch, „produzieren“ auf Firma– Nutzen von Kontextmustern: - [PERSON] verdient [GELD] → Frank verdient 20€ - [PERSON], [AMT] ART [ORGANISATION] Angela Merkel, Bundeskanzlerin der Bundesrepublik Deutschland - [PERSON|ORGANISATION|TIER] fliegen PRÄP [ORT|PERSON|EREIGNIS] Sarah fliegt zur Konferenz Ryan Air fliegt nach London Vogel fliegt zum Baum
Named Entity Recognition (NER)
NER–Methoden
2) Regelbasiert:
+ Benötigt nur eine kleine Menge an Trainings-Datensätzen+ sehr gute Performanz (Precision & Recall) – Muss von spezialisierten Linguisten entwickelt werden – Entwicklung sehr zeitaufwändig (umfassende Grammatiken) – Erweiterung und Anpassung an eine neue Domäne ist aufwändig
Named Entity Recognition (NER)
NER–Methoden
3) Lernbasiert:– nutzt Methoden des Maschinellen Lernens
(Abstrakte) Idee: – beginne mit kleiner Menge bekannter Named Entities (Seeds)– kennzeichne Named Entities in Trainingskorpus mit Seeds– extrahiere und generalisiere Muster aus den Kontexten, in denen Seeds vorkommen– nutze Muster um Named Entities interativ in Korpus zu erkennen→ generiere weitere Seeds– wiederhole solange keine neuen Named Entities entdeckt werden
Named Entity Recognition (NER)
NER–Methoden
3) Lernbasiert: Mögliche Features
– orthographisch: all-digits, roman-number, contains-dots, contains-hyphen, acronym, punctuation-mark, single-char, functional-word, URL– Worttyp: functional, lowercased, quote, capitalized, punctuation mark– Kontext: betrachte Wort W0 → Wörter um W0 im Fenster [-3,…,+3]– Trigger Wörter, z.B. für Personen (Frau, Dr.) oder Organisationen (GmbH, Co.)– Lexika: Gazetteers für Orte, Vornamen, Nachnamen, Firmennamen– POS tags, z.B.: „… Angela Merkel, the German chancellor, ...“ [Angela Merkel, chancellor] „… NYU, the employer of the famous Ralph Grishman, ...“ [NYU, employer] „… Stephen King, the great writer of horror bestsellers, ...“ [Stephen King, writer]
Named Entity Recognition (NER)
NER–Methoden
Welcher Ansatz?
– Gibt es ein hinreichend gutes, standardisiertes Vokabular? → lexikonbasiert– Performanz von regelbasierten ist höher als die von lernenden Systemen – Regelbasierte Systeme sind etwas schneller bei der Auswertung– Änderungen der Ziele können bei lernenden Systemen schneller umgesetzt werden - schnelle Änderungen oder Austausch der Trainings-Texte - bei regelbasierten Systemen müssen viele Regeln ersetzt werden → lernende Systeme sind flexibler bzgl. Änderungen zur Laufzeit– lernende Systeme sind (meist) sprachunabhängig→ Abwägung Precision/Recall
Named Entity Recognition (NER)
Anzahl korrekt klassifizierter NEs
Anzahl NEs gefundenPrecision =
Anzahl korrekt klassifizierter NEs
Anzahl vorhandener NEsRecall =
F1 score: Harmonischer Mittelwert zwischen Präzision und Ausbeute
Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE
Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen)
Named Entity Recognition (NER)
Named Entity Recognition (NER)
Heyne Digital
Christian Gottlob Heyne's Vorlesungen über die Archäologie
– verschiedene Mitschriften der Vorlesung „Die Archäologie oder die Kenntniß der Kunst und der Kunstwerke des Alterthums“– erste speziell der antiken Kunst gewidmete Lehrveranstaltung an einer Universität– kein Handbuch– vier Mitschriften als vollständige Transkription in digitalisierter Form zugänglich – verschiedene Sichten– manuelle Auszeichnung von Personen, Orten, Literatur und Kunstwerken mit Normdaten
Heyne Digital
Heyne Digital
Heyne Digital
Heyne Digital
Heyne Digital
https://nlp.stanford.edu/software/CRF-NER.html
http://nlp.stanford.edu:8080/ner/
Visualisierungsstrategien für Close Reading
Visualisierungsstrategien für Close Reading
Farbe
Alexander et al. (2014). Serendip: Topic Model-Driven Visual Exploration of Text Corpora
Visualisierungsstrategien für Close Reading
Farbe
Walsh et al. (2014). Crowdsourcing individual interpretations: Between microtasking and macrotasking
Visualisierungsstrategien für Close Reading
Schriftgröße
Walsh et al. (2014). Crowdsourcing individual interpretations: Between microtasking and macrotasking
Visualisierungsstrategien für Close Reading
Visualisierungsstrategien für Close Reading
Glyphen
Goffin et al. (2014). Exploring the Placement and Design of Word-Scale Visualizations
Visualisierungsstrategien für Close Reading
Verbindungen
Coles et al. (2014). Empowering Play, Experimenting with Poems: Disciplinary Values and Visualization Development
Visualisierungsstrategien für Close Reading
Verbindungen
McCurdy et al. (2016). Poemage: Visualizing the Sonic Topology of a Poem.
Digitales Close Reading
Cheema et al. (2016). AnnotateVis: Combining Traditional Close Reading with Visual Text Analysis
Digitales Close Reading
Cheema et al. (2016). AnnotateVis: Combining Traditional Close Reading with Visual Text Analysis
Anekdote
Theodor Seuss Geisel
Sein Erstwerk “And to Think That I Saw it on Mulberry Street (1937)” wurde von 27 Verlagen
abgelehnt! Fantasie würde sich nicht verkaufen...
Es folgten 47 weitere Bücher mit mehr als 600,000,000 Exemplaren...
Anekdote
And often she wishes that, when they were born, She had named one of them Bodkin Van Horn And one of them Hoos-Foos. And one of them Snimm. And one of them Hot-Shot. And one Sunny Jim. And one of them Shadrack. And one of them Blinkey. And one of them Stuffy. And one of them Stinkey. Another one Putt-Putt. Another one Moon Face. Another one Marvin O'Gravel Balloon Face. And one of them Ziggy. And one Soggy Muff. One Buffalo Bill. And one Biffalo Buff. And one of them Sneepy. And one Weepy Weed. And one Paris Garters. And one Harris Tweed. And one of them Sir Michael Carmichael Zutt And one of them Oliver Boliver Butt And one of them Zanzibar Buck-Buck McFate ... But she didn't do it. And now it's too late.
Did I ever tell you that Mrs. McCaveHad twenty-three sons and she named them all Dave? Well, she did. And that wasn't a smart thing to do. You see, when she wants one and calls out, "Yoo-Hoo! Come into the house, Dave!" she doesn't get one. All twenty-three Daves of hers come on the run! This makes things quite difficult at the McCaves' As you can imagine, with so many Daves.
Dr. Seuss'