52
Hypertextsorten Definition – Struktur – Klassifikation Georg Rehm [email protected] http://georg-re.hm

Hypertextsorten: Definition – Struktur – Klassifikation

Embed Size (px)

DESCRIPTION

Georg Rehm. Hypertextsorten: Definition - Struktur - Klassifikation. Universität Tübingen, Germany, November 2005. November 7, 2005. Invited talk.

Citation preview

Page 1: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 1/52!

Hypertextsorten"Definition – Struktur – Klassifikation!

Georg Rehm!

[email protected]!

http://georg-re.hm!

Page 2: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 2/52!

Motivation!

Page 3: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 3/52!

Hypothese!

•  In der Textlinguistik werden Textsorten untersucht und beschrieben:!

!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.“ (Brinker, 1985)!

Page 4: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 4/52!

Hypothese!

•  In der Textlinguistik werden Textsorten untersucht und beschrieben:!

!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.“ (Brinker, 1985)!

•  Zentrale Hypothese: Im World Wide Web existieren Hypertextsorten.!

-  Primär als Hypertexte realisierte Muster sprachlicher Kommunikation, die in der Sprachgemeinschaft der WWW-Nutzer aufgrund kommunikativer Bedürfnisse entstanden sind.!

-  Verantwortlich dafür, dass Nutzer mit spezifischen Typen von Web-sites spezifische Erwartungshaltungen und Konventionen verbinden.!

Page 5: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 5/52!

Forschungsfragen (Auszug)!

•  Welche und wieviele Hypertextsorten existieren in der Untersuchungsdomäne der universitären Webangebote?!

•  Welche Spezifika weisen Hypertextsorten (im Gegensatz zu traditionellen Textsorten) auf?!

•  Welche Konstituenten besitzen Hypertextsorten?!

•  Wie können diese Konstituenten repräsentiert und maschinellen Verarbeitungsprozessen zur Verfügung gestellt werden?!

•  Können Hypertextsorten – im Rahmen einer all-purpose-Suchmaschine – maschinell identifiziert werden?!

Page 6: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!

•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 7: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 7/52!

Möglichkeiten der Erstellung von HTML-Dokumenten!

HTML-Dokument(e)!

Manuelle Erstellung! Automatische Konvertierung!

ASCII-Editor!(Emacs)!

HTML-Editor!(Mozilla)!

CMS-Editor!(Typo3)!

Export-Assistent!(MS Word)!

Verfügbarer Konverter!(LaTeX2HTML)!

Eigenentwicklung!(XSLT Stylesheet)!

Flexibilität nimmt ab! Flexibilität nimmt ab!

Aufwand steigt an! Aufwand steigt an!

Page 8: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 8/52!

Entwicklung von Hypertextsorten – Automatisch!

Quelldokument!

Konvertierungs-!werkzeug!

HTML-Dokument(e)!

Textsorte des!Quelldokuments bleibt!

– weitestgehend –!unverändert erhalten!

Page 9: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 9/52!

Entwicklung von Hypertextsorten – Manuell!

Hypertextsorte!und ihre spezifischen!

Konventionen!

fremde!Webangebote!

eigenes!Webangebot!

Erstmalige Anwendung!einer Protohypertextsorte!

Status einer!Hypertextsorte zu einem!

bestimmten Zeitpunkt!

Aktualisierung:!Anwendung, Erweiterung,!

Brechung der Regeln!

Rezeption:!Identifikation von!

Regeln und Konventionen!

Änderung:!Modifikationen der externen Webangebote,!

die ebenfalls auf der Grundlage!dieses zyklischen Modells erfolgen!

(allmähliche Festigung der Konventionen)!

Anwendung – Hypertextproduktion:!Einflussfaktoren:!• Inhalt und Funktion des Webangebots,!• verwendete Software, !• dem Produzenten bekannte Text- und Hyper-! textsorten, Internet-spezifische Medien etc.!

Page 10: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!•  Die Korpusdatenbank!

•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 11: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 11/52!

Das Hypertextsortenmodell!

•  Bislang kaum Erkenntnisse über die Spezifika von Hypertextsorten!

•  Das Hypertextsortenmodell ist Grundlage für!

-  linguistische und textlinguistische Analysen von Hypertextexemplaren,!

-  eine Architektur zur automatischen Erkennung von Hypertextsorten.!

•  Granularität der zu beschreibenden Einheiten:!

-  Hypertextsorte!

-  Hypertextknotensorte!

-  Hypertextsortenmodul!

Page 12: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 12/52!

Der generische Aufbau einer Hypertextsorte!

Hypertextsorte i!

Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n!Hypertextsorte 0...n!

besteht aus!

Optionale Hyper-!textsortenmodule 0...n!

Obligatorische Hyper-!textsortenmodule 1...n!

Atomare Hyper-!textsortenmodule!

Komplexe Hyper-!textsortenmodule!

Hypertext-!sortenmodul 1!

Hypertext-!sortenmodule 2...n!

Optionale Hyper-!textsorten 0...n!

Obligatorische Hyper-!textsorten 0...n!

Merkmale:!•  Kommunikative Funktion!•  Kontextuelle Faktoren!•  Inhalt/Thema!•  Interaktion!•  Strukturierung!•  Kommunikation!•  Dekoration!

besitzt!

kann fungieren als!besitzt identischen Aufbau!

Merkmale:!•  Positionierung!•  Kommunikative Funktion!•  Dekoration!

besitzt!umfasst konventiona-!lisierte Vorbelegung!

wird eingebettet in oder!kann fungieren als!

Typen:!•  Inhalt/Thema!•  Interaktion!•  Kommunikation!•  Navigation!•  Metainformation!•  Dekoration!•  Textstrukturmuster!

prägen aus!

kann fungieren als!

Page 13: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 13/52!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!

Page 14: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 14/52!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Page 15: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 15/52!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt einer Arbeitsgruppe!

Page 16: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 16/52!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!Eingebettete Hypertextsorte:!Webauftritt einer Arbeitsgruppe!Eingebettete Hypertextsorte:!Persönliche Homepage eines"Wissenschaftlers!

Hypertextknotensorte:!Einstiegsseite der persönlichen!Homepage eines Wissenschaftlers!

Hypertextsortenmodul:!Kontaktinformationen!

Hypertextsortenmodul:!Foto!

Page 17: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 18: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 18/52!

Zur weiteren Methodologie!

•  Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!

•  Untersuchungsdomäne: Webauftritte von Hochschulen!

-  Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!

Page 19: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 19/52!

Web-Oberfläche der Korpusdatenbank!

•  SQL-Datenbank für Metadaten!

•  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff:!

-  Navigation & Suche im Dokumentbestand!

-  Generierung von Stichproben!

-  Benutzerabhängige und DB-getriebene Unterstützung bei der Stichprobenanalyse!

Page 20: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 20/52!

Zur weiteren Methodologie!

•  Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!

•  Untersuchungsdomäne: Webauftritte von Hochschulen!

-  Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!

•  Methode: Stichprobenanalysen auf Basis des Hypertextsortenmodells!

1.  Erstellung von Profilen für ausgewählte Hypertextsorten!

2.  Sammlung von Hypertextsorten!

•  Integration der Ergebnisse in einer maschinenlesbaren Repräsentation!

•  Erstellung und teilweise Implementierung einer Architektur für die automatische Identifizierung von Hypertextsorten!

Page 21: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank !

•  Hypertextsorten – Beispiele!•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 22: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 22/52!

Hypertextsorten – Ein Beispiel!

•  Ein sehr interessanter Hypertexttyp: Persönliche Homepage!

•  Mittlerweile existieren subgenerische Varianten, z.B.!

-  Persönliche Homepage eines Studierenden!

-  Persönliche Homepage eines Wissenschaftlers!

!  Enthält z.B. die Hypertextsortenmodule: Name (der dargestellten Person), Kontaktinformationen, Publikationsliste, Liste aktueller Projekte, ...!

•  Analyse einer Stichprobe von 100 zufällig ausgewählten Instanzen!

Page 23: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 23/52!

Persönliche Homepage eines Wissenschaftlers!

Page 24: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 24/52!

Hypertextsortenmodul: Kontaktinformationen!

Page 25: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 25/52!

Hypertextsortenmodul: Biografische Informationen!

Page 26: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 26/52!

Ebene! Bezeichnung des Hypertextsortenmoduls! Status! Vorkommen! Häufigkeit!

Atomares Modul! Explizite Begrüßung! generell! optional! 14!

Komplexes Modul! Identifikation! generell! obligatorisch! –!

Komplexes Modul! Eigenständige Affiliation! generell! obligatorisch! –!

Atomares Modul! Alternative Sprachversion! generell! optional! 75!

Komplexes Modul! Kontaktinformationen! generell! obligatorisch! –!

Komplexes Modul! Kontaktinformationen (Sekretariat)! spezifisch! optional! –!

Komplexes Modul! Kontaktinformationen (Mitarbeiter)! spezifisch! optional! –!

Komplexes Modul! Universitäres Profil! spezifisch! optional! –!

Komplexes Modul! Wissenschaftliches Profil! spezifisch! obligatorisch! –!

Atomares Modul! Lebenslauf, C.V., biografische Angaben! generell! obligatorisch! 60!

Atomares Modul! Interessante Links! generell! optional! 12!

Komplexes Modul! Relevante Links! generell! optional! –!

Atomares Modul! Angabe der letzten Änderung / Stand! universal! optional! 42!

Atomares Modul! Counter, Zugriffszähler! universal! optional! 11!

Atomares Modul! Gästebuch! universal! optional! 1!

Modellierung einer Hypertextsorte (Ausschnitt)!

Page 27: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 27/52!

Ausprägungen persönlicher Homepages von Wissenschaftlern!

Rudimentäre Ausprägung!

Typische Ausprägung!

Ausführliche Ausprägung!

Page 28: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 29: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 29/52!

Sammlung von Hypertextsorten!

•  Kein Konsens bezüglich Anzahl und Granularität von Hypertextsorten!

•  Analyse 750 zufällig ausgewählter, tief eingebetteter Dokumente:!

!a) zugehörige Hypertextsorte, b) Hypertextknotensorte!

•  Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der maschinellen Identifizierung von Hypertextsorten:!

a)  65 Hypertexttypen bzw. -sorten!

!  6 Hypertexttypen besitzen 53 Subtypen (= Hypertextsorten)!

b)  114 Hypertextknotentypen bzw. -sorten!

!  10 Hypertextknotentypen besitzen 54 Subtypen (= Hypertextknotensorten)!

!  Ca. 67% gehören zu den universitären Textsorten.!

!  Ca. 34% basieren auf den unterschiedlichsten Gebrauchstextsorten (ca. 20%) oder neuen Hypertextsorten (ca. 14%)!

Page 30: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 30/52!

Die Hypertextsorten im Überblick!!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveranstaltung (4; 13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. Forschungsbericht, Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studierendenstatistik; 37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41. Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55. Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (für Studien­ und Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel zu einer Sportveranstaltung; 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel!

!

Page 31: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 31/52!

Die Hypertextknotensorten im Überblick (Ausschnitt)!!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8. Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6; 2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit) (1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20. Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24. Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­Mail; 28. Kontaktinformationen; 29. Kurzdarstellung einer Organisationseinheit (Funktionen und Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext) (0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33. Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38. Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Construction“­Hinweis; 45. Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufgabenstellung für eine Haus­ oder Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung/Veranstaltung; 49. Download­Liste (multimediale Ressourcen); 50. Kommentar einer Lehrveranstaltung !

!!

Page 32: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 32/52!

Spezialisierte Hypertextknotensorten!

•  Erschweren die maschinelle Verarbeitung: Hochgradig spezialisierte Hypertextsorten und Hypertextknotensorten (Fachinformationen).!

•  Zwei vollständig reproduzierte Beispiele:!Medizinische Diagnoseprozedur!Kerndaten eines historischen Bauwerks!

Page 33: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 33/52!

Problemfälle: Zuordnung nicht möglich!

Zugehörige Hypertextsorte:!Virtuelles Museum!

Zugehörige Hypertextsorte: !Webangebot einer Lehrveranstaltung!

Zugehörige Hypertextsorte:!Webauftritt einer Professur !bzw. Arbeitsgruppe!

Zugehörige Hypertextsorte: !Kunst- und Kulturprojekt!(„Ein Friedhof senkrecht in den Himmel“)!!!

Basiert vermutlich auf !der Broschüre des Vereins!„Interkultureller Rat in!Deutschland e.V.“!!Umfasst u.a. Instanzen der!folgenden Textsorten:!

• Gesetzestext!• Aufruf!• Vorstellungstext!• Adressliste!• Telefonverzeichnis!• Impressum!• Produktkatalog!

Page 34: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 35: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 35/52!

Repräsentation von Hypertextsorten durch Ontologien!

•  Teilziel: Konstruktion einer Ontologie von Hypertextsorten als Ressource für sprachtechnologische Anwendungen!

•  Datengrundlage:!

1.  Initiale Stichprobe (200 zufällig ausgewählte Dokumente) !

2.  top-down-Stichprobe (727 Dokumente der obersten Linkebene der Einstiegsseiten von 35 im Korpus enthaltenen Universitäten)!

3.  bottom-up-Stichprobe (750 tief eingebettete Dokumente)!

4.  Drei weitere Stichproben zu unterschiedlichen Typen persönlicher Homepages (insgesamt ca. 1500 Dokumente)!

•  Modellierung in der Web Ontology Language (OWL)!

Page 36: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 36/52!

Integration von drei unterschiedlichen Ontologien!

Hypertextsortenontologie!

Domänenontologie!Ontologie wissenschaftlicher!Themen und Fachgebiete!

Hypertexttypen und!Hypertextsorten!

Hypertextknotentypen und!Hypertextknotensorten!

Hypertextsortenmodule!

beschreibt!

UDK (Kategorienbaum!des Projekts GERHARD;!

ca. 25.000 Klassen)!

Mehrere Datenquellen!(z.B. Hochschulgesetze;!ca. 400 Klassen und 200

Relationen)!

Hypertext-sortenmodell!

Stichproben-analysen!

referenziert!

Page 37: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 37/52!

Die Hypertextsortenontologie!

das Hypertext-!sortenmodell!

in abstrakter Form!

das Hypertext-!sortenmodell!

als OWL-Ontologie!(Ausschnitt)!

Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!

Page 38: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 38/52!

Die Hypertextsortenontologie!

Referenzierung aller potentiellen Emittenten,!die in der Domänenontologie repräsentiert werden!

In diesen Visualisierungen fehlen u.a.:!

•  Datatype Propertys!•  Spezifikationen der Relationen!•  RDF-Annotationen!

Page 39: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 39/52!

Die Hypertextsortenontologie!

Hypertexttyp: Software-Dokumentation!

•  Umfasst vier Hypertextsorten!

•  Ihre Definitionen referenzieren spezifische Subklassen von Hypertextknotentyp

•  Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert!

•  domain:SubjectArea bezeichnet die Ontologie wissenschaftlicher Themen/Fachgebiete!

Page 40: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 40/52!

Die Hypertextsortenontologie!

Typologie des Hypertexttyps!

Homepage einer Person!

Page 41: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 41/52!

OWL-Ontologien und Dokumentgrammatiken!

•  Kein XML-Standard zur Repräsentation multipler Dokumentgrammatiken!

•  OWL bietet sich für diesen Zweck an:!

-  Hypertextsortenontologie: Oberhalb der Ebene einzelner DTDs!

-  DTDs können über Annotationen/RDF-Propertys integriert werden!

-  Hypertextsortenontologie sollte als Sammlung von Dokument-grammatiken fungieren können:!

!  Maschinelle Identifizierung der Hypertextsorte eines HTML-Hypertextes!

!  Kompilierung der zugehörigen Dokumentgrammatik (z.B. DTD PHEW)!

!  Abbildung auf Hypertextsortenmodule und Hypertextknotensorten!

!  Konvertierung des gegebenen Hypertextes von HTML nach XML (gemäß PHEW)!

Page 42: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!•  Schlussfolgerungen!

Page 43: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 43/52!

Kritische Anmerkungen zum Status Quo!

•  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich.!

•  Es liegen jedoch mehrere Problemkreise vor, z.B.:!

1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder textlinguistisch noch empirisch motiviert.!

2.  Mangelnde theoretische Fundierung – Die Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung der traditionellen Verfahren auf das WWW).!

3.  Das einzelne HTML-Dokument als atomare Analyseeinheit – Die realen Gegebenheiten im World Wide Web werden ignoriert.!

4.  Die verwendeten Methoden und ihre Skalierbarkeit – Können mit ihnen auch die 150+ Hypertextknotensorten der fünften Stichprobe verarbeitet werden?!

Page 44: Hypertextsorten: Definition – Struktur – Klassifikation

Systemarchitektur!(partiell implementiert)!

Page 45: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 45/52!

Der Textparser für generische HTML-Dokumente!

•  Prämisse: Konvertierung von HTML nach XHTML (d.h. XML)!

•  Mehrstufige, rekursive Verarbeitung der DOM-Struktur!

-  Analyse der struktur- und layoutorientierten Elemente und Attribute !

-  Problem: tag abuse!

•  Ziele:!

-  Ermittlung der Bausteine der Textoberfläche!

-  Reduktion des meist sehr komplexen HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen!

-  Abbildung dieser Bausteine auf Hypertextsortenmodule!

Page 46: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 46/52!

Das Document Object Model (DOM)!

Page 47: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 47/52!

Der Textparser für generische HTML-Dokumente!

•  Perl (benutzt XML::LibXML, also DOM Level 2 und XPath)!

•  Rekursive Funktionen beginnen Analyse bei Wurzel (<html>):!

-  Berechnung von Merkmalen für alle Teilbäume, z.B.:!

!  Hyperlink-Analyse (external, samedomain, internal)!!  Analyse von Listen-Strukturen!

!  Analyse eingebetteter Grafiken (Abmessungen, Werbebanner, Separatoren)!

!  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter!

•  Ergebnisse werden innerhalb des Dokuments abgelegt !

-  Neuer Namensraum: hypnotic (Analyse-DTD in der Architektur)!

-  Vergrößert ein Dokument etwa um den Faktor 25!

-  Ermöglicht Meta-Ansicht und Partitionierung eines Dokuments!

-  Visualisierung innerhalb der Web-Oberfläche! Video 1, Video 2 !

Page 48: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 48/52!

Ausblick – Informationsextraktion!

•  Wrapping:!

-  Informationsextraktion aus genau einem HTML-Dokument-Typ"(z.B. Yahoo!-Newsticker-Seiten)!

•  Wrapping ist sehr unflexibel, daher:!

-  Hypertextsorten-getriebene Informationsextraktion!

-  Idee: Integration aller Ressourcen in die Hypertextsortenontologie!

-  Sie erfüllt mehrere Funktionen parallel:!

!  Modelliert die Konstituenten von Hypertextsorten!

!  Dient als Grundlage für Dokumentgrammatiken!

!  Enthält Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper, DTD-Fragmente, statistische Daten, Schlüsselwörter)!

Page 49: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 49/52!

Ausblick – Informationsextraktion!

Page 50: Hypertextsorten: Definition – Struktur – Klassifikation

Gliederung!

•  Motivation und Forschungsfragen!

•  Zur Entwicklung von Hypertextsorten!

•  Das Hypertextsortenmodell!

•  Die Korpusdatenbank!•  Hypertextsorten – Beispiele!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 51: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 51/52!

Perspektiven!

•  Hypertextsorten in der Sprach- und Informationstechnologie:!

-  Filterung in Suchmaschinen!

-  Generische Informationsextraktion!

-  Metadatenvokabulare (z.B. in Dublin Core)!

-  Webdesign (z.B. Hypertextsorten als empirisch gestützte und mit Hilfe der Ontologie konstruierte Templates für einen HTML-Editor)!

-  (Korpus)linguistische Analysen (zur Systematisierung des �Web as Corpus�-Ansatzes)!

-  Sprachtechnologische Anwendungen (z.B. Textzusammenfassen und Anpassung von HTML-Dokumenten an mobile Endgeräte)!

Page 52: Hypertextsorten: Definition – Struktur – Klassifikation

Hypertextsorten: Definition – Struktur – Klassifikation! 52/52!

Schlussfolgerungen!

•  Einige Hypertextsorten sind äußerst konventionalisiert "(z.B. die persönliche Homepage eines Wissenschaftlers).!

•  Hypertextsorten werden nur sehr punktuell in sprachtechnologischen Systemen zur Verarbeitung von HTML-Dokumenten eingesetzt.!

•  Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!

•  Übergreifende Probleme verhindern dies (zurzeit) noch. Hierzu zählen:!

-  Problematik eines WWW-weit gültigen Inventars von Hypertextsorten:!

!  Bestimmung nur manuell und empirisch möglich (Stichprobenanalysen)!

!  Ermittlung aller Hypertextsorten im WWW ist nicht realistisch"(im WWW existieren beliebige traditionelle Textsorten, kulturelle Besonderheiten, spezifische Diskursgemeinschaften etc.)!

-  Maschinelle Bestimmung der Grenzen von Hypertexten!

-  Maschinelle Bestimmung von Hypertextsortenmodulen!