Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus ›...

Preview:

Citation preview

Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in

CONTENTUS

Überblick

• Hintergrund und Motivation

• Der CONTENTUS‐Ansatz

• Inhaltsanalyse y

• Semantische Verknüpfung

• Zusammenfassung• Zusammenfassung

2

Hintergrund

• XN T h l i fü d I t t d Di t “– „Neue Technologien für das Internet der Dienste“

– Gefördert durch das Bundesministerium für Wirtschaft und Technologie

– Konsortium von ca. 60 Partnern aus Industrie und Forschungg

• X NTENTUSCONTENTUSCO

– „Use Case“ in THESEUS

– Technologien für multimediale Archive der nächsten Generation

3

Motivation

• Viele, umfangreiche multimediale Archive, z.B. in:– Bibliotheken, Museen

Sendeanstalten Medienarchiven– Sendeanstalten, Medienarchiven– Onlinearchive

• Großes Potential: Inhalte…– nachzunutzen, an Kunden zu verkaufen– Interessierten bereitstellen

• Typische Probleme bei der Nutzungyp g– Medien analoger Form kaum nachnutzbar– Medien vom Zerfall bedroht– Qualitätsprobleme – Inhalte schlecht beschrieben– Zum Teil gewaltiger Umfang der Archive erschwert Suche– Sinnzusammenhänge zwischen Inhalten sind unklar

4

Medienzerfall 

• UrsachenU h äß L– Unsachgemäße Lagerung

– Materialermüdung

• Auswirkungen (Beispiele)– Print: Ausbleichen, Zersetzung durch Säure

– Film: Kratzer, Verschmutzungen, Verzerrungen

– Magnetbänder: Drop‐outs

– Optische Medien: Zersetzung der Beschichtungen

5

Herausforderung Digitalisierung

• Möglicher QualitätsverlustU i t H d– Ungeeignete Hardware

– Fehlerhafte Einstellungen

– Mangelndes Qualitätsbewusstseing Q

• Ziele– Rationalisierung des Digitalisierungsvorgangs durch Teilautomatisierung der Qualitätsüberwachung

K ti i li h Q lität üf äh d d A ft– Kontinuierliche Qualitätsprüfung während des Auftrags

6

Metadaten

• Für die spätere Nutzung entscheidendS h– Suche

– Abgrenzung von Medien

– Semantische Verknüpfungenp g

• Mögliche Probleme– Metadaten nicht immer vorhanden / vollständig

– Erschließung zeitaufwändig und fehleranfällig

– Interkompatibilität von Metadatenquellen• Vokabular, Datenformate, Methodik / Regelwerk

7

Zugriff und Nutzung

• Einschränkungen gegenwärtiger Suchansätze N b di t i t fü lti di l I h lt– Nur bedingt geeignet für multimediale Inhalte

– Suche und Zugriff oft getrennt

– Zusammenhänge zwischen Medien oft nicht transparentg p

• Zusätzliche Herausforderungeng– Rechtliche Probleme

– Daten ohne Metadaten kaum zu finden

8

9

1 2 3 4 5 6

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadata

OpenKnowledge

SemanticMultimediag Q y

Control Analysis Linkingg

Networks Search

medienspezifisch medienübergreifend

10

1 2

DigitizationAutomatic

Qualityg Q yControl

11

Qualitätskontrolle

• Oftmals notwendigAusgangsmedien sind u U schon im Verfall– Ausgangsmedien sind u.U. schon im Verfall

– Digitalisierung kann selbst Qualitätsprobleme verursachen– Entscheidend für weitere Verarbeitung (Inhaltsanalyse)Entscheidend für weitere Verarbeitung (Inhaltsanalyse)

• Ziele: Automatisierung und EffizienzZiele: Automatisierung und Effizienz– Manuelle Qualitätskontrolle ist teuer (Zeit/Kosten)– Archive sind u.U. zu groß für manuelle Verarbeitung

12

Quality Control: De‐Warping

13

Quality Control: Scratch Removal Defect automatically

detected

Defect automatically removed

14

1 2 3

DigitizationAutomatic

QualityAutomaticContentg Q y

Control Analysis

medienspezifisch

15

Inhaltsanalyse

• Digitalisierung reicht nicht– Was enthalten die Medien?Was enthalten die Medien?

• Beschreibende Metadaten helfen bei Suche und Zugriff– Zielgerichtete Suche – Für Unterscheidung ähnlicher Inhalte wichtig

• Ziel: Automatisierung– Manuelle Analyse ist aufwändig: Manuelle Analyse ist aufwändig:

ca. 4-10 Stunden Arbeit für 1 Stunde audiovisuellen Inhalts

16

Inhaltsanalyse: Ablauf am Beispiel Print

Digitalisat Struktur-erkennung

OCR Entitäten-erkennung &g gKlassifikation

17

Inhaltsanalyse: Segmentierung von Seiten

• Automatische Identifikation von– Artikeln

– Überschriften

– Bildern, Bildunterschriften

– Lesereihenfolge

• Wichtig für die Suche

18

Inhaltsanalyse: Entity Recognition

• Identifikation von Bedeutungen, Unterscheidung von Entitäten

Über Kohl höhnte Strauß: „Er wird nie Kanzler werden“. Die Zeit, 18.7.08

AutomatischeKlassifikation durch Vergleich

it t Q ll

Genauigkeit Trefferquote F-Maß

Personen 92.06% (89.4%) 88.85% (88.4%) 90.42% (88.9%)

Orte 90.74% (80.2%) 86.21% (71.6%) 88.42% (75.7%)

» Analyse der Wortumgebung und -kontext“Kohl” in einem Satz mit “Kanzler” → vermutlich eine Person

mit externen Quellen (z.B. Wikipedia)Organisationen 85.81% (79.4%) 74.59% (54.5%) 78.71% (64.6%)

» Kohl” in einem Satz mit Kanzler” → vermutlich eine Person» “Kohl” in einem Satz mit “kochen” → eher ein Gemüse

19

Inhaltsanalyse: Disambiguierung

Michael Müller (SPD)

SPD-Fraktionschef Michael Müller ist erneut in seinem Amt bestätigt worden. (www.berlinonline.de)

Michael Müller (Handballspieler)

Handball-Nationalspieler Michael Müller vom TV Großwallstadt hat sich für einen Wechsel entschieden. (www.br-online.de)

(wikipedia.de)

( p )

Das Sachverständigenbüro Michael Müller ist ein Familienunternehmen. (www.presseecho.de) Michael Müller

(wikipedia.de)

Genauigkeit Trefferquote F-MaßGenauigkeit Trefferquote F Maß

Performanz 92.64% 92.93% 92.79%

20

1 2 3 4

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadatag Q y

Control Analysis Linking

medienspezifisch medienübergreifend

21

Semantische Verknüpfungen von Metadaten

• Integration und Verknüpfung aus verschiedenen QuellenI t ll kt ll f t– Intellektuell erfasst 

– Automatisch erzeugt

– Aus externen Quellen (Internet)Q ( )

• Motivation– Integrierte Präsentation von relevanten Informationen

– Verdeutlichung der Beziehungen zwischen Medien und Entitäten

22

LübeckExterne Datenquellen

NormdatenPND

Wikipedia

2:28Von der Taufschale und vom Großvater in …5MusicBrainz

3:08Ehrbare Verfinsterung7

3:45Bei Tienappels. Und von Hans Castorps …6

23

1 2 3 4 5 6

DigitizationAutomatic

QualityAutomaticContent

SemanticMetadata

OpenKnowledge

SemanticMultimediag Q y

Control Analysis Linkingg

Networks Search

medienspezifisch medienübergreifend

24

25

26

Anzeige von erkannten Entitäten

27

CONTENTUS

• Technologien für Multimedia‐Archive der nächsten GenerationArchive der nächsten Generation

• Fokus auf automatische Verfahrenund Semantikund Semantik

• Abdeckung der gesamten Prozesskette von der Digitalisierung bis zur NutzungProzesskette von der Digitalisierung bis zur Nutzung

Automatic Automatic Semantic Open SemanticDigitization Quality

ControlContentAnalysis

MetadataLinking

KnowledgeNetworks

MultimediaSearch

28

Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in

CONTENTUS

Recommended