22
Objektidentifikation Objektidentifikation Tommy Hielscher 10.12.2009 1 Tommy Hielscher 10.12.2009

Tommy Hielscher 10.12vkoeppen/Vortraege/Hielscher.pdf · 2009. 12. 9. · Objektidenti kation Ablauf Objektidenti kation Vorauswahl Vorauswahl Vergleich aller Datens atze unpraktikabel

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Objektidentifikation

    Objektidentifikation

    Tommy Hielscher

    10.12.2009

    1 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Gliederung

    1 Begriffe

    2 Forschungsschwerpunkte

    3 Motivation

    4 Ablauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung

    5 Ausblick

    6 Zusammenfassung

    7 Quellenangabe

    2 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Begriffe

    Begriffe

    Objektidentifikation

    erkennen von Daten des gleichen Objektes

    Identifizierung trotz nicht eindeutiger oder fehlerhafterAttribute

    Datenqualität

    viele Definitionen(“fitness for use”)

    subjektiv: abhängig vom Kontext, Nutzer...

    Datenqualität + Objektidentifikation

    Identifikation abhängig von Datenqualität

    Verbesserung der Datenqualität durch Identifikation

    3 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Forschungsschwerpunkte

    Forschungsschwerpunkte

    Welches Ziel soll erreicht werden?

    Zusammenführen großer Datenbestände

    Bereinigung eines Datenbestandes

    4 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Motivation

    Motivation

    Zusammenführen der Informationen aus mehreren Quellen:

    integrierte Bibliothekskatalogemedizinische Datenbanken

    Verbesserung der Datenqualität / Datenbereinigung

    monetäre Vorteile

    Aber:

    Rentabilität

    nicht perfekt

    5 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Grundidee

    Beschränkung auf Objektidentifikation in relationalenDatenbanken

    Zusammenfassung zu vergleichender Datensätze zuDatensatzpaare

    Duplikate

    Datensätze die gleiches Realweltobjekt repräsentieren

    6 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vorauswahl

    Vorauswahl

    Vergleich aller Datensätze unpraktikabel

    Bsp.: Zwei Datenbanken mit jeweils 100.000 Datensätzen→ 1010DatensatzpaareLösung:

    Vorauswahl von sinnvollen Datensätzen durch Partitionierung

    7 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Objektidentifikation in drei Schritten

    Objektidentifikation in drei Schritten

    1 KonversionStandardisierungTransformation der Daten in einheitliches Schema

    2 VergleichVergleich von Datensatzpaaren

    3 KlassifikationEntscheidung Duplikat / nicht-Duplikat

    8 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung

    Beispiele für erforderliche Standardisierung:

    Spitznamen (Thomas, Tommy)

    Eingabefehler (James, Jarnes, Jamew)

    gleich klingende Schreibweisen (Mathias, Matthias)

    Abkürzungen (Straße, Str.)

    Lösung:

    Ersetzen verschiedener Schreibweisen durch eine Schreibweise

    9 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung - Möglichkeiten 1

    Kodierungsalgorithmen

    Vorbereitung:

    String zerlegennicht-Buchstaben entfernenin Kleinbuchstaben konvertieren

    Wort wird kodiert

    Ziel:

    gleiche Kodierung unterschiedlicher Namendes selben Objekts

    10 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung - Möglichkeiten 2

    Kataloge:

    Regelwerk zur Zuordnung von Namen

    abhängig von Region

    Probleme:

    Eingabefehler werden nicht erkannt

    Kataloge nicht vollständig

    11 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Konvertierung

    Schema

    einheitlich

    verlustfrei

    Abbildung: Schemata Überführung

    Identifikationsattribute

    je nach Anwendungsfall

    12 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Vergleich & Klassifikation Überblick

    Realisierung von genutzten Methoden abhängig

    → Vergleich + Klassifikation untrennbar

    Record Linkage

    Entscheidungsregeln

    String Comparators + Gleichheitsmaße

    Probabilistisches Modell

    13 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Entscheidungsregeln

    Regeln zur Klassifizierung der Datensatzpaare

    Vorteile:

    schnell entwickelt

    können zu guten Ergebnissen führen

    Nachteile:

    basieren meist auf Erfahrungswerte

    schlechte Regeln führen zu falschen Klassifikationen

    14 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Beispiel Entscheidungsregel

    If the pair agrees on a specific three characteristics oragrees on four or more within a set of five characteristics,designate the pair as a link; else if the pair agrees on aspecific two characteristics, designate the pair as apossible link; else designate the pair as a nonlink.

    [William E. Winkler, Matching And Record Linkage]

    15 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    String Comparators & Gleichheitsmaße

    Vergleich von Strings nicht ohne weiteres möglich

    Problem:

    Eingabefehler in ansonsten identischen Zeichenketten

    Lösung:

    Funktionen zur Berechnung der partiellen Gleichheit

    16 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Evaluierung

    Partitionierung der Ergebnisse

    Abbildung: Einteilung der Ergebnisse

    17 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Evaluierung

    Evaluierungsgrößen

    Precision

    Anteil echter Duplikate unter den Gefundenen

    = true positives/(true positives + false positives)

    Recall

    Anteil gefundener Duplikate unter allen Duplikaten

    = true positives/(true positives + false negatives)

    F-Measure

    harmonisches Mittel

    Optimierungsziel

    = 2(2 ∗ recall ∗ precision)/(recall + precision)

    18 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ausblick

    Ausblick

    weitere Herausforderungen:

    Automatisierung + Verbesserung vonObjektidentifizierungsmethoden

    neue Blockingansätze

    Spezialmethoden für bestimmte Anwendungsfälle

    19 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Zusammenfassung

    Zusammenfassung

    Objektidentifikation wichtig für Datenintegration und DataCleaning

    Konversion, Vergleich, Klassifikation

    außerdem: Vorauswahl + Evaluierung

    wachsendes Forschungsgebiet

    20 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Quellenangabe

    Quellen

    Neiling, M.: “Identifizierung von Realwelt-Objekten in multiplenDatenbanken”, 2004 TU-Cottbus

    Sattler, Kai-Uwe: “Datenqualität - eine datenbankorientierte Sichtweise”,2005 TU-Ilmenau

    Winkler, William E.: “Methods and Analyses for Determining DataQuality”, 2005 in ACM Workshop on Information Quality in InformationSystems

    Winkler, William E.: “Methods for evaluating and creating data quality”,2004 US Bureau of the Census

    21 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Quellenangabe

    Quellen

    Winkler, William E.: “Overview of Record Linkage and Current ResearchDirections”, 2006 US Bureau of the Census

    Wilson, D. Randal: “Name Standardization for Genealogical Record

    Linkage”, 2005 The Church of Jesus Christ of Latter-day Saints

    22 Tommy Hielscher 10.12.2009

    BegriffeForschungsschwerpunkteMotivationAblauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung

    AusblickZusammenfassungQuellenangabe