INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Ähnlichkeitsbestimmungwissenschaftlicher Publikationen

Nicolas Schelp

CRITIC: Near Copy Detectionin large text corpora

Tobias Varlemann

INSPIRE: Insight to Scientific Publicationsand References

Adrian Wilke

27. Juni 2013

Schelp - Varlemann - Wilke 1


Motivation - Projektgruppe




I Datenhaltung in einer MySQL Datenbank→ nicht verteilt→ begrenzte Speicherkapazität→ Zugriffszeiten

I Datenaufbereitung zentralisiert auf einem Server→ nicht skalierend→ lange Laufzeiten

I Ähnlichkeiten zwischen Publikationen nur ausClusteranalyse abgeleitet

I Ergebnisse der Ähnlichkeitsbestimmung nichtinterpretierbar→ Welche Dokumente sind zu ähnlich?→ Welche passen inhaltlich nicht zum Korpus?→ Wann handelt es sich um Plagiate?




I Clusteranalyse wurde vorberechnet→ Bei neuen Dokumenten nicht erweiterbar

I Keine verteilte Berechnung des Dokumenten-Netzwerks(Publikationen und Referenzen)→ lange Laufzeiten

I Relativ schlechte Datenqualität bei der Extraktion derBibliometriken

I Vorschläge nur rudimentär aus der Clusteranalyse→ Keine Empfehlungen anhand der Bibliometriken



Motivation - HCPA Computercluster

17 Slaves96 Prozessorkerne

248GB Arbeitsspeicher102TB Festplattenkapazität

+ Master (64GB RAM)+ NAS (5,4TB)



Grundlagen



Big Data

I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.

I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.

I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert

Rechenkerne.



Big Data




Rechenkerne.



Big Data



I Neue Wege für die Verarbeitung dieser Daten.

I Spezielle Frameworks für die Skalierung auf viele hundertRechenkerne.



Big Data




Rechenkerne.



Batch- / Streamverarbeitung












Hadoop / MapReduce

Reducer PhaseShuffle and SortMapper PhaseInputsplit

Tasktrackernode 2

Tasktrackernode 1

BlockA

Map

BlockB

Map

BlockC

Map

BlockD

Map

ReduceBlock

A

ReduceBlock

A

K V

K V

K V

K V

Inputfile

Outputfile



Storm



Feste Kommunikationskanäle in Storm

I Feste Zuordnung von Knoten zu Channels

I Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten




I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe Pattern

I Lose Kopplung einzelner Komponenten




I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten



HBase

I verteilte DatenhaltungI nicht-rationalI Terabytes – Petabytes

I Zeilen: RowkeysI Zeilen in Regionen

zusammengefasst



HBase: Datenlokatität vs. Verteilung



Extraktion Metadaten



CRITIC: Near Copy Detection in large textcorpora



CRITIC Motivation

http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki


http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki


CRITIC Motivation

http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de


http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de


Was ist ein Plagiat?
















Ein Plagiat umfasst unter anderem die Unterlassungvon geeigneten Quellenhinweisen bei der Verwendungder Formulierungen oder besonderen Wortwahl einesanderen, der Zusammenfassung der Argumente vonanderen oder die Darstellung vom Gedankengangeines anderen.

Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)



CRITIC Aufgabenstellung

Unterschied Plagiatesfindung und NCD

I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)

Formen von Textübernahmen

I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten




Unterschied Plagiatesfindung und NCD

I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)

Formen von Textübernahmen

I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten




Intrinsische Algorithmen

I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher

Schreibstile

Extrinsische Algorithmen

I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset




Intrinsische Algorithmen

I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher

Schreibstile

Extrinsische Algorithmen

I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset



Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.












Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung

W1 W2 W3 W4 W5

Ziel Wort




W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11




W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11

Bedeutungsscore




W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11

Bedeutungsscore



CRITIC UmsetzungFuzzyset NCD

ToolsMapred

Tools-Driver HBaseUser

5.4: writeNCDData

5.3: CalculateNCD5.2: Data

5.1: getData

5: updateNCD

4: writeMISCData

3.1: Texts

3: getTexts2.6: MISC

2.5.3: writeWordnet

2.5.2: TextsPOS Lemata

2.5.1: getTextsgetPOS getLemata

2.5: Wordnet

2.4.3: writeLemata

2.4.2: Texts

2.4.1: getTexts

2.4: Lemmatize

2.3.3: writePOS

2.3.2: Texts

2.3.1: getTexts2.3: POS

2.2.3: writeTexts

2.2.2: PDFs

2.2.1: getPDFs

2.2: PDF2TXT

2.1:

2: Preprocess PDFs

1: Upload PDFs



CRITIC Umsetzung

CalculateFuzzyset NCDSimilarity

Write Results

ChooseCandidate



CRITIC Umsetzung

Job1_1

Job1_2

Job1_3Job1_4

Job2_1

Job3_1

Job3_2

Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1

<<datastore>>

Sentence Table

<<datastore>>NewSentenceSequencefile

<<datastore>>NewDocuments

Sequencefile

<<datastore>>sourceSentences

BDB

<<datastore>>

WordLookup Table

<<datastore>>Job1_3

SequenceFile

<<datastore>>targetSentences

BDB

<<datastore>>

Document Table

<<datastore>>SentenceSimSequencefile

<<datastore>>DocSentSimSequencefile

<<datastore>>

Block Sequencefile

sentence

<<datastore>>

DocSim Table

<<datastore>>

SimDoc Table

<<datastore>>

DocDocBlock Table

Job 4_2_2

<<datastore>>DocDocSim

Sequencefile

Calculate

Prepare

Write

Lookup

get

write



INSPIRE: Insight to Scientific Publicationsand ReferencesVerteilte Berechnung von Bibliometriken auf großen Datenmengen



5-Phasen-Modell

XML

JSON

TupelPDF

PDF, txt

XML

JSON

Tupel

PDF, txt

Schreibender Zugriff

Lesender Zugriff

MySQL

Konvertierung

Extraktion Integration

Deduplikation

PräsentationDateisystem

HBase

1

2 3

4

5



Phase 1: Konvertierung

Eingabe > 650.000 PDF-DateienZiel Datenaufbereitung: Eingabeformat für Extraktion

Ausgabe Volltexte



Phase 2: Extraktion

Eingabe Datensätze als Volltexte und PDFZiel Extraktion von Metadaten

Berechnung Software: ParsCit, GROBIDAusgabe Metadaten in 3 XML-Formaten

Auszug: GROBID Header<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning</title> [...]<author><persName><forename type="first">Johannes</forename><surname>Magenheim</surname>

</persName><affiliation><orgName type="institution">University of Paderborn</orgName><address><country key="DE">Germany</country></address>

</affiliation></author>



Phase 2→3: XML Felder zur Identifikation

Tabelle: ParCit 11 Mio. Ref.

Schlüssel Anzahl %

rawString 11.023.889 1,00marker 11.023.889 1,00context 10.695.648 0,97author 10.523.513 0,95date 10.378.402 0,94title 9.361.532 0,85pages 7.765.207 0,70journal 6.838.383 0,62volume 6.776.944 0,61location 2.319.741 0,21booktitle 1.519.236 0,14publisher 1.354.680 0,12issue 888.605 0,08institution 359.638 0,03note 318.288 0,03editor 311.625 0,03tech 146.817 0,01

Tabelle: GROBID 2 Mio. Ref.

Schlüssel Anzahl %

title 2.110.480 1,00surname 1.897.603 0,90date 1.894.521 0,90forename 1.703.017 0,81biblScope 1.683.384 0,80publisher 209.928 0,10pubPlace 143.760 0,07address 90.667 0,04editor 63.894 0,03note 45.233 0,02



Phase 3: Integration

Eingabe Metadaten in 3 unterschiedlichen XML-FormatenZiel Zusammenführung für jede Publikation

Ausgabe Metadaten im JSON-Format

Levenshtein-Distanz:Minimale Anzahl der OperationenEinfügen, Löschen und Ersetzenvon Zeichen



Phase 3: Integration und Normalisierung

1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung

2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)

3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)und (u¨, ue)

4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“

5. Entferne alle diakritischen Zeichen

6. Ersetze das Zeichen (ß, ss)

7. Entferne alle Zeichen außer Buchstanben, Zahlen und demLeerzeichen

8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette



Phase 3: Integration von Referenzen



Phase 4: Deduplikation

Eingabe Metadaten im JSON-FormatZiel Aufbau des Dokumenten-Netzwerks

Ausgabe Graph der Publikationen und Referenzierungen



Phase 5: Präsentation

Eingabe Dokumenten-NetzwerkZiel Berechnung vom Literaturempfehlungen

Ausgabe Listen mit verlinkten Ergebnissen



Bibliometrie

BibliografischeKopplung(Kessler 1963)

I Fester Wert

I Im Beispiel:BK (A,B) = 3

KozitationSmall (1973) undMarshakova (1973)

I Wert wächst

I Im Beispiel:K (A,B) = 3

Z

Y

X

A B

Z

Y

X

A B



Bibliometrie: Distanz von ZitationenIn-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)

Citation Proximity Analysis (CPA) Gipp & Beel (2009)

Distanz-Klasse Gewichtung

Gleiches Dokument 1Gleicher Abschnitt 2Gleicher Absatz 3Gleicher Satz 4Gleiche Markierung [1,2] 5



Bibliometrie: Beipiel zur Distanz von Zitationen



Ähnlichkeitsbestimmung

[...]



Ergebnisse

[...]



Datenhaltung Dokumentengraph

Kandidaten

I Neo4j, eine Not only SQL (NoSQL) GraphdatenbankI Titan, eine verteilte Graphdatenbank

mit Verwendung von HBase als BackendI MySQL, als Vertreter relationaler Datenbanken

Auswahl

Methode BenchmarkFokus Live-Berechnung Literaturempfehlungen



Benchmark 1: Aufbau Netzwerk & Bibliometriken

1

10

100

1000

10000

100000

0 2 4 6 8 10 12 14 16 18 20

Durc

hsc

hnit

tlic

he Z

eit

für

Bere

chnung

(m

s)

Anzahl der Knoten im Netzwerk (Mio.)

Bibliografische Kopplung MySQLKozitation MySQL

Bibliografische Kopplung Neo4jKozitation Neo4j

Bibliografische Kopplung TitanKozitation Titan



Benchmark 2: Parallele AnfragenAuswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20

0

1000

2000

3000

4000

5000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)

Bibliografische KopplungKozitation

0

1000

2000

3000

4000

5000

6000

7000

8000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)


0

500

1000

1500

2000

2500

3000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)


0

500

1000

1500

2000

2500

3000

3500

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)




Ergebnisse: Demonstration des Frontends



Vielen Dank für Ihre Aufmerksamkeit.

Fragen?


Technology

INSPIRE: Insight to Scientific Publications and References