66
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Nicolas Schelp CRITIC: Near Copy Detection in large text corpora Tobias Varlemann INSPIRE: Insight to Scientific Publications and References Adrian Wilke 27. Juni 2013 Schelp - Varlemann - Wilke 1

INSPIRE: Insight to Scientific Publications and References

Embed Size (px)

DESCRIPTION

Ähnlichkeitsbestimmung wissenschaftlicher Publikationen CRITIC: Near Copy Detection in large text corpora INSPIRE: Insight to Scientific Publications and References

Citation preview

Page 1: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Ähnlichkeitsbestimmungwissenschaftlicher Publikationen

Nicolas Schelp

CRITIC: Near Copy Detectionin large text corpora

Tobias Varlemann

INSPIRE: Insight to Scientific Publicationsand References

Adrian Wilke

27. Juni 2013

Schelp - Varlemann - Wilke 1

Page 2: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Motivation - Projektgruppe

Schelp - Varlemann - Wilke 2

Page 3: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Motivation - Projektgruppe

I Datenhaltung in einer MySQL Datenbank→ nicht verteilt→ begrenzte Speicherkapazität→ Zugriffszeiten

I Datenaufbereitung zentralisiert auf einem Server→ nicht skalierend→ lange Laufzeiten

I Ähnlichkeiten zwischen Publikationen nur ausClusteranalyse abgeleitet

I Ergebnisse der Ähnlichkeitsbestimmung nichtinterpretierbar→ Welche Dokumente sind zu ähnlich?→ Welche passen inhaltlich nicht zum Korpus?→ Wann handelt es sich um Plagiate?

Schelp - Varlemann - Wilke 3

Page 4: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Motivation - Projektgruppe

I Clusteranalyse wurde vorberechnet→ Bei neuen Dokumenten nicht erweiterbar

I Keine verteilte Berechnung des Dokumenten-Netzwerks(Publikationen und Referenzen)→ lange Laufzeiten

I Relativ schlechte Datenqualität bei der Extraktion derBibliometriken

I Vorschläge nur rudimentär aus der Clusteranalyse→ Keine Empfehlungen anhand der Bibliometriken

Schelp - Varlemann - Wilke 4

Page 5: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Motivation - HCPA Computercluster

17 Slaves96 Prozessorkerne

248GB Arbeitsspeicher102TB Festplattenkapazität

+ Master (64GB RAM)+ NAS (5,4TB)

Schelp - Varlemann - Wilke 5

Page 6: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Grundlagen

Schelp - Varlemann - Wilke 6

Page 7: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Big Data

I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.

I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.

I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert

Rechenkerne.

Schelp - Varlemann - Wilke 7

Page 8: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Big Data

I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.

I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.

I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert

Rechenkerne.

Schelp - Varlemann - Wilke 7

Page 9: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Big Data

I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.

I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.

I Neue Wege für die Verarbeitung dieser Daten.

I Spezielle Frameworks für die Skalierung auf viele hundertRechenkerne.

Schelp - Varlemann - Wilke 7

Page 10: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Big Data

I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.

I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.

I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert

Rechenkerne.

Schelp - Varlemann - Wilke 7

Page 11: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Batch- / Streamverarbeitung

Schelp - Varlemann - Wilke 8

Page 12: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Batch- / Streamverarbeitung

Schelp - Varlemann - Wilke 8

Page 13: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Batch- / Streamverarbeitung

Schelp - Varlemann - Wilke 8

Page 14: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Batch- / Streamverarbeitung

Schelp - Varlemann - Wilke 8

Page 15: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Hadoop / MapReduce

Reducer PhaseShuffle and SortMapper PhaseInputsplit

Tasktrackernode 2

Tasktrackernode 1

BlockA

Map

BlockB

Map

BlockC

Map

BlockD

Map

ReduceBlock

A

ReduceBlock

A

K V

K V

K V

K V

Inputfile

Outputfile

Schelp - Varlemann - Wilke 9

Page 16: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Storm

Schelp - Varlemann - Wilke 10

Page 17: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Feste Kommunikationskanäle in Storm

I Feste Zuordnung von Knoten zu Channels

I Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten

Schelp - Varlemann - Wilke 11

Page 18: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Feste Kommunikationskanäle in Storm

I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe Pattern

I Lose Kopplung einzelner Komponenten

Schelp - Varlemann - Wilke 11

Page 19: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Feste Kommunikationskanäle in Storm

I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten

Schelp - Varlemann - Wilke 11

Page 20: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

HBase

I verteilte DatenhaltungI nicht-rationalI Terabytes – Petabytes

I Zeilen: RowkeysI Zeilen in Regionen

zusammengefasst

Schelp - Varlemann - Wilke 12

Page 21: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

HBase: Datenlokatität vs. Verteilung

Schelp - Varlemann - Wilke 13

Page 22: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Extraktion Metadaten

Schelp - Varlemann - Wilke 14

Page 23: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC: Near Copy Detection in large textcorpora

Schelp - Varlemann - Wilke 15

Page 24: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Motivation

http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki

Schelp - Varlemann - Wilke 16

Page 25: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Motivation

http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de

Schelp - Varlemann - Wilke 17

Page 26: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Schelp - Varlemann - Wilke 18

Page 27: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Schelp - Varlemann - Wilke 18

Page 28: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Schelp - Varlemann - Wilke 18

Page 29: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Schelp - Varlemann - Wilke 18

Page 30: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Schelp - Varlemann - Wilke 18

Page 31: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was ist ein Plagiat?

Ein Plagiat umfasst unter anderem die Unterlassungvon geeigneten Quellenhinweisen bei der Verwendungder Formulierungen oder besonderen Wortwahl einesanderen, der Zusammenfassung der Argumente vonanderen oder die Darstellung vom Gedankengangeines anderen.

Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)

Schelp - Varlemann - Wilke 19

Page 32: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Aufgabenstellung

Unterschied Plagiatesfindung und NCD

I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)

Formen von Textübernahmen

I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten

Schelp - Varlemann - Wilke 20

Page 33: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Aufgabenstellung

Unterschied Plagiatesfindung und NCD

I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)

Formen von Textübernahmen

I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten

Schelp - Varlemann - Wilke 20

Page 34: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Aufgabenstellung

Intrinsische Algorithmen

I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher

Schreibstile

Extrinsische Algorithmen

I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset

Schelp - Varlemann - Wilke 21

Page 35: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Aufgabenstellung

Intrinsische Algorithmen

I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher

Schreibstile

Extrinsische Algorithmen

I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset

Schelp - Varlemann - Wilke 21

Page 36: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.

Schelp - Varlemann - Wilke 22

Page 37: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.

Schelp - Varlemann - Wilke 22

Page 38: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.

Schelp - Varlemann - Wilke 22

Page 39: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.

Schelp - Varlemann - Wilke 22

Page 40: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung

W1 W2 W3 W4 W5

Ziel Wort

Schelp - Varlemann - Wilke 23

Page 41: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung

W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11

Schelp - Varlemann - Wilke 23

Page 42: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung

W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11

Bedeutungsscore

Schelp - Varlemann - Wilke 23

Page 43: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung

W1 W2 W3 W4 W5

Ziel Wort

B21

B32

B31

B52

B51

B43

B42

B41

B13

B12

B11

Bedeutungsscore

Schelp - Varlemann - Wilke 23

Page 44: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC UmsetzungFuzzyset NCD

ToolsMapred

Tools-Driver HBaseUser

5.4: writeNCDData

5.3: CalculateNCD5.2: Data

5.1: getData

5: updateNCD

4: writeMISCData

3.1: Texts

3: getTexts2.6: MISC

2.5.3: writeWordnet

2.5.2: TextsPOS Lemata

2.5.1: getTextsgetPOS getLemata

2.5: Wordnet

2.4.3: writeLemata

2.4.2: Texts

2.4.1: getTexts

2.4: Lemmatize

2.3.3: writePOS

2.3.2: Texts

2.3.1: getTexts2.3: POS

2.2.3: writeTexts

2.2.2: PDFs

2.2.1: getPDFs

2.2: PDF2TXT

2.1:

2: Preprocess PDFs

1: Upload PDFs

Schelp - Varlemann - Wilke 24

Page 45: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Umsetzung

CalculateFuzzyset NCDSimilarity

Write Results

ChooseCandidate

Schelp - Varlemann - Wilke 25

Page 46: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

CRITIC Umsetzung

Job1_1

Job1_2

Job1_3Job1_4

Job2_1

Job3_1

Job3_2

Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1

<<datastore>>

Sentence Table

<<datastore>>NewSentenceSequencefile

<<datastore>>NewDocuments

Sequencefile

<<datastore>>sourceSentences

BDB

<<datastore>>

WordLookup Table

<<datastore>>Job1_3

SequenceFile

<<datastore>>targetSentences

BDB

<<datastore>>

Document Table

<<datastore>>SentenceSimSequencefile

<<datastore>>DocSentSimSequencefile

<<datastore>>

Block Sequencefile

sentence

<<datastore>>

DocSim Table

<<datastore>>

SimDoc Table

<<datastore>>

DocDocBlock Table

Job 4_2_2

<<datastore>>DocDocSim

Sequencefile

Calculate

Prepare

Write

Lookup

get

write

Schelp - Varlemann - Wilke 26

Page 47: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

INSPIRE: Insight to Scientific Publicationsand ReferencesVerteilte Berechnung von Bibliometriken auf großen Datenmengen

Schelp - Varlemann - Wilke 27

Page 48: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

5-Phasen-Modell

XML

JSON

TupelPDF

PDF, txt

XML

JSON

Tupel

PDF, txt

Schreibender Zugriff

Lesender Zugriff

MySQL

Konvertierung

Extraktion Integration

Deduplikation

PräsentationDateisystem

HBase

1

2 3

4

5

Schelp - Varlemann - Wilke 28

Page 49: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 1: Konvertierung

Eingabe > 650.000 PDF-DateienZiel Datenaufbereitung: Eingabeformat für Extraktion

Ausgabe Volltexte

Schelp - Varlemann - Wilke 29

Page 50: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 2: Extraktion

Eingabe Datensätze als Volltexte und PDFZiel Extraktion von Metadaten

Berechnung Software: ParsCit, GROBIDAusgabe Metadaten in 3 XML-Formaten

Auszug: GROBID Header<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning</title> [...]<author><persName><forename type="first">Johannes</forename><surname>Magenheim</surname>

</persName><affiliation><orgName type="institution">University of Paderborn</orgName><address><country key="DE">Germany</country></address>

</affiliation></author>

Schelp - Varlemann - Wilke 30

Page 51: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 2→3: XML Felder zur Identifikation

Tabelle: ParCit 11 Mio. Ref.

Schlüssel Anzahl %

rawString 11.023.889 1,00marker 11.023.889 1,00context 10.695.648 0,97author 10.523.513 0,95date 10.378.402 0,94title 9.361.532 0,85pages 7.765.207 0,70journal 6.838.383 0,62volume 6.776.944 0,61location 2.319.741 0,21booktitle 1.519.236 0,14publisher 1.354.680 0,12issue 888.605 0,08institution 359.638 0,03note 318.288 0,03editor 311.625 0,03tech 146.817 0,01

Tabelle: GROBID 2 Mio. Ref.

Schlüssel Anzahl %

title 2.110.480 1,00surname 1.897.603 0,90date 1.894.521 0,90forename 1.703.017 0,81biblScope 1.683.384 0,80publisher 209.928 0,10pubPlace 143.760 0,07address 90.667 0,04editor 63.894 0,03note 45.233 0,02

Schelp - Varlemann - Wilke 31

Page 52: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 3: Integration

Eingabe Metadaten in 3 unterschiedlichen XML-FormatenZiel Zusammenführung für jede Publikation

Ausgabe Metadaten im JSON-Format

Levenshtein-Distanz:Minimale Anzahl der OperationenEinfügen, Löschen und Ersetzenvon Zeichen

Schelp - Varlemann - Wilke 32

Page 53: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 3: Integration und Normalisierung

1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung

2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)

3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)und (u¨, ue)

4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“

5. Entferne alle diakritischen Zeichen

6. Ersetze das Zeichen (ß, ss)

7. Entferne alle Zeichen außer Buchstanben, Zahlen und demLeerzeichen

8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette

Schelp - Varlemann - Wilke 33

Page 54: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 3: Integration von Referenzen

Schelp - Varlemann - Wilke 34

Page 55: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 4: Deduplikation

Eingabe Metadaten im JSON-FormatZiel Aufbau des Dokumenten-Netzwerks

Ausgabe Graph der Publikationen und Referenzierungen

Schelp - Varlemann - Wilke 35

Page 56: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Phase 5: Präsentation

Eingabe Dokumenten-NetzwerkZiel Berechnung vom Literaturempfehlungen

Ausgabe Listen mit verlinkten Ergebnissen

Schelp - Varlemann - Wilke 36

Page 57: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Bibliometrie

BibliografischeKopplung(Kessler 1963)

I Fester Wert

I Im Beispiel:BK (A,B) = 3

KozitationSmall (1973) undMarshakova (1973)

I Wert wächst

I Im Beispiel:K (A,B) = 3

Z

Y

X

A B

Z

Y

X

A B

Schelp - Varlemann - Wilke 37

Page 58: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Bibliometrie: Distanz von ZitationenIn-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)

Citation Proximity Analysis (CPA) Gipp & Beel (2009)

Distanz-Klasse Gewichtung

Gleiches Dokument 1Gleicher Abschnitt 2Gleicher Absatz 3Gleicher Satz 4Gleiche Markierung [1,2] 5

Schelp - Varlemann - Wilke 38

Page 59: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Bibliometrie: Beipiel zur Distanz von Zitationen

Schelp - Varlemann - Wilke 39

Page 60: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Ähnlichkeitsbestimmung

[...]

Schelp - Varlemann - Wilke 40

Page 61: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Ergebnisse

[...]

Schelp - Varlemann - Wilke 41

Page 62: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Datenhaltung Dokumentengraph

Kandidaten

I Neo4j, eine Not only SQL (NoSQL) GraphdatenbankI Titan, eine verteilte Graphdatenbank

mit Verwendung von HBase als BackendI MySQL, als Vertreter relationaler Datenbanken

Auswahl

Methode BenchmarkFokus Live-Berechnung Literaturempfehlungen

Schelp - Varlemann - Wilke 42

Page 63: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Benchmark 1: Aufbau Netzwerk & Bibliometriken

1

10

100

1000

10000

100000

0 2 4 6 8 10 12 14 16 18 20

Durc

hsc

hnit

tlic

he Z

eit

für

Bere

chnung

(m

s)

Anzahl der Knoten im Netzwerk (Mio.)

Bibliografische Kopplung MySQLKozitation MySQL

Bibliografische Kopplung Neo4jKozitation Neo4j

Bibliografische Kopplung TitanKozitation Titan

Schelp - Varlemann - Wilke 43

Page 64: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Benchmark 2: Parallele AnfragenAuswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20

0

1000

2000

3000

4000

5000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)

Bibliografische KopplungKozitation

0

1000

2000

3000

4000

5000

6000

7000

8000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)

Bibliografische KopplungKozitation

0

500

1000

1500

2000

2500

3000

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)

Bibliografische KopplungKozitation

0

500

1000

1500

2000

2500

3000

3500

MySQL Neo4j Titan

Zeit

für

Bere

chnung (

ms)

Bibliografische KopplungKozitation

Schelp - Varlemann - Wilke 44

Page 65: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Ergebnisse: Demonstration des Frontends

Schelp - Varlemann - Wilke 45

Page 66: INSPIRE: Insight to Scientific Publications and References

Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse

Vielen Dank für Ihre Aufmerksamkeit.

Fragen?

Schelp - Varlemann - Wilke 46