Clustering on Intel MIC with Huge Datasets fileEinleitung Clustering: Gruppierung zusammengeh origer Datenpunkte Implementierung des Clustering-Algorithmus von Pehersdorfer et al

Clustering on Intel MIC with Huge Datasets

Andreas BauerGregor DaißMax Franke

June 26, 2015

Andreas Bauer Gregor Daiß Max Franke Clustering on Intel MIC with Huge Datasets June 26, 2015 1 / 18

Einleitung

Clustering: Gruppierung zusammengehoriger Datenpunkte

Implementierung des Clustering-Algorithmus von Pehersdorfer et al.


Einleitung

Clustering: Gruppierung zusammengehoriger DatenpunkteImplementierung des Clustering-Algorithmus von Pehersdorfer et al.


Die Daten

Wetter- und Solardaten

Stuttgart, Nikosia, Kairo

Dezember 2006 – November 2014, jede Sekunde

241 Sensoren, 30 Solarmodule, 2.5TB

Nur Stuttgart

Nur 111 Sensoren uber 13 Module, 1TB


Die Daten

Wetter- und Solardaten

Stuttgart, Nikosia, Kairo

Dezember 2006 – November 2014, jede Sekunde

241 Sensoren, 30 Solarmodule, 2.5TB

Nur Stuttgart

Nur 111 Sensoren uber 13 Module, 1TB


Resultate

1TB⇒ 100GB∼90% Einsparung

Abfragen: 4–12h ⇒ 10ms–50min


Resultate

1TB⇒ 100GB∼90% Einsparung

Abfragen: 4–12h ⇒ 10ms–50min


Datensatzgenerierung

Wahl der Sensoren

Wahl der Jahreszeit

Wahl der Uhrzeit

Datensatzgroße


Datensatzgenerierung

Wahl der Sensoren

Wahl der Jahreszeit

Wahl der Uhrzeit

Datensatzgroße


ClusteringverfahrenDie Pipeline im Uberblick

1 Erstellen der Dichtefunktion

2 Erstellen des Graphen mittels k-nearest neighbors

3 Entfernen von Knoten und Kanten

4 Graph zerfallt in Zusammenhangskomponenten

Dichtefunktionberechnen

Dichtefunktion

Datensatz Entfernen von Knotenund Kanten anhandder Dichte

Cluster

Graph konstruieren(Datenpunkte sind

Knoten) Graph


ClusteringverfahrenDie Pipeline im Uberblick






Dichtefunktion


Cluster


Knoten) Graph


ClusteringverfahrenSchatzung der Dichte

Die Dichteschatzung u wird mittels eines dunnen Gitters erstellt:

Gitter

X1,1

X2,1 X2,3

Basisfunktionen

f (~x) ≈ u(~x) =∑i

αiϕi



Ansatz zur Bestimmung von α nach Hegland:

R(u) =

∫Ω

(u(x)− fε)2 + λ

∫Ω

(Su(x))2

R(u) −−−−→u in V

min!

Man erhalt nun ein LGS, das nach α aufzulosen ist (zum Beispiel perCG-Verfahren).Mit diesem α erzeugen wir auf dem dunnen Gitter direkt dieDichtefunktion.



Ansatz zur Bestimmung von α nach Hegland:

R(u) =

∫Ω

(u(x)− fε)2 + λ

∫Ω

(Su(x))2

R(u) −−−−→u in V

min!

Man erhalt nun ein LGS, das nach α aufzulosen ist (zum Beispiel perCG-Verfahren).Mit diesem α erzeugen wir auf dem dunnen Gitter direkt dieDichtefunktion.


ClusteringverfahrenSchatzung der Dichte - Speicherproblem

Probleme beim Losen des LGS:

(A+ λI )α =1

NBT~1

Ai ,k = (ϕi , ϕk)L2

Große O(N2), zu groß um explizit abgespeichert zu werden

⇒ Matrixeintrage mussen in jedem Matrix-Vektor Produkt neu berechnetwerden.




(A+ λI )α =1

NBT~1







(A+ λI )α =1

NBT~1





ClusteringverfahrenSchatzung der Dichte - Beispiel


ClusteringverfahrenGraphverfahren






Dichtefunktion


Cluster


Knoten) Graph


Aufbau des Nachbarschaftsgraphen










ClusteringverfahrenGraphverfahren






Dichtefunktion


Cluster


Knoten) Graph


Loschen von Knoten und Kanten






Graph mit Clustern


BeispieleLaufzeiten

Generierter Datensatz mit 105 Punkten, 10 Dimensionen

k = 6 ⇒ 731 Cluster

37% der Punkte im gleichen Cluster61% der Punkte in keinem ClusterRestliche Cluster Große ≤ 30

1.138s 0.046s

Rechte Seiteder Gleichungberechnen

LGS berechnen(CG Vefahren)

6.9s [1]

Kanten Entfernen + Cluster suchen

21.53s

Graph erstellen(k nearest neighbors)

1Aktualisierte Ergebnisse


BeispieleLaufzeiten

Generierter Datensatz mit 105 Punkten, 10 Dimensionen

k = 6 ⇒ 731 Cluster

37% der Punkte im gleichen Cluster61% der Punkte in keinem ClusterRestliche Cluster Große ≤ 30

1.138s 0.046s

Rechte Seiteder Gleichungberechnen

LGS berechnen(CG Vefahren)

6.9s [1]

Kanten Entfernen + Cluster suchen

21.53s

Graph erstellen(k nearest neighbors)

1Aktualisierte Ergebnisse


LIVEDEMO


Documents

Clustering on Intel MIC with Huge Datasets fileEinleitung Clustering: Gruppierung zusammengeh origer Datenpunkte Implementierung des Clustering-Algorithmus von Pehersdorfer et al