21
Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni

Seminar: Neue Ansätze der KI

Embed Size (px)

DESCRIPTION

Seminar: Neue Ansätze der KI. Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1. Inhaltsverzeichnis. Klassifikation Entscheidungsbaum - PowerPoint PPT Presentation

Citation preview

Page 1: Seminar: Neue Ansätze  der KI

Seminar:Neue Ansätze der KI

Thema des Referats:

SPRINT: A scalable parallel classifier for Data Mining

Athina Poppi Uni Dortmund, 4.6.2002 1

Page 2: Seminar: Neue Ansätze  der KI

Inhaltsverzeichnis

1. Klassifikation

2. Entscheidungsbaum

3. SPRINT

4. Fazit

5. Literatur

Athina Poppi Uni Dortmund, 4.6.2002 2

Page 3: Seminar: Neue Ansätze  der KI

1.1 Klassifikation

Ziel: Bildung eines Klassifikationsmodells um die Datenzugehörigkeit vorher sagen zu können.

Verschiedene Methoden. Am beliebtesten: Entscheidungsbäume (sie können relativ schnell konstruiert werden, sind einfach zu interpretieren und man erreicht ähnliche, oft auch bessere Genauigkeit)

Anwendung: Kleinzielmarketing, Betrugabfragung und medizinische Diagnose

Athina Poppi Uni Dortmund, 4.6.2002 3

Page 4: Seminar: Neue Ansätze  der KI

1.2 Klassifikationsmodell Training Set: Datenmenge zur Bildung der Klassifikationsmodells. Training Sample: Einzelne Datensätze. Attribute: continuous (zB Einkommen, Alter) oder categorical (zB Autotyp, Sportart). Continuous # categorical: geordnet # ungeordnet Classifying attribute

Athina Poppi Uni Dortmund, 4.6.2002 4

Page 5: Seminar: Neue Ansätze  der KI

2.1 Entscheidungsbaum

• Besteht aus mehreren Knoten

• Jeder Knoten ist ein Blatt oder ein Entscheidungsknoten (split point)

• Blatt: repräsentiert eine Klasse

• Split point: Hier wird der Test durchgeführt

Athina Poppi Uni Dortmund, 4.6.2002 5

Page 6: Seminar: Neue Ansätze  der KI

2.2 Beispiel: Autoversicherung

Tid Age Car Type

Risk

0 23 Family High

1 17 Sports High

2 43 Sports High

3 68 Family Low

4 32 Truck Low

5 20 family High

Training Set Decision tree

Age<25

CarType in{Sports}

High

High Low

Athina Poppi Uni Dortmund, 4.6.2002 6

ja

nein

neinja

Page 7: Seminar: Neue Ansätze  der KI

3. SPRINT

• Scalable PaRallelizable Indution of decision Trees

• Entwicklung: IBM Almaden• Decision-tree-based classification algorithm• Serial algorithm• Excellent scaleup, speedup and sizeup properties

Athina Poppi Uni Dortmund, 4.6.2002 7

Page 8: Seminar: Neue Ansätze  der KI

3.1 Serienalgorithmus

• 2 Phasen: growth and prune phase.

• growth phase: Der Baum wird errichtet,also man verteilt die Daten rekursiv.

• prune phase: Der Baum wird gestutzt bzw. verallgemeinert um eine Überanpassung des Baums aufgrund von Ausreissern oder fehlerhafte Daten in den Trainingsdaten zu verhindern. Zeit benötigt: nur ca. 1% der Gesamtlaufzeit bei die Baumbildung

Athina Poppi Uni Dortmund, 4.6.2002 8

Page 9: Seminar: Neue Ansätze  der KI

3.2 Recursive Tree-growth algorithm

Athina Poppi Uni Dortmund, 4.6.2002 9

Partition (Data S)

if (all points in S are from the same class) then

return;

for each attribute A do

evaluate splits on attribute A;

Use best split found to partition S into S1 and S2;

Partition (S1);

Partition (S2);

Initial call: Partition(TrainingData)

Page 10: Seminar: Neue Ansätze  der KI

3.3 Datenstrukturen

• Attribute lists: Jeder Eintrag besteht aus einem Attributwert, dem Klassenwert und einem Schlüssel (Tupel Identifier, Tid).

• Histograms: continuous: 2 Histogramms kommunizieren

mit jedem Entscheidungsbaum. Categorical: brauchen nur 1 Histogram

(count matrix).

Athina Poppi Uni Dortmund, 4.6.2002 10

Page 11: Seminar: Neue Ansätze  der KI

3.4 Splitting a node´s attribute lists

Athina Poppi Uni Dortmund, 4.6.2002 11

Age Class Tid

17 High 1

20 High 5

23 High 0

32 Low 4

43 High 2

68 Low 3

CarType Class Tid

Family High 1

Sports High 5

Sports High 0

Family Low 4

Truck High 2

family Low 3

Age<27.5

1 2

Attribute lists for node 0

Attribute lists for node 1

Age Class Tid

17 High 1

20 High 5

23 High 0

Car Type

Class Tid

Family High 0

Sports High 1

family High 5

Page 12: Seminar: Neue Ansätze  der KI

3.5 Evaluating continuous split points

Athina Poppi Uni Dortmund, 4.6.2002 12

Age Class Tid

17 High 1

20 High 5

23 High 0

32 Low 4

43 High 2

68 Low 3

Attribute ListPosition of

Cursor in scan

Position 0

Position 3

Position 6

State of class Histograms

0 0

H L

4 2

Cbelow

Cabove

3 0

1 2

4 2

0 0

Cbelow

Cabove

Cbelow

Cabove

Page 13: Seminar: Neue Ansätze  der KI

3.6 Evaluating categorical split points

Athina Poppi Uni Dortmund, 4.6.2002 13

Car Type

Class Tid

Family High 0

Sports High 1

Sports High 2

Family Low 3

Truck Low 4

family High 5

Attribute List

Count matrix

2 1

2 0

0 1

H L

Family

Sports

truck

Page 14: Seminar: Neue Ansätze  der KI

3.7 Finding Split points

• Ein Split-Test ist abhängig vom Typ des Attributs.• continuous: A<x, x ist ein Attributwert von der

Wertebereich von A.• categorical: BS, S Teilmenge der Wertemenge von B.• Beste Split Point: teilt am besten die mit diesem

Knoten verbundene Trainingsdaten auf.• Die Güte der Aufteilung sind abhängig von wie gut der

Split die verschiedenen Klassen von einander trennt.

Athina Poppi Uni Dortmund, 4.6.2002 14

Page 15: Seminar: Neue Ansätze  der KI

3.8 Parallelizing Classification

Athina Poppi Uni Dortmund, 4.6.2002 15

•Growth phase: The primary problem remains finding gut split

points and partitioning the data using the discovered split-points.

•SPRINT: parallelizes quite naturally and efficiently (design).

•Each processor works on only 1/N of the total data

•Finding split-points:similar to the serial version. Differences appears

only before and after the attribute-list partitions are scanned.•Continuous: Differences in Cbelow and Cabove

•Categorical: global count matrix

Page 16: Seminar: Neue Ansätze  der KI

3.9 Parallel Data Placement

Age Class Tid

17 High 1

20 High 5

23 High 0

Age Class Tid

32 Low 4

43 High 2

68 Low 3

Processor 0

Processor 1

Car Type Class Tid

Family High 0

Sports High 1

Sports High 2

Athina Poppi Uni Dortmund, 4.6.2002 16

Car Type Class Tid

Family Low 3

Truck Low 4

family High 5

Page 17: Seminar: Neue Ansätze  der KI

3.10 Speedup of SPRINT

Athina Poppi Uni Dortmund, 4.6.2002 17

Page 18: Seminar: Neue Ansätze  der KI

3.11 Leistung

• Das parallization werden an Primitiven einer 16-node verwendenden Standard-MPI IBM SP2 Kommunikation des Modells 9076 durchgeführt.

• Jeder Nullpunkt hat einen Prozessor, an 62.5MHZ mit 128Mb des Gedächtnisses zu laufen.

• Alle Prozessoren laufen auf AIX-Niveau 4,1 • Obwohl SPRINT langsamer als andere

Algorithmen ist, stellt er ein fast lineares scaleup aus.

Athina Poppi Uni Dortmund, 4.6.2002 18

Page 19: Seminar: Neue Ansätze  der KI

3.12 Uniprocessor performance

Athina Poppi Uni Dortmund, 4.6.2002 19

Page 20: Seminar: Neue Ansätze  der KI

4. Fazit

SPRINT ist einer Klassifikationsalgorithmus der ausgezeichnetes scalability ausstellt und in der Lage ist, grosse Datensätze anzufassen, dass andere Algorithmen nicht imstande sind. ABER:

1. Es werden bedeutende Kommunikationsunkosten pro Prozessor vorgestellt.

2. Die Prüfenstruktur (die als hashtable eingeführt wird), ist das intensive Gedächtnis und hat die Grösse des gleichen Auftrages, der die Grösse des Ausgangstrainings einstellt .

Verbesserte Version von SPRINT: ScalPacC

Athina Poppi Uni Dortmund, 4.6.2002 20

Page 21: Seminar: Neue Ansätze  der KI

5. Literaturliste

• SPRINT: a Scalable Paraller Classifier for Data Mining, John Shafer, Rakesh Agrawal, Manish Mehta, Proceedings of the 22th VLDB Conference Mumbai (Bombay), India, 1996

• Parallele Data Mining Algorithmen, Bearbeiter: Rudi Husser, Betreuer: Ralf Rantzau, Prüfer: Prof. Bernhard Mitschang, Datum: 21.02.02, Uni Stuttgart

• Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Athina Poppi Uni Dortmund, 4.6.2002 21