Algoritma Clustering - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/07 Algoritma...

Algoritma ClusteringAmil Ahmad Ilham

Pengertian Cluster

Cluster: Kumpulan dari object data, dimana data dalam cluster yang sama memiliki kemiripan dan memiliki perbedaan dengan data yang berada dalam cluster lain (Jia Wei-Han)

Centroid: Titik pusat cluster

Proses pembelajaran di dalam cluster :• Jarak antar data dalam cluster sama di minimalkan

(memaksimalkan kemiripan)• Jarak antar data dari cluster berbeda di maksimalkan

(memaksimalkan perbedaan)

Tujuan: Cluster Analysis• Menentukan kelompok objects data sedemikian hingga object data yang berada

dalam satu kelompok memiliki kemiripan satu dengan lainnya, dan memilikiberbedaan dengan object data yang berada dalam kelompok lain

Memaksimasi Inter-cluster distances

Meminimasi Intra-cluster distances

Tujuan

Gambaran Cluster

Data set pada gambar secara alami memiliki tiga kelompok data. Dengan demikian data set ini terdiri dari 3 cluster.

Bagaimana melakukan clustering

Macam clustering

• Partitional Clustering

Proses untuk membagi sekumpulan objek ke dalam beberapa cluster dimanasetiap anggota cluster tidak terjadi overlap. Artinya sebuah object data hanyaakan menjadi bagian dari sebuah cluster

• Hierarchical Clustering

Proses untuk membagi sekumpulan objek ke dalam beberapa cluster yang memungkinkan terjadi overlap. Sebuah object data bisa menjadi anggota lebihdari satu cluster.

Sehingga penggambaran cluster dalam bentuk hierarchical tree atau dendogram

Partitional Clustering

A Partitional Clustering

Hierarchical Clustering

p4p1 p2 p3

diclustermenjadi

Euclidean Distance

Contoh

A(3,2)

B(10,6)

𝑑𝐸 𝐵, 𝐴 = (10 − 3)2+(6 − 2)2

𝑑𝐸 𝐵, 𝐴 = 8.06

𝑑𝐸 𝐵, 𝐴 = 49 + 16

𝑑𝐸 𝐵, 𝐴 = 65

Algoritma K-MeansAlgoritma K-Means

Algoritma K-Means

• K-Means adalah salah satu partitional clustering yang terkenal

• Parameter K menunjukkan banyaknya cluster yang akan dibentuk

• Perbandingan dengan metode lain

• Kelebihan: komputasi yang sederhana

• Kekurangan: kualitas kluster tergantung pada pemilihan centroid awal dan nilai k.

• Nilai k ditentukan di awal.

• Koordinat awal setiap centroid ditentukan secara acak.

Algoritma K-MeansContoh k-Means clustering dengan k=3 (berarti ada 3 centroid yaitu m1, m2, m3)

Setiap cluster diasosiasikan dengan sebuah centroid

Setiap point data dimasukkan ke cluster dengan centroid terdekat berdasarkan jarak terkecil.

Algoritma K-Means

1.Tentukan jumlah klaster (k)2.Tentukan koodinat awal setiap centroid secara acak.3. Hitung jarak setiap data ke setiap centroid (misalnya

menggunakan Euclidean Distance) 4.Tentukan keanggotaan setiap centroid berdasarkan jarak terdekat

dari data ke centroid5.Update koordinat dari masing-masing centroid 6. Kembali ke no 3, iterasi berhenti jika sudah tidak ada perubahan

keanggotaan centroid

Cara kerja k-means

Misalnya akan dilakukan pengelompokanpelanggan berdasarkan “Age” dan “Income”

Cara kerja k-means (langkah ke-1)

Misalnya data akandikelompokkan menjadi 3 klaster, maka ditetapkannilai k = 3

Karena k = 3, maka ada 3 titikkoordinat awal centroid yang harus ditentukan secara acak, misalnya:

Hitung jarak (distance) dari setiap data ke setiap centroid. Misalnya:• jarak dari data ke c1 adalah d(p1,c1), d(p2,c1), d(p3,c1) …

• Jarak dari data ke c2 adalah d(p1,c2), d(p2,c2), d(p3,c2) …

• Jarak dari data ke c3 adalah d(p1,c3), d(p2,c3), d(p3,c3) …

Cara kerja k-means (langkah ke-4)Tetapkan keanggotaan setiap centroid• Data yang memiliki jarak terdekat ke suatu centroid, ditetapkan menjadi anggota

centroid tersebut.

Hitung ulang koordinat setiap centroid sehingga centroid akan berpindahke titik pusat klaster (berada ditengah-tengah anggotanya)

Koordinat baru centroid = (rata-rata nilai sumbu x, rata-rata nilai sumbu y)

Cara kerja k-means (perulangan)

• Karena koordinat centroid berpindah, maka ulangi kembalilangkat ke-3 sampai ke-5.

• Iterasi berhenti jika tidak ada lagianggota centroid yang pindah kecentroid lain (artinya koordinatcentroid tidak berubah lagi)

• Pengelompokan selesai.

Contoh penggunaan k-means

Misalkan ada 4 macam obat yang memiliki dua atribute (weight dan pH). Tujuan: mengelompokkan obat ini menjadi 2 klaster obat

Medicine Weight pH-Index

D 5 4 A B

Contoh penggunaan k-means (langkah ke-1)

Karena 4 macam obat ini akan dikelompokkan menjadi 2 klaster, maka ditetapkan nilai k = 2

D 5 4 A B

Karena k = 2, maka ada 2 titik koordinat awal centroid yang harusditentukan secara acak, misalnya: c1=(1,1) dan c2 = (2,1) (Kebetulan sama dengan koordinat A dan B)

Hitung jarak (distance) dari setiap data ke setiap centroid menggunakan Euclidean Distance. Koordinat centroid: c1=(1,1) dan c2 = (2,1)

Hitung distance (d):d(A,c1) =d(A,c2) =

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

Tugas No. 1

Tetapkan keanggotaan setiap centroid berdasarkan jarakterdekat dari data ke centroid

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

Berdasarkan jarak terdekat:A -> c1B, C, D -> c2

Hitung ulang koordinat setiap centroid sehingga centroid akan berpindah ke titik pusat klaster (berada ditengah-tengah anggotanya)

c1: (1,1) => (1,1)

c2: (2,1) => (3.67,2.67)

c2 = (rata-rata nilai sumbu x, rata-rata nilai sumbu y)

Contoh penggunaan k-means (ulangi langkah ke-3)

Hitung jarak (distance) dari setiap data ke setiap centroid menggunakan Euclidean Distance. Koordinat centroid: c1=(1,1) dan c2 = (3.67,2.67)

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

Tugas No. 2

Tetapkan keanggotaan setiap centroid berdasarkan jarakterdekat dari data ke centroid

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

Berdasarkan jarak terdekat:A, B -> c1 (B pindah ke c1)C, D -> c2

Hitung ulang koordinat setiap centroid sehingga centroid akan berpindah ke titik pusat klaster (berada ditengah-tengah anggotanya)

c = (rata-rata nilai sumbu x, rata-rata nilai sumbu y)

Hitung jarak (distance) dari setiap data ke setiap centroid menggunakan Euclidean Distance. Koordinat centroid: c1=(1.5,1) dan c2 = (4.5,3.5)

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

Tugas No. 3

Hasil k-means (k = 2)

Tuliskan nilai distance yang menunjukkan tidak terjadinyaperpindahan anggota centroid sehingga proses pengelompokan selesai.

c1=(1,1) c2 = (3.67,2.67)distance (d):d(A,c1) =d(A,c2) =

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

c1=(1.5,1) c2 = (4.5,3.5)distance (d):d(A,c1) =d(A,c2) =

d(B,c1) =d(B,c2) =

d(C,c1) =d(C,c2) =

d(D,c1) =d(D,c2) =

c1=(1,1); c2 = (3.67,2.67) c1=(1.5,1); c2 = (4.5,3.5)

Hasil k-means (k = 2)

Tugas No. 4

Evaluasi Performa K-Means

• Evaluasi performa K-Means Clustering dapat menggunakan Sum of Square Error (SSE). Ide utama dari penggunaan SSE ini adalahmengukur keseragaman antar data dalam satu cluster

• Keseragaman diukur berdasarkan error/jarak/distance antara setiap data dengan centroidnya. Semakin seragam data-data dalam sebuahcluster, semakin kecil jarak antara setiap data dengan centroidnya

• Selanjutnya error disetiap cluster dijumlahkan untuk semua cluster (Sum of Square Error/SSE). Semakin kecil nilai SSE maka semakin bagus hasil clusteringnya

Evaluasi Performa K-Means

SSE dan Jumlah K

• Berdasarkan performa SSE, clustering akan makin baik bila memiliki nilai SSE yang kecil

• Nilai SSE akan mendekati 0 seiring dengan bertambahnya jumlah K. SSE akan bernilai 0 bila K samadengan jumlah data dalam data set, karena setiap data adalah cluster tunggal dengan anggotahanya dirinya sendiri sekaligus sebagai centroid.

Jumlah K

Elbow Method

• Gambar kiri terlihat jelas menunjukkan bahwa elbow terletak pada K=3 sehingga jumlah cluster terbaik untuk data set adalah 3 cluster

• Tetapi tidak selamanya Elbow Method dapat digunakan untuk menentukan nilai K yang optimum. Pada gambar kanan terlihat bahwa kurva sangat landai sehingga sulit untukmenentukan dimana letak elbow nya

Algoritma Clustering - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/07 Algoritma...

Documents

Comité Volaille - franceagrimer.fr · p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p1 p2 p3 p4

Scheduling I - cs.columbia.edujae/4118/L15-scheduling-1.pdf · Shortest Remaining Time First (SRTF) ... Example of SRTF P1 P2 P3 P4 Schedule: P1 P2 P3 P4 Arrival: P2 P1 Process Arrival

PLANET P1-P2-P3-P4PLANET P1-P2-P3-P4 - Givas s.r.l.givas.it/cataloghi/planet p1p2p3p4_06.pdf · P1 P2 P3 Struttura realizzata in nobilitato spessore 20 mm, ante cieche e frontali

バージョンアップシリーズP2 P2 P2 P2 －－－ P3 / P4 P3 / P4 P3 / P4 P3 / P4 精度オーバーサイズ N+SP/OS-N+SP N+PO/OS-N+PO N+SP/OS-N+SP N+PO/OS-N+PO M1.4×0.3

SoE Connect Presentations P2 P3 P4 - University of Guelph · 2019. 12. 13. · Chris Turner P4 Social Network Analysis and the Engineer P3 SoE Connect Presentations P2 VOLUME 2 ISSUE

ESPOL · p4 p1 v2 p2 p3 t1 p3 p5 p4 p4 p4 p4 p5 p2 p2 p1 t1 t1 t2 t2 p3 t1 t1 p2 tu p3 p4 p5 p4 p4 p4 p4 p4 p5 v2 v2 v1 v2 v2 v2 b' mampara de aluminio y vidrio arenado y claro h=2,00m

L34065 LOKALNA CESTA OSTALE CESTE KOJE … p2 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p3 p2 p3 p3 p3 p3 p2 p2 p3 k r p2 r1 p3 t p3 p2 k k p2 p2 r r p2 r p2 r r r p2 t

P2 Introduction P3 What Defines Us P4 Grants Framework P5

鋳鉄用タップ FC-HT ／ダイカスト用ハンドタップ LA-HTP3 P3 P3 P3 P3 P4 P3 P3 P4 P4 P4 P3 P4 P4 P4 P4 P5 P4 P5 P4 36 36 42 42 46 46 46 52 52 60 62 70 70 75 75 75 82

P2下 P2上 P2下 P3 P6...P3 P6 P4引越し P4花 P7 P8 上左 P8 上右 P8 下 P4紛失 P4結婚 P4退職者退職後引き続きいすゞ健保への加入を希望するとき

New Answer key Code · 2020. 9. 11. · answer key code : p1 to p6 q. no.p1 p2 p3 p4 p5 p6q. no.p1 p2 p3 p4 p5 p6q. no.p1 p2 p3 p4 p5 p6q. no.p1 p2 p3 p4 p5 p6 1 3 1 2 31 3 461 22

«Full Name» - 1011sqn.org · P2 M2 D2 P2 M2 D2 P3 M3 P3 M3 P4 M4 P4 P5 P5 P6 P7 P8 Initial Expedition Training Basic Radio Communications P1 M1 D1 P1 M1 D1

MAINTENANCE GUIDE SOCKET LAYOUT ………………………………..p2 SOCKET IDENTIFICATION …………………..p3 SOCKET ASSEMBLED ………………………….p4 ~p7 CONTACTS

P4 P2 P3 A1 - maharail.com

ACCESS CONTROL SYSTEM - TECNOSeguro · SOYAL ACCESS CONTROL SYSTEM ® AR-821EF / AR-821EV V100126 DO MT or P1 P2 P3 P4 P1 P2 P3 P4 P1 P2 P3 P4 1 2 A. B. Contents AR-821EF [Fingerprint]

P3 P4 P2 P5 - MAHARAIL

AUGUST P2 Baghdad Summit: P3 What to Expect? P4 P3 3

P2 P3 Nos conseils lectures (partie 2 Hunger games): P4

Architecture-Aware Graph (Re)Partitioningpeople.cs.pitt.edu/~anz28/papers/proposal.slides.pdfN9 G P1 P2 P3 P4 P5 P6 P7 P8 P9 31. Paragon: Partition Grouping P3 P2 P1 P9 P6 P4 P8 P7

P2 P1 P4 P3 - i2.cdscdn.comi2.cdscdn.com/imagesOK/notice/nerf-modulus-barrel... · p1 p4 p3 gb p1. tactical rail p2.button p3.trigger h p4.handle f p1. rail tactique p2.bouton p3.dÉtente