Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
Pertemuan 4
1
ESTIMATOR FUNGSI PDF
Bangkitkan data 2 dimensi sebanyak N = 500 yang terdistribusi
Gaussian N(m,S) dan rerata m = [0 0]T dan kovarian
dengan
Plot data yg dibangkitkan tsb, pengertian apa yg bs ditarik dr bentuk
sebaran datanya?
2
Ada 8 matriks kovarian yg berbeda, maka akan di-plot 8 kelompok
data dan akan dicoba untuk dilihat bgmn sebaran datanya. Untuk
kepentingan pembangkitan data akan digunakan dua fungsi yg built
in Matlab yaitu fungsi randn dan fungsi mvnrnd.
◦ Untuk matriks kovarian yg pertama dpt dibangkitkan data
menggunakan script sbb:
3
Untuk menggambar (plotting) sebaran datanya, gunakan script
berikut:
dan hasilnya adl sbb:
4
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
10
01
0
0
S
m
(a)
Gunakan cara yg sama dgn cara sebelumnya utk plotting sebaran
data dgn kovarian yg selanjutnya.
5
2.00
02.0
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(b)
Untuk rerata m dan matriks kovarian berikut, maka
6
20
02
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(c)
Untuk rerata m dan matriks kovarian berikut, maka
7
20
02.0
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(d)
Untuk rerata m dan matriks kovarian berikut, maka
8
2.00
02
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(e)
Untuk rerata m dan matriks kovarian berikut, maka
9
15.0
5.01
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(f)
Untuk rerata m dan matriks kovarian berikut, maka
10
25.0
5.03.0
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(g)
Untuk rerata m dan matriks kovarian berikut, maka
11
25.0
5.03.0
0
0
S
m
-6 -4 -2 0 2 4 6
-6
-4
-2
0
2
4
6
(h)
Jika dua koordinat x tdk terkorelasikan (12 = 0) dan varians-nya
sama, maka vektor-vektor data terkumpul dgn btk speris (lingkaran).
Pd contoh di atas adl gambar (a) sampai (c).
Jika dua koordinat x tdk terkorelasikan (12 = 0) dan varians-nya
tidak sama, maka vektor-vektor data terkumpul dgn btk elips.
Koordinat dgn varians terbesar bersesuaian dng sumbu mayor
elips, sedangkan koordinat dgn varians terkecil bersesuaian dgn
sumbu minornya. Juga terlihat bahwa sumbu mayor dan minor elips
sejajar dengan sumbu-sumbu koordinat. Pd contoh di atas adl
gambar (d) sampai (e).
12
Jika dua koordinat x terkorelasikan (12 0), maka vektor-vektor data
terkumpul dgn btk elips dan terlihat bahwa sumbu mayor dan minor
elips tidak sejajar dengan sumbu-sumbu koordinat. Sudut rotasi
terhadap sumbu bersesuaian dengan nilai 12 (pd contoh di atas adl
gambar (f) sampai (h)). Pengaruh nilai 12, positif atau negatif,
diperlihatkan pada gambar (g) dan (h).
Salah satu masalah dlm praktek adl bhw fungsi pdf yg menggambarkan
distribusi data dlm suatu kelas tdk diketahui dan hrs diestimasi
menggunakan data pelatihan. Pendekatan yg bisa digunakan adl dgn
mengasumsikan bhw pdf mpy btk fungsional khusus namun blm
diketahui nilai parameter-parameternya. Misalnya, diketahui bhw pdf-
nya berbentuk Gaussian namun blm diketahui nilai rerata dan/atau
matriks kovarian-nya.
13
Metode utk estimasi fungsi pdf salah satunya adl teknik maximum likelihood. Dgn berfokus pd pdf terdistribusi Gaussian (Normal) dan asumsi terdapat N data dengan xi Rℓ, I = 1,2,…,N, maka nilai rerata (m) dan matriks kovarian (S) dpt dicari dengan formula:
Contoh
Bangkitkan 50 vektor data 2 dimensi dgn distribusi Gaussian N(m,S) dgn
Kemudian estimasi rerata dan matriks kovarian-nya lalu bandingkan, apa komentar ttg hasil estimasi tsb?
14
Penyelesaian
Utk membangkitkan 50 vektor data dgn rerata dan matriks kovarian pd
soal dpt digunakan script matlab berikut:
Hasilnya disimpan dlm matriks X.
Dari 50 vektor data yg telah dibangkitkan td mk akan dilakukan langkah
balik utk mencari rerata (m) dan matriks kovarian (S) kmd akan
dibandingkan apakah hasilnya sama dgn yg digunakan utk
membangkitkan data tsb. Implementasi formula utk mencari rerata m
dpt menggunakan sintaks:
rerata = (1/50)*sum(X)
15
Dan hasilnya adl:
rerata = [2.0495 -1.9418]
Utk mencari matriks kovarian dpt digunakan sintaks sbb:
Dan hasilnya adl:
Bandingkan dgn matriks kovarian yg digunakan utk membangkitkan data yaitu
Mengapa demikian?
16
2298.00885.0
0885.08082.0S
3.02.0
2.09.0S
Tugas 1
Ulangi pertanyaan pd contoh, namun utk kali ini gunakan jumlah
vektor data N = 500. Bandingkan dgn hasil sebelumnya, dan
tariklah kesimpulan.
Kumpulkan pada tatap muka selanjutnya dalam bentuk :
◦ tulisan tangan script pogram
◦ print out hasil eksekusi
◦ kesimpulan yg dpt diambil.
17
Terdpt N data dlm ruang berdimensi l yg distribusi statistiknya tdk
diketahui. Dgn teknik kNN dpt dilakukan hal berikut:
Pilih sebuah nilai k
Hitung jarak antara x dgn semua data xi, i = 1, 2,…,N. Dpt
digunakan jarak Euclidean atau Mahalanobis
Temukan sejumlah k titik-titik terdekat (k-nearest points) ke x
Hitung volume V(x) dimana titik-titik yg terdekat tsb berada
Hitung estimasi pdf menggunakan
18
Jika digunakan jarak Euclidean dan jarak antara titik k-terjauh
dgn x adl , maka volume V(x) ditentukan sbb:
V(x) = 2 (ruang 1 dimensi)
V(x) = 2 (ruang 2 dimensi)
V(x) = (4/3)3 (ruang 3 dimensi)
Contoh
Bangkitkan serangkaian data (N=1000) dan gunakan teknik kNN utk
estimasi pdf-nya dengan k = 21
19
Penyelesaian
Utk membangkitkan data gunakan script berikut.
Misalkan akan dilakukan pendekatan utk mencari pdf pd nilai
x[-5,5] menggunakan estimator kNN dgn k=21. Maka akan dicari
21 titik dlm rentang x tsb kmd ditentukan pdf-nya. Dalam hal ini
akan digunakan jarak Euclidean, dan vektor data hanya berdimensi
1 saja.
20
21
Hasilnya adl:
22
-5 -4 -3 -2 -1 0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Tugas 2
Modifikasilah script di atas untuk mencari pdf jika vektor datanya
dua dimensi.
23
An Introduction to Pattern Recognition: A Matlab Approach,
2010, Sergios Theodoris, Elseivier Inc.
Pattern Classification, 2000, Richard O Duda, John Wiley &
Son.
24