Upload
nurdinst
View
13
Download
1
Embed Size (px)
DESCRIPTION
diskrim
Citation preview
1
ANALISIS DISKRIMINAN
IV.1. KONSEP ANALISIS DISKRIMINAN
Analisis diskriminan adalah bagian dari analisis statistik peubah ganda (multivariate
statistical analysis) yang bertujuan untuk memisahkan beberapa kelompok data yang sudah
terkelompokkan dengan cara membentuk fungsi diskriminan. Analisis diskriminan adalah
salah satu teknik statistik yang bisa digunakan pada hubungan dependensi (hubungan antar
variabel dimana sudah bisa dibedakan mana variabel respon dan mana variabel penjelas). Lebih
spesifik lagi, analisis diskriminan digunakan pada kasus dimana variabel respon berupa data
kualitatif dan variabel penjelas berupa data kuantitatif.
Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis disriminan adalah
untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang
diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan
kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah
satu dari dua kelompok atau lebih.
Tujuan diskriminan secara umum adalah:
1. Mengetahui apakah ada perbedaan yang jelas antara kelompok pada variabel dependen.
Bisa juga dikatakan untuk melihat perbedaan antara anggota grup 1 dengan grup 2.
2. Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat perbedaan
tersebut.
3. Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan persamaan
regresi.
4. Melakukan klasifikasi terhadap objek (dalam terminology spss disebut baris), dan untuk
mengetahui apakah suatu objek termasuk pada grup 1 atau grup 2 atau lainnya.
IV.2. ASUMSI DAN SAMPEL
Asumsi dalam analisis diskriminan:
1. Sejumlah p variabel independen harus berdistribusi normal.
2. Matriks ragam-peragam variabel independen berukuran pxp pada kedua kelompok
harus sama.
2
3. Tidak ada korelasi antar variabel independen.
4. Tidak terdapat data yang outlier pada variabel independen.
Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif dengan
pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan Johnson and Wichern
(1988: 472) mengatakan hal yang sama bahwa asumsi ini (kesamaan ragam-peragam) di dalam
praktiknya sering dilanggar.
Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan. Pedoman
yang bersifat umum menyatakan untuk setiap variabel independen terdapat 5-20 sampel.
Dengan demikian, jika terdapat 6 variabel independen maka seharusnya terdapat minimal
6x5=30 sampel. Secara terminology spss, jika ada enam kolom variabel independen, sebaiknya
ada 30 baris data.
Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis sampel, yakni
analisis sampel yang digunakan untuk membuat fungsi diskriminan, serta holdout sampel (split
sampel) yang digunakan untuk menguji hasil diskriminan.
IV.3. PROSEDUR ANALISIS
Berikut adalah prooses untuk melakukan analisis diskriminan:
1. Memisah variabel-variabel menjadi variabel dependen dan variabel independen.
2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya terdapat dua
metode dasar untuk membuat fungsi diskriminan, yakni:
Simultaneus estimation, semua variabel independen dimasukkan secara bersama-sama
kemudian dilakukan proses diskriminan.
Stepwise estimation, variabel independen dimasukkan satu per satu kedalam model
diskriminan. Pada proses ini akan ada variabel yang tetap ada dalam model dan ada
variabel yang dibuang dari model.
3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunganan Wilk’s
lamda, Pilai, F test dan lainnya.
4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui ketepatan
klasifikasi secara individual dengan casewise diagnostics.
5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.
6. Melakukan uji validasi terhadap fungsi diskriminan.
3
Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan nilai rataan di
antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi diskriminan dibentuk perlu
dilakukan pengujian terhadap perbedaan vektor nilai rataan dari 2 kelompok tersebut. Dalam
pengujian vektor nilai rataan antar kelompok, asumsi yang harus dipenuhi adalah peubah-
peubah yang diamati berdistribusi multivariate normality dan semua kelompok populasi
mempunyai matrik ragam-peragam yang sama.
1. Uji multivariate normal
Menurut Karson (1982 : 80), untuk menguji kenormalan peubah ganda digunakan prosedur
yang dikembangkan oleh Mardia (1970) dengan cara menghitung dua macam ukuran statistik
yaitu ukuran skewness (b1,p) dan kurtosis (b2,p), yaitu:
n
u
n
uuup XXSXXnb
1 1'
3
'12
,1 1 (1.1)
n
uuup XXSXXnb
1
21
,2 1 (1.2)
Hipotesis yang digunakan adalah:
H0 : peubah ganda mengikuti sebaran normal
H1 : peubah ganda tidak mengikuti sebaran normal
Jika nb1,p /6 2
6/)2)(1( ppp , dan
b2,p – p(p + 2) / npp /)2(8 Z (tabel normal),
maka H0 diterima, berarti peubah ganda mengikuti sebaran normal.
Menurut Johnson and Wichern (1982 : 152), untuk menguji kenormalan ganda adalah
dengan mencari nilai jarak kuadrat untuk setiap pengamatan yaitu )()'( 12 XXSXXd jjj
, di mana Xj adalah pengamatan yang ke-j dan S-1 adalah kebalikan (inverse) matriks ragam-
peragam S
Kemudian 2jd diurutkan dari yang paling kecil ke yang paling besar, selanjutnya dibuat
plot 2jd dengan nilai Chi-Kuadrat
n
jp
212 di mana: j = urutan = 1, 2, ..., n dan p =
banyaknya peubah. Bila hasil plot dapat didekati dengan garis lurus, maka dapat disimpulkan
bahwa peubah ganda menyebar normal.
Menurut Nurosis (1986), berdasarkan teori Wahl dan Kronmal (1977), dikatakan bahwa
seringkali kenormalan ganda sulit diperoleh terutama bila sampel yang diambil relatif kecil.
4
Bila hal ini terjadi, uji vektor nilai rataan tetap bisa dilakukan selama asumsi kedua (kesamaan
ragam-peragam) dipenuhi.
2. Uji kesamaan ragam-peragam
Untuk menguji kesamaan matrik ragam-peragam () antar kelompok digunakan hipotesis:
H0 : 1 = 2 =
H1 : 1 ≠ 2
Statistik uji: statistik Box’s M
j
k
jj SnknWkn ln1)(ln * 2ln-
1
(2.1)
2/)(
1
2/)1(
)/(*
kn
k
j
n
j
knW
S j
(2.2)
dimana :
k = banyaknya kelompok.
W / (n-k) = matrik ragam-peragam dalam kelompok gabungan.
Sj = matrik ragam-peragam kelompok ke-j.
Bila hipotesis nol (H0) benar, maka (-2ln*) / b akan mengikuti sebaran F dengan derajat
bebas v1 dan v2 pada taraf signifikansi , di mana:
v1 = (1/2)(k –1)p(p + 1)
v2 = (v1+ 2) / (a2 – a12)
b = v1 / (1 – a1 - v1/ v1)
k
j j knnpkpp
a1
3
)(1
)1(1
)1)(1(6132
1
k
j j knnkpp
a1
22 )(1
)1(1
)1(6)2)(1(
2 (2.3)
5
p = jumlah peubah pembeda dalam fungsi diskriminan.
Jika (-2ln*) / b Fv1,v2, maka tidak ada alasan untuk menolak H0 dan dapat
disimpulkan bahwa antar kelompok mempunyai matrik ragam-peragam yang sama dan
sebaliknya bila (-2ln*) / b > Fv1,v2, maka H0 ditolak.
3. Uji vector nilai rata-rata
Pengujian terhadap vektor nilai rataan antar kelompok dilakukan dengan hipotesis:
H0 : 1 = 2
H1 : 1 ≠ 2
Statistik uji: V-Bartlett yang menyebar mengikuti distribusi Chi-kuadrat (2) dengan
derajat bebas p(k - 1), apabila H0 benar.
Statistik V-Bartlett diperoleh melalui:
)ln(2)()1( kpnV (3.1)
dimana:
n = banyaknya pengamatan
p = banyaknya peubah dalam fungsi diskriminan
k = banyaknya kelompok
BW
W Wilk’s lambda
W= matrik jumlah kuadrat dan hasil kali data dalam kelompok
k
i
n
jiijiij
i
XXXX1 1
)')(( (3.2)
B = matrik jumlah kuadrat dan hasil kali data antar kelompok.
k
iiii XXXXn
1
)')(( (3.3)
Xij = pengamatan ke-j kelompok ke-i
iX = vektor rataan kelompok ke-i
6
ni= jumlah pengamatan pada kelompok ke-i,
X = vektor rataan total
Apabila V 2
)1(),1( kp maka, tidak ada alasan untuk menolak H0, ini berarti bahwa
terdapat perbedaan vektor nilai rataan antar kelompok. Sebaliknya bila 2
)1(),1( kpV
maka H0 ditolak.
Bila dari hasil pengujian ada perbedaan vektor nilai rataan, maka fungsi diskriminan
layak untuk disusun untuk mengkaji hubungan antar kelompok serta berguna untuk
mengelompokkan suatu obyek baru ke dalam salah satu kelompok tersebut.
4. Penyusunan fungsi diskriminan
Dalam analisis diskriminan, observasi-observasi dipisahkan atau dikelompokkan
berdasarkan pengukuran terhadap sejumlah p random variabel independen, dimana sejumlah
kelompok harus memenuhi 2 k < p, dimana p adalah banyaknya variabel pembeda. Fungsi
diskriminan yang mempunyai bentuk umum berupa persamaan linier (Fisher’s Sample Linear
Discriminant Function) yaitu:
ppxxxy ˆˆˆ2211
atau dapat ditulis sebagai
xy '̂ (4.1)
dimana:
y = skor diskriminan/variabel bebas
p ˆ,...,ˆ,ˆ'ˆ 21 = vektor koefisien estimasi
x’ = x1, x2, ..., xp = vektor variabel independen
Nilai ̂ dipilih sedemikian sehingga fungsi diskriminan berbeda sebesar mungkin
antara kedua kelompok, atau sehingga rasio antara between-groups sum of squares dengan
within-groups sum of squares maksimum. Johnson dan Wichern (1988) mengatakan bahwa
untuk kelompok, nilai '̂ yang memaksimumkan rasio tersebut adalah:
121 )'('ˆ pooledSxx (4.2)
7
dimana:
1x = rata-rata sampel populasi-1
2x = rata-rata sampel populasi-2
1pooledS = kovarian sampel gabungan
Pengujian fungsi diskriminan dilakukan untuk mengetahui kelayakan fungsi
diskriminan tersebut dalam memindahkan observasi-observasi ke dalam kelompok-kelompok
yang didefinisikan. Pengujian yang umum adalah dengan melihat perbandingan variabilitas
skor dalam kelompok terhadap variabilitas skor total, yang dikenal dengan statitik Wilk’s
Lambda. Statistik ini sebenarnya adalah proporsi total variasi skor diskriminan yang tidak dapat
diterangkan oleh perbedaan di antara kelompok (baru). Untuk melihat signifikansi
perbedaannya, statistik Wilk’s Lambda ditransformasikan kedalam statistik Chi-
Square.(Johnson dan Wichern, 1988). Setelah diuji tingkat signifikansinya, fungsi diskriminan
yang signifikan dapat digunakan untuk mengklasifikasikan observasi-observasi baru ke dalam
kelompok-kelompok tadi.
Pengujian fungsi diskriminan dapat juga dilakukan dengan menggunakan persentase
observasi yang klasifikasinya tidak berubah, yaitu persentase observasi yang klasifikasinya
menggunakan diskriminan tidak berbeda dengan klaifikasinya dalam kelompok acuan.
Menurut Hair et al., (1987) pada besar persentase observasi yang klasifikasinya tidak berubah
tersebut kurang dari suatu standar tertentu, fungsi diskriminan tidak baik digunakan dalam
analisis. Ada 2 standar persentase yang digunakan yaitu kriteria peluang proporsional
(proportional chance criterion) dan kriteria peluang maksimum (maximum chance criterion).
Kriteria peluang proporsional ditentukan dengan rumus:
Cprop = p2 + (1 - p)2 (4.3)
di mana:
Cprop = kriteria proporsional dari model chance.
P = proporsi perusahaan dalam kelompok-1.
(1 – p) = proporsi peluang dalam kelompok-2.
8
Kriteria peluang maksimum ditentukan dengan menghitung total sampel yang
ditunjukkan oleh kelompok dengan prior probability terbesar, rumusnya adalah:
Cmax = prior probability (4.4)
Suatu observasi diukur berdasarkan semua variabel independen yang digunakan dan
kemudian dimasukkan ke dalam fungsi diskriminan untuk memperoleh skornya. Kriteria
pengelompokan ke dalam kelompok yang ada adalah berdasarkan skor batas. Jika hanya ada 2
kelompok yang didefinisikan, dan bila sampel dari kedua kelompok berbeda, maka rata-rata
kelompok harus ditimbang dengan jumlah sampel. Maka skor batas yang digunakan adalah:
xnxnSxxynyn
m gabnn 2112
1
211122 '
1
(4.5)
dimana:
1y = rata-rata skor diskriminan dari populasi (kelompok)-1
2y = rata-rata skor diskriminan dari populasi (kelompok)-2
n1 = jumlah sampel dari kelompok 1
n2= jumlah sampel dari kelompok 2
n = n1 + n2
Selisih antara skor observasi (y) dengan nilai m ini adalah statistik Wald-Anderson W
(W = y - m). Oleh karena itu aturan klasifikasi yang digunakan adalah (Morrison, 1976):
Klasifikasikan observasi ke observasi solvent jika W ≥ 0
Klasifikasikan observasi ke observasi insolvent jika W < 0
Peluang tepat pengelompokan dapat dihitung dari matriks yang menunjukkan nilai
sebenarnya (actual members) dan nilai prediksi (prediction members) dari setiap group. Untuk
n1 penelitian dari populasi satu (1) dan n2penelitian dari populasi dua (2)diperoleh matriks
sebagai berikut:
9
Nilai Prediksi
1 2
Nilai
Sebenarnya
1 n1c
n1m = n1
– n1c
n1
2 n2m = n2
– n2c
n2c n2
dimana:
n1c = jumlah dari 1 item yang tepat dikelompokkan pada 1 item
n1m = jumlah dari 1 item yang salah dikelompokkan pada 2 item
n2c = jumlah dari 2 item yang tepat dikelompokkan pada 2 item
n2m = jumlah dari 2 item yang salah dikelompokkan pada 1 item
Rumus dari peluang tepat pengelompokan adalah:
Persentase tepat pengelompokan %10021
21
nnnn cc
5. Prosedur stepwise
Menurut Nourosis (1986), apabila dalam suatu penelitian menggunakan banyak
variabel independen, maka untuk efisiensi dalam menentukan variabel independen mana yang
berperan dalam pembentukan fungsi diskriminan, dilakukan melalui analisis diskriminan
bertatar (stepwise disciminant). Prosedur ini digunakan untuk menghilangkan informasi dari
variabel independen yang kurang berguna dalam membentuk fungsi diskriminan. Prosedur
diskriminan bertatar dimulai dengan pemilihan peubah ganda yang paling berarti.
Untuk melihat variabel independen yang paling berarti (variabel independen yang dapat
diikutsertakan dalam pembentukan fungsi diskriminan), dapat dilakukan dengan beberapa
kriteria, yaitu:
1. Peubah yang memiliki nilai F terbesar.
2. Peubah yang memiliki nilai Wilk’s Lambda terkecil.
10
Nilai minimum dari F to enter adalah 3,84 dan nilai maksimum dari F to remove adalah
2,71. Nilai dari kedua F ini diperoleh dari rumus:
pp
pp
gpgn
F
1
11
1 (5.1)
dimana n adalah total dari jumlah baris, g adalah jumlah kelompok, p adalah variabel
independen yang ditambahkan, p adalah Wilk’s Lambda sebelum penambahan variabel dan
p+1 adalah Wilk’s Lambda setelah penambahan/pemasukan variabel. Namun, variabel
independen yang sudah terpilih bisa dikeluarkan dari fungsi diskriminan jika informasi yang
dikandung tentang perbedaan kelompok ada di beberapa kombinasi peubah-peubah terpilih
lainnya (Hair et al., 1987).