ANALISIS DISKRIMINAN 234

1

ANALISIS DISKRIMINAN

IV.1. KONSEP ANALISIS DISKRIMINAN

Analisis diskriminan adalah bagian dari analisis statistik peubah ganda (multivariate

statistical analysis) yang bertujuan untuk memisahkan beberapa kelompok data yang sudah

terkelompokkan dengan cara membentuk fungsi diskriminan. Analisis diskriminan adalah

salah satu teknik statistik yang bisa digunakan pada hubungan dependensi (hubungan antar

variabel dimana sudah bisa dibedakan mana variabel respon dan mana variabel penjelas). Lebih

spesifik lagi, analisis diskriminan digunakan pada kasus dimana variabel respon berupa data

kualitatif dan variabel penjelas berupa data kuantitatif.

Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis disriminan adalah

untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang

diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan

kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah

satu dari dua kelompok atau lebih.

Tujuan diskriminan secara umum adalah:

1. Mengetahui apakah ada perbedaan yang jelas antara kelompok pada variabel dependen.

Bisa juga dikatakan untuk melihat perbedaan antara anggota grup 1 dengan grup 2.

2. Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat perbedaan

tersebut.

3. Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan persamaan

regresi.

4. Melakukan klasifikasi terhadap objek (dalam terminology spss disebut baris), dan untuk

mengetahui apakah suatu objek termasuk pada grup 1 atau grup 2 atau lainnya.

IV.2. ASUMSI DAN SAMPEL

Asumsi dalam analisis diskriminan:

1. Sejumlah p variabel independen harus berdistribusi normal.

2. Matriks ragam-peragam variabel independen berukuran pxp pada kedua kelompok

harus sama.

2

3. Tidak ada korelasi antar variabel independen.

4. Tidak terdapat data yang outlier pada variabel independen.

Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif dengan

pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan Johnson and Wichern

(1988: 472) mengatakan hal yang sama bahwa asumsi ini (kesamaan ragam-peragam) di dalam

praktiknya sering dilanggar.

Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan. Pedoman

yang bersifat umum menyatakan untuk setiap variabel independen terdapat 5-20 sampel.

Dengan demikian, jika terdapat 6 variabel independen maka seharusnya terdapat minimal

6x5=30 sampel. Secara terminology spss, jika ada enam kolom variabel independen, sebaiknya

ada 30 baris data.

Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis sampel, yakni

analisis sampel yang digunakan untuk membuat fungsi diskriminan, serta holdout sampel (split

sampel) yang digunakan untuk menguji hasil diskriminan.

IV.3. PROSEDUR ANALISIS

Berikut adalah prooses untuk melakukan analisis diskriminan:

1. Memisah variabel-variabel menjadi variabel dependen dan variabel independen.

2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya terdapat dua

metode dasar untuk membuat fungsi diskriminan, yakni:

Simultaneus estimation, semua variabel independen dimasukkan secara bersama-sama

kemudian dilakukan proses diskriminan.

Stepwise estimation, variabel independen dimasukkan satu per satu kedalam model

diskriminan. Pada proses ini akan ada variabel yang tetap ada dalam model dan ada

variabel yang dibuang dari model.

3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunganan Wilk’s

lamda, Pilai, F test dan lainnya.

4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui ketepatan

klasifikasi secara individual dengan casewise diagnostics.

5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.

6. Melakukan uji validasi terhadap fungsi diskriminan.

3

Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan nilai rataan di

antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi diskriminan dibentuk perlu

dilakukan pengujian terhadap perbedaan vektor nilai rataan dari 2 kelompok tersebut. Dalam

pengujian vektor nilai rataan antar kelompok, asumsi yang harus dipenuhi adalah peubah-

peubah yang diamati berdistribusi multivariate normality dan semua kelompok populasi

mempunyai matrik ragam-peragam yang sama.

1. Uji multivariate normal

Menurut Karson (1982 : 80), untuk menguji kenormalan peubah ganda digunakan prosedur

yang dikembangkan oleh Mardia (1970) dengan cara menghitung dua macam ukuran statistik

yaitu ukuran skewness (b1,p) dan kurtosis (b2,p), yaitu:

n

u

n

uuup XXSXXnb

1 1'

3

'12

,1 1 (1.1)

n

uuup XXSXXnb

1

21

,2 1 (1.2)

Hipotesis yang digunakan adalah:

H0 : peubah ganda mengikuti sebaran normal

H1 : peubah ganda tidak mengikuti sebaran normal

Jika nb1,p /6 2

6/)2)(1( ppp , dan

b2,p – p(p + 2) / npp /)2(8 Z (tabel normal),

maka H0 diterima, berarti peubah ganda mengikuti sebaran normal.

Menurut Johnson and Wichern (1982 : 152), untuk menguji kenormalan ganda adalah

dengan mencari nilai jarak kuadrat untuk setiap pengamatan yaitu )()'( 12 XXSXXd jjj

, di mana Xj adalah pengamatan yang ke-j dan S-1 adalah kebalikan (inverse) matriks ragam-

peragam S

Kemudian 2jd diurutkan dari yang paling kecil ke yang paling besar, selanjutnya dibuat

plot 2jd dengan nilai Chi-Kuadrat

n

jp

212 di mana: j = urutan = 1, 2, ..., n dan p =

banyaknya peubah. Bila hasil plot dapat didekati dengan garis lurus, maka dapat disimpulkan

bahwa peubah ganda menyebar normal.

Menurut Nurosis (1986), berdasarkan teori Wahl dan Kronmal (1977), dikatakan bahwa

seringkali kenormalan ganda sulit diperoleh terutama bila sampel yang diambil relatif kecil.

4

Bila hal ini terjadi, uji vektor nilai rataan tetap bisa dilakukan selama asumsi kedua (kesamaan

ragam-peragam) dipenuhi.

2. Uji kesamaan ragam-peragam

Untuk menguji kesamaan matrik ragam-peragam () antar kelompok digunakan hipotesis:

H0 : 1 = 2 =

H1 : 1 ≠ 2

Statistik uji: statistik Box’s M

j

k

jj SnknWkn ln1)(ln * 2ln-

1

(2.1)

2/)(

1

2/)1(

)/(*

kn

k

j

n

j

knW

S j

(2.2)

dimana :

k = banyaknya kelompok.

W / (n-k) = matrik ragam-peragam dalam kelompok gabungan.

Sj = matrik ragam-peragam kelompok ke-j.

Bila hipotesis nol (H0) benar, maka (-2ln*) / b akan mengikuti sebaran F dengan derajat

bebas v1 dan v2 pada taraf signifikansi , di mana:

v1 = (1/2)(k –1)p(p + 1)

v2 = (v1+ 2) / (a2 – a12)

b = v1 / (1 – a1 - v1/ v1)

k

j j knnpkpp

a1

3

)(1

)1(1

)1)(1(6132

1

k

j j knnkpp

a1

22 )(1

)1(1

)1(6)2)(1(

2 (2.3)

5

p = jumlah peubah pembeda dalam fungsi diskriminan.

Jika (-2ln*) / b Fv1,v2, maka tidak ada alasan untuk menolak H0 dan dapat

disimpulkan bahwa antar kelompok mempunyai matrik ragam-peragam yang sama dan

sebaliknya bila (-2ln*) / b > Fv1,v2, maka H0 ditolak.

3. Uji vector nilai rata-rata

Pengujian terhadap vektor nilai rataan antar kelompok dilakukan dengan hipotesis:

H0 : 1 = 2

H1 : 1 ≠ 2

Statistik uji: V-Bartlett yang menyebar mengikuti distribusi Chi-kuadrat (2) dengan

derajat bebas p(k - 1), apabila H0 benar.

Statistik V-Bartlett diperoleh melalui:

)ln(2)()1( kpnV (3.1)

dimana:

n = banyaknya pengamatan

p = banyaknya peubah dalam fungsi diskriminan

k = banyaknya kelompok

BW

W Wilk’s lambda

W= matrik jumlah kuadrat dan hasil kali data dalam kelompok

k

i

n

jiijiij

i

XXXX1 1

)')(( (3.2)

B = matrik jumlah kuadrat dan hasil kali data antar kelompok.

k

iiii XXXXn

1

)')(( (3.3)

Xij = pengamatan ke-j kelompok ke-i

iX = vektor rataan kelompok ke-i

6

ni= jumlah pengamatan pada kelompok ke-i,

X = vektor rataan total

Apabila V 2

)1(),1( kp maka, tidak ada alasan untuk menolak H0, ini berarti bahwa

terdapat perbedaan vektor nilai rataan antar kelompok. Sebaliknya bila 2

)1(),1( kpV

maka H0 ditolak.

Bila dari hasil pengujian ada perbedaan vektor nilai rataan, maka fungsi diskriminan

layak untuk disusun untuk mengkaji hubungan antar kelompok serta berguna untuk

mengelompokkan suatu obyek baru ke dalam salah satu kelompok tersebut.

4. Penyusunan fungsi diskriminan

Dalam analisis diskriminan, observasi-observasi dipisahkan atau dikelompokkan

berdasarkan pengukuran terhadap sejumlah p random variabel independen, dimana sejumlah

kelompok harus memenuhi 2 k < p, dimana p adalah banyaknya variabel pembeda. Fungsi

diskriminan yang mempunyai bentuk umum berupa persamaan linier (Fisher’s Sample Linear

Discriminant Function) yaitu:

ppxxxy ˆˆˆ2211

atau dapat ditulis sebagai

xy '̂ (4.1)

dimana:

y = skor diskriminan/variabel bebas

p ˆ,...,ˆ,ˆ'ˆ 21 = vektor koefisien estimasi

x’ = x1, x2, ..., xp = vektor variabel independen

Nilai ̂ dipilih sedemikian sehingga fungsi diskriminan berbeda sebesar mungkin

antara kedua kelompok, atau sehingga rasio antara between-groups sum of squares dengan

within-groups sum of squares maksimum. Johnson dan Wichern (1988) mengatakan bahwa

untuk kelompok, nilai '̂ yang memaksimumkan rasio tersebut adalah:

121 )'('ˆ pooledSxx (4.2)

7

dimana:

1x = rata-rata sampel populasi-1

2x = rata-rata sampel populasi-2

1pooledS = kovarian sampel gabungan

Pengujian fungsi diskriminan dilakukan untuk mengetahui kelayakan fungsi

diskriminan tersebut dalam memindahkan observasi-observasi ke dalam kelompok-kelompok

yang didefinisikan. Pengujian yang umum adalah dengan melihat perbandingan variabilitas

skor dalam kelompok terhadap variabilitas skor total, yang dikenal dengan statitik Wilk’s

Lambda. Statistik ini sebenarnya adalah proporsi total variasi skor diskriminan yang tidak dapat

diterangkan oleh perbedaan di antara kelompok (baru). Untuk melihat signifikansi

perbedaannya, statistik Wilk’s Lambda ditransformasikan kedalam statistik Chi-

Square.(Johnson dan Wichern, 1988). Setelah diuji tingkat signifikansinya, fungsi diskriminan

yang signifikan dapat digunakan untuk mengklasifikasikan observasi-observasi baru ke dalam

kelompok-kelompok tadi.

Pengujian fungsi diskriminan dapat juga dilakukan dengan menggunakan persentase

observasi yang klasifikasinya tidak berubah, yaitu persentase observasi yang klasifikasinya

menggunakan diskriminan tidak berbeda dengan klaifikasinya dalam kelompok acuan.

Menurut Hair et al., (1987) pada besar persentase observasi yang klasifikasinya tidak berubah

tersebut kurang dari suatu standar tertentu, fungsi diskriminan tidak baik digunakan dalam

analisis. Ada 2 standar persentase yang digunakan yaitu kriteria peluang proporsional

(proportional chance criterion) dan kriteria peluang maksimum (maximum chance criterion).

Kriteria peluang proporsional ditentukan dengan rumus:

Cprop = p2 + (1 - p)2 (4.3)

di mana:

Cprop = kriteria proporsional dari model chance.

P = proporsi perusahaan dalam kelompok-1.

(1 – p) = proporsi peluang dalam kelompok-2.

8

Kriteria peluang maksimum ditentukan dengan menghitung total sampel yang

ditunjukkan oleh kelompok dengan prior probability terbesar, rumusnya adalah:

Cmax = prior probability (4.4)

Suatu observasi diukur berdasarkan semua variabel independen yang digunakan dan

kemudian dimasukkan ke dalam fungsi diskriminan untuk memperoleh skornya. Kriteria

pengelompokan ke dalam kelompok yang ada adalah berdasarkan skor batas. Jika hanya ada 2

kelompok yang didefinisikan, dan bila sampel dari kedua kelompok berbeda, maka rata-rata

kelompok harus ditimbang dengan jumlah sampel. Maka skor batas yang digunakan adalah:

xnxnSxxynyn

m gabnn 2112

1

211122 '

1

(4.5)

dimana:

1y = rata-rata skor diskriminan dari populasi (kelompok)-1

2y = rata-rata skor diskriminan dari populasi (kelompok)-2

n1 = jumlah sampel dari kelompok 1

n2= jumlah sampel dari kelompok 2

n = n1 + n2

Selisih antara skor observasi (y) dengan nilai m ini adalah statistik Wald-Anderson W

(W = y - m). Oleh karena itu aturan klasifikasi yang digunakan adalah (Morrison, 1976):

Klasifikasikan observasi ke observasi solvent jika W ≥ 0

Klasifikasikan observasi ke observasi insolvent jika W < 0

Peluang tepat pengelompokan dapat dihitung dari matriks yang menunjukkan nilai

sebenarnya (actual members) dan nilai prediksi (prediction members) dari setiap group. Untuk

n1 penelitian dari populasi satu (1) dan n2penelitian dari populasi dua (2)diperoleh matriks

sebagai berikut:

9

Nilai Prediksi

1 2

Nilai

Sebenarnya

1 n1c

n1m = n1

– n1c

n1

2 n2m = n2

– n2c

n2c n2

dimana:

n1c = jumlah dari 1 item yang tepat dikelompokkan pada 1 item

n1m = jumlah dari 1 item yang salah dikelompokkan pada 2 item

n2c = jumlah dari 2 item yang tepat dikelompokkan pada 2 item

n2m = jumlah dari 2 item yang salah dikelompokkan pada 1 item

Rumus dari peluang tepat pengelompokan adalah:

Persentase tepat pengelompokan %10021

21

nnnn cc

5. Prosedur stepwise

Menurut Nourosis (1986), apabila dalam suatu penelitian menggunakan banyak

variabel independen, maka untuk efisiensi dalam menentukan variabel independen mana yang

berperan dalam pembentukan fungsi diskriminan, dilakukan melalui analisis diskriminan

bertatar (stepwise disciminant). Prosedur ini digunakan untuk menghilangkan informasi dari

variabel independen yang kurang berguna dalam membentuk fungsi diskriminan. Prosedur

diskriminan bertatar dimulai dengan pemilihan peubah ganda yang paling berarti.

Untuk melihat variabel independen yang paling berarti (variabel independen yang dapat

diikutsertakan dalam pembentukan fungsi diskriminan), dapat dilakukan dengan beberapa

kriteria, yaitu:

1. Peubah yang memiliki nilai F terbesar.

2. Peubah yang memiliki nilai Wilk’s Lambda terkecil.

10

Nilai minimum dari F to enter adalah 3,84 dan nilai maksimum dari F to remove adalah

2,71. Nilai dari kedua F ini diperoleh dari rumus:

pp

pp

gpgn

F

1

11

1 (5.1)

dimana n adalah total dari jumlah baris, g adalah jumlah kelompok, p adalah variabel

independen yang ditambahkan, p adalah Wilk’s Lambda sebelum penambahan variabel dan

p+1 adalah Wilk’s Lambda setelah penambahan/pemasukan variabel. Namun, variabel

independen yang sudah terpilih bisa dikeluarkan dari fungsi diskriminan jika informasi yang

dikandung tentang perbedaan kelompok ada di beberapa kombinasi peubah-peubah terpilih

lainnya (Hair et al., 1987).

Documents

ANALISIS DISKRIMINAN 234