Upload
aidapartii
View
51
Download
13
Embed Size (px)
Citation preview
UJI ASUMSI KLASIKUji asumsi klasik adalah persyaratan statistik yang harus dipenuhi pada analisis regresi
linear berganda yang berbasis ordinary least square (OLS). Jadi analisis regresi yang tidak berdasarkan OLS tidak memerlukan persyaratan asumsi klasik, misalnya regresi logistik atau regresi ordinal. Demikian juga tidak semua uji asumsi klasik harus dilakukan pada analisis regresi linear, misalnya uji multikolinearitas tidak dapat dipergunakan pada analisis regresi linear sederhana dan uji autokorelasi tidak perlu diterapkan pada data cross sectional.
Uji asumsi klasik juga tidak perlu dilakukan untuk analisis regresi linear yang bertujuan untuk menghitung nilai pada variabel tertentu. Misalnya nilai return saham yang dihitung dengan market model, atau market adjusted model. Perhitungan nilai return yang diharapkan dilakukan dengan persamaan regresi, tetapi tidak perlu diuji asumsi klasik.
Setidaknya ada lima uji asumsi klasik, yaitu uji multikolinearitas, uji heteroskedastisitas, uji normalitas, uji autokorelasi dan uji linearitas. Tidak ada ketentuan yang pasti tentang urutan uji mana dulu yang harus dipenuhi. Analisis dapat dilakukan tergantung pada data yang ada. Sebagai contoh, dilakukan analisis terhadap semua uji asumsi klasik, lalu dilihat mana yang tidak memenuhi persyaratan. Kemudian dilakukan perbaikan pada uji tersebut, dan setelah memenuhi persyaratan, dilakukan pengujian pada uji yang lain.
1. UJI NORMALITASUji normalitas adalah untuk melihat apakah nilai residual terdistribusi normal atau tidak.
Model regresi yang baik adalah memiliki nilai residual yang terdistribusi normal. Jadi uji normalitas bukan dilakukan pada masing-masing variabel tetapi pada nilai residualnya. Sering terjadi kesalahan yang jamak yaitu bahwa uji normalitas dilakukan pada masing-masing variabel. Hal ini tidak dilarang tetapi model regresi memerlukan normalitas pada nilai residualnya bukan pada masing-masing variabel penelitian.
Uji normalitas adalah uji yang dilakukan untuk mengecek apakah data penelitian kita berasal dari populasi yang sebarannya normal. Uji ini perlu dilakukan karena semua perhitungan statistik parametrik memiliki asumsi normalitas sebaran. Rumus yang digunakan untuk melakukan suatu uji (t-test misalnya) dibuat dengan mengasumsikan bahwa data yang akan dianalisis berasal dari populasi yang sebarannya normal. Data yang normal memiliki kekhasan seperti mean, median dan modusnya memiliki nilai yang sama. Selain itu juga data normal memiliki bentuk kurva yang sama, bell curve.
Variabel pengganggu e dari suatu regresi disyaratkan berdistribusi normal. Hal ini untuk memenuhi asumsi zero mean. Jika variabel e berdistribusi normal, maka variabel yang diteliti Y juga berdistribusi normal. Untuk menguji normalitas e, dapat digunakan formula Jarqu Berra (JB test).(http://www.damandiri.or.id/file/samsudiunmuhsolobab4.pdf)
Uji normalitas dapat dilakukan dengan uji histogram, uji normal P Plot dan Kurtosis atau uji Kolmogorov Smirnov. Tidak ada metode yang paling baik atau paling tepat. Tipsnya adalah bahwa pengujian dengan metode grafik sering menimbulkan perbedaan persepsi di antara beberapa pengamat, sehingga penggunaan uji normalitas dengan uji statistik bebas dari keragu-raguan, meskipun tidak ada jaminan bahwa pengujian dengan uji statistik lebih baik dari pada pengujian dengan metode grafik.
2. UJI MULTIKOLINEARITASMultikolinearitas adalah kondisi terdapatnya hubungan linier atau korelasi yang tinggi
antara masing-masing variabel independen dalam model regresi. Multikolinearitas biasanya terjadi ketika sebagian besar variabel yang digunakan saling terkait dalam suatu model regresi. Oleh karena itu masalah multikolinearitas tidak terjadi pada regresi linier sederhana yang hanya melibatkan satu variable independen. Indikasi terdapat masalah multikolinearitas dapat kita lihat dari kasus-kasus sebagai berikut: Nilai R2 yang tinggi (signifikan), namun nilai standar error dan tingkat signifikansi masing-masing variabel sangat rendah. Perubahan kecil sekalipun pada data akan menyebabkan perubahan signifikan pada variabel yang diamati
Memang belum ada kriteria yang jelas dalam mendeteksi masalah multikolinearitas dalam model regresi linier. Selain itu hubungan korelasi yang tinggi belum tentu berimplikasi terhadap masalah multikolinearitas. Tetapi kita dapat melihat indikasi multikolinearitas dengan tolerance value dan yang paling umum digunakan adalah varians inflation faktor (VIF).
Hingga saat ini tidak ada kriteria formal untuk menentukan batas terendah dari nilai toleransi atau VIF. Berikut ini merupakan syarat data penelitian dikatakan terjadi multikolonieritas atau tidak (Ghozali, 2011):
1. Tolerance value < 0,10 dan VIF > 10 maka terjadi multikolinearitas atau terdapat korelasi antar variabel independen.
2. Tolerance value > 0,10 dan VIF < 10 maka tidak terjadi multikolinearitas atau tidak terdapat korelasi antar variabel
multikolinearitas adalah untuk melihat ada atau tidaknya korelasi (keterkaitan) yang tinggi antara variabel-variabel bebas dalam suatu model regresi linear berganda. Jika ada korelasi yang tinggi di antara variabel-variabel bebasnya, maka hubungan antara variabel bebas terhadap variabel terikatnya menjadi terganggu. Sebagai ilustrasi, adalah model regresi dengan variabel bebasnya motivasi, kepemimpinan dan kepuasan kerja dengan variabel terikatnya adalah kinerja. Logika sederhananya adalah bahwa model tersebut untuk mencari pengaruh antara motivasi, kepemimpinan dan kepuasan kerja terhadap kinerja. Jadi tidak boleh ada korelasi yang tinggi antara motivasi dengan kepemimpinan, motivasi dengan kepuasan kerja atau antara kepemimpinan dengan kepuasan kerja.
Beberapa alternatif cara untuk mengatasi masalah multikolinearitas adalah sebagai berikut:
1. Mengganti atau mengeluarkan variabel yang mempunyai korelasi yang tinggi.2. Menambah jumlah observasi.3. Mentransformasikan data ke dalam bentuk lain, misalnya logaritma natural, akar kuadrat atau
bentuk first difference delta.4. Dalam tingkat lanjut dapat digunakan metode regresi bayesian yang masih jarang sekali
digunakan.Pengujian multikolinearitas juga sering disebut uji independensi. Pengujian ini akan
melihat apakah antara sesama prediktor memiliki hubungan yang besar atau tidak. Jika hubungan antara sesama prediktor kuat maka antara prediktor tersebut tidak independen.
Faktor-faktor yang Mempengaruhi Multikolinearitasa. Metode pengumpulan data yang digunakan
b. Batasan yang ada pada model atau populasi yang diambil sampelnyac. Spesifikasi modeld. Model yang “overdetermined”
Deteksi Multikolinearitas tinggi tetapi sedikit rasio t signifikan Korelasi berpasangan yang tinggi diantara variabel-variabel penjelas Pengujian korelasi parsial Regresi subside atau tambahan
Apakah Multikolinearitas Bisa Dianggap Hal yang Buruk?Jawaban tersebut adalah tergantung kepada tujuan pembelajaran. Jika tujuan pembelajaran adalah menggunakan model untuk memprediksi atau meramalkan nilai rata-rata masa depan variabel tidak bebas, kolinearitas menurut teori mungkin tidak jelek.Disisi lain, jika tujuan pembelajaran tidak hanya prediksi tetapi juga estimasi yang bias dihandalkan atau parameter-parameter individual model yang dipilih, maka kolinearitas yang serius mungkin buruk karena akan membawa kesalahan standar estimasi yang besar.
Apa yang Perlu Dilakukan dengan Multikolinearitas: Langkah Perbaikana. Tidak melakukan apapunb. Prosedur peraturan baku: Mengeluarkan variabel dari model Memperoleh data tambahan atau Sampel baru Mengkaji ulang modelnya Informasi sebelumnya tentang Parameter Transformasi variabel Langkah perbaikan yang lainnya
3. UJI HETEROSKEDASTISITASUji heteroskedastisitas adalah untuk melihat apakah terdapat ketidaksamaan varians dari
residual satu ke pengamatan ke pengamatan yang lain. Model regresi yang memenuhi persyaratan adalah di mana terdapat kesamaan varians dari residual satu pengamatan ke pengamatan yang lain tetap atau disebut homoskedastisitas.
Uji heteroskedastisitas bertujuan untuk menguji apakah dalam model regresi terjadi ketidaksamaan varians dan residual satu pengamatan ke pengamatan yang lain. Jika varians dari residual satu pengamatan ke pengamatan yang lain tetap, maka disebut homoskedastisitas dan jika berbeda disebut heteroskedastisitas. Model regresi yang baik adalah yang homoskedastisitas atau tidak terjadi heteroskedastisitas.
Uji heteroskedastisitas dilakukan dengan menggunakan uji Glejser, yang dilakukan dengan meregresikan nilai absolut residual yang diperoleh dari model regresi sebagai variabel dependen terhadap semua variabel independen dalam model regresi. Apabila nilai koefisien regresi dari masing-masing variabel bebas dalam model regresi ini tidak signifikan secara statistik, maka dapat disimpulkan tidak terjadi heteroskedastisitas.
Deteksi heteroskedastisitas dapat dilakukan dengan metode scatter plot dengan memplotkan nilai ZPRED (nilai prediksi) dengan SRESID (nilai residualnya). Model yang baik didapatkan jika tidak terdapat pola tertentu pada grafik, seperti mengumpul di tengah, menyempit kemudian melebar atau sebaliknya melebar kemudian menyempit. Uji statistik yang dapat digunakan adalah uji Glejser, uji Park atau uji White.
Beberapa alternatif solusi jika model menyalahi asumsi heteroskedastisitas adalah dengan mentransformasikan ke dalam bentuk logaritma, yang hanya dapat dilakukan jika semua data bernilai positif. Atau dapat juga dilakukan dengan membagi semua variabel dengan variabel yang mengalami gangguan heteroskedastisitas.
Sifat HeteroskedastisitasBahwa heteroskedastisitas biasanya ditemukan dalam data lintas sektoral dan bukan dalam data deret berkala. Dalam data lintas sektoral umumnya dihadapkan dengan anggota suatu populasi pada waktu tertentu.
Pendeteksian HeteroskedastisitasMeskipun secara teoritis pencatatan konsekuensi heteroskedastisitas mudah dilakukan, sering kali deteksinya dalam situasi konkret bukan hal yang mudah. Ini bisa dimengerti karena bisa dikenali hanya jika kita memiliki seluruh populasi Y.
a. Metode Informal Sifat Alamiah problem
Sifat masalah sering kali terkait dengan ada tidaknya heteroskedastisitas. Dalam lintas data sektoral yang melibatkan unit-unit heterogen, heteroskedastisitas mungkin cenderung dijadikan aturan ketimbang pengecualian.
Metode GrafisDalam analisis regresi terapan, pengujian residu yang didapatkan dari persamaan regresi yang digunakan selalau merupakan praktik yang baik. Residu-residu ini bias dipetakan terhadap observasinya sendiri atau terhadap satu variabel penjelas atau lebih atau terhadap nilai mean taksiran Plot residu seperti ini sering member petunjuk tentang apakah satu asumsi atau lebih dari CLRM berlaku atau tidak.
b. Metode Formal Uji Park
ln Langkah-langkah:
1. Kerjakan regresi asal terlepas dari adanya masalah heteroskedastiisitas2. Dari regresi ini, dapatkan residu kuadratkan, dan hitung nilai log-nya3. Kerjakan regresi dengan menggunakan variabel penjelas dalam model asal4. Tes hipotesis nol bahwa yakni tidak ada heteroskedastisitas5. Jika hipotesis 0 tidak ditolak maka dalam regresi dapat memberikan nilai varians umum atau
homoskedastis . Uji Glejser
Mirip dengan Uji Park. Setelah mendapatkan residu dari model asal, Glejser mempertimbangkan regresi nilai absolut terhadap variabel X yang dianggap berhubungan dekat dengan varians heteroskedastisitas .
Uji Heteroskedastisitas Umum White =
1. Mula-mula estimasi regresi2. Lalu kerjakan regresi pelengkap
= 3. Tentukan nilai dari regresi pelengkap
n. 4. Jika nilai kai-kuadrat yang diperoleh dari persamaan n. melebihi jilai kai-kuadrat kritis pada
tingkat signifikasi yang dipilih, atau jika nilai p nilai kai-kuadrat yang dihitung cukup rendah berarti bias menolak hipotesis 0 tentang tidak adanya heteriskadtisitas.
Uji Heteroskedastisitas Lainnya1. Uji korelasi peringkat Spearman2. Uji Goldfeld-Quandt3. Uji homogenitas varians Bartlett4. Uji Peak5. Uji Breusch-Pagan6. Uji CUSUMSQ
Apa yang harus Dilakukan Bila Ditemukan Adanya Heteroskedastisitas: Langkah Perbaikan
Ketika diketahui: Metode Kuadrat Terkecil Tertimbang (Weight Least Squares/ WLS) Ketika yang sebenarnya tidak diketahui Respesifikasi model
4. UJI AUTOKORELASIUji autokorelasi digunakan untuk melihat apakah ada hubungan linear antara error
serangkaian observasi yang diurutkan menurut waktu (data time series). Uji autokorelasi perlu dilakukan apabila data yang dianalisis merupakan data time series (Gujarati, 1993 Nilai Durbin Watson kemudian dibandingkan dengan nilai d-tabel. Hasil perbandingan akan menghasilkan kesimpulan seperti kriteria sebagai berikut: Jika d < dl, berarti terdapat autokorelasi positif. Jika d > (4 – dl), berarti terdapat autokorelasi negative. Jika du < d < (4 – dl), berarti tidak terdapat autokorelasi. Jika dl < d < du atau (4 – du), berarti tidak dapat disimpulkan.
Uji autokorelasi adalah untuk melihat apakah terjadi korelasi antara suatu periode t dengan periode sebelumnya (t -1). Secara sederhana adalah bahwa analisis regresi adalah untuk melihat pengaruh antara variabel bebas terhadap variabel terikat, jadi tidak boleh ada korelasi antara observasi dengan data observasi sebelumnya. Sebagai contoh adalah pengaruh antara tingkat inflasi bulanan terhadap nilai tukar rupiah terhadap dollar. Data tingkat inflasi pada bulan tertentu, katakanlah bulan Februari, akan dipengaruhi oleh tingkat inflasi bulan Januari. Berarti terdapat gangguan autokorelasi pada model tersebut. Contoh lain, pengeluaran rutin dalam suatu rumah tangga. Ketika pada bulan Januari suatu keluarga mengeluarkan belanja bulanan yang relatif tinggi, maka tanpa ada pengaruh dari apapun, pengeluaran pada bulan Februari akan rendah.
Uji autokorelasi hanya dilakukan pada data time series (runtut waktu) dan tidak perlu dilakukan pada data cross section seperti pada kuesioner di mana pengukuran semua variabel
dilakukan secara serempak pada saat yang bersamaan. Model regresi pada penelitian di Bursa Efek Indonesia di mana periodenya lebih dari satu tahun biasanya memerlukan uji autokorelasi.
Beberapa uji statistik yang sering dipergunakan adalah uji Durbin-Watson, uji dengan Run Test dan jika data observasi di atas 100 data sebaiknya menggunakan uji Lagrange Multiplier. Beberapa cara untuk menanggulangi masalah autokorelasi adalah dengan mentransformasikan data atau bisa juga dengan mengubah model regresi ke dalam bentuk persamaan beda umum (generalized difference equation). Selain itu juga dapat dilakukan dengan memasukkan variabel lag dari variabel terikatnya menjadi salah satu variabel bebas, sehingga data observasi menjadi berkurang 1.
Sifat OtokorelasiOtokorelasi biasanya berhubungan erat dengan deret berkala (data yang diurutkan dalam urutan kronologis) meskipun seperti ditunjukkan definisi sebelumnya, otokorelasi bias pula terjadi dalam data lintas sektoral. Dalam hal ini, otokorelasi ini disebut korelasi ruang (spatial correlation yaitu korelasi dalam ruang dan bukan dalam waktu).
Penyebab Otokorelasi Inersia (kelembaman) Kesalahan (-Kesalahan) Spesifikasi Model Fenomena Sarang Laba-laba Manipulasi Data
Konsekuensi Otokorelasi Estimator kuadrat terkecil masih linear dan tidak bias Tapi estimator tersebut tidak efisien, artinya tidak memiliki varians minimum bila
dibandingkandengan prosedur yang mempertimbangkan otokorelasi Varians taksiran dari estimator OLS bersifat bias Oleh sebab itu, tes t dan F yang biasa umumnya tidak handal Rumusan umum untuk menghitung varian kesalahan yakni = RSS/df (jumlah residu/derajat
kebebasan) merupakan estimator bias dari yang sebenarnya dan dalam sejumlah kasus cenderung mengestimasi F terlalu rendah
Konsekuansinya yang dihitung secara konvensional mungkin adalah ukuran sesungguhnya tidak bias dihandalkan
Varians dan kesalahan standar peramalan yang dhitung secara konvensional mungkin juga tidak efisien
Pendeteksian Otokorelasia. Metode Informal Metode Grafis
Pengujian visual sederhana residu OLS , e, bias memberikn wawasan berharga bagi kita tentang kemungkinan keberadaan otokorelasi diantara faktor-faktor kesalahan u.
b. Metode Formal
Uji d Durbin WatsonStatistik d Durbin-Watson :Asumsi-asumsi yang mendasari statistik d:
1. Model regresi meliputi faktor titik potong2. Variabel-variabel X bersifat nonstokhastik artinya nilai tetap dalam pengembaliam sampel
berulang3. Gangguan dihasilkan dengan mekanisme
= ρ + -1 ≤ ρ ≤ 14. Regresi tidak mengandung nilai (-nilai) masa lalu variabel tidak bebas sebagai salah satu
variabel penjelas
Langkah PerbaikanMenggunakan transformasi Prais-Winsten
Bagaimana Mengestimasi ρ ρ = 1 Metode Selisih Pertama ρ yang Diestimasi dari d Statistik Durbin_Watson ρ yang Diestimasi dari Residu OLS, Metode estimasi lainnyaa. Prosedur berulang Cochrane-Orcuttb. Metode 2 Langkah Cochrane-Orcuttc. Metode 2 Langkah Durbind. Prosedur Pencarian Hildreth-Lue. Metode Kemiripan Maksimum
5. UJI LINEARITASUji linearitas dipergunakan untuk melihat apakah model yang dibangun mempunyai
hubungan linear atau tidak. Uji ini jarang digunakan pada berbagai penelitian, karena biasanya model dibentuk berdasarkan telaah teoretis bahwa hubungan antara variabel bebas dengan variabel terikatnya adalah linear. Hubungan antar variabel yang secara teori bukan merupakan hubungan linear sebenarnya sudah tidak dapat dianalisis dengan regresi linear, misalnya masalah elastisitas.
Jika ada hubungan antara dua variabel yang belum diketahui apakah linear atau tidak, uji linearitas tidak dapat digunakan untuk memberikan adjustment bahwa hubungan tersebut bersifat linear atau tidak. Uji linearitas digunakan untuk mengkonfirmasikan apakah sifat linear antara dua variabel yang diidentifikasikan secara teori sesuai atau tidak dengan hasil observasi yang ada. Uji linearitas dapat menggunakan uji Durbin-Watson, Ramsey Test atau uji Lagrange Multiplier.
1 Analisis Diskriminan Analisis Diskriminan adalah salah satu tehnik analisa Statistika dependensi yang memiliki kegunaan untuk mengklasifikasikan objek beberapa kelompok. Pengelompokan dengan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Kombinasi linier dari variabel-variabel ini akan membentuk suatu fungsi diskriminan (Tatham et. al.,1998). Analisis diskriminan adalah teknik multivariate yang termasuk dependence method, yakni adanya variabel dependen dan variabel independen. Dengan demikian ada variabel yang hasilnya tergantung dari data variabel independen. Analisis diskriminan mirip regresi linier berganda (multivariable regression). Perbedaannya analisis diskriminan digunakan apabila variabel dependennya kategoris (maksudnya kalau menggunakan skala ordinal maupun nominal) dan variabel independennya menggunakan skala metric (interval dan rasio). Sedangkan dalam regresi berganda variabel dependennya harus metric dan jika variabelnya independen, bias metric maupun nonmetrik. Sama seperti regresi berganda, dalam analisis diskriminan variabel dependen hanya satu, sedangkan variabel independen banyak (multiple). Misalnya varibel dependen adalah pilihan merek mobil : Kijang, Kuda dan Panther. Variabel independennya adalah rating setiap merek pada sejumlah atribut yang memakai skala 1 sampai 7. Analisis diskriminan merupakan tehnik yang akurat untuk memprediksi seseorang termasuk dalam kategori apa, dengan catatan data-data yang dilibatkan terjamin akurasinya. 2 Model analisis diskriminan Model dasar analisis diskriminan mirip regresi berganda. Perbedaannya adalah kalau variabel dependen regresi berganda dilambangkan dengan Y, maka dalam analisis diskriminan dilambangkan dengan D. Model analisis diskriminan adalah sebuah persamaan yang menunjukkan suatu kombinasi linier dari berbagai variabel independen yaitu : k X k D = b + b X + b X + b X + ... + b 0 1 2 2 3 3 Dengan : D = skor diskriminan B = koefisien diskriminasi atau bobot X = prediktor atau variabel independent Yang diestimasi adalah koefisien ‘b’, sehingga nilai ‘D’ setiap grup sedapat mungkin berbeda. Ini terjadi pada saat rasio jumlah kuadrat antargrup (betweengroup sum of squares) terhadap jumlah kuadrat dalam grup (within-group sum of square) untuk skor diskriminan mencapai maksimum. Berdasarkan nilai D itulah keanggotaan sesorang diprediksi. Analisis diskriminan untuk kasus 2 grup/kelompok Misalnya kita memiliki dua kelompok populasi yang bebas. Dari populasi 1 diambil secara acak contoh berukuran 1 n dan mempelajari p buah sifat dari contoh itu, demikian pula ditarik contoh acak berukuran 2 n dari populasi 2 serta mempelajari p buah sifat dari contoh itu.dengan demikian ukuran contoh secara keseluruhan dari populasi 1 dan populasi 2 adalah n = 1 n + 2 n . Misalkan p buah sifat dipelajari itu dinyatakan dalam variable acak berdimensi ganda melalui vektor X X X X p , ,...., 1 2 ' = .dalam bentuk catatan matriks dapat dinyatakan sebagai berikut : 3 ( , ,..., ) ( , ,..., ) 2 2 1 1 21 22 2 ( ) (2) 11 12 1 ( ) (1) n p x n n p x n X x x x X x x x = = Dari data matriks di atas dapat ditentukan vektor nilai rata-rata contoh dan matriks ragam peragam (variance-covariance) berikut : ' 1 1 1 1 1 1 ( ) 1 1 1 ( 1) 1 1 ( )( ) 1 1 1 1 1 x x x x n S x n x j n j j p x p n j j p x - - - = = å å = = å= = 2 1 2 ( 1) 2 2 1 n j j p x x n x ' 2 2 1 2 2 2 ( ) 2 ( )( ) 1 1 2 x x x x n S j n j j p x p - - - = å= Karena diasumsikan bahwa populasi induk memiliki peragam yang sama yaitu å , maka matriks peragam contoh 1 S dan 2 S dapat digabung untuk memperoleh matriks gabungan sebagai penduga bagi å melalui rata-rata terbobot berikut : ( 2) ( 1) ( 1) 1 2 1 1 2 2 + - - + - = n n n S n S SG Pengujian perbedaan vektor nilai rata-rata di antara dua populasi dilakukan dengan jalan merumuskan hipotesis berikut : : ; H0 U 1 = U 2 artinya vektor nilai rata-rata dari populasi 1 sama dengan dari populasi 2. : ; H1 U1 ¹ U 2 artinya kedua vektor nilai rata-rata berbeda. Pengujian terhadap hipotesis dilakukan menggunakan uji statistic 2 T - Hotelling yang dirumuskan sbb : ( ) ( ) 1 2 ' 1 1 2 1 2 2 1 2 x x S x x n n n n T - G - + = - 4 Selanjutnya besaran : 2 1 2 1 2 ( 2) 1 T n n p n n p F + - + - - = Akan berdistribusi F dengan derajat bebas v1 = p dan v 2 = n1 + n2 - p - 1 Kriteria uji Terima : ; H0 U 1 = U 2 jika 2 T £ 1 2 ; 1 2 1 2 1 ( 2) F v v n n p n n p a + - - + - selain itu tolak H0 Alternatif lain
kriteria uji : Terima : ; H0 U 1 = U 2 jika 1 2 F £ Fa;v v Tolak H0 ; jika 1 2 F > Fa;v v Istilah-istilah statistik dalam analisis diskriminan 1. Korelasi kanonis (canonical correlation), mengukur tingkat asosiasi antar skor diskriminan dan grup. Koefisien ini merupakan ukuran hubungan fungsi diskriminan tunggal dengan sejumlah variabel dummy yang menyatakan keanggotaan grup. 2. Centroid, adalah nilai rata-rata skor diskriminan untuk grup tertentu. Banyaknya centroid sama dengan banyaknya grup. Setiap satu centroid mewakili satu grup. Rata-rata untuk sebuah grup berdasarkan semua fungsi disebut group centroids. 3. Cutting score, adalah nilai rata-rata centroid yang dapat dipakai sebagai patokan mengelompokkan objek. Misalnya, kalau dalam analisis diskriminan dua grup cutting score adalah 0,15, keanggotaan suatu objek dapat dilihat apakah skor diskriminan objek tersebut di bawah ataukah di atas cutting score. 4. Discriminant loadings (disebut juga structure correlations) merupakan korelasi linier sederhana antara setiap variabel independen dengan skor diskriminan untuk setiap fungsi diskriminan. 5 5. Hit rasio merupakan nilai yang dapat menjawab : “Berapa persen objek yang dapat diklasifikasi secara tepat dari jumlah total objek ?”. Hit rasio merupakan salah satu kriteria untuk menilai kekuatan persamaan diskriminan dalam mengelompokkan objek. 6. Matrik klasifikasi (classification matrix), sering juga disebut confusion atau prediction matrix. Matrik klasifikasi berisikan jumlah kasus yang diklasifikasikan secara tepat dan yang diklasifikasikan secara salah (misclassified). Kasus yang diklasifikasi secara tepat muncul dalam diagonal matrik, tempat di mana grup prediksi (predicted group) dan grup sebenarnya (actual group) sama. 7. Koefisien fungsi diskriminan (discriminant coefficient function), koefisien fungsi diskriminan (tidak distandardisasi) adalah pengali (multipliers) variabel, di mana variabel adalah dalam nilai asli pengukuran. 8. Skor diskriminan (dicriminant score), koefisien yang tidak distandardisasi dikalikan dengan nilai-nilai varibel. 9. Eigenvalue, untuk setiap fungsi diskriminan, eigenvalue adalah rasio antara jumlah kuadrat antarkelompok (sums of square between group) da jumlah kuadrat dalam kelompok (sums of squares within group). Eigenvalue yang besar menunjukkan fungsi yang semakin baik. 10. Nilai F dan signifikansinya, nilai F dihitung melalui ANOVA satu arah, di mana variabel-variabel yang dipakai untuk mengelompokkan (grouping variable) berlaku sebagai variabel independen kategoris (categorical independent variable). Sedangkan setiap prediktor diperlakukan sebagai variabel metrik. 11. Rata-rata grup dan standar deviasi grup, rata-rata grup dan standar deviasi grup dihitung untuk setiap grup. 12. Pooled with correlation matrix, dihitung dengan mencari rata-rata matrik kovarians tersendiri untuk semua grup. 6 13. Koefisien fungsi diskriminan terstandardisasi merupakan koefisien fungsi diskriminan yang dipakai sebagai pengali (multipliers) pada saat variabel telah distandardisasi dengan menjadikan rata-rata 0 dan standar deviasi 1. 14. Korelasi struktur (structur correlations) juga disebut discriminant loadings, merupakan korelasi yang mempresentasikan korelasi sederhana (simple correlation) antara prediktor-prediktor dan fungsi diskriminan. 15. Matrik korelasi total (total correlation matrix) diperoleh kalau setiap kasus 9 objek penelitian dianggap berasal dari satu sampel (single sampel) dan korelasi dihitung. Dengan begitu, matrik korelasi total dapat diperoleh. 16. Wilks’ l , kadang-kadang juga disebut statistik U, untuk setiap prediktor, Wilks’ l adalah rasio antara jumlah kuadrat dalam kelompok (within group sums of squares) dan jumlah kuadrat total (total sums of squares). Nilainya berkisar antara 0 sampai 1. nilai Lambda yang besar (mendekati 1) menunjukkan bahwa rata-rata grup cenderung tidak berbeda. Sebaliknya nilai Lambda yang kecil (mendekati 0), menunjukkan rata-rata grup berbeda. Tujuan analisis diskriminan Oleh karena bentuk multivariate dari analisis diskriminan adalah dependence, maka variabel dependen adalah variabel yang menjadi dasar analisis diskriminan. Variabel dependen bisa berupa kode grup 1 atau grup 2 atau lainnya, dengan tujuan diskriminan secara umum adalah : · Untuk mengetahui apakah ada perbedaan yang jelas antar grup pada variabel dependen. · Jika ada perbedaan, kita ingin mengetahui variabel independen mana pada fungsi diskriminan yang
membuat perbedaan tersebut. · Membuat fungsi atau model diskriminan, yang pada dasarnya mirip dengan persamaan regresi. 7 · Melakukan klasifikasi terhadap objek (dalam terminology SPSS disebut baris), apakah suatu objek (bisa nama orang, nama tumbuhan, benda atau lainnya) termasuk pada grup 1 atau grup 2 atau lainnya. Proses diskriminan : · Memisah variabel-variabel menjadi variabel dependen dan variabel independen. · Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya ada dua metode dasar untuk itu, yakni : 1. Simultaneous estimation, di mana semua variabel dimasukkan secara bersama-sama kemudian dilakukan proses diskriminan. 2. Step-wise estimation, di mana variabel dimasukkan satu persatu ke dalam model diskriminan. Pada proses ini, tentu ada variabel yang tetap ada pada model dan ada kemungkinan satu atau lebih variabel independen yang dibuang dari model. · Menguji signifikansi dari fungsi diskriminan yang telah terbentuk dengan menggunakan Wilk’s Lambda, Pilai, F test dan lainnya. · Menguji ketepatan klasifikasi dari fungsi diskriminan , termasuk mengetahui ketepatan klasifikasi secara individual dengan Casewise Diagnostics. · Melakukan interpretasi terhadap fungsi diskriminan tersebut. · Melakukan uji validasi fungsi diskriminan. Jumlah sampel yang seharusnya ada pada analisis diskriminan Secara pasti tidak ada jumlah sampel yang ideal pada analisis diskriminan. Pedoman yang bersifat umum yang menyatakan untuk setiap variabel independen sebaiknya ada 5-20 data (sampel). Dengan demikian jika ada enam variabel independen, seharusnya minimal ada 6 x 5 = 30 sampel. Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis sampel yakni analysis sample yang digunakan untuk membuat fungsi diskriminan, serta holdout 8 sample (split sample) yang digunakan untuk menguji hasil diskriminan. Sebagai contoh, jika ada 70 sampel maka sampel tersebut dibagi dua, 35 untuk analysis sample dan 35 untuk holdout sample. Kemudian hasil fungsi diskriminan yang terjadi pada analysis sample dibandingkan dengan hasil fungsi diskriminan dari holdout sample, apakah terjadi perbedaan yang besar ataukah tidak. Jika ketepatan klasifikasi kedua sampel sama besar, dikatakan fungsi diskriminan dari analisis sampel sudah valid. Inilah yang disebut proses validasi silang (cross validation) dari fungsi diskriminan. Asumsi yang harus dipenuhi dalam analisis diskriminan adalah : Æ Multivariate normality, atau variabel independen seharusnya berdistribusi normal. Jika data tidak berdistribusi normal, hal ini akan menyebabkan masalah pada ketepatan fungsi (model) diskriminan. Regresi logistic (logistic regression) bisa dijadikan alternatif metode jika memang data tidak berdistribusi normal. Æ Matriks kovarians dari semua variabel independen relatif sama. Æ Tidak ada korelasi antar variabel independen. Jika dua variabel independen mempunyai korelasi yang kuat, maka dikatakan terjadi multikolinearitas. Æ Tidak adanya data yang sangat ekstrim (outlier) pada variabel independen. Jika ada data outlier yang tetap diproses, hal ini bisa berakibat berkurangnya ketepatan klasifikasi dari fungsi diskriminan. Melakukan analisis diskriminan Menurut Malhotra, analisis diskriminan terdiri dari lima tahap, yaitu : (1) merumuskan masalah, (2) mengestimasi koefisien fungsi diskriminan, (3) menginterpretasi hasil, (4) uji signifikansi, (5) validasi fungsi diskriminan. 9 1. Merumuskan masalah Tahap ini mencakup jawaban atas pertanyaan kenapa analisis diskriminan dilakukan (latar belakang masalah) dan apa tujuan masalah diskriminan, termasuk variabel-variabel apa yang dilibatkan. Kalau analisis diskriminan dpakai sebagai alat analisis dalam sebuah penelitian formal (skripsi dan tesis), tahap pertama yang dimaksud mencakup bab 1 (pendahuluan), bab II (kerangka teori), dan bab III (metodologi penelitian). Karena analisis diskriminan akan melakukan tugasnya begitu data dimasukkan, perlu dipastikan terlebih dulu bahwa instrument yang digunakan akurat (baik secara teori maupun statistik) dan datanya reliable. Pada tahap ini peneliti juga mengidentifikasi sasaran, variabel dependen, serta variabel independen. Variabel dependen harus berisikan dua atau lebih kategori, di mana antara satu kategori dan kategori lain bersifat terpisah . sekiranya variabel dependen memakai skala metric (interval ataupun rasio), skala variabel tersebut
harus diubah menjadi kategori terlebih dahulu. Misalnya, sikap yang kita ukur dengan skala numerik berskala 1 sampai 7, dapat diubah menjadi dua kategori atau tiga kategori, atau lainnya. 2. Mengistemasi fungsi diskriminan Estimasi dapat dilakukan setelah sampel analisis diperoleh. Ada dua pendekatan umum yang tersedia. Pertama, metode langsung yaitu suatu cara mengestimasi fungsi diskriminan dengan melibatkan variabel-variabel prediktor sekaligus. Setiap variabel dimasukkan tanpa memperhatikan kekuatan diskriminan masingmasing variabel. Metode ini baik kalau variabel-variabel prediktor dapat diterima secara teoretis. 10 Kedua, stepwise method. Dalam metode ini, variabel prediktor dimasukkan secara bertahap, tergantung pada kemampuannya melakukan diskriminasi grup. Metode ini cocok kalau peneliti ingin memilih sejumlah variabel prediktor untuk membentuk fungsi diskriminan. Contoh kasus untuk analisis diskriminan 2 grup: Dosen-dosen Universitas Internasional, sebuah perguruan tinggi swasta diwajibkan untuk melakukan penelitian (riset) ilmiah minimal sekali setahun. Untuk membantu dosen-dosen melakukan riset, perguruan tinggi itu menyediakan dana yang dapat diperoleh setelah proposal penelitian para dosen dianggap layak oleh lembaga penelitian dan pengembangan (litbang) perguruan tinggi itu. Para dosen yang merasa mampu juga dapat melakukan penelitian tanpa harus melalui lembaga litbang. Ternyata sekalipun universitas internasional menyediakan dana penelitian, lebih banyak dosen yang melakukan penelitian dengan biaya sendiri. Untuk mengetahui penyebab kenyataan ini dilakukan penelitian terhadap 50 dosen yang melakukan penelitian, 24 di antaranya lewat litbang, 26 menggunakan biaya sendiri. Empat variabel yang dijadikan sebagai variabel independen adalah gaji ( X1 ), sikap terhadap litbang ( X 2 ), kemampuan melakukan riset( X3 ) dan daya tarik topic yang diteliti( X 4 ). Sampel dibagi dua. Sebanyak 30 responden dipakai sebagai sampel analisis. Sisanya, 20 responden dijadikan sebagai sampel holdout. Hipotesis : H 0 : Rata-rata semua variabel dalam semua grup adalah sama. H1 : Rata-rata semua variabel dalam semua grup adalah berbeda. 11 Tampilan prosedur analisis diskriminan 1. Buka program SPSS. Lalu, pada layar isikan data. Lakukan penyesuaian nama variabel dan angka desimal melalui menu View. Kemudian akan Tampak dilayar 2. Dari menu utama, pilih analyze, lalu classify, kemudian klik discriminant. Kemudian, dari kotak dialog yang muncul masukkan variabel “d” sebagai 12 grouping variables. Kemudian klik, define range. Lalu pada kotak dialog kecil yang muncul masukkan angka 1 pada sel minimum dan angka 2 pada sel maximum. Untuk kembali pada kotak dialog discriminant, pada kotak dialog define range, klik continue. Pada kotak dialog discriminant analysis, klik statistics, kemudian, pada kotak dialog statistics tandai sel Means, Unstandardized dan Within group correlations. Lalu klik continue. Dari kotak dialog discriminant analysis, klik save, kemudian pada kotak dialog save yang muncul, pilih fasilitas-fasilitas seperti ditandai di bawah ini. Dengan fasilitasfasilitas tersebut, SPSS akan memprediksi keanggotaan setiap responden, skor diskriminan responden, serta peluang keanggotaan responden pada grup 1 dan grup 2 3. Terakhir. Pada kotak dialog discriminant analysis, klik OK, kemudian didapatlah hasil seperti berikut : Discriminant Group Statistics Jalur Mean Std. Deviation Valid N (listwise) Unweighted Weighte d 1.00 Gaji 3.8857 .68259 14 14.000 Sikap 5.7857 .69929 14 14.000 Kemampua n 6.0714 .82874 14 14.000 DayaTarik 5.9286 .82874 14 14.000 2.00 Gaji 4.9813 1.04640 16 16.000 Sikap 4.0625 .92871 16 16.000 13 Kemampua n 4.2500 .77460 16 16.000 DayaTarik 4.5000 .51640 16 16.000 Total Gaji 4.4700 1.04127 30 30.000 Sikap 4.8667 1.19578 30 30.000 Kemampua n 5.1000 1.21343 30 30.000 DayaTarik 5.1667 .98553 30 30.000 Pooled Within-Groups Matrices(a) Gaji Sikap Kemampua n DayaTari k Covarianc e Gaji .803 -.137 -.129 -.177 Sikap -.137 .689 .142 .046 Kemampua n -.129 .142 .640 .038 DayaTarik -.177 .046 .038 .462 Correlatio n Gaji 1.000 -.184 -.180 -.291 Sikap -.184 1.000 .213 .081 Kemampua n -.180 .213 1.000 .070 DayaTarik -.291 .081 .070 1.000 a The covariance matrix has 28 degrees of freedom. Eigenvalues 14 Functio n Eigenvalu e % of Variance Cumulative % Canonical
Correlation 1 2.993(a) 100.0 100.0 .866 a First 1 canonical discriminant functions were used in the analysis. Tests of Equality of Group Means Wilks' Lambda F df1 df2 Sig. Gaji .715 11.161 1 28 .002 Sikap .465 32.176 1 28 .000 Kemampua n .420 38.687 1 28 .000 DayaTarik .459 33.002 1 28 .000 Log Determinants Jalur Rank Log Determinan t 1.00 4 -2.385 2.00 4 -2.397 Pooled withingroups 4 -2.003 The ranks and natural logarithms of determinants printed are those of the group covariance matrices. Wilks' Lambda 15 Test of Function(s) Wilks' Lambda Chisquare df Sig. 1 .250 36.001 4 .000 Standardized Canonical Discriminant Function Coefficients Function 1 Gaji -.026 Sikap .456 Kemampua n .539 DayaTarik .545 Structure Matrix Function 1 Kemampua n .679 DayaTarik .627 Sikap .620 Gaji -.365 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. 16 Canonical Discriminant Function Coefficients Function 1 Gaji -.029 Sikap .549 Kemampua n .674 DayaTarik .802 (Constant) -10.125 Unstandardized coefficients Functions at Group Centroids Jalur Function 1 1.00 1.787 2.00 -1.564 Unstandardized canonical discriminant functions evaluated at group means 3. Interpretasi output Analisis diskriminan dimulai dengan hal-hal ringan. Pada tabel dari statistik grup secara kulaitatif terlihat perbedaan rata-rata variabel setiap grup dan rata-rata total. Rata-rata ini, kalau antar grup berbeda , mengindikasikan bahwa variabelvariabel di dalamnya berperan di dalam mengelompokkan responden. Sekiranya 17 rata-rata sebuah variabel sama pada kedua grup, bolehlah kita percaya bahwa variabel tersebut tidak berperan dalam mengelompokkan objek (responden). Standar deviasi juga merupakan indikator apakah variabel berperan baik sebagai diskriminator atau tidak. Sangat baik kalau standar deviasi dalam grup lebih rendah daripada standar deviasi total, sebab dalam grup tertentu nilai-nilai variabel lebih homogen. Semua variabel memenuhi syarat ini, kecuali variabel gaji, di mana standar deviasi gaji (variabel X1) grup 2 lebih tinggi dibanding standar deviasi total. Memang terbukti : kemudian dari standardized coefficient dan struktur matrix, nilai variabel ini paling rendah. Artinya peran variabel ini dalam mendiskriminasi objek paling rendah. Pooled within-group correlation matrix mengindikasikan korelasi antarvariabel prediktor yang rendah. Sehingga, multikolinearitas dapat diabaikan. Pada tabel bagian test of equality of group means, dengan alpha = 0,05, maka nilai signifikansi nilai F menunjukkan bahwa ketika diperiksa secara sendirisendiri, semua variabel prediktor signifikan (karena nilai signifikansinya di bawah 0,05) Karena hanya dua grup yang dibentuk, fungsi diskriminan hanya ada satu, dengan eigenvalue sebesar 2,993 yang sudah mencakup 100% varians yang dijelaskan (explained variance) Korelasi kanonikal adalah 0,866. koefisien determinasi (r 2 ) diperoleh dengan memangkat duakan korelasi kanonikal : (0,866) 2 = 0,750. angka ini mengindikasikan bahwa 75 % varians dalam dependen variabel dapat dijelaskan oleh model. 4. Uji signifikansi Tak ada gunanya menginterpretasi hasil analisis diskriminan kalau fungsinya tidak signifikan. Hipotesis yang mau diuji adalah H 0 yang menyatakan bahwa rata-rata semua variabel dalam semua grup adalah sama. Dalam SPSS, uji 18 dilakukan dengan menggunakan Wilks’ l . Kalau beberapa fungsi diuji sekaligus, sebagaimana dilakukan pada analisis diskriminan , statistik Wilks’ l adalah hasil l univariat untuk setiap fungsi. Tingkat signifikansi diestimasi berdasarkan Chi-square yang telah ditransformasi secara statistik. Pada hasil analisis terlihat bahwa Wilks’ l berasosiasi sebesar 0,250 dengan fungsi diskriminan. Angka ini kemudian ditransformasi menjadi chi-square dengan derajat kebebasan sebesar 4. nilai Chi-square adalah 36,001. kesimpulannya, cukup bukti untuk menolak H 0 dengan tingkat kesalahan a = 0,000 . Biasanya, batas signifikansi pengujian adalah a = 0,05% . Kalau nilai signifikansi sama atau di bawah nilai itu, kita dapat menolak H 0 . 5. Tingkat kepentingan predictor Untuk menjawab pertanyaan : “variable independent (disebut juga ‘variabel predictor’) mana saja yang paling berperan (berkontribusi) dalam melakukan diskriminasi ?”. Pertama lihat “standardized coefficient”. Secara relative, predictor yang memiliki “standardized
coefficient” yang lebih besar menyumbangkan kekuatan diskriminasi (discriminating power) yang lebih besar terhadap fungsi disbanding predictor yang memiliki “standardized coefficient” lebih kecil. Jadi seperti terlihat pada table, dengan skor 0,545, predictor ‘daya tarik topik’ memiliki tingkat kepentingan paling tinggi. Dengan skor -0,026, predictor gaji memiliki peran yang paling kecil. Kedua peneliti juga bisa menggunakan korelsi struktur (structure matrix), yang juga disebut canonical loadings dan discriminant loadings. Jangan diperhatikan negative positifnya. Perhatikan nilai mutlaknya. Pada table dengan korelasi struktur, kita menghasilkan kesimpulan bahwa peran diskriminasi dari yang tertinggi sampai yang terendah adalah kemampuan peneliti, daya tarik topic, sikap terhadap litbang, dan gaji dosen. 19 6. Fungsi Diskriminan Dengan menggunakan canonical discriminant function coefficient, kita dapat membentuk fungsi diskriminan yaitu : 1 2 3 4 D = -10,125 - 0,029X + 0,549X + 0,674X + 0,802X Sebetulnya, koefisien di atas merupakan penyederhanaan dengan memberikan angka tiga decimal di belakang koma, seperti dihasilkan oleh program SPSS. Kalau output SPSS kita impor dengan program excel, angka di belakang koma nilai koefisien lebih banyak sehingga dengan memakai angka demikian, perhitungan skor diskriminan secara manual lebih presisi. Cara mengimpor adalah dengan mengkopi table output SPSS itu, lalu membuka excel, terus melakukan paste pada file yang telah dibuka. Dengan program SPSS sebenarnya kita tidak perlu lagi menghitung skor diskriminan (disebut juga Z scores) karena sudah disediakan oleh SPSS. Akan tetapi untuk menuignkatkan pemahaman, kita perlu mengetahui darimana datangnya skor-skor itu. Persamaan di bawah ini yang menggunakan koefisien dari table dapat dipakai untuk menghitung skor diskriminan dengan presisi yang tinggi. 1 2 3 4 D = -10.124622 - 0,028541X + 0,5488X + 0,674008X + 0,802052X Sekiranya kita menggunakan skor diskriminan yang telah diberikan oleh program computer, persamaan pertama tidak bermasalah. Persamaan ini baru bermasalah kalau kita menghitung skor diskriminan secara manual, sebab angkanya bisa berbeda (walaupun tidak banyak) dengan skor diskriminan yang diberikan computer. Tampilan prosedur analisis diskriminan houldo 20 1. Buka program SPSS. Lalu, pada layar isikan data. Lakukan penyesuaian nama variabel dan angka desimal melalui menu View. Kemudian akan Tampak : 21 2. Hasil print out Komputer adalah ( sebagian saja yang ditampilkan ) Group Statistics Jalur Mean Std. Deviation Valid N (listwise) Unweighte d Weighted 1.00 Gaji 4.0900 .72180 10 10.000 Sikap 5.9000 .56765 10 10.000 Kemampua n 6.1000 .73786 10 10.000 DayaTarik 5.9000 .87560 10 10.000 2.00 Gaji 4.8600 .64670 10 10.000 Sikap 4.2000 .63246 10 10.000 Kemampua n 3.9000 .73786 10 10.000 DayaTarik 4.5000 .52705 10 10.000 Total Gaji 4.4750 .77519 20 20.000 Sikap 5.0500 1.05006 20 20.000 Kemampua n 5.0000 1.33771 20 20.000 DayaTarik 5.2000 1.00525 20 20.000 Eigenvalues Functio n Eigenvalu e % of Variance Cumulative % Canonical Correlation 22 1 4.595(a) 100.0 100.0 .906 a First 1 canonical discriminant functions were used in the analysis. Canonical Discriminant Function Coefficients Function 1 Gaji -.054 Sikap 1.026 Kemampua n .929 DayaTarik .170 (Constant) -10.470 Unstandardized coefficients Functions at Group Centroids Jalur Function 1 1.00 2.034 2.00 -2.034 Unstandardized canonical discriminant functions evaluated at group means Classification Results(b,c) Predicted Group Total 23 a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b 100.0% of original grouped cases correctly classified. c 90.0% of cross-validated grouped cases correctly classified. 7. Validasi a. Cutting Score Determination Sebelum analisis diskriminan dilakukan, kita hanya mempunyai dua skor berdasarkan jalur yang dipilih, yaitu 1 dan 2. Angka 1 menyatakan penelitian yang dibiayai litbang, angka 2 menyatakan penelitian atas biaya sendiri. Skor Membership Jalur 1.00 2.00 Original Count 1.00 10 0 10 2.00 0 10 10 % 1.00 100.0 .0 100.0 2.00 .0 100.0 100.0 Crossvalidated( a) Count 1.00 10 0 10 2.00 2 8 10 % 1.00 100.0 .0 100.0 2.00 20.0 80.0 100.0 24 diskriminan yang kita cari dapat dipakai untuk
memprediksisetiap responden, masuk ke dalam golongan mana, apakah golongan 1 atau 2. misalnya dengan skor diskriminan sebesar 2,18646, dapatkah kita prediksi masuk ke dalam mana responden 1? Jawabannya dapat. Untuk memprediksi responden mana masuk golongan mana, kita dapat menggunakan optimum cutting score. Memang dari komputer informasi ini sudah diperoleh. Akan tetapi, tak ada salahnya kalau kita mengetahui cara mengerjakan secara manual. Rumus yang digunakan berbeda untuk grup yang proporsional (kedua grup mempunyai jumalh anggota yang sama) dan yang tidak proporsional (jumlah anggota kedua grup berbeda). Untuk dua grup yang mempunyai ukuran yang sama, cutting score dinyatakan dengan rumus : 2 A B ce Z Z Z + = Dengan Zce =Cutting score untuk grup yang sama ukuran Z A = Centroid grup A Z B = Centroid grup B Untuk sampel holdout, cutting score-nya adalah : { } 0,000 2 2,034 ( 2,034) = + - Zce Jadi, pembatasnya adalah 0,000. kalau di atas 0,000 masuk grup 1 dan kalau di bawah 0,000 masuk grup 2. Oleh karena itu, responden 1 masuk pada sampel holdout, dengan skor diskriminan 2,28368. Responden 11, dengan skor diskriminan -3,15108, masuk grup 2. 25 Apabila dua grup berbeda ukuran, seperti sampel analisis, rumus cutting score yang digunkan adalah : A B A A B B CU N N N Z N Z Z + + = Dengan : ZCU = Cutting score untuk grup yang tak sama ukuran. NA = Jumlah anggota grup A NB = Jumlah anggota grup B Z A = Centroid grup A Z B = Centroid grup B Untuk sampel analisis, cutting score-nya adalah : 0,2232 14 16 14 ( 1,564) 16 1.787 = + - + = x x ZCU Responden 1 sampel analisis diprediksi ke grup 1 karena skor diskriminannya 2,18646. Responden 3 yang aslinya masuk grup 1, diprediksi masuk grup 2 karena skor diskriminannya di bawah cutting score yaitu -0,14431. Ini namanya error atau misclassified. Tanpa cutting score pun, sebenarnya kita dapat langsung memprediksi grup setiap responden, yaitu melihat paling dekat ke centroid mana skor diskriminan masing-masing objek. Misalnya, skor diskriminan responden 1 sampel analisis, yang sebesar 2.18646 tentunya lebih dekat ke 1.787 (centroid grup 1) daripada ke -1,564 (centroid grup 2). Oleh karena itu diprediksi masuk ke dalam grup 1. Responden 15 sampel analisis, dengan skor diskriminan -0,27107 tentunya masuk grup 2. Program SPSS juga memberikan peluang masuk ke dalam grup 1 dan grup 2. peluang paling besar ke dalam grup mana yang dimiliki suatu objek, ke dalam grup itulah objek tersebut kita prediksi. Responden 1 sampel analisis, misalnya 26 memiliki peluang ke dalam grup 1 sebesar 0,99904 dan ke dalam grup 2 sebesar 0,00096. Tentunya, peluang ke dalam grup 1 lebih besar, jadi ke dalam grup itulah responden 1 diprediksi. b. Hit Ratio Hit rasio adalah persentase kasus atau responden yang kelompoknya dapat diprediksi secara tepat. Kalau jumlah seluruh kasus sampel analisis (responden) adalah 30 (pada kedua grup), lalu fungsi diskriminan dapat memprediksi 29 kasus secara tepat (hanya responden 3 yang error), maka hit rasio adalah 29/30 = 96,67%. Tanpa menggunakan criteria apapun, karena mampu memprediksi grup keanggotaan 29 responden dari total 30 responden dan hanya satu yang salah prediksi, kita dapat menilai angka ini sangat bagus. Untuk sampel holdout, fungsi diskriminan mampu memprediksi keanggotaan semua (100%) objek. Karena itu, tanpa criteria statistic apapun, dapatlah kita yakin bahwa fungsi diskriminan, baik sampel analisis maupun holdout, memiliki akurasi yang tinggi. Pertanyaaannya, bagaimana kalau hit ratio tidak sebaik itu? Misalnya 60%, apakah dapat diterima? Kalau ukuran setiap grup sama, lihat nilai kesempatan klasifikasi. Menurut Malhotra, kesempatan klasifikasi untuk grup berukuran sama adalah 1 dibagi jumlah grup. Untuk sampel yang terdiri dari 2 grup, kesempatan klasifikasi adalah ½ atau 0,50. Kriteria kesempatan proporsional (proportional chance criterion) dapat dipakai kalau ukuran grup-grup tidak sama dank alai tujuan peneliti adalah menentukan secara tepat keanggotaan objek pada dua atau lebih grup. Rumusnya adalah : (1 ) 2 2 C p p PRO = + - Dengan : 27 p = proporsi responden pada grup 1 1-p = proporsi responden pada grup 2 Untuk sampel analisis, proporsi grup 1 adalah 46,67% dan proporsi grup 2 adalah 53,33%. Dengan kedua proporsi ini, kita dapat menghitung (0,4667) (0,5333) 0,5022 50,22% 2 2 CPRO =
+ = = c. Akurasi statistic Kita dapat menguji secara statistik apakah klasifikasi yang kita lakukan (dengan menggunakan fungsi diskriminan) akurat atau tidak. Uji statistik yang digunakan dinamakan Press’s Q Statistic. Ukuran sederhana ini membandingkan jumlah kasus yang diklasifikasi secara tepat dengan ukuran sampel dan jumlah grup. Nilai yang diperoleh dari perhitungan kemudian dibandingkan dengan nilai kritis (critical value) yang diambil dari table chi-square dengan derajat kebebasan satu (ditulis dk = 1 atau df = 1) dan tingkat keyakinan sesuai keinginan kita. Statistic Q ditulis dengan rumus : [ ] ( 1) ( ) Pr ' 2 - - = N K N nK ess s Q Dengan : N = ukuran total sampel n = jumlah kasus yang diklasifikasi secara tepat K = jumlah grup Untuk sampel analisis, kita dapat menghitung [ ] 26,13 30(2 1) 30 (29 2) Pr ' 2 = - - = x ess s Q Dengan a = 0,05 dan df = 1, nilai 2 X tabel adalah 3,841. Dengan demikian, dapat disimpulkan bahwa fungsi diskriminan kita akurat. 28 Pada analisis diskriminan ganda (multiple discriminant analysis), grup yang dimiliki bukan lagi dua melainkan tiga, empat atau lebih. Kalau diaplikasikan pada dua grup, persamaan diskriminan yang dibentuk adalah jumlah grup itu dikurang satu. Jadi kalau ada tiga grup sebagai variable dependen, persamaan diskriminan yang dibentuk adalah dua, kalau grup ada lima, persamaan diskriminan ada 4 , demikian seterusnya. Apa yang dilakukan pada analisis diskriminan berganda sama dengan yang dilakukan pada analisis diskriminan dua grup. Perbedaannya adalah selain jumlah fungsi diskriminan, juga menyangkut cara memprediksi grup sebuah kasus atau seorang responden.
Pengertian Regresi Logistik
Pada prinsipnya, regresi logistik mempunyai tujuan untuk memperkirakan besarnya
probabilitas kejadian tertentu di dalam suatu populasi sebagai suatu fungsi eksplanatori,
misalnya untuk mengetahui peluang kejadian kebakaran di kawasan taman nasional X
pada kondisi wilayah tertentu dan faktor apa saja yang berpengaruh signifikan terhadap
kejadian kebakaran di sana. Regresi ini menggunakan variabel respon/terikat berbentuk
dummy. Tidak seperti regresi linier biasa, penggunaan regresi logistik memiliki
kelebihan dalam hal pelanggaran beberapa asumsi yang harus ada pada regresi linier
biasa seperti asumsi kenormalan dan homokedastisitas. Estimasi nilai Y juga terletak
pada range yang sangat luas (dapat berada di luar interval 0-1). Dengan demikian
secara matematis penggunaan regresi logistik menjadi lebih mudah digunakan.
Variabel respon/terikat yang digunakan dalam regresi ini dikategorikan. Regresi logistik
biner menggunakan variabel respon dikotomi, yaitu 1 sebagai kejadian dan 0 untuk
tidak ada kejadian. Variabel respon bisa lebih dari 2 jenis, seperti dalam kasus tingkat
kejadian kebakaran hutan yang dibagi menjadi 3 kelas, kerawanan rendah (Y=0),
sedang (Y=1) dan tinggi (Y=2). Untuk kasus seperti ini maka dapat digunakan regresi
logistik multinomial.
Model regresi logistik biner digunakan untuk melihat apakah variabel tak bebas yang
berskala dikotomi (Y = 0 dan Y = 1) dipengaruhi oleh variabel bebas baik yang
kategorik maupun numerik. Bentuk umum model peluang regresi logistik dengan k
variabel diformulasikan sebagai berikut :
Fungsi tersebut merupakan fungsi linier sehingga perlu dilakukan transformasi ke dalam
bentuk logit agar dapat dilihat hubungan antar variabel respon dengan penjelas.
Dengan melakukan transformasi logit dari phy (x) , didapat persamaan yang lebih
sederhana yang merupakan fungsi linier data parameter-parameternya, yaitu:
Apabila
terdapat sebanyak p peubah bebas dan peubah ke-j merupakan merupakan peubah
kategorik, maka akan terdapat peubah boneka sebanyak k-1, dengan dummy variabel
kj dinamakan Dju dengan koefisien Bju, u = 1,2,….., kj-1. Sehingga model transformasi
logit dapat dituliskan seperti persamaan berikut ini :
Kenapa menggunakan Data Kategorik
???
Selain variabel terikat yang berbentuk katagorik, dalam pengelolaan biofisik kawasan,
seorang analis tidak selalu dihadapkan pada ketersediaan data-data variabel bebas
level rasio. Data semacam jenis tanah, status kawasan dan tipe penutupan lahan
merupakan contoh-contoh data katagorik dalam analisis spasial. Data-data seperti ini
memiliki nilai penting untuk menjelaskan banyak fenomena, sayangnya tidak memiliki
nilai numerik yang jelas.
Pada sebagian kasus, analisis data-data katagorik dibuat menjadi data numerik dengan
sistem skoring, namun mempertahankan data kategorik seperti apa adanya juga
merupakan pilihan yang baik. Banyak analis lebih senang memilih metodologi analisis
yang cocok untuk data katagorik dari pada terpaksa mengangkakan data-data tersebut
untuk bisa dilakukan analisis berbasis numerik.
Konversi data dari data numerik menjadi kategorik bahkan menjadi satu pilihan ketika
jumlah data numerik yang akan dianalisis berukuran sangat besar, misalnya saja
analisis yang dilakukan mencakup banyak data di seluruh wilayah Indonesia. Konversi
ini memiliki keuntungan terkait ruang penyimpanan yang lebih kecil sehingga waktu
analisis computer pun juga lebih cepat.
Kelemahan dari konversi ini adalah hilangnya sifat-sifat numeric pada data,
pembentukkan kelompok/ katagori seringkali bersifat debatable dan pengelompokkan
data ordinal dalam proses pengolahan data statistik Chi-Square hanya dipandang
sebagai katagori nominal. Nilai ranking data kategorik yang menjadi nilai tambah data
menjadi hilang.
Pemanfaatan bidang Manajemen
Peningkatan kinerja dan penguatan fungsi pelayanan, dua istilah yang akhir-akhir ini
sering disebut terkait reformasi birokrasi di berbagai lembaga pemerintah. Mengenai
peningkatan kinerja sendiri memerlukan suatu alat ukur tertentu. Sepanjang
pengamatan, ada beberapa jenis indikator yang digunakan untuk mengukur kinerja,
mulai dari peningkatan kinerja berbasis proses, berbasis out put,
berbasisimpact/outcome maupun yang paling primitif berbasis penyerapan anggaran.
Setiap indikator memiliki kelebihan dan kekurangan, sehingga biasanya untuk
keperluan ini menggunakan kombinasi dari bermacam-macam indikator yang
dijabarkan menjadi parameter-parameter yang terukur. Contoh indikator berbasis
proses : pemangkasan strata birokrasi pelayanan perijinan pemanfaatan kawasan,
berbasis out put : peningkatan panjang batas terluar kawasan yang telah dilakukan tata
batas, berbasisimpact/outcome : peningkatan partisipasi masyarakat dalam
pengelolaan kawasan atau peningkatan pendapatan, dan berbasis penyerapan
anggaran : terjadi peningkatan belanja anggaran sebagai dampak dari pelaksanaan
kegiatan.
Dari keempat indikator tersebut, pengukuran kinerja
berdasarkan impact/outcome termasuk paling rumit, sebab perubahan biofisik
maupun sosial ekonomi yang terjadi di lapangan jarang melibatkan variabel tunggal.
Secara ilmiah, untuk mengidentifikasi sekaligus mengukur dampak tersebut dapat
menggunakan statistik kecenderungan (Odd Ratio). Analisis ini dapat dipakai untuk
mengolah data-data katagorik dengan level data nominal atau ordinal.
Implementasi bidang Konservasi
Dalam mendukung pengelolaan kawasan konservasi, teknik ini dapat dimanfaatkan
untuk menganalisis hubungan cause-effect gangguan yang terjadi di dalam kawasan,
seperti kebakaran hutan dan lahan, illegal logging, perambahan dan lain sebagainya.
Dengan analisis ini dapat diformulasikan faktor-faktor yang berpengaruh signifikan
terhadap terjadinya gangguan-gangguan tersebut melalui metodologi statistika yang
dapat diterima secara akademik.
Teknik ini juga bermanfaat untuk menganalisis faktor-faktor yang berperan dalam
penentuan kesesuaian habitat satwa liar, area prioritas penanganan gangguan
kawasan bahkan dapat menjadi salah satu pendekatan pengukuran dampak dari
aktivitas manajemen terhadap suatu kawasan.
Sebagaimana telah dijelaskan sebelumnya, seberapa besar manfaat hasil analisis
teknik ini sangat ditentukan oleh keakuratan para analis dalam mendefinisikan
katagori/kelompok, mengidentifikasi driving factors/ variabel bebas, pengelompokkan
variabel respon dan menjelaskan fenomena statistika berlandaskan teori-teori yang
relevan. Misalnya saja dilakukan analisis hubungan antara bentuk rumah di Sulawesi
Tenggara terhadap kejadian kebakaran hutan dan lahan atau pengaruh umur Jono
terhadap nilai mata uang rupiah. Dalam pengujian statistika, bisa jadi hasilnya
menunjukkan ada korelasi kuat antara kedua peubah, namun secara teoritis hubungan
ini tidak bisa diterima.
Untuk menilai seberapa besar signifikansi dampak aktivitas manajemen dapat dilakukan
perbandingan antara kawasan-kawasan yang mendapat perlakuan menajemen tertentu
dengan area-area sekitarnya yang memiliki karakteristik yang sama/mirip namun tidak
mendapatkan aktivitas manajemen. Contohnya : jika ingin mengetahui efektivitas
manajemen kawasan konservasi dalam menurunkan kejadian kebakaran, maka dapat
dilakukan perbandingan antara kejadian kebakaran di kawasan Cagar Alam X terhadap
kawasan di sekitarnya yang tidak berstatus kawasan konservasi.
Dalam contoh kasus tersebut, regresi logistik menggunakan pengelompokkan variabel
bebas berdasarkan status kawasan, yaitu kawasan Cagar Alam (kelompok 1) dan
kawasan bukan Cagar Alam (kelompok 2), sedangkan untuk variabel respon berupa
kejadian kebakaran (Y=1) dan tidak terjadi kebakaran (Y=0). Variabel yang relevan di
kawasan tersebut harus pula dimasukkan sebagai driving factor selain status
kawasan seperti jarak jalan, topografi dan lain sebagainya. Jumlah sampel haruslah
mencukupi.
Hasil analisis regresi logistik akan menunjukkan seberapa besar signifikansi penetapan
kawasan sebagai Cagar Alam dengan melihat signifikansi kelompok 1 terhadap
kelompok 2 (pembanding). Apabila didapatkan nilai signifikansi < 0.05, penetapan
kawasan Cagar Alam cukup efektif dalam menekan kejadian kebakaran hutan dan
lahan pada selang kepercayaan 95 %. Jika hasilnya menunjukkan kurang signifikan,
mungkin hal ini bisa menjadi masukkan bagi pihak manajemen untuk merancang
strategi yang lebih efektif dalam mengelola kawasan. Kriteria efektifitas manajemen
kawasan sendiri bersifat debatable baik jenis, bentuk maupun ukurannya, namun
sebagai alat ukur yang dapat memberikan informasi statistik, pendekatan dengan teknik
ini sangatlah bermanfaat.
Bentuk umum model peluang regresi logistik dengan p variabel penjelas, diformulasikan
sebagai berikut:
dengan π(x) adalah peluang kejadian sukses dengan nilai probabilita 0≤π(x)≤1 dan βj
adalah nilai parameter dengan j = 1,2,......,p. π(x) merupakan fungsi yang non linier,
sehingga perlu dilakukan transformasi ke dalam bentuk logit untuk memperoleh fungsi yang
linier agar dapat dilihat hubungan antara variabel bebas dan variabel tidak bebas. Dengan
melakukan transformasi dari logit π(x), maka didapat persamaan yang lebih sederhana,
yaitu:
Jika dari beberapa variabel bebas ada yang berskala nominal atau ordinal, maka variabel
tersebut tidak akan tepat jika dimasukkan dalam model logit karena angka-angka yang
digunakan untuk menyatakan tingkatan tersebut hanya sebagai identifikasi dan tidak
mempunyai nilai numerik dalam situasi seperti ini diperlukan variabel dummy. Untuk
variabel bebas dengan skala ordinal maupun nominal dengan k kategori, akan diperlukan
sebanyak k-1 variabel dummy.
Asumsi-asumsi dalam regresi logistik:
Tidak mengasumsikan hubungan linier antar variabel dependen dan independent
Variabel dependen harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar kelompok
variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat
eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50
sampel data untuk sebuah variabel prediktor (bebas).
Pendugaan Parameter
Metode untuk mengestimasi parameter-parameter yang tidak diketahui dalam model regresi
logistik ada 3 yaitu:
1. Metode kemungkinan maksimum (Maximum Likelihood Method)
2. Metode kuadrat terkecil tertimbang noniterasi (Noniterative Weight Least Square
Method)
3. Analisis fungsi diskriminan (Discriminant Fuction Analysis)
Pada dasarnya metode maksimum Likelihood merupakan metode kuadrat terkecil
tertimbang dengan beberapa proses iterasi, sedangkan metode noniterative weight least
square method hanya menggunakan satu kali iterasi. kedua metode ini asymptoticaly
equivalent, artinya jika ukuran sampel besar keduanya akan menghasilkan estimator yang
identik. Penggunaan fungsi diskriminan mensyaratkan variabel penjelas yang kuantitatif
berdistribusi normal. Oleh karena itu, penduga dari fungsi diskriminan akan over
estimate bila variabel penjelas tidak berdistribusi normal.
Dari Ketiga metodei di atas, metode yang banyak digunakan adalah metode maksimum
likelihood dengan alasan lebih praktis (Nachrowi dan Usman, 2002). Metode maksimu
likelihoood ini menduga parameter dengan nilai yang memaksimumkan fungsi likelihood
(likelihood function).
Uji Signifikansi Model
Untuk mengetahui pengaruh variabel bebas terhadap variabel tidak bebas secara bersama-
sama (overall) di dalam model, dapat menggunakan Uji Likelihood Ratio. Hipotesisnya
adalah sebagai berikut:
Ho: β1 = β2 =....= βp = 0 (tidak ada pengaruh veriabel bebas secara simultan terhadap
variabel tak bebas)
H1: minimal ada satu βj ≠ 0 (ada pengaruh paling sedikit satu veriabel bebas terhadap
variabel tak bebas)
Untuk j = 1,2,...,p
Statistik uji yang digunakan adalah:
Dengan :
Lo = Maksimum Lieklihood dari model reduksi (Reduced Model) atau model yang terdiri dari
konstanta saja
Lp = Maksimum Likelihood dari model penuh (Full Model) atau dengan semua variabel
bebas.
Statistik G2 ini mengikuti distribusi Khi-kuadrat dengan derajad bebas p sehingga hipotesis
ditolak jika p-value < α, yang berarti variabel bebas X secara bersama-sama mempengaruhi
variabel tak bebas Y.
Uji Parsial dan Pembentukan Model
Pada umumnya, tujuan analsis statistik adalah untuk mencari model yang cocok dan
keterpautan yang kuat antara model dengan data yang ada. Pengujian keberartian
parameter (koefisien β) secara parsial dapat dilakukan melalui Uji Wald dengan
hipotesisnya sebagai berikut:
Ho: βj = 0 (variabel bebas ke j tidak mempunyai pengaruh secara signifikan terhadap
variabel tidak bebas)
H1: βj ≠ 0 (variabel bebas ke j mempunyai pengaruh secara signifikan terhadap variabel
tidak bebas)
Untuk j = 1,2,....,p
Dengan statistik uji sebagai berikut:
Hipotesis akan ditolak jika p-value < α yang berarti variabel bebas Xj secara partial
mempengaruhi variabel tidak bebas Y.
Odds Ratio
Odds ratio merupakan ukuran risiko atau kecenderungan untuk mengalami kejadian
‘sukses ‘ antara satu kategori dengan kategori lainnya, didefinisikan sebagai ratio dari odds
untuk xj = 1 terhadap xj = 0. Odds ratio ini menyatakan risiko atau kecenderungan
pengaruh observasi dengan xj = 1 adalah berapa kali lipat jika dibandingkan dengan
observasi dengan xj = 0. Untuk variabel bebas yang berskala kontinyu maka interpretasi
dari koefisien βj pada model regresi logistik adalah setiap kenaikan c unit pada variabel
bebas akan menyebabkan risiko terjadinya Y = 1, adalah exp(c.βj) kali lebih besar.
Odds ratio dilambangkan dengan θ, didefinisikan sebagai perbandingan dua nilai odds xj =
1 dan xj = 0, sehingga:
Analisis FaktorAnalisis faktor adalah alat analisis statistik yang dipergunakan untuk mereduksi faktor-faktor yang mempengaruhi suatu variabel menjadi beberapa set indikator saja, tanpa kehilangan informasi yang berarti. Sebagai ilustrasi, terdapat 50 indikator yang diidentifikasi mempunyai pengaruh terhadap keputusan pembelian konsumen. Dengan analisis faktor, ke-50 indikator tersebut akan dikelompokkan menjadi beberapa sub set indikator yang sejenis. Masing-masing kelompok sub set tersebut kemudian diberi nama sesuai dengan indikator yang mengelompok. Pengelompokan berdasarkan kedekatan korelasi antar masing-masing indikator dan penentuan banyaknya sub set berdasarkan nilai eigen values, yang biasanya diambil di atas 1.
Analisis faktor digunakan untuk penelitian awal di mana faktor-faktor yang mempengaruhi suatu variabel belum diidentifikasikan secara baik (explanatory research). Selain itu, analisis faktor juga dapat digunakan untuk menguji validitas suatu rangkaian kuesioner. Sebagai gambaran, jika suatu indikator tidak mengelompok kepada variabelnya, tetapi malah mengelompok ke variabel yang lain, berarti indikator tersebut tidak valid.
Analisis faktor juga digunakan dalam Structural Equation Modelling (SEM) dan sering disebut dengan Confirmatory Factor Analysis (CFA).
Berikut akan kami sampaikan simulasi analisis faktor yang digunakan untuk mengelompokkan
beberapa indikator menjadi beberapa kelompok tertentu, tanpa kehilangan informasi yang berarti.
Data yang digunakan adalah hasil kuesioner yang terdiri dari 11 butir pertanyaan (q1 sampai dengan q11). Tabulasi data dalam bentuk SPSS Versi 11.5 dapat Anda Download di sini. Kita ingin mengelompokkan 11 butir tersebut menjadi beberapa kelompok, sehingga memudahkan untuk analisis selanjutnya. Dari tabulasi data SPSS, pilih menu Analyze, sorotkan mouse pada reduction data, dan klik pada Factor seperti pada contoh berikut:
Jika anda benar maka akan diarahkan ke menu analisis faktor seperti ini. Pindahkan q1 sampai q11 dari box kiri ke kotak variables
Klik pada menu descriptive di bagian kiri bawah, sehingga akan diarahkan ke box menu sebagai berikut:
Berikan tick mark (centang) seperti gambar, lalu tekan continue, sehingga anda akan diarahkan kembali ke box analisis faktor. Tekan Extraction di samping Descriptive, sehingga akan diarahkan ke menu box sebagai berikut
Lalu berikan tanda centang seperti pada gambar, tekan continue, maka akan kembali ke menu analisis faktor. Tekan rotation di samping extraction, sehingga akan diarahkan ke menu sebagai berikut:
Berikan tanda centang seperti gambar, lalu tekan continue. Setelah itu tekan OK pada box menu analisis faktor. Dan akan keluar output yang siap untuk diinterpretasikan.
Yang pertama adalah nilai KMO yaitu sebesar 0,796. Nilai yang diharapkan adalah di atas 0,5. Nah karena nilainya 0,796 > 0,5 maka analisis faktor dapat digunakan pada data yang kita punyai. Kalau nilainya di bawah 0,05 kayaknya jangan digunakan deh analisis faktor karena tidak layak. Output di bawahnya adalah communalities, yang diharapkan mempunyai nilai di atas 0,4 dan di situ tampak bahwa semua pertanyaan mempunyai nilai di atas 0,4 (minimal adalah 0,411 untuk q1).
Selanjutnya kita lihat output yang berikut
Dari 11 component (lihat tabel paling kiri) ternyata yang mempunyai nilai initial eigenvalues di atas 1 hanya ada 2 component. Artinya, bahwa 11 butir pertanyaan tersebut dapat dikelompokkan menjadi dua kelompok tanpa kehilangan informasi yang berarti. Component 1 mempunyai nilai 5,630 dan mampu menjelaskan varians sebesar 51,180% dan component 2 mempunyai nilai 1,879 dan mampu menjelaskan varians sebesar 17,084%. Dengan demikian kedua component tersebut mampu menjelaskan varians sebesar 68,264% atau kita kehilangan informasi sebesar 31,736% saja.
Kalau kita pengin melihat butir mana yang masuk kelompok 1 dan butir mana yang masuk kelompok 2 kita lihat output berikut:
Dari component matrik kita bisa melihat bahwa q1 ikut component 1 karena mempunyai loading factor sebesar 0,617 yang lebih besar dari pada loading factor ke component 2 yaitu sebesar 0,174. Dengan cara yang sama kita bisa mengelompokkan kelompok 1 selainn q1 adalah q2, q3, q5, q6, q7, q8, q9 dan q10. Sedangkan yang masuk component 2 adalah q4 dan q11. he he…. Eit lihat yang q 11….loading factor untuk component 1 adalah 0,436 dan untuk component 2 adalah -0,648. Bisa dimengerti kok dianggap masuk component 2 bukannya component 1. Kita ambil nilai mutlaknya.
Akan tetapi q11 memang component 2 tapi mempunyai nilai negatif sehingga akan membingungkan interpretasinya. Jadi ya kita lakukan rotasi dan hasilnya sebagai berikut:
Nah kan jadi lebih jelas. Butir q1 sampai q5 masuk component 2 dan butir q5 sampai q 11 masuk component 1. Ntar interpretasi variance explained juga dilihat yang rotation.
Nah, setelah itu anda kaitkan dengan teori yang ada. Butir q1 sampai q5 anda beri nama sesuai dengan isi dari pertanyaan dan merupakan suatu konstruk yang berbeda dengan konstruk yang terdiri dari q6 sampai q 11.
Cara Interpretasi Output Analisis FaktorUntuk memahami interpretasi dari output analisis faktor, berikut adalah penjelasan detail masing
masing tabel :
1. Tabel ;KMO and Bartlett's test, Pada tabel KMO and Bartlett's test, terlihat angka K-M-O
Measure of Sampling Adequacy (MSA) adalah 0,671. Oleh karena angka MSA di atas 0,5, maka
kumpulan variable tersebut dapat diproses lebih lanjut. Selanjutnya tiap variable dianalisis untuk
mengetahui mana yang dapat diproses lebih lanjutdan mana yang harus dikeluarkan.Kesimpulan
yang sama dapat dilihat pula pada angka KMO andBartlett's test (yang ditampakkan dengan angka
Chi-Square) sebesar 36,626 dengansignifikansi 0,001.
2. Tabel Anti Image Matrices, Pada tabel Anti Image Matrices, khususnya pada bagian bawah
(Anti Image Correlation), terlihat sejumlah angka yang membentuk diagonal, yang bertanda 'a', yang
menandakan besaran MSA sebuah variabel. Dari keenam faktor yang dianalisis, menunjukkan
criteria angka MSA diatas 0,5. Yang berarti variable masih bisa diprediksi untuk dianalisa lebih lanjut
3. Pada tabel Communalities Pada tabel Communalities variabel 01 (kualitas), angka 0,321
berarti 32,1 % varians dari variable kualitas bisa dijelaskan oleh faktor yang terbentuk, demikian
dengan variabel-variabel yang lainnya. Semua variable dapat dijelaskan oleh faktor yang terbentuk
dengan ketentuan semakin besar communalities maka semakin erat hubungan variabel yang
bersangkutan dengan faktor yang terbentuk
4. Tabel Total Variance Explained Pada tabel Total Variance Explained, variabel yang
dianalisis ternyata dapat dikelompokkan menjadi 2 faktor, yaitu eigenvalues yang menunjukkan
angka lebih besar dari satu. Dengan demikianada 2 faktor yang terbentuk.Penentuan variabel yang
masuk masing factor dilakukan dengan memperbandingkan besaran korelasi pada setiap baris.
Angka korelasi dibawah 0,5 menunjukkan indikasi korelasi yang lemah sedangkan diatas 0,5
berindikasi kuat korelasinya.
5. Gambar Scree Plot Pada Gambar Scree Plot, Terlihat bahwa dari satu ke dua faktor (garis
dari sumbu Component Number = 1 ke 2), arah garis menurun dengan cukup tajam. Kemudian dari
angka 2 ke 3,garis masih menurun, namun dengan slope yang lebih kecil. Juga perhatikan faktor 3
sudah di bawah angka 1 dari sumbu y (Eigenvalues). Hal in imenunjukkan bahwa dua faktor adalah
paling bagus untuk 'meringkas' keenam variabel tersebut.
6. Tabel Component Matrix Pada tabel Component Matrix menunjukkan distribusi keenam
variable tersebut pada dua factor yang ada. Sedangkan angka yang ada pada table tersebut adalah
factor loadings, atau besa rkorelasi antara suatu variable dengan faktor1atau faktor 2.Seperti pada
variable Kualitas, korelasi antara variable Kualitas dengan faktor 2 adalah0,523 (cukup kuat),
sedang korelasi variable Kualitas dengan faktor1 adalah -0,218 (lemah). Dengan demikian
dapatdikatakan variable Kualitas dapat dimasukkan sebagaikomponen faktor 2.Pada variable
merek, korelasi antara variable merekdengan faktor1 adalah0,813 (cukupkuat), sedang korelasi
variable merekdenganfaktor 2 adalah0,299 (lemah). Dengan demikian dapat dikatakan variable
merek dapat dimasukkan sebagai komponen faktor l.Pada variable kemasan, korelasi antara
variable kemasan dengan faktor1 adalah0,609 (cukupkuat), sedang korelasivariabel kemasan
dengan faktor 2 adalah- 0,525. Dengan demikian dapat dikatakan variable kemasan dapat
dimasukkan sebagai komponen faktor l. Pada variable harga, korelasi antara variable harga dengan
faktor1 adalah0,628 (cukupkuat), sedangkorelasi variable harga dengan faktor 2 adalah0,583
(lemah). Dengan demikian dapat dikatakan variable hargadapatdimasukkan sebagai komponen
factor 1.Pada variable ketersediaan barang, korelasia ntara variable ketersediaan barangdengan
faktor1 adalah0,750 (cukupkuat), sedang korelasi variable ketersediaan barangdenganfaktor 2
adalah0,200 (lemah). Dengan demikiandapatdikatakanvariabel ketersediaan barang dapat
dimasukkan sebagai komponen faktor l.Pada variable acuan, korelasi antara variable acuan dengan
faktor1 adalah0,644 (cukupkuat), sedang korelasi variabela cuan denganfaktor 2 adalah - 0,506
(lemah). Dengan demikian dapatdikatakan variable lacuna dapatdimasukkan sebagai komponen
faktor l.
7. Table rotated matrics Sekalipun dari keenam variable telah terbentuk faktor-faktor, namun
perlu dilakukan rotasi untuk memperjelas variabel-variabel mana yang masuk kedalam tiap-tiap
faktor. Banyak sekali faktor loading yang berubah setelah mengalami rotasi menjadi lebih kecil atau
lebih besar. Pada table factor variabel-variabel yang masuk pada tiap-tiap factor sebagai berikut:
Faktor 1 terdiri dari variabel-variabe lmerek, harga dan ketersediaan barang sedangkanFaktor 2
terdiri darivariabel-variabel kemasan dan acuan.
8. Table Component Transformation Matrix Pada table Component Transformation Matrix
dapatdiketahui bahwa diagonal faktor (component) 1 dan 2 jatuh diatas angka 0,5 (0,832 dan
0,554), hal tersebut membuktikan bahwa kedua factor (component) yang terbentuk sudah tepat
karena mempunyai korelasi yang tinggi.
9. Setelah diperoleh dua factor yang merupakan hasil reduksi dari enam variabel, langkah
berikut adalah member nama pada kedua faktor tersebut. Untuk kasus diatas, factor pertama yang
terdiri dari variable merek, harga dan ketersediaan barang dapat dinamakan dengan faktor internal,
sedangkan factor kedua yang terdiri dari kemasan dan acuan dapat dinamakan faktor external
Langkah-langkah dalam analisis diskriminan
1. Memisah variabel-variabel menjadi variabel dependen dan variabel independen.
2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya terdapat
dua metode dasar untuk membuat fungsi diskriminan, yakni:
o Simultaneus estimation, semua variabel independen dimasukkan secara
bersama-sama kemudian dilakukan proses diskriminan.
o Stepwise estimation, variabel independen dimasukkan satu per satu
kedalam model diskriminan. Pada proses ini akan ada variabel yang tetap
ada dalam model dan ada variabel yang dibuang dari model.
3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk,
menggunakan Wilk’s lamda, Pilai, F test dan uji lainnya.
4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui ketepatan
klasifikasi secara individual dengan casewise diagnostics.
5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.
6. Melakukan uji validasi terhadap fungsi diskriminan.
Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan nilai rataan di antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi diskriminan dibentuk perlu dilakukan pengujian terhadap perbedaan vektor nilai rataan dari 2 kelompok tersebut. Dalam pengujian vektor nilai rataan antar kelompok, asumsi yang harus dipenuhi adalah peubah-peubah yang diamati berdistribusi multivariate normality dan semua kelompok populasi mempunyai matrik ragam-peragam yang sama.