25
ANALISIS STATISTIKA MULTIVARIATE Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode yang termasuk ke dalam golongan analisis ini adalah : # Metode Tujuan Model 1 Principal Component Analysis Mereduksi dimensi data dengan cara membangkitkan variabel baru (komponen utama) yang merupakan kombinasi linear dari variabel asal sedemikan hingga varians komponen utama menjadi maksimum dan antar komponen utama bersifat saling bebas maks var(Y i ) dan corr(Y i , Y j )=0 2 Factor Analysis Mereduksi dimensi data dengan cara menyatakan variabel asal sebagai kombinasi linear sejumlah faktor, sedemikian hingga sejumlah faktor tersebut mampu menjelas-kan sebesar mungkin keragaman data yang dijelaskan oleh variabel asal. maks var(CF) 3 Cannonical Correlation Menganalisis hubungan antar dua kelompok variabel dengan cara membangkitkan vari-abel baru pada setiap kelompok. Variabel baru tersebut merupakan kombinasi linear dari variabel asal. Kombinasi linearnya ditentukan sedemikian hingga korelasi antar variabel baru yang berasal dari dua ke-lompok menjadi maksimum Ada dua kelompok variabel :X dan Y dibangkitkan variabel baru : dan sehingg a corr( ) maks Analisis Statistika Multivariate 1

ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Embed Size (px)

Citation preview

Page 1: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

ANALISIS STATISTIKA MULTIVARIATE

Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode yang termasuk ke dalam golongan analisis ini adalah :# Metode Tujuan Model

1 Principal Component Analysis

Mereduksi dimensi data dengan cara membangkitkan variabel baru (komponen utama) yang merupakan kombinasi linear dari variabel asal sedemikan hingga varians komponen utama menjadi maksimum dan antar komponen utama bersifat saling bebas

maks var(Yi) dancorr(Yi, Yj)=0

2 Factor Analysis

Mereduksi dimensi data dengan cara menyatakan variabel asal sebagai kombinasi linear sejumlah faktor, sedemikian hingga sejumlah faktor tersebut mampu menjelas-kan sebesar mungkin keragaman data yang dijelaskan oleh variabel asal.

maks var(CF)

3 Cannonical Correlation

Menganalisis hubungan antar dua kelompok variabel dengan cara membangkitkan vari-abel baru pada setiap kelompok. Variabel baru tersebut merupakan kombinasi linear dari variabel asal. Kombinasi linearnya ditentukan sedemikian hingga korelasi antar variabel baru yang berasal dari dua ke-lompok menjadi maksimum

Ada dua kelompok variabel :X dan Ydibangkitkan variabel baru :

dansehingga

corr( ) maks dan corr( )=0

4 Multivariate Regression

Memodelkan hubungan antara kelompok variabel respon (Y) dengan kelompok variabel (X) yang diduga mempengaruhi variabel respon

5 MANOVA Menganalisis hubungan antara vektor va-riabel respon (Y) yang diduga dipengaruhi oleh beberapa perlakuan (treatment).

i=1,...,t j=1,...,ni

k=1,...,p6 Discriminant

AnalysisMembentuk fungsi yang memisahkan antar kelompok berdasarkan variabel pembeda, fungsi tsb disusun sedemikian nisbah kera-gaman data antar dan kelompok maksimum.

7 Cluster Analysis

Mengelompokkan data ke dalam beberapa kelompok sedemikian hingga data yang berada di dalam kelompok yang sama cenderung mempunyai sifat yang lebih homogen daripada data yang berada di kelompok yang berbeda

Analisis Statistika Multivariate 1

Page 2: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Distribusi MultinormalBeberapa metode statistika multivariate seperti : MANOVA, dan discriminant

analysis seringkali mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi ini diperlukan karena di dalam MANOVA dan discriminant analysis dilakukan pengujian dengan menggunakan statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik ini dikatakan sahih (valid), jika syarat distribusi multinormal dipenuhi.

Variabel dikatakan berditribusi normal multivariate dengan parameter dan jika mempunyai probability density function :

Jika berdistribusi normal multivariate maka berditribusi . Berdasarkan sifat ini maka pemeriksaan distribusi multinormal dapat dilakukan dengan cara membuat q-q plot dari nilai .

Tahapan dari pembuatan q-q plot ini adalah sebagai berikut (Johnson, 1990)1. Mulai2. Tentukan nilai vektor rata-rata : 3. Tentukan nilai matriks varians-kovarians : S4. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata-

ratanya 5. Urutkan nilai dari kecil ke besar :

6. Tentukan nilai

7. Tentukan nilai sedemikian hingga

8. Buat scatter-plot dengan 9. Jika scatter-plot ini cenderung membentuk garis lurus dan lebih dari 50 %

nilai 10. Selesai

Implementasi pembuatan q-q plot dari nilai dalam macro MINITAB disajikan pada Lampiran 1.

Analisis Statistika Multivariate 2

Page 3: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Selain dengan memeriksa nilai jarak Mahalanobis setiap pengamatan dengan vektor rata-ratanya. Menurut Mardia (1974) di dalam Rencher (1995) pemeriksaan kemultinormalan data dapat juga dikaji melalui nilai multivariate skewnewss ( ) dan kurtosisnya ( )

dan sedangkan

Jika dikatakan berditribusi normal multivariate maka :

berditribusi dan

berdistribusi normal baku.

Penentuan nilai z1, z2 dengan bantuan macro MINITAB disajikan pada Lampiran 2.

Kebebasan antar variabel Variabel dikatakan bersifat saling bebas (independent) jika matriks

korelasi antar variabel membentuk matriks identitas. Untuk menguji kebebasan antar variabel ini dapar dilakukan uji Bartlett sphericity berikut (Morrison, 2005) :

Hipotesis :Ho : R = IH1 : R I

Statiistik uji :

Terima hipotesis Ho yang berarti antar variabel bersifat saling bebas jika nilai

. Jika hipotesis ini yang diterima maka penggunanan metode

multivariate tidak layak terutama metode analisis komponen utama dan analisis faktor. Penentuan nilai statistik uji Bartlett sphericity dengan bantuan macro MINITAB disajikan pada Lampiran 3.

Analisis Statistika Multivariate 3

Page 4: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Kehomogenan Matriks Varians-KovariansBeberapa analisis statistika multivariate seperti discriminant analysis dan

MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk menguji syarat ini dapat dipergunakan statistik uji Box-M. Hipoteris dan statistik uji Box-M adalah (Rencher, 1995) :

HipotesisHo : H1 : untuk Statistik uji

dan

Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika

Analisis Statistika Multivariate 4

Page 5: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

OutlierData tidak bersitribusi multinormal atau matriks varians-variansnya tidak homogen

bisa saja disebabkan oleh sedikit pengamatan yang mempunyai pola berbeda dengan sebagian besar pengamatan. Pengamatan yang mempunyai perilaku seperti ini disebut outlier. Contoh pengamatan yang merupakan outlier adalah negara Jepang (Gambar 1.) Statistik uji yang dapat dipakai untuk mendeteksi adanya outlier adalah (Morrison, 2005)

Pengamatan ke-i adalah outlier jika Penentuan adanya outlier dengan menggunakan macro MINITAB disajikan di Lampiran 4.

Jam kerja setahun

22002100200019001800170016001500

Pro

dukt

ivita

s

10

9

8

7

6

5

4

3US

UK

Sweden

Netherland

Japan

Italy

Germany

FranceDenmark

Belgium

Gambar 1. Scater-plot produktivitas dan jam-kerja bebarapa negara-negara maju

Analisis Statistika Multivariate 5

Page 6: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Kegiatan Praktikum

COUNTRY DENSITY URBAN LIFEEXPF LIFEEXPM LITERACY BABYMORT GDP_CAPAfghanistan 25 18 44 45 29 168 205Bangladesh 800 16 53 53 35 106 202Cambodia 55 12 52 50 35 112 260China 124 26 69 67 78 52 377Hong Kong 5494 94 80 75 77 5.8 14641India 283 26 59 58 52 79 275Indonesia 102 29 65 61 77 68 681Japan 330 77 82 76 99 4.4 19860Malaysia 58 43 72 66 78 25.6 2995N. Korea 189 60 73 67 99 27.7 1000Pakistan 143 32 58 57 35 101 406Philippines 221 43 68 63 90 51 867S. Korea 447 72 74 68 96 21.7 6627Singapore 4456 100 79 73 88 5.7 14990Taiwan 582 71 78 72 91 5.1 7055Thailand 115 22 72 65 93 37 1800Vietnam 218 20 68 63 88 46 230

Sumber data : Contoh data SPSS world95.sav

Ketrangan variabel :Variabel PenjelasanDensity Banyaknya penduduk per km persegiUrban Persentase penduduk yang tinggal di perkotaanLifeexpf Harapan hidup penduduk perempuan (tahun)Ligeexpm Harapan hidup penduduk laki-laki (tahun)Literacy Persentase penduduk yang bisa baca-tulisBabymort Banyaknya kematian bayi per 1000 kelahiranGdp_cap Penghasilan penduduk per kapita pertahun (US$)

1. Periksa kemultinormalan data kependudukan negara-negara di Asia dengana. Menggunakan q-q plot dari nilai b. Menggunakan multivariate skewness dan multivariate kurtosis

2. Apakah data di atas layak dianalisis dengan menggunakan analisis statistika multivariate

3. Tentukan negara-negara yang dianggap outlier, jika ada outlier maka hapus negara yang paling outlier (Nilai sig_f paling kecil) kemudian lakukan pengujian kemultinormalan melalui multivariate skewness dan kurtosis.

4. Dengan menggunakan variabel yang sama, ujilah apakah matriks varians-kovarians Afrika sama dengan Amerika Latin atau tidak , jika tidak sama, coba lakukan penghapusan beberapa negara yang dianggap outlier

Analisis Statistika Multivariate 6

Page 7: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Penyelesaian

1a. q-q plot dari nilai untuk data kependudukan negara-negara di Asia adalah :

MTB > %qq.txt c2-c8

t 0.529412

distribusi data multinormalq-q plot dari nilai cenderung

membentuk garis kurus dan ada lebih dari 50 % (52.9412 %) nilai sehingga data diatas cenderung berdistribusi multinormal.

1b. Pemeriksaan kemultinormalan data melalui multivariate skewness dan kurtosis adalah :MTB > %mardia.txt c2-c8Multivariate skewnessb1 33.2386z1 115.612pvalue 0.0126605Multivariate kurtosisb2 60.5424z2 -0.451353pvalue 0.651735

Pvalue untuk statistik uji multivariate skewness lebih kecil dari sehingga data kependudukan negara-negara di Asia cenderung tidak berdistribusi multinormal

Analisis Statistika Multivariate 7

Page 8: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

2. Kelayakan penggunaan analisis statistika multivariate dapat dikaji melalui dua sisi yaitu sisi terapan dan sisi statistika. Dari sisi terapan dapat ditunjukkan bahwa berdasarkan referensi disiplin ilmu kependudukan, variabel-variabel di atas memang saling terkait satu dengan yang lainnya. Dari disiplin ilmu statistika, keeratan hubungan antar variabel dapat dilakukan melalui pengujian terhadap matriks korelasi. Apakah matriks korelasinya membentuk matriks identitas atau tidak, jika matriks korelasinya setelah diuji berbeda secara significant dengan matriks identitas maka dapat disimpulkan bahwa ada hubungan antar variabel. Sehingga data ini layak di analisis dengan menggunakan analisis statistika multivariate. Jika matriks korelasinya setelah diuji tidak berbeda dengan matriks identitas, maka diduga sampel yang diperoleh tidak cukup, sehingga disarankan untuk menambah sampel. Diharapkan setelah dilakukan penambahan sampel maka hasil pengujian matriks korelasi berbeda dengan matriks identitas. Karena dari hasil pengujian Bartlett sphericity dapat disimpulkan perlunya penambahan sampel maka uji ini disebut juga uji kecukupan sampel. Dengan bantuan MINITAB pengujian ini dapat diilakukan dengan cara :MTB > %bart.txt c2-c8

chis 178.398pvalue 0

pvalue dari statistik uji Bartlett sphericity lebih kecil dari 5 %) sehingga dapat disimpulkan matriks korelasi antar variabel berbeda dengan matriks identitas. Karena matriks korelasi bukan merupakan matriks identitas maka analisis statistika multivariate layak untuk digunakan.

Analisis Statistika Multivariate 8

Page 9: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

3. Suatu pengamatan diakatakan outlier jika nilai melampaui

, dengan menggunakan macro MINITAB hal ini dapat diselesaikan dengan cara :

MTB > %outlier.txt c1-c8

Row COUNTRY d f_value sig_f

1 Afghanistan 10.9875 3.4699 0.043306 2 Bangladesh 4.8952 0.6192 0.729851 3 Cambodia 4.7223 0.5874 0.752289 4 China 5.4980 0.7394 0.646985 5 Hong Kong 11.0696 3.5676 0.040074 6 India 4.6708 0.5781 0.758837 7 Indonesia 1.6888 0.1624 0.987188 8 Japan 13.6454 12.4126 0.000564 9 Malaysia 6.0117 0.8543 0.572647 10 N. Korea 5.2646 0.6911 0.679801 11 Pakistan 10.5513 3.0096 0.063477 12 Philippines 2.8156 0.2957 0.938851 13 S. Korea 5.9621 0.8427 0.579908 14 Singapore 9.4582 2.1713 0.138178 15 Taiwan 4.6465 0.5738 0.761898 16 Thailand 5.4036 0.7196 0.660353 17 Vietnam 4.7088 0.5849 0.754010

Ada 3 negara yang dianggap outlier yaitu Jepang, Hongkong dan Afganistan. Hasil pengujian kemultinormalan setelah Jepang dikeluarkan adalah :MTB > delete 8 c1-c8MTB > %mardia.txt c2-c8

Multivariate skewnessb1 30.1551z1 99.8985pvalue 0.113626

Multivariate kurtosis

b2 56.8194z2 -1.10122pvalue 0.270800

Setelah Jepang dikeluarkan, ternyata data kependudukan Negara-negara di Asia berdistribusi multinormal. Dari contoh ini dapat ditunjukkan bahwa adanya outlier dapat menyebabkan data tidak berdistribusi multinormal.

Analisis Statistika Multivariate 9

Page 10: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

4. Pengujian kesamaan matriks varians-kovarian untuk region Afrika dan Amerika Latin dapat dilakukan dengan cara :

- Memilih negara-negara di region Afrika dan Amerika Latinklik Data, Select Cases

kemudian klik if dan ketik region=4 or region=6

klik Continue kemudian OK

Analisis Statistika Multivariate 10

Page 11: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

- Melakuan pengujian kehomogenan matriks varians-kovariansklik Analyze, Clasify, Discriminant

klik Statistics

klik Continue kemudian OKTest Results

70.5552.015

284918.900

.001

Box's MApprox.df1df2Sig.

F

Tests null hypothesis of equal population covariance matrices.

Nilai significance statistik uji Box-M lebih kecil dari 5%, sehingga disimpulkan matriks varians-kovarians region Afrika dan Amerika Latin tidak homogen, di duga ketidakhomogenan ini disebabkan adanya outlier.

Analisis Statistika Multivariate 11

Page 12: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Deteksi outlier Negara-negara di Afrika dan Amerika Latin adalah :

MTB > %outlier.txt c1-c8

Row COUNTRY d f_value sig_f 2 Barbados 30.0922 17.3411 0.000000 5 Brazil 13.2080 2.4330 0.040604 34 Somalia 15.7276 3.2245 0.010578 40 Zambia 16.9353 3.6709 0.005090

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados dikeluarkan adalah :

Test Results

55.1211.564

284741.799

.030

Box's MApprox.df1df2Sig.

F

Tests null hypothesis of equal population covariance matrices.

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados dan Zambia dikeluarkan adalah :

Test Results

51.2171.441

284403.414

.062

Box's MApprox.df1df2Sig.

F

Tests null hypothesis of equal population covariance matrices.

Setelah Barbados dan Zambia dikeluarkan maka matriks varians-kovarians sudah bersifat homogen pada . Seandainya setelah dilakukan pembuangan data outlier matriks varians-kovarians belum bersifat homogen maka dapat dicoba dilakukan transfor-masi Box-Cox dengan mencobakan berbagai nilai Hasil transformasi ini tidak selalu berhasil menghomogenkan matriks varians-kovarians. Jika matriks varians-kovarians tidak bisa dihomogenkan maka dapat dilakukan metode statistika yang lain yang tidak membutukan asumsi ini.

Analisis Statistika Multivariate 12

Page 13: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Lampiran 1. Macro MINITAB untuk memeriksa kemultinormalan DATA dari q-q plot nilai

macroqq x.1-x.pmconstant i n p t chismcolumn d x.1-x.p dd pi q ss ttmmatrix s sinv ma mb mc mdlet n=count(x.1)cova x.1-x.p sinvert s sinvdo i=1:p let x.i=x.i-mean(x.i)enddo do i=1:n copy x.1-x.p ma; use i. transpose ma mb multiply ma sinv mc multiply mc mb md copy md tt let t=tt(1) let d(i)=tenddoset pi 1:nendlet pi=(pi-0.5)/nsort d ddinvcdf pi q;chis p.plot q*ddinvcdf 0.5 chis;chis p.let ss=dd<chislet t=sum(ss)/nprint t if t>0.5 note distribusi data multinormalendifif t<=0.5 note distribusi data bukan multinormalendifendmacro

Analisis Statistika Multivariate 13

Page 14: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Lampiran 2. Macro MINITAB untuk menguji kemultinormalan data melalui multivariate skewness dan multivariate kurtosis

macromardia y.1-y.pmconstant i j n p g b1 b2 z1 z2 zz v pp pvaluemcolumn x.1-x.p y.1-y.p z.1-z.p tmmatrix s sinv mi mj mjt ma mat mb mc mdlet n=count(y.1)do i=1:p let x.i=y.i-mean(y.i) let z.i=x.i/sqrt(n)enddo copy z.1-z.p matranspose ma matmultiply mat ma sinvert s sinvlet b1=0let b2=0do i=1:n copy x.1-x.p mi; use i. do j=1:n copy x.1-x.p mj; use j. transpose mj mjt multiply mi sinv mc multiply mc mjt md copy md t let g=t(1) let b1=b1+g*g*g if i=j let b2=b2+g*g endif enddoenddolet b1=b1/(n*n)let b2=b2/nlet z1=(p+1)*(n+1)*(n+3)*b1/(6*((n+1)*(p+1)-6))let z2=(b2-p*(p+2))/sqrt(8*p*(p+2)/n)let v=p*(p+1)*(p+2)/6note Multivariate skewnesscdf z1 pp; chis v.let pvalue=1-ppprint b1 z1 pvaluenote Multivariate kurtosislet zz=abs(z2)cdf zz pp; normal 0 1.let pvalue=2*(1-pp)print b2 z2 pvalueendmacro

Analisis Statistika Multivariate 14

Page 15: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Lampiran 3. Macro MINITAB untuk menguji kebebasan antar variabel dengan Bartlett sphericity test

macrobart x.1-x.pmconstant i n p d chis pp pvalue vmcolumn x.1-x.p eigenmmatrix rlet n=count(x.1)corr x.1-x.p reigenvalues r eigenlet d=0do i=1:p let d=d+loge(eigen(i))enddolet chis=-(n-1-(2*p+5)/6)*dlet v=p*(p-1)/2cdf chis pp; chis v.let pvalue=1-ppprint chis pvalueendmacro

Analisis Statistika Multivariate 15

Page 16: ANALISIS STATISTIKA MULTIVARIATE - Statistika …  · Web view2008-10-10 · Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data yang terdiri dari

Lampiran 4. Macro MINITAB untuk mendeteksi adanya multivariete outlier

macrooutlier obs y.1-y.pmconstant i n p dfmcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1 sig_f mmatrix s sinv ma mb mc mdlet n=count(y.1)cova y.1-y.p sinvert s sinvdo i=1:p let x.i=y.i-mean(y.i)enddo do i=1:n copy x.1-x.p ma; use i. transpose ma mb multiply ma sinv mc multiply mc mb md copy md tt let d(i)=tt(1)enddolet f_value=((n-p-1)*n*d)/(p*(n-1)**2-n*p*d)let df=n-p-1cdf f_value p1; f p df.let sig_f=1-p1print obs d f_value sig_f endmacro

Analisis Statistika Multivariate 16