Upload
christian-beren
View
230
Download
1
Embed Size (px)
Citation preview
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
1/17
Analisis Data Kategorik
GENERALIZED LINEAR MODEL, REGRESI
LOGISTIK, DAN MODEL LOGIT
MARLIANI RARA RAHAYU H12112010
NURKAMILA JAFAR H12112014
INDAH H12112106
CHRISTIAN BEREN H12112276
PROGRAM STUDI STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
ALAM UNIVERSITAS HASANUDDIN
2014
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
2/17
GENERALIZED LINEAR MODEL (GLM)
GLM pertama kali diperkenalkan oleh Nelder dan Wedderburn pada tahun1972. GLM secara spesifik terbagi menjadi 3 bagian penting yaitu komponen
acak, komponen sistematik, dan fungsi penghubung.
1. Komponen Acak
Komponen acak dari sebuah GLM terdiri atas peubah respon Y1, Y2, ,
Ynyang merupakan contoh acak dimana Yi~ (i, 2) dan termasuk dalam
keluarga sebaran eksponensial
2. Komponen Sistematik
Komponen Sistematik merupakan fungsi dari peubah penjelas yang
membentuk model = X
Misalkan i= 1x1i+ 2x2i + 3x3i+ + pxpi
3. Fungsi Penghubung
Komponen ketiga dari GLM adalah penghubung antara komponen acak
dan komponen sistematik. Misalkan i = E(yi) , i= 1,,N. lalu i
dihubungkan ke i dengan i = g(i) dimana g adalah sebuah fungsi
diferensial monoton.
Model Linear Umum/GLM terbagi atas:
1. Analisis Regresi Linear
Analisis Regresi Linear adalah hubungan fungsional antara variabel
independen dengan variabel dependen
2. Analisis Varians (ANOVA)
Analisis Varians (ANOVA) merupakan suatu model analisis statistika
yang termasuk ke dalam cabang statistika inferensi. ANOVA adalah
prosedur statistika untuk mengkaji apakah rata-rata hitung (mean) dari
beberapa populasi sama atau tidak. ANOVA terdiri atas ANOVA satu arah
(one way anova), ANOVA dua arah tanpa interaksi (anova two way
without interaction), dan ANOVA dua arah dengan interaksi (anova two
way with interaction).
3. Analisis Covarians (ANACOVA)
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
3/17
Analisis Covarians (ANACOVA) merupakan model linear dengan satu
variabel dependen kontinu dan satu atau lebih variabel independen.
ANACOVA merupakan penggabungan antara ANOVA dan regresi linear
yang lazimnya mengunakan variabel kontinu (kuantitatif).
4. Analisis Regresi Logistik
Analisis Regresi Logistik merupakan teknik statistik yang digunakan
untuk mengetahui pengaruh satu variable independen atau lebih (X)
terhadap satu variable dependen (Y), dengan syarat:
Variabel dependent harus merupakan variable dummy yang hanya
punya dua alternatif. Misalnya Puas atau tidak puas, dimana jika
responden menjawab puas maka kita beri skor 1 dan jika menjawab
tidak puas kita beri skor 0.
Variabel independent mempunyai skala data interval atau rasio.
REGRESI LOGISTIK
Regresi logistik adalah bagian dari analisis regresi yang digunakan ketika
variabel dependen (respon) merupakan variabel dikotomi. Variabel dikotomi
biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak
adanya suatu kejadian yang biasanya diberi angka 0 atau 1.
Tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan
hubungan antara variabel independen dan dependen secara linier. Regresi logistik
merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola
kurva seperti gambar di bawah ini:
http://statistik4life.blogspot.com/2009/11/regresi-linier-berganda.htmlhttp://statistik4life.blogspot.com/2009/11/regresi-linier-berganda.html8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
4/17
Asumsi-asumsi dalam regresi logistik:
Tidak mengasumsikan hubungan linier antar variabel dependen dan
independent
Variabel dependen harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar
kelompok variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau
bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan
hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
Regresi logistik terdiri atas
1. Regresi Logistik Biner
Regresi Logistik Biner atau dikotomi adalah regresi logistik dimana
variabel dependennya hanya mempunyai dua kategori saja, yang
menyatakan kejadian sukses (Y=1) dan kejadian gagal (Y=0). Sebagai
contoh, ingin diketahui apakah konsumen akan membeli makanan di
rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan,
pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
5/17
kemungkinan respon konsumen yaitu konsumen membeli (Y=1) dan tidak
membeli (Y=0)
2. Regresi Logistik Multinomial
Regresi Logistik Multinomial adalah regresi logistik dimana variabel
dependennya lebih dari dua kategori.
MODEL LOGIT
Model logit adalah model regresi non-linear yang menghasilkan sebuah
persamaan dimana variabel dependen bersifat kategorikal. Kategori paling darsar
dari model tersebut menghasilkan binary values seperti angka 0 dan 1. Model
logit adalah model yang digunakan pada regresi logistik. Bentuk dasar
probabilitas pada model logit dapat dijelaskan pada tabel berikut:
Yi Probabilitas
0
1
1-Pi
Pi
Total 1
Contoh penggunaan data tersebut seperti dalam kategori kepemilikan rumah,
dimana nilai 0 memiliki arti tidak memiliki rumah, dan nilai 1 memiliki arti
memiliki rumah.
Persamaan regresi logit diperoleh dari penurunan persamaan probabilitas dari
kategori-kategori yang akan diestimasi. Persamaan probabilitas tersebut adalah:
( )
()
Persamaan tersebut dapat disederhanakan dengan mengasumsikan (
)adalah , sehingga menghasilkan persamaan berikut:
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
6/17
CONTOH SOAL DAN PENERAPAN DALAM SOFTWARE
Contoh kasus analisis regresi logistik biner:Dilakukan simulasi untuk melihat pengaruh antara variabel profitabilitas,
kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap
ketepatan penyampaian laporan keuangan tahunan perusahaan. Profitabilitas
diukur dengan ROA; variabel kompleksitas terdiri atas 2 kategorik yaitu diberi
angka 2 jika mempunyai anak perusahaan dan 1 jika perusahaan tidak mempunyai
anak perusahaan; opini auditor diukur dengan 2 jika mendapatkan opini wajar
tanpa pengecualian dan 1 untuk opini yang lain; likuiditas diukur dengan Current
Ratio; dan ukuran perusahaan diukur dengan logaritma natural market value.
Variabel terikatnya adalah ketepatan penyampaian laporan keuangan, dengan
kode 1 untuk perusahaan yang tepat waktu dan 0 untuk perusahaan yang
terlambat. Datanya adalah sebagai berikut:
1
0
0
1
1
1
0
1
1
1
1
1
0
0
1
0
1,73
0,83
2,04
4,09
0,85
2,29
0,50
0,17
3,21
2,52
1,30
1,57
2,26
2,54
1,64
1,25
1
1
2
2
1
1
2
1
1
2
1
2
2
2
2
1
1
1
2
2
2
2
2
2
2
1
2
2
2
2
2
1
4,01
0,50
3,47
1,22
39,00
2,80
9,21
4,12
0,80
4,44
5,74
3,23
3,49
5,01
7,75
0,96
15,22
13,62
17,41
16,87
11,62
15,98
14,27
11,12
17,12
17,46
12,05
14,41
17,45
15,09
14,57
11,61
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
7/17
1
0
1
0
1
0
0
1
1
0
1
1
0
0
1
0
1
1
1
0
1
0
0
1
0
1
0
1
1
1
1
3,58
1,59
5,77
1,96
1,57
2,06
2,40
0,57
2,96
1,48
0,25
0,59
1,42
0,23
4,30
0,14
2,35
1,60
1,29
0,89
1,70
1,01
0,35
0,99
0,16
5,37
1,16
1,20
0,56
2,82
3,55
2
2
1
1
1
1
1
1
2
1
2
1
1
2
2
1
1
1
1
1
2
1
2
2
1
1
2
1
1
1
1
1
2
2
2
1
1
1
1
2
2
1
2
1
2
2
1
2
2
2
1
2
1
2
2
2
2
2
1
1
1
2
3,25
4,50
6,37
4,60
0,06
4,06
3,38
12,70
1,18
2,64
8,91
7,38
1,07
4,18
6,89
0,15
5,60
5,91
1,16
4,30
7,88
0,43
1,17
9,75
2,60
5,38
2,90
6,46
2,19
7,94
9,16
14,90
15,05
17,33
11,72
11,60
15,51
17,54
14,15
16,95
15,82
14,22
12,20
17,87
17,30
15,22
17,46
11,61
14,59
18,21
15,09
15,98
10,36
9,99
13,63
11,01
12,98
13,04
17,41
16,03
17,54
15,98
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
8/17
0
0
0
1
0
0
1
0
1
1
0
0
1
0
0
0
1
1
0
1
0
0
0
1,90
1,50
0,12
2,26
1,48
0,96
2,96
1,15
1,21
3,50
0,42
1,98
2,21
3,14
1,87
0,19
1,12
5,60
0,28
3,77
2,26
2,01
0,16
1
1
2
1
1
1
1
1
1
1
2
1
1
1
2
1
1
1
1
2
1
1
1
1
2
2
2
1
2
2
1
1
2
2
2
1
1
2
2
1
1
2
1
2
2
1
3,49
0,50
2,16
4,11
1,84
2,22
4,60
5,01
4,18
3,37
0,98
0,46
3,90
1,12
2,85
3,01
4,50
5,25
1,44
8,98
0,30
2,07
3,11
13,62
17,41
16,87
11,62
15,98
14,27
11,12
17,12
17,46
12,05
10,96
9,83
14,01
12,36
10,55
10,01
17,53
16,94
9,92
11,19
11,05
14,07
10,55
Keterangan:
= ketepatan penyampaian laporan keuangan tahunan perusahaan, bernilai 1
apabila penyampaiannya tepat, dan bernilai 0 apabila penyampaiannya tidak
tepat
= profitabilitas
= kompleksitas perusahaan, diberi angka 2 jika mempunyai anak perusahaan
dan 1 jika perusahaan tidak mempunyai anak perusahaan
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
9/17
= opini auditor, diberi angka 2 jika mendapatkan opini wajar tanpa
pengecualian dan 1 untuk opini yang lain
= likuiditas
= ukuran perusahaan
Jawab:
Setelah data di atas diinput di SPSS, maka akan diperoleh ouput data yang
nantinya dapat digunakan untuk membentuk persamaan regresi logistik, juga dari
output yang diperoleh dapat ditarik kesimpulan mengenai apakah terdapat
pengaruh variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas
dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan
tahunan perusahaan melalui uji hipotesis. Berikut adalah hasil analisis ouput
SPSS:
Identifikasi Data yang Hilang
Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 70 100,0
Missing Cases 0 ,0
Total 70 100,0
Unselected Cases 0 ,0
Total 70 100,0
a. If weight is in effect, see classification table for the total number of
cases.
Pada tabel di atas, dapat dilihat tidak ada data yang hilang (missing cases).
Pemberian kode variabel respon oleh SPSS
Menurut pengkodean SPSS, yang termasuk kategori sukses adalah penyampaian
laporan keuangan tahunan yang tepat.
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
10/17
Pemberian kode untuk variabel penjelas yang kategorik
Pengkodean variabel penjelas hanya dilakukan untuk variabel penjelas yang
kategorik karena akan dibentuk dummy variabel. Penelitian ini menggunakan dua
variabel penjelas yang kategorik yaitu variabel Opini dan variabel Kompleksitas.
Untuk variabel Opini, nantinya yang akan digunakan sebagai reference code
(kode pembanding) adalah Wajar Tanpa Pengecualian (lihat pada tabel di atas
bagian parameter codings yang berkode nol). Sementara untuk variabel
Kompleksitas, yang menjadi kode pembanding adalah punya anak perusahaan.
Kode pembanding ini akan digunakan untuk interpretasi Odds Ratio.
Uji Kelayakan Model (Goodness of Fit)
Uji Goodness of Fit digunakan untuk melihat apakah data empiris cocok atau
tidak dengan model atau dengan kata lain diharapkan tidak ada perbedaan antara
data empiris dengan model.
Berikut ini cara menguji kelayakan model:
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
11/17
Apakah model sudah fit? Perhatikan nilai statistik-2 Log Likelihood.
Untuk bagian Beginning, yaitu nilai -2 Log likelihood yang masih hanya
menggunakan konstanta (c) adalah 96,983 sedangkan saat kita sudah melibatkan
lima variabel bebasnya, nilai -2 Log Likelihood adalah 63,789 (iterasi maksimum
6). Hal ini sudah menunjukkan ada penurunan nilai saat variabel bebas sudah ikut
dalam perhitungan yakni sebesar 96,983-63,789 = 33,194 (Lebih jelasnya, dapat
lihat pada bagian Omnibus Tests of Coefficients)Untuk Beginning, ternyata dihasilkan koefisien dari -2 Log Likelihood 0,057 yang
lebih besar dibanding alpha 5% sehingga dengan demikian kita menerima
hipotesis nol yakni model sudah fit.
Kalau dalam regresi biasa, nilai R square digunakan untuk menunjukkan pengaruh
bersama. Pada regresi logistik digunakan Cox & Snell dan Nagelkerke R Square.
Secara bersama, variabel profitabilitas, kompleksitas perusahaan, opini auditor,
likuiditas dan ukuran perusahaan yang dipakai dalam penelitian sudah mampu
menjelaskan keragaman data sebesar 50,4% (misal dengan Nagelkerke)
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
12/17
sedangkan sisanya sebesar 49,6% dijelaskan oleh variabel lain di luar model
penelitian
Selanjutnya dilakukan uji hipotesis dengan Hosmer and Lemeshow Test.
Hasilnya, nilai Sig 0,389 lebih besar daripada alpha 5% sehingga hipotesis nol
diterima (secara statistik tidak terdapat perbedaan yang signifikan antara model
dengan nilai observasi) sehingga model sudah fit dengan data.
Uji Signifikansi Model
Overall Test
Dari hasil SPSS dapat digunakan tabel Omnibus Tests of Model Coeffi cients
untuk melihat hasil pengujian secara simultan pengaruh variabel bebas ini.
: tidak ada variabel X yang signifikan mempengaruhi variabel Y nya.
: minimal ada satu variabel X yang signifikan mempengaruhi variabel Y nya.
Kriteria uji : Tolak jika nilai Sig. < 0,05
Berdasarkan tabel di atas diperoleh nilai Sig.Model sebesar 0.000. Karena nilai ini
lebih kecil dari 5%maka kita menolak Ho pada tingkat signifikansi 5% sehingga
disimpulkan bahwa variabel bebas yang digunakan, secara bersama-sama
berpengaruh terhadap ketepatan penyampaian laporan keuangan suatu perusahaan.
Atau minimal ada satu variabel bebas yang berpengaruh.
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
13/17
Partial Test
Pada uji diharapkan akan ditolak sehingga variabel yang sedang diuji masuk
ke dalam model. Dengan bantuan tabel Variables in The Equation dapat dilihatvariabel mana saja yang berpengaruh signifikan sehingga bisa dimasukkan ke
model.
: (variabel Profitabilitas () tidak signifikan mempengaruhi variabel
Tepat ())
: (variabel Profitabilitas ()signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05Keputusan: Tolak karena Sig. = 0,004 < 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel
Profitabilitas ()signifikan mempengaruhi variabel Tepat ()
: (variabel Kompleksitas ()tidak signifikan mempengaruhi variabel
Tepat ())
:
(variabel Kompleksitas (
)signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,150 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel
Kompleksitas () tidak signifikan mempengaruhi variabel Tepat
()
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
14/17
: (variabel Opini () tidak signifikan mempengaruhi variabel Tepat
())
: (variabel Opini ()signifikan mempengaruhi variabel Tepat ())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,811 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel
Opini ()tidak signifikan mempengaruhi variabel Tepat ()
: (variabel Likuiditas () tidak signifikan mempengaruhi variabel
Tepat ())
: (variabel Likuiditas () signifikan mempengaruhi variabel Tepat
())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Tolak karena Sig. = 0,000 < 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel
Likuiditas ()signifikan mempengaruhi variabel Tepat ()
: (variabel Ukuran Perusahaan () tidak signifikan mempengaruhi
variabel Tepat ())
: (variabel Ukuran Perusahaan ()signifikan mempengaruhi variabel
Tepat ())
Kriteria uji : Tolak jika nilai Sig. < 0,05
Keputusan: Terima karena Sig. = 0,410 > 0,05
Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel
Ukuran Perusahaan () tidak signifikan mempengaruhi variabel
Tepat ()
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
15/17
Persentase Ketepatan Klasifikasi (Percentage Correct)
Persentase ketepatan model dalam mengkasifikasikan observasi adalah 78.6
persen. Artinya dari 70 observasi, ada 55 observasi yang tepat
pengklasifikasiannya oleh model regresi logistik. Jumlah observasi yang tepat
pengklasifikasiannya dapat dilihat pada diagonal utama.
Pembentukan Model
Berdasarkan hasil di atas diketahui bahwa terdapat 2 variabel bebas yang
signifikan berpengaruh terhadap ketepatan penyampaian laporan keuangan
perusahaan karena masing-masing variabel tersebut memiliki nilai signifikansi
yang lebih kecil dari a=5%. Variabel-variabel tersebut adalah Profitabilitas
(Sig.=0.004) dan Likuiditas (Sig.=0.000). Model regresi logistik yang terbentuk
adalah:
() ( )
( )
( )
( )
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
16/17
dimana: :
= Profitabilitas
= Likuiditas
Interpretasi Odds Ratio
Nilai Odds ratio ini juga disediakan oleh tabel Variables in The Equation pada
kolom Exp(B) :
Berdasarkan hasil di atas kita dapat menginterpretasikan Odds ratio sebagai
berikut :
1. Jika jumlah profitabilitas perusahaan bertambah 1 unit maka kecendrungan
perusahaan tersebut untuk tepat waktu menyampaikan laporan keuangan
menjadi 2.780 kali lipat.
2. Sebuah perusahaan yang tidak mempunyai anak perusahaan akan memiliki
kecenderungan untuk menyampaikan laporan keuangan secara tepat waktu
sebesar 3.057 kali dibanding perusahaan yang memiliki anak perusahaan
(merujuk pada reference code).
3. Perusahaan dengan opini auditor adalah opini lain cenderung 0.848 kali
(lebih rendah) untuk tepat waktu dalam menyampaikan laporan keuangan
dibanding dengan perusahaan yang Wajar tanpa Pengecualian.
4. Jika Current ratio pada likuiditas bertambah 1 persen maka perusahaan
akan cenderung 1.708 kali untuk tepat waktu menyampaikan laporan
keuangannya.
8/11/2019 Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
17/17
5. Ketika ukuran perusahaan bertambah 1 unit maka perusahaan tersebut
cenderung 1.123 kali untuk tepat waktu dalam menyampaikan laporan
keuangannya.