Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
1
ANALISIS REGRESI TOBIT SPASIAL:
Studi Kasus Penggunaan Internet di Pulau Jawa
Andhie Surya Mustari1, Ismaini Zain
2
1Mahasiswa Program Magister Jurusan Statistika, Institut Teknologi Sepuluh Nopember
1E-mail: [email protected]
2Dosen Jurusan Statistika, Institut Teknologi Sepuluh Nopember
1,2Kampus ITS Sukolilo, Surabaya 60111
Abstract
In the year of 2011, Indonesia is a country with second largest Facebook access in the
world. A total of more than 39 million Facebook accounts were made by Indonesian
residents, equivalent to 16 percent of the population. There are 34 of 118
regencies/municipalities in Java with percentage of internet users higher than 16 percent,
then categorized as a high level of internet usage. The high level of Internet usage is
mainly found in large cities as centers of education and entertainment services, such as
Jakarta, Yogyakarta, Bandung, and Surabaya, than followed by other urban areas and
surrounding districts. This spatial dependence phenomenon is interesting to be studied,
where the regencies/municipalities with high internet usage categories can be viewed as
censored data. Spatial Tobit regression model is used for modeling the data of internet
usage in Java.
Using seven predictor variables, the model was producing five statistically significant
variables. Backward elimination procedure was used for variables election, whereas
MCMC Gibbs sampler method with Bayesian inference approach was used for parameter
estimation. Human resources variables that influence internet usage are the percentage of
urban population, the percentage of population with high school and more educational
grade, and the mean years of schooling. While device and network variables that
influential are the percentage of households owning cell phone, and the percentage of
villages having cellular networks.
Keywords: censored data, spatial dependence, spatial Tobit, MCMC Gibbs sampler,
internet usage
Abstrak
Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook terbesar
kedua di dunia. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh penduduk
Indonesia, atau setara dengan 16 persen populasi. Sebanyak 34 dari 118 kabupaten/kota
di Pulau Jawa memiliki peersentase pengguna internet yang lebih tinggi daripada 16
persen, kemudian dikategorikan sebagai tingkat penggunaan internet yang tinggi.
Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota besar
sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta, Bandung,
dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah kabupaten di
sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana
kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data
tersensor. Model regresi Tobit spasial digunakan untuk pemodelan data penggunaan
internet di Pulau Jawa.
Menggunakan tujuh variabel prediktor, lima variabel diantaranya dinyatakan signifikan
secara statistik untuk dimasukkan ke dalam model. Pemilihan variabel dilakukan secara
backward elimination, sedangkan estimasi parameter dilakukan menggunakan metode
2
MCMC Gibbs sampler dengan pendekatan inferensia Bayesian. Variabel sumber daya
manusia yang mempengaruhi penggunaan internet adalah persentase penduduk
perkotaan, persentase penduduk dengan pendidikan SMA ke atas, dan rata-rata lama
sekolah. Sedangkan variabel perangkat dan jaringan yang berpengaruh adalah persentase
rumah tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang
mendapatkan jaringan telepon seluler.
Kata kunci: data tersensor, korelasi spasial, Tobit spasial, MCMC Gibbs sampler,
penggunaan internet
1. Pendahuluan
Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook
terbesar kedua di dunia [1]. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh
penduduk Indonesia, atau setara dengan 16 persen populasi [2]. Sebanyak 34 dari 118
kabupaten/kota di Pulau Jawa memiliki persentase pengguna internet yang lebih tinggi
daripada 16 persen [3], kemudian dikategorikan sebagai tingkat penggunaan internet yang
tinggi. Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota
besar sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta,
Bandung, dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah
kabupaten di sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana
kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data
tersensor.
Dibutuhkan metode khusus untuk melakukan analisis penggunaan internet,
dengan fakta bahwa data penggunaan internet merupakan data tersensor yang memiliki
korelasi spasial. Fischer dan Getis [4] mengatakan bahwa pemodelan data tersensor yang
melibatkan wilayah sebaiknya menggunakan analisis spasial, metode yang paling sesuai
adalah regresi Tobit spasial. Selain itu, Lee [5] juga menyatakan bahwa pendekatan Tobit
spasial lebih disarankan untuk analisis wilayah yang melibatkan data tersensor. Analisis
regresi Tobit spasial digunakan apabila variabel respon pada model spasial melibatkan
data yang diyakini memiliki nilai tersensor [6].
Penelitian yang menggunakan model regresi Tobit spasial diantaranya dilakukan
oleh Langyintuo dan Mekuria [7] yang menggunakan metode maksimum likelihood
untuk membentuk model Tobit SARMA pada data petani di Mozambique. Pada tahun
2002, Kaliba [8] mengembangkan model Tobit SARMA menggunakan modul aplikasi
Maximum Likelihood 4 dari paket program GAUSS (dikembangkan oleh Aptech
Systems, 1995) pada data pedesaan di Tanzania. Sementara LeSage dan Pace [6]
menggunakan data simulasi yang dibangkitkan oleh Koop untuk membentuk model Tobit
spasial menggunakan pendekatan Bayesian MCMC (Markov Chain Monte Carlo) dengan
algoritma Gibbs Sampling.
Penelitian ini bermaksud untuk membentuk model Tobit spasial dan mencari
metode estimasi parameter dari model regresi Tobit spasial. Data yang digunakan sebagai
variabel respon adalah persentase penduduk yang mengakses internet selama tiga bulan
terakhir di pulau Jawa pada tahun 2010. Sensor diberikan kepada wilayah kabupaten/kota
dengan persentase penduduk pengguna internet lebih besar dari 16 persen. Angka tersebut
setara dengan persentase penduduk Indonesia yang mengakses facebook pada tahun 2011,
atau dapat dianggap sebagai batas minimal persentase pengguna internet yang ingin
dicapai oleh suatu kabupaten/kota.
3
2. Tinjauan Pustaka
Model Regresi Tobit
Misalkan adalah suatu variabel respon dengan informasi yang lengkap dan
adalah data sampel dari , maka variabel respon yang tersensor dapat didefinisikan
sebagai berikut [9] [10] [5] [11] [12]:
* *
*
jika
jika
i i
i
i
y yy
y
(1)
dimana merupakan suatu konstanta batasan, dan adalah banyaknya
observasi.
Jika nilai tidak diketahui ketika
, maka mengandung suatu variabel
latent yang tidak dapat diamati pada seluruh range-nya. Panel A pada Gambar 2.1
memperlihatkan distribusi dari ( ), dengan nilai variabel latent digambarkan
sebagai wilayah gelap pada kurva. Jika nilai yang tidak diketahui tersebut dipotong, maka
sebagian informasi yang dapat menjelaskan populasi akan hilang dimana kurva distribusi
menjadi lebih runcing (panel B). Panel C menggambarkan data tersensor yang
mengelompok pada nilai sehingga tidak merubah informasi berkaitan distribusi
populasi.
Gambar 1. Ilustrasi Variabel Latent, Terpotong, dan Tersensor [11]
Long [11] menjelaskan bahwa jika menggunakan keseluruhan data untuk model
regresi linier pada data tersensor, akan menghasilkan nilai parameter yang overestimates
pada slope dan underestimates pada intercept. Sedangkan jika menghilangkan observasi
yang nilainya tidak diketahui, akan menghasilkan koefisien parameter yang
underestimates pada slope dan overestimates pada intercept. Data terpotong
menyebabkan terjadinya korelasi antara variabel prediktor dengan residual, sehingga
menghasilkan estimasi yang tidak konsisten.
Model Tobit dibentuk dengan terlebih dahulu mengasumsikan adanya hubungan
linier antara dengan variabel prediktor yang dinyatakan dengan:
* T
1, 2,...i i i
y i n x β (2)
dimana ( ),
[ ] adalah vektor variabel prediktor,
[ ] adalah vektor parameter, merupakan banyaknya variabel,
dengan mengandung variabel latent yang mewakili nilai tersensor [10] [11]. Nilai
tersensor tersebut bisa lebih kecil dari suatu batas bawah ( ̅ ), lebih besar dari
batas atas ( ̅ ), atau keduanya.
Ketika tersensor pada batas atas , maka model regresi Tobit dinyatakan
dengan persamaan sebagai berikut [11]:
4
* T *
*
jika
jika
i i i i
i
i
y yy
y
x β (3)
Model Regresi Spasial
Efek korelasi spasial dapat muncul pada pembentukan model regresi linier yang
menggunakan data kewilayahan (cross section data). Hal tersebut mengakibatkan tidak
terpenuhinya asumsi error yang independen dan identik berdistribusi normal, sehingga
menghasilkan estimasi parameter yang tidak valid dan mengaburkan interpretasi model
[13].
Pada tahun 1988, Anselin [14] mengembangkan bentuk umum dari model regresi
spasial (general spatial model) menggunakan data cross section sebagai berikut:
1 1 1
y I W Xβ I W I W ε (4)
dimana ( ), merupakan vektor variabel respon yang memiliki korelasi
spasial, adalah matriks variabel prediktor, dan adalah vektor parameter regresi.
Adapun adalah koefisien korelasi spasial lag dari variabel respon, merupakan
koefisien korelasi spasial error, dan merupakan matriks penimbang spasial dengan
elemen diagonalnya bernilai nol.
T
1 2 ny y yy ,
T
0 1 2 p β ,
T
1 2 n ε ,
11 12 1
21 22 2
1 2
1
1
1
p
p
n n np
x x x
x x x
x x x
X , dan
12 1
21 2
1 2
0
0
0
n
n
n n
w w
w w
w w
W
.
Persamaan (4) di atas menjadi bentuk model regresi spasial lag ketika ,
yang menjelaskan terjadinya efek korelasi spasial antar lag variabel respon. Ketika ,
persamaan (4) menjadi bentuk model regresi spasial error, yang menjelaskan terjadinya
efek korelasi spasial antar lag variabel respon dan antar lag variabel prediktor. Statistik
uji Lagrange digunakan untuk menentukan bentuk dari model regresi spasial [15].
Untuk melihat ada atau tidaknya efek korelasi spasial lag, digunakan hipotesis
lawan dengan statistik uji LM-lag Test sebagai berikut:
2
T 2
LAG
ˆLM
D
e Wy (5)
Untuk melihat adanya atau tidaknya efek spasial error, digunakan hipotesis
lawan dengan statistik uji LM-err Test sebagai berikut:
2
T 2
ERR
ˆLM
T
e We (6)
dimana ̂ ⁄ , ̂, *( ̂) ( ( )
) ( ̂)+ ⁄
, dan {( ) }. Statistik uji ini mengikuti distribusi asimtotik ( ),
sehingga ditolak apabila ( ) atau p-value lebih kecil dari nilai .
5
Uji Heteroskedastisitas
Untuk melihat adanya keragaman dalam varians error, dilakukan pengujian
heteroskedastisitas menggunakan statistik uji Breusch-Pagan [16] dengan hipotesis
sebagai berikut:
(homoskedastisitas)
minimal ada satu (heteroskedastisitas)
Nilai dari BP-Test adalah sebagai berikut:
1T T T
1
2BP
f fX X X X (7)
dengan elemen vektor adalah:
2
21
ˆ
i
i
ef
dimana adalah residual observasi ke- hasil regresi linier, , ̂ ⁄ ,
adalah matriks ( ) dari observasi dengan elemen kolom pertama merupakan
vektor satu, dan adalah jumlah variabel prediktor. ditolak apabila ( ).
Markov Chain Monte Carlo (MCMC)
MCMC merupakan suatu teknik metode simulasi yang membangkitkan sejumlah
sampel dari distribusi data yang telah diketahui [17]. Ide dasar dari teknik MCMC adalah
daripada menghitung suatu fungsi kepadatan peluang ( | ), lebih baik mengambil
sampel random dalam jumlah besar dari ( | ) untuk mengetahui bentuk probabilitas
tersebut secara tepat. Dengan ukuran sampel random yang cukup besar, nilai rata-rata dan
standar deviasinya dapat dihitung secara akurat [18]. LeSage [19] menjelaskan bahwa
algoritma MCMC Gibbs sampler akan memberi kemudahan estimasi parameter untuk
model regresi Tobit spasial daripada harus memecahkan sejumlah persamaan integral
pada metode maksimum likelihood.
Metode MCMC Gibbs sampler bertujuan untuk mencari nilai estimasi dari menggunakan suatu distribusi posterior bersyarat, dimana nilai lainnya diasumsikan
telah diketahui. Distribusi posterior dari parameter ditentukan melalui prinsip dari
teorema Bayes yang dinyatakan oleh
L pp
m
yy
y
L p y (8)
dimana ( | ) merupakan fungsi likelihood dari , ( ) merupakan distribusi marginal
dari yang tidak melibatkan parameter, dan ( ) merupakan distribusi prior dari yang
diperoleh dari penelitian sebelumnya maupun berdasarkan kajian teoritis atas masalah
yang sedang diteliti [20].
Secara umum, algoritma Gibbs sampler [18] dapat dinyatakan dengan:
i. Tentukan nilai inisiasi awal ( ) ( ( )
( ) ( ))
ii. Lakukan langkah di bawah sejumlah , dimana = jumlah iterasi.
Bangkitkan nilai ( ) ( |
( ) ( )
( ))
6
Bangkitkan nilai ( ) ( |
( ) ( )
( ))
…
Bangkitkan nilai ( ) ( |
( ) ( )
( ))
iii. Tentukan hasil estimasi ̂ dengan cara
1
ˆ 1 m t
tm
θ θ (9)
Hastings [21] mengembangkan metode Metropolis untuk mencari estimasi
parameter ( ) melalui suatu nilai inisiasi awal ( ), yang didasari oleh distribusi
kandidat ( ( )| ( )) dimana nilai ( ) diketahui. Nilai dari ( ) dibangkitkan dari
distribusi kandidat, kemudian jalankan algoritma Metropolis Hastings di bawah ini.
i. Hitung peluang penerimaan ( ) sebagai ( ).
* 1 *
* 1
1 * 1, min 1 ,
t
t
t t
p fp
p f
θ y θ θθ θ
θ y θ θ (10)
ii. Bangkitkan angka random ( ).
iii. Terima ( ) sebagai nilai baru dari ( ) apabila ( ( ) ( )) .
Jika tidak, nilai ( ) tidak berubah atau ( ) ( ).
Faktor-faktor yang Mempengaruhi Penggunaan Internet
Pembangunan teknologi informasi dan komunikasi (TIK) suatu negara memiliki
hubungan yang positif dengan pertumbuhan ekonomi. Artinya, pembangunan TIK akan
memberikan efek berantai kepada meningkatnya pertumbuhan ekonomi [22]. Rao dan
Pattnaik [23] menyatakan bahwa pertumbuhan TIK telah membuka kesempatan bagi
masyarakat untuk lebih memanfaatkan fasilitas pembangunan sosial ekonomi dan budaya
secara lebih modern. Pembangunan TIK memberikan pengaruh ekonomi yang luas, baik
secara langsung maupun tidak langsung, meningkatkan kesejahteraan dan pembangunan
fasilitas sosial ekonomi [24].
Menggunakan data dari 154 negara, Howard dan Mazaheri [25] menemukan
bahwa kesenjangan penggunaan TIK (telepon seluler, komputer, dan bandwidth internet)
dipengaruhi oleh; investasi asing, perdagangan, jumlah penduduk, populasi perkotaan,
literacy rate, konsumsi, telepon kabel, serta sembilan variabel lain yang menjelaskan
regulasi pemerintah. Andonova dan Serrano [26] menjelaskan bahwa perkembangan TIK
dan pertumbuhan pemanfaatan internet lebih banyak dipengaruhi oleh faktor perhatian
pemerintah dan regulasi yang berlaku di wilayah tersebut. Michailidis dkk. [27]
mengungkapkan bahwa pengguna internet di pedesaan Yunani dipengaruhi oleh tingkat
pendapatan, harga dari akses internet, kepemilikan PC, tempat tinggal, serta variabel
sosial demografi seperti; jenis kelamin, jumlah penduduk muda yang tinggal satu rumah,
umur, tingkat pendidikan, dan status pekerjaan.
3. Metodologi
Sumber Data dan Variabel Penelitian
Sumber data yang digunakan dalam penelitian ini adalah data olahan hasil
Susenas 2010, dan Podes 2008 yang dikumpulkan oleh Badan Pusat Statistik (BPS).
7
Adapun matriks penimbang spasial disusun berdasarkan metode queen contiguity,
menggunakan peta digital hasil kegiatan updating peta sensus penduduk 2010.
Objek penelitian yang akan dijadikan sebagai variabel respon adalah tingkat
penggunaan internet di 118 kabupaten/kota di Pulau Jawa, merupakan persentase dari
penduduk usia 5 tahun ke atas yang pernah menggunakan internet selama tiga bulan yang
lalu terhadap seluruh penduduk usia 5 tahun ke atas dalam suatu kabupaten/kota. Sensor
diberikan kepada wilayah kabupaten/kota dengan persentase penduduk pengguna internet
di atas 16 persen dengan menganggap nilai pada nilai . Adapun variabel
prediktor yang digunakan adalah sebagai berikut.
: Persentase penduduk yang tinggal di daerah perkotaan.
: Persentase penduduk usia muda.
: Persentase penduduk lulusan SMA ke atas.
: Rata-rata lama sekolah.
: Persentase rumah tangga yang memiliki komputer.
: Persentase rumah tangga dengan telepon genggam.
: Persentase desa/kelurahan yang mendapatkan sinyal telepon seluler.
Model Regresi Tobit Spasial
Model regresi Tobit spasial merupakan penerapan model regresi spasial pada data
yang tersensor. Sehingga dengan menggabungkan persamaan (4) ke dalam (1), akan
diperoleh suatu model umum regresi Tobit spasial sebagaimana berikut.
* * *
*
, , , , , jika
jika
i i i i i
i
i
y g y yy
y
x w β (11)
dimana merupakan suatu nilai konstanta batasan yang diberikan kepada jika
tersensor, . Persamaan ( | ) dapat dituliskan dalam bentuk
matriks ( ) ( ) ( ) , yang merupakan model
SARMA. Menjadi model spasial lag jika , dan menjadi model spasial error jika
, dimana ( ) dengan ( ) merupakan pengali yang menyatakan
heterogenitas dari varians error. Pada kondisi homoskedastisitas [28], matriks .
Apabila nilai dan , persamaan (11) menjadi model regresi Tobit
spasial lag sebagai berikut:
T T jika
jika
i i i i
i
i
yy
y
w y x β (12)
Apabila nilai dan , menjadi model regresi Tobit spasial error sesuai
persamaan berikut ini:
T T T jika
jika
i i i i i
i
i
yy
y
w y x β w X β (13)
Melengkapi Data Tersensor
Estimasi parameter model regresi Tobit spasial dilakukan dengan asumsi awal
bahwa variabel respon merupakan data dengan informasi yang lengkap, tidak tersensor,
dan memiliki korelasi spasial. Padahal sesuai persamaan (1), data yang memiliki
informasi lengkap adalah variabel respon yang mengikuti distribusi normal
( ). Nilai dari
ketika merupakan observasi yang tidak diketahui
8
atau dianggap sebagai variabel latent. Sehingga nilainya harus dilengkapi menggunakan
suatu nilai . Variabel respon yang lengkap kemudian didefinisikan sebagai
berikut:
* *
*
jika
jika
i i
i
i i
y yy
z y
(14)
Pemilihan observasi tersensor dari distribusi normal terpotong dilakukan dengan
cara membangkitkan variabel random yang berdistribusi ( ). Nilai merupakan elemen ke- dari vektor [ ] . Menurut LeSage [6] [19]
[28], nilai rata-rata dari adalah:
1
I W Xβμ (15)
Adapun nilai varians dari adalah
1T
1T
21 1
Σ V I W I WI W I W (16)
Estimasi Parameter
Sesuai dengan asumsi awal bahwa variabel respon merupakan data dengan
informasi yang lengkap, tidak tersensor, dan memiliki korelasi spasial, maka
hubungannya dengan variabel prediktor diwakili oleh model regresi spasial sesuai
dengan persamaan (4) di atas. Fungsi likelihood yang diperoleh adalah:
1/
/ 22 2 T 1
2
2
1
1, , , , 2 exp
2
n
i
i
n
ivL
V β y I W I W ε V ε (17)
dimana ε I W I W y Xβ.
LeSage [28] dan Lacombe [29] merumuskan diffuse (uninformative) prior dari
masing-masing parameter model regresi Spasial pada data tersensor sebagai berikut.
2
2
1p
12
2
11
exp2
1n nr
ii
ii ii
rp
v
V
konstantap β
konstantap p
Sehingga diperoleh distribusi posterior bersyarat dari masing-masing parameter adalah
sebagai berikut.
T 1 2
42
1 ~
n
ε V ε (18)
2
2
12 ~
1i
r
ii
r
(19)
T2 1
2
1 , , , exp
2p
β V B Ay Xβ V B Ay Xβ (20)
9
2 T 1
2
1, , , exp
2p
V β I W I W ε V ε (21)
dimana ( ), ( ), dan ( ).
Estimasi parameter metode MCMC Gibbs sampler dilakukan dengan cara
membangkitkan angka random yang mengikuti distribusi posterior bersyarat dari masing-
masing parameter, sebanyak jumlah iterasi yang diinginkan. Adapun algoritma
Metropolis within Gibbs digunakan pada bentuk distribusi posterior yang tidak standar,
seperti untuk parameter atau parameter [28]. Hasil uji Lagrange digunakan untuk
menentukan bentuk dari model spasial, apakah spasial lag ( ) atau spasial error
( ). Sementara hasil uji Breusch Pagan digunakan untuk menentukan nilai ,
menjadi ketika terjadi kondisi homoskedastisitas.
4. Hasil dan Pembahasan
Deskriptif Data Penggunaan Internet
Tingkat penggunaan internet dilihat dari nilai persentase pengguna internet dalam
suatu wilayah kabupaten/kota. Penggunaan internet terbesar di Indonesia dapat ditemukan
di kota pelajar Yogyakarta, yaitu sebanyak 36,20 persen. Disusul oleh Jakarta Selatan,
Kabupaten Sleman, dan kota industri Tangerang Selatan, masing-masing sebanyak 33,20
persen, 29,52 persen, dan 29,29 persen. Rata-rata penggunaan internet per kabupaten/kota
di Pulau Jawa sebesar 12,02 persen. Wilayah dengan nilai penggunaan internet di sekitar
rata-rata adalah Kabupaten Mojokerto, Bandung, Madiun, dan Kota Pasuruan. Sementara
wilayah dengan persentase pengguna internet terkecil ada di Kabupaten Sampang dan
Bangkalan, masing-masing sebesar 2,23 persen dan 2,54 persen.
Gambar 2. Peta Tematik Penggunaan Internet Menurut Kabupaten/Kota di Pulau Jawa Tahun
2010 (3)
Peta tematik penggunaan internet pada Gambar 2 memperlihatkan bahwa
penggunaan internet kategori tinggi banyak terdapat pada wilayah perkotaan seperti DKI
Jakarta dan sekitarnya, deretan Yogyakarta ke arah Surakarta, serta wilayah Bandung,
Surabaya dan sekitarnya. Tingginya penggunaan internet di kota-kota pusat pelajar,
industri, dan bisnis tersebut kemudian diikuti oleh wilayah lain di sekitarnya. Wilayah
yang bersinggungan langsung dengan kota-kota tersebut memiliki persentase pengguna
internet yang sedikit lebih rendah, sementara wilayah berikutnya yang bersinggungan
secara tidak langsung memiliki nilai yang lebih rendah lagi.
10
Tabel 1. Deskriptif Variabel Penelitian
Variabel Penelitan
Deskripsi Minimum Maksimum Rata-rata Standar Deviasi
(1) (2) (3) (4) (5) (6)
Persentase pengguna internet 2,23 16,00 9,968 4,626
Persentase penduduk perkotaan 9,27 100,00 57,991 30,837
Persentase penduduk usia muda 12,44 25,00 17,395 2,567
Persentase penduduk lulusan SMA ke atas 5,30 50,26 21,349 11,105
Rata-rata lama sekolah 4,21 11,55 8,052 1,518
Persentase rumah tangga dengan komputer 2,20 40,22 11,433 9,127
Persentase rumah tangga dengan telepon genggam 44,87 94,89 71,923 12,050
Persentase desa/kelurahan dengan sinyal telepon 50,00 100,00 88,892 10,026
Deskriptif data tingkat penggunaan internet sebagai variabel respon yang
tersensor dapat dilihat pada Tabel 1 di atas. Nilai maksimum dari persentase pengguna
internet per kabupaten/kota sama dengan 16 persen, dengan rata-rata dan standar deviasi
masing-masing sebesar 9,97 persen dan 4,63. Variabel yang memiliki variasi nilai
terbesar adalah persentase penduduk perkotaan dengan standar deviasi sebesar 30,84 dan
panjang range data dari 9,27 persen hingga 100 persen. Variabel rata-rata lama sekolah
memiliki variasi terkecil dengan standar deviasi sebesar 1,52. Hal itu karena satuan dari
variabel tersebut dalam ukuran tahun, sementara variabel lainnya dalam satuan
persentase.
Pemodelan Data Penggunaan Internet Menggunakan Regresi Tobit Spasial
Menggunakan keseluruhan tujuh variabel prediktor, hasil uji efek korelasi spasial
dan heteroskedastisitas memperlihatkan bahwa bentuk model yang akan dibentuk adalah
regresi Tobit spasial lag dalam kondisi homoskedastisitas (Tabel 2). Menggunakan
hipotesis lawan , nilai statistik uji LM-lag memperlihatkan
kesimpulan untuk menolak pada derajat kepercayaan 95 persen. Sementara nilai
statistik uji LM-err memperlihatkan bahwa gagal ditolak pada nilai .
Dengan menggunakan hipotesis : homoskedastisitas lawan : heteroskedastisitas,
Statistik uji Breusch Pagan memperlihatkan kesimpulan untuk tidak menolak pada
derajat kepercayaan 95 persen.
Tabel 2. Hasil Uji Efek Korelasi Spasial dan Heteroskedastisitas dari Pemodelan Tahap Pertama
hingga Tahap Ketiga
Statistik Uji Tahap I (7 Variabel) Tahap II (6 Variabel) Tahap III (5 Variabel)
Nilai p-Value Nilai p-Value Nilai p-Value
(1) (2) (3) (4) (5) (6) (7)
.
LM-lag 12,1942 0,0000 12,2410 0,0000 11,8122 0,0000
LM-err 1,5595 0,2117 1,5765 0,2093 1,4396 0,2302
Breusch Pagan 9,7859 0,2010 9,4602 0,1493 7,9076 0,1614
.
Metode backward elimination [30] digunakan dengan cara menggugurkan satu
persatu variabel yang tidak signifikan, dimulai dari variabel dengan nilai p-value yang
paling besar. Pada tahap-tahap berikutnya, hasil uji efek korelasi spasial dan
heteroskedastisitas juga mengindikasikan bentuk model regresi Tobit spasial lag dengan
11
kondisi homoskedastisitas. Menggunakan backward elimination, variabel-variabel yang
tersisihkan satu persatu dari model secara berturut-turut adalah , kemudian . Pada
tahap akhir, digunakan lima variabel prediktor yang signifikan pada tahap sebelumnya
untuk pemodelan data penggunaan internet menggunakan regresi Tobit spasial.
Simulasi Gibbs sampler dilakukan sebanyak 500 iterasi, 1000 iterasi dan 5000
iterasi. Perbedaan jumlah iterasi tersebut bertujuan untuk membandingkan konsistensi
hasil simulasi sebagai akibat dari perbedaan banyaknya iterasi. Selain itu, banyaknya
jumlah iterasi akan menentukan tingkat konvergensi dari parameter yang dibangkitkan.
Dibutuhkan waktu kurang dari empat menit untuk melakukan 5000 iterasi, sedangkan 500
iterasi membutuhkan waktu tidak lebih dari empat detik saja. Simulasi Gibbs sampler
dilakukan pada perangkat komputer notebook MSI dengan prosesor Intel® Core2™ Duo
CPU T6600 @2,20GHz dan memori sebesar RAM 2,00GB.
Tabel 3 Hasil Estimasi MCMC Parameter Model Regresi Tobit Spasial Lag
Parameter
Jumlah Iterasi = 500 Jumlah Iterasi = 1000 Jumlah Iterasi = 5000
Waktu Iterasi = 3,6910 Waktu Iterasi = 8,2010 Waktu Iterasi = 203,9420
Koefisien Statistik Uji Wald
p-Value Koefisien Statistik Uji Wald
p-Value Koefisien Statistik Uji Wald
p-Value
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
.
-0.1707 -5.4208 0,0000 -0.1690 -3.7961 0,0000 -0.1700 -3.1408 0,0000
-13,9591 -19,6343 0,0000 -13,8956 -17,5323 0,0000 -13,7268 -14,7152 0,0000
0,0113 7,6119 0,0000 0,0115 6,4355 0,0000 0,0117 6,1385 0,0000
0,1422 11,5386 0,0000 0,1430 11,6398 0,0000 0,1435 11,1433 0,0000
0,7642 13,7179 0,0000 0,7614 13,4552 0,0000 0,7548 12,3613 0,0000
0,0959 12,7110 0,0000 0,0951 10,6940 0,0000 0,0931 9,0076 0,0000
0,0830 33,5310 0,0000 0,0829 36,2902 0,0000 0,0827 32,8898 0,0000
1.9644 – – 1.9612 – – 1.9580 – –
0.8397 – – 0.8400 – – 0.8394 – –
.
Setelah dilakukan proses Gibbs sampler sebanyak tiga kali dengan jumlah iterasi
yang berbeda, nilai koefisien determinasi berada pada kisaran 84 persen. Koefisien
determinasi menjelaskan besarnya variasi dari variabel renspon yang dapat dijelaskan
oleh variabel prediktor. Menggunakan hasil iterasi MCMC terbanyak, dapat disimpulkan
bahwa sebesar 83,94 persen variasi penggunaan internet di Pulau Jawa dijelaskan oleh
sebelas variabel prediktor dan sisanya oleh variabel lain.
Analisis Penggunaan Internet di Pulau Jawa
Berdasarkan hasil estimasi parameter pada Tabel 3 di atas, maka model regresi
Tobit spasial lag untuk data penggunaan internet di Pulau Jawa adalah sebagai berikut:
Untuk kabupaten/kota dengan kategori penggunaan internet yang rendah:
1 3 4 6 71,ˆ 13, 727 0,17 0, 012 0,144 0, 755 0, 093 0, 083
n
i ij j i i i i ij j iy w y x x x x x
(22)
Untuk kabupaten/kota dengan kategori penggunaan internet yang tinggi:
ˆ 16i
y
12
Variabel persentase penduduk yang tinggal di perkotaan mengindikasikan tingkat
kemajuan dan kelengkapan fasilitas umum di daerah tersebut. Sementara variabel
presentase penduduk lulusan SMA ke atas dan rata-rata lama sekolah mencerminkan
kualitas sumber daya manusia di daerah tersebut. Dengan demikian untuk meningkatkan
persentase pengguna internet di daerah kabupaten/kota berkategori penggunaan internet
yang rendah, perlu dilakukan upaya peningkatan kualitas sumber daya manusia dari aspek
pendidikan. Selain itu, upaya pembangunan daerah pedesaan dengan cara melengkapi
fasilitas umum yang tersedia juga perlu dilakukan.
Variabel-variabel yang mencerminkan karakteristik perangkat dan jaringan di
daerah, mengindikasikan pentingnya perkembangan teknologi telepon seluler bagi
pertumbuhan internet. Berbagai kemudahan akses internet yang disediakan melalui
perangkat telepon genggam dan keluasan jaringan telepon seluler, telah secara signifikan
mendorong tingkat penggunaan internet menjadi lebih tinggi. Sementara variabel-variabel
yang dikeluarkan dari model mengindikasikan bahwa penggunaan internet tidak secara
signifikan didominasi oleh penduduk usia muda, tidak pula diakses melalui komputer.
5. Kesimpulan
Model regresi Tobit spasial merupakan suatu model regresi spasial yang
diterapkan pada data tersensor, dengan bentuk model umum dari regresi Tobit spasial
adalah:
T
T T T T T jika
jika
i i i i i ii
i
i
yy
y
w y w y W W y x β w X β (23)
Metode estimasi parameter yang digunakan adalah teknik Markov Chain Monte Carlo
(MCMC) dengan algoritma Gibbs Sampler pendekatan inferensia Bayesian, atau
disingkat MCMC Gibbs sampler. Variabel-variabel yang mempengaruhi penggunaan
internet di Pulau jawa adalah persentase penduduk yang tinggal di daerah perkotaan,
persentase penduduk lulusan SMA ke atas, rata-rata lama sekolah, persentase rumah
tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang
mendapatkan sinyal telepon seluler.
Berdasarkan hasil penelitian yang telah diperoleh, pengembangan lebih lanjut
dapat dilakukan dengan menggunakan highest posterior density (HPD) dan Bayes Faktor
sebagai metode pengujian parameter dan model. Penelitian ini masih menggunakan
matriks penimbang queen contiguity, sehingga pada penelitian selanjutnya dapat
dikembangkan menggunakan matriks penimbang lain, misalnya penimbang jarak. Lebih
lanjut, metode MCMC Gibbs sampler untuk pemodelan regresi Tobit spasial ini dapat
digunakan untuk data dan kasus lain yang lebih aplikatif.
Daftar Pustaka
[1] Socialbaker. Facebook Statistics by Country. www.socialbaker.com. [Online] Agustus 17,
2011. [Cited: Agustus 17, 2011.] http://www.socialbakers.com/facebook-
statistics/?interval=last-3-months#chart-intervals.
[2] BPS. Sensus Penduduk 2010. Sensus Penduduk 2010. [Online] 2011. [Cited: November 4,
2011.] http://sp2010.bps.go.id/index.php/site/index.
[3] —. Statistik Komunikasi dan Teknologi Informasi Tahun 2010. Jakarta : Badan Pusat
Statistik, 2011.
13
[4] Fischer, Manfred M. and Getis, Arthur. Handbook of Applied Spatial Analysis: Software
Tools, Methods, and Application. New York : Springer, 2010.
[5] Lee, Myoung Jae. Micro-Econometrics: Methods of Moments and Limited Dependent
Variables, Second Edition. New York : Springer, 2010.
[6] LeSage, James and Pace, R. Kelley. Introduction to Spatial Econometrics. New York :
CRC Press, 2009.
[7] Assessing the Influence of Neighborhood Effects on the Adoption of Improved Agricultural
Technologies in Developing Agriculture. Langyintuo, Augustine S. and Mekuria,
Mulugetta. 2008, AfJARE, Vol. 2, No. 2, pp. 151-169.
[8] Kaliba, Aloyce R. M. Dissertation: Participatory Evaluation of Community Based Water
and Sanitation Programes: The Case of Central Tanzania. Mahattan : Kansas State
University, 2002.
[9] DeMaris, Alfred. Regression with Social Data: Modelling Continuous and Limited Response
Variable. New Jersey : John Wiley and Sons, Inc., 2004.
[10] Greene, William H. Econometric Analysis, Sixth Edition. New York : Pearson - Prentice
Hall, 2008.
[11] Long, J. Scott. Regression Models for Categorical and Limited Dependent Variables.
California : Sage Publications, Inc., 1997.
[12] Estimation of Relationships for Limited Dependent Variables. Tobin, James. 1958,
Econometrica, Vol. 26, No. 1, pp. 24-36.
[13] Probit with Spatial Correlation by Field Plot: Potato Leafroll Virus Net Necrosis in
Potatoes. Marsh, Thomas L., Mittelhammer, Ron C. and Huffaker, Ray G. 2000, Journal
of Agricultural, Biological, and Environmental Statistics, pp. Volume 5, Number 1, Pages 22-
36.
[14] Anselin, Luc. Spatial Econometrics: Methods and Models. Dordrecht : Kluwer Academic
Publishers, 1988.
[15] —. Spatial Econometrics. Dallas : University of Texas, 1999.
[16] A Simple Test for Heteroscedasticity and Random Coefficient Variation. Breusch, T. S. and
Pagan, A. R. 1979, Econometrica, Vol. 47, No. 5, pp. 1287-1294.
[17] Markov Chain Monte Carlo Simulation Methods in Econometrics. Chib, Siddhartha and
Greenberg, Edward. 1996, Econometrics Theory, Vol. 12, pp. 409-431.
[18] Explaining the Gibbs Sampler. Casella, George and George, Edward I. 1992, The
American Statistician, Vol. 46, No. 3, pp. 167-335.
[19] LeSage, James P. The Theory and Practice of Spatial Econometrics. Ohio : University of
Toledo, 1999.
[20] Casella, George and Berger, Roger L. Statistical Inference. s.l. : Duxbury, Thomson
Learning, 2002.
[21] Monte Carlo Sampling Methods using Markov Chains and Their Applications. Hastings, W.
K. 1970, Biometrika, Vol. 57, No. 1, pp. 97-109.
[22] Kominfo. Buku Putih Komunikasi dan Informatika Indonesia. Jakarta : Pusat Data
Kementerian Komunikasi dan Informatika, 2010.
[23] Technology for Rural Development Role of Telecommunication Media in India. Rao, J.S.
Giri and Pattnaik, S.N. 2006, Indian Media Studies Journal, Vol. 1, No. 1, pp. 85-92.
[24] ITU. Measuring the Information Society. Geneva : International Telecommunications Union,
2010.
[25] Telecommunications Reform, Internet Use, and Mobile Phone Adoption in Developing
World. Howard, Philip N. and Mazaheri, Nimah. 2009, World Development, Vol. 37, No.
7, pp. 1159-1169.
14
[26] Andonova, Veneta and Serrano, Luis Diaz. Political Institutions and the Development of
Telecommunications. Bonn : IZA Discussion Paper, 2007.
[27] Who Goes Online? Evidence of Internet Use Patterns from Rural Greece. Michailidis,
Anastasios, et al., et al. 2011, Telecommunications Policy, Vol. 35, pp. 333-343.
[28] Bayesian Estimation of Limited Dependent Variable Spatial Autoregressive Models. LeSage,
James P. 2000, Geographical Analysis, Vol. 32, No. 1, pp. 19-35.
[29] Lacombe, Donald J. An Introduction to Bayesian Inference in Spatial Econometrics.
http://ssrn.com/abstract=1244261. [Online] July 24, 2008. [Cited: November 13, 2011.]
[30] Draper, Norman R. and Smith, Harry. Applied Regression Analysis. New York : John
Willey and Sons, Inc, 1998.