Upload
doankhanh
View
228
Download
0
Embed Size (px)
Citation preview
ANALISA DAN ANALISA DAN PEMBAHASAN
STATISTIK DESKRIPTIF
Statistik Deskriptif Data Polusi Udara
Variabel TotalTotal Non
MisingTotal
MisingMean
Standardeviasi
MinimumMaksi-mum
PM10 1096 940 156 54.903 21.154 11.48 311.96
CO 1096 1053 43 1.2347 0.5246 0.1 4.46
O3 1096 1071 25 64.5 38.42 17.77 723.19
MISSING OBSERVATIONS
• Pada data terdapat beberapa data yang hilang (missing observations)
U t k i l h t b t di k t d i t i• Untuk menangani masalah tersebut, digunakan metode imputasiyang terdapat pada paket statistika SAS
Perbandingan Metode imputasi
Metode MSE
MEAN 374,7,
MIN 595
MAX 8098
• MSE terkecil yaitu dengan menggunakan metode MEAN
• untuk tahap selanjutnya, data yang hilang diganti.dengan rata-rata dari data polusi udara pada tiap-tiap variabel.
PEMODELAN DATA POLUSI UDARA
Pemodelan Data Polusi UdaraSetelah diregresikan antara variabel independent (X) dan variabeldependent (Y) diperoleh model sebagai berikut :dependent (Y), diperoleh model sebagai berikut :
dimana t= 1, 2, ….,1096.
Nilai estimasi dari tiap-tiap variabel diberikan pada tabel berikut:
Prediktor Koefisien SE T P
Constant 47,444 1,521 31,20 0,000
Variabel yang tidak signifikan dikeluarkan dari model dan dilakukan
, , , ,
CO 6,024 1,139 5,29 0,000
O3 0,00465 0,01542 0,30 0,763
Variabel yang tidak signifikan dikeluarkan dari model, dan dilakukanpemodelan regresi yang melibatkan variabel yang berpengaruh.Sehingga,diperoleh model untuk polusi udara di Kota Surabaya adalah sebagaiberikut:berikut:
PENGUJIAN ASUMSI RESIDUAL
Asumsi residual dalam analisis regresi meliputi ujiindependen identik dan berdistribusi normal (0 σ2)
Uji Asumsi Independen
independen, identik dan berdistribusi normal (0, σ ).
Dengan melihat hasilnya, nilai Durbin-Watson akan kecil jika terdapatkorelasi positif, dan besar jika terdapat korelasi negatif.Sehubungan dengan data di atas, maka dengan bantuan MINITAB 14diperoleh nilai Durbin-Watson sebesar 1.0663. dengan nilaidL=1,8988772 dan nilai dU=1,9025316. Karena nilai dW < dL, makatolak H0, sehingga dapat disimpulkan bahwa residual terdapatautokorelasi atau asumsi independen tidak terpenuhi.Selain menggunakan Uji Durbin-Watson, keberadaan autokorelasijuga dapat dilihat dari plot ACF (Autocorrelation Function).
PENGUJIAN ASUMSI RESIDUAL (2)
Uji Asumsi Independen
Autocorrelation Function for RESIDUAL
n
1.0
0.8
0.6
0.4
(w ith 5% significance lim its for the autocorrelations)
Aut
ocor
rela
tion 0.4
0.2
0.0
-0.2
-0.4
0 6
Lag1009080706050403020101
-0.6
-0.8
-1.0
PENGUJIAN ASUMSI RESIDUAL (3)
Uji Asumsi IdentikSalah satu uji untuk menguji heteroskedastisitas ini adalah denganmelihat scatter plot dari varians residual tersebut. Jika dari scatter plotterlihat bahwa penyebaran residual tidak teratur, maka dapatdisimpulkan bahwa varian homoskedastisitas atau asumsi dipenuhi.Berikut ditampilkan output residual versus fit untuk mengetahuikehomogenan pada residual regresi.
PENGUJIAN ASUMSI RESIDUAL (4)
Uji Asumsi Identik
Residuals Versus the Fitted Values(response is PM10)
sidu
al
10.0
7.5
5.0
Stan
dard
ized
Re
2.5
0.0
Fitted Value180160140120100806040200
-2.5
-5.0
PENGUJIAN ASUMSI RESIDUAL (5)
Uji Asumsi Berdistribusi NormalSelanjutnya, asumsi lain yang perlu dipenuhi adalah residualberdistribusi normal. Berikut merupakan Probability Plots dariresidual.
99.99Mean 1.789388E-13StDev 19.34
Probability Plot of RESI2Normal
Perc
ent
99
95
80
50
<0.005
N 1096AD 10.084P-Value
P 20
5
1
0.01
RESI23002001000-100
PENGUJIAN ASUMSI RESIDUAL (5)
Dari beberapa pengujian asumsi di atas, hanya asumsi identik yangterpenuhi sehingga residual dari model regresi tersebut perlu dianalisisterpenuhi, sehingga residual dari model regresi tersebut perlu dianalisislebih lanjut.
Plot ACF menunjukkan bahwa masih terdapat lag-lag yangsignifikan yang dapat diartikan bahwa masih terdapat pengaruh residualsignifikan yang dapat diartikan bahwa masih terdapat pengaruh residualpada periode pengamatan saat ini (t) dengan residual pada pengamatansebelumnya (t-k). Selanjutnya residual dari model regresi dimodelkandengan pemodelan timeseries.dengan pemodelan timeseries.
Pada penelitian kali ini akan dilakukan pemodelan pada residualdengan pendekatan ARIMA dan ARFIMA. Model yang terbaik adalahmodel yang menghasilkan kesalahan yang lebih kecil.model yang menghasilkan kesalahan yang lebih kecil.
PEMODELAN ARIMATahap ini meliputi identifikasi model, penaksiran parameter, ujidiagnostik, pemilihan model terbaik dan peramalan.
Identifikasi ModelPertama-tama, data dibagi dua menjadi data in sample dan out sample.Pada umumnya, tahapan identifikasi yang pertama kali dilakukandalam pemodelan time series adalah melihat plot time series in sample.
Time S e r ie s P lot of Ins a mple
sam
ple
250
200
150
100
Ins
10809728647566485404323242161081
50
0
-50
Ind e x
PEMODELAN ARIMA(2)
ARIMA mengasumsikan kondisi stasioner, sehingga perlu diujistasioner dalam varian dan mean Dilihat dari TS plot dan ACF Plotstasioner dalam varian dan mean. Dilihat dari TS plot dan ACF Plotterlihat bahwa data telah stasioner dalam varian dan mean. Untukmenguji kestasioneran dalam mean digunakan uji Dickey Fullerdengandengan
Didapatkan hasil sebagai berikut :
Prediktor Koefisien SE Koefisien T P value
Sehingga data telah stasioner, sebab δ signifikan dengan alpha 0.05.
Prediktor Koefisien SE Koefisien T P_value
Yt-1 -0,54331 0,02708 -20,06 0,000
Sehingga data telah stasioner, sebab δ signifikan dengan alpha 0.05.
PEMODELAN ARIMA(3)
Karena residual model regresi sudah stasioner dalam mean dan varian,maka dapat dilakukan penentuan orde dari model AR atau MA Berikutmaka dapat dilakukan penentuan orde dari model AR atau MA. Berikutadalah plot ACF dan PACF dari residual regresi.
Autocorrelation Function for Insample(with 5% significance limits for the autocorrelations)
Partial Autocorrelation Function for Insample(with 5% significance limits for the partial autocorrelations)
corr
elat
ion
1.0
0.8
0.6
0.4
0.2
0.0
0 2
utoc
orre
lati
on
1.0
0.8
0.6
0.4
0.2
0.0
0 2
Lag
Aut
oc
757065605550454035302520151051
-0.2
-0.4
-0.6
-0.8
-1.0
Lag
Part
ial A
757065605550454035302520151051
-0.2
-0.4
-0.6
-0.8
-1.0
Plot ACF dan PACF residual RegresiSehingga, dapat dilakukan pendugaan model yaitu :ARIMA ([1 2 3 5 8 9 11 12] 0 0)ARIMA ([1,2,3,5,8,9,11,12],0,0)
PEMODELAN ARIMA(4)
Penaksiran Parameter dan Uji Signifikansi Parameter
Setelah diperoleh model dugaan, selanjutnya dilakukan pengujiansignifikansi parameter model. Taksiran parameter dari model sertas g s p e e ode s p e e d ode sepengujian signifikansi parameter adalah ARIMA([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan pengujiansignifikansi parameter, terdapat parameter yang tidak signifikan.signifikansi parameter, terdapat parameter yang tidak signifikan.Parameter yang tidak signifikan dikeluarkan dari model satu persatudimulai dari yang memiliki nilai p_value terbesar.
SIGNIFIKANSI PARAMETER ARIMA
Sehingga diperoleh model yang semua parameternya signifikan yaitu modelARIMA ([1,2,5,12],0,0). Estimasi dan pengujian signifikansi parameter modelARIMA ([1 2 5 12] 0 0) ditampilkan pada berikutARIMA ([1,2,5,12],0,0) ditampilkan pada berikut.
Tabel. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0)
Parameter Estimasi T_hit P_value
φ1 0,37403 12,44 <0,001
φ2 0,09073 2,98 0,0029
φ3 0,11098 3,99 <0,001
Dari tabel 4.4 dapat dilihat bahwa semua parameter untuk model ARIMA([1 2 5 12] 0 0) i ifik d 5%
φ4 0,11651 3,84 0,001
([1,2,5,12],0,0) signifikan pada α=5% .
CEK DIAGNOSA RESIDUAL ARIMA
Cek DiagnosaPada tahap ini dilakukan pengujian terhadap residual dari model, yaitu ujip p g j p , y jwhite noise yaitu residual bersifat identik dan independen serta pengujianterhadap asumsi kenormalan residual.
Uji Asumsi White Noise
Pengujian yang digunakan untuk uji asumsi independensi adalah LjungBBox.
CEK DIAGNOSA RESIDUAL ARIMA(2)
Tabel Nilai Statistik Uji Chi-Square Residual Model ARIMA ([1,2,5,12],0,0)
Lag p_value Kesimpulan
6 4,76 0,0925 Gagal Tolak Ho
12 11,57 0,1714 Gagal Tolak Ho, , g
18 13,18 0,5127 Gagal Tolak Ho
24 16,21 0,7033 Gagal Tolak Ho
30 20 10 0 7869 Gagal Tolak Ho30 20,10 0,7869 Gagal Tolak Ho
36 28,64 0,6371 Gagal Tolak Ho
42 32,26 0,7314 Gagal Tolak Ho
Dari Tabel di atas dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0)
48 40,10 0,6396 Gagal Tolak Ho
memenuhi asumsi white noise karena semua p-value lebih besar dariα=5%.
CEK DIAGNOSA RESIDUAL ARIMA(3)
Pengujian Kenormalan Residual
Hasil perhitungan Kolmogorov-Smirnov dengan tingkat signifikansi kesalahan5% untuk pengujian kenormalan residual dapat dilihat pada Tabel berikut.
Pengujian Kenormalan Residual untuk Model
Model Statistik Uji D p-value
ARIMA 0 09659 0 0100
nilai p value untuk uji Kolmogorov-Smirnov (<0,0100) lebih kecil dari α=5%,
([1,2,5,12],0,0)0,09659 <0,0100
nilai p_value untuk uji Kolmogorov Smirnov ( 0,0100) lebih kecil dari α 5%,maka dapat disimpulkan bahwa residual untuk model ARIMA ([1,2,5,12],0,0)tidak berdistribusi normal pada tingkat signifikansi kesalahan 5%.
MODEL ARIMA TERBAIK
Model terbaik untuk residual regresi adalah model ARIMA ([1,2,5,12],0,0)
AIC sebesar 9159,503 dan MSE out sample sebesar 537.5336
residual model ARIMA ([1 2 5 12] 0 0) tidak memenuhi asumsiresidual model ARIMA ([1,2,5,12],0,0) tidak memenuhi asumsinormal karena terdapat outlier
250
Time Series Plot of Aktual, Ramalan O utsample
ata
250
200
150
100
Var iab leA k tualRamalan O u tsamp le
Da 100
50
0
-50
Index9908807706605504403302201101
50
PEMODELAN ARFIMA
2000000
1500000
Time Series Plot of periodogram
1.0
0.8
0 6
Autocorrelation Function for Insample(with 5% significance limits for the autocorrelations)
peri
odog
ram
1000000
500000Aut
ocor
rela
tion
0.6
0.4
0.2
0.0
-0.2
-0.4
0 6
Index495440385330275220165110551
0
Lag757065605550454035302520151051
-0.6
-0.8
-1.0
( ) (b)
Long memory dapat dilihat dari plot ACF yang autokorelasinyaturun lambat secara hiperbolik
(a) (b)
Selain itu dengan melihat bentuk periodogram. Bentukperiodogram yang meningkat menuju nilai yang sangat besartetapi berhingga untuk frekuensi yang semakin mendekati nol(Gambar (b)) menunjukkan adanya ketergantungan jangkapanjang
ESTIMASI PARAMETER MODEL ARFIMA
Langkah-langkah:
1. estimasi nilai d.
Pada penelitian ini ditentukan terlebih dahulu nilaiparameter differencing d pada data keseluruhan (data in sample), sehingga dalam estimasi parameter darimodel-model awal ARFIMA menggunakan nilai d yang sama.
Data in sample residual regresi memiliki nilai d sebesar0.331096. Ini dilihat dari nilai p_value = 0,000 yang lebih kecil dari nilai .
2. Estimasi aspek jangka pendek yaitu parameter p dan q dilihat dari plot ACFdan q dilihat dari plot ACF
ESTIMASI PARAMETER MODEL ARFIMA (2)
NoModel
φ φ φ θNoARFIMA
φ1 φ2 φ3 θ1
1 1,d, 1]-0,880165 0.919562
, , ][0.000] [0.000]
2 [1,2],d, 10.720971
[0 000]
-0.577182
[0 059]
-0.688728
[0 000][0.000] [0.059] [0.000]
3 [1,2,3],d, 10,686064
[0 003]
-0,0503132
[0 183]
-0,0110528
[0 744]
-0,654334
[0 000][0,003] [0,183] [0,744] [0,000]
model dugaan adalah ARFIMA (1,d,1).
UJI ASUMSI RESIDUAL ARFIMA (1, d, 1)
Model ARFIMA Normal ARCH 1-1 Portmanteau
ARFIMA [0 000]** [0.0183]* [0 8670]ARFIMA
(1,d, 1)
[0.000] [ ] [0.8670]
Residual untuk model ARFIMA (1 d 1)Residual untuk model ARFIMA (1,d, 1)memenuhi asumsi white noise, tetapi tidak memenuhi asumsi kenormalan.
MODEL ARFIMA TERBAIK
AIC 9159,00399 MSE outsample 280,337AIC 9159,00399 MSE outsample 280,337Pada ARFIMA (1,d,1) tidak memenuhi asumsi normal, sehingga analisis dilanjutkan dengan pendeteksianoutlier.outlier.
PEMODELAN ARIMA DENGAN DETEKSI OUTLIER
Outlier pada data menyebabkan ketidaknormalan. Outlier dapat dideteksi dengan menggunakan BoxplotP d liti i i di bil d b h tli li Pada penelitian ini, di ambil dua buah outlier yang paling ekstrim yaitu data ke-804 dan data ke-1070.
Boxplot of Resi
250
200
150
1070
Boxplot of Resi
Res
i
150
100
501059
104510431039
907
898893892891854851827825824816806
804
803
787782
756
753738711706669
616
4584554374113923742782021541251036763462018
0
-50
-100
107310721071
942909899896843828810805707617575515460388129
00
SIGNIFIKANSI PARAMETER ARFIMA
Parameter Estimasi t-hit P_value
φ -0 800973 -7,15 0 000φ1 -0,800973 , 0,000
θ1 0,849818 8,60 0,000
92 1031 6 04 0 00092,1031 6,04 0,000
Model di atas sudah memenuhi asumsi white noise dan homogenitas
tetapi belum memenuhi asumsi distribusi normal
Persamaan model ARFIMA (1,d, 1) dapat dituliskansebagai berikutg
AIC 9125 61531 dan MSE sebesar 271 304AIC = 9125,61531 dan MSE sebesar 271,304
HISTOGRAM RESIDUAL ARFIMA
A nderson-Darling Normality Test
A -Squared 19.98P-V alue < 0.005
Mean 0.173
Summary for REsi5
V ariance 271.524Skewness 3.4151Kurtosis 46.9632N 1080
Minimum -62.4471st Q uartile -8.353Median -0.551
StDev 16.478
250200150100500-503rd Q uartile 6.889Maximum 246.490
95% C onfidence Interv al for Mean
-0.811 1.156
95% C onfidence Interv al for Median
-1.114 0.068
95% C onfidence Interv al for StDev9 5% Confidence Intervals
Median
Mean
1.00.50.0-0.5-1.0
15.811 17.2049 5% Confidence Intervals
Ketidaknormalan data juga dapat dilihat dari nilai kurtosis yaitu 46,9632 (berdistribusi normal bila nilai kurtosis adalah nol).
Pada penelitian ini, residual model ARFIMA (1,d,1) dengan outlier t=804 p , ( , , ) gmemiliki kurtosis positif, yang biasa disebut dengan leptoturtic
PERBANDINGAN MODEL ARIMA DAN ARFIMA
Model AIC MSE
ARIMA ([1,2,5,12],0,0) 9259,903 537,5336ARIMA ([1,2,5,12],0,0) 9259,903 537,5336
ARFIMA (1,d, 1) dengan outlier
t=804
9125,61531 271,304
t=804
model regresi untuk pemodelan polusi udara
mengikuti model ARFIMA sebagai berikut:g g
KESIMPULAN1. Metode yang paling baik untuk mengatasi missing observations
pada data penelitian ini adalah metode MEAN jika dibandingkandengan metode MINIMUM dan MAKSIMUM.
2. Berdasarkan perhitungan MSE model regresi dengan error, kombinasi model regresi dan ARFIMA memberikan nilai MSE yang jauh lebih kecil dibandingkan model dengan kombinasi regresi danARIMA, sehingga dapat dikatakan bahwa model regresi denganARFIMA merupakan metode terbaik untuk memodelkan polusiudara di Kota Surabayaudara di Kota Surabaya
3. Model terbaik yang diperoleh adalah model ARFIMA(1,d, 1) dengan outlier t=804dengan outlier t 804
SARAN
Saran yang dapat direkomendasikan untuk penelitianSaran yang dapat direkomendasikan untuk penelitianselanjutnya adalah dengan menambah variabelprediktor untuk mendapatkan pemodelan yang lebihsesuai.
DAFTAR PUSTAKADahlhaus, R., 1995. Efficient location and regression estimation for long range dependent regression models. Ann.Statist. 23, 1029–1047.Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of Autoregressive Fractionaly Integrated Moving Average models. Nuffield College, University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free University of Amsterdam 1081 HV Amsterdam, T N d l dTe Nederlands.Granger, C. W. J. (1980), An Introduction to Long-Memory Time Series Models and Fractional Differencing. Journal of Time Series Analysis, 1, 15-39Hall, P., Lahiri, S.N. dan Polzehl, J., 1995. On bandwidth choice in nonparametric regression with both short and longrange dependency errors. Ann. Statist. 23, 1921–1936.Hanea, R., 2005. Data assimilation Concept and the Kalman Filter Approach for an Atmospheric Application. Bahan RWS, TU Delft.Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte Carlo Study. University of Econometrics and Business Administraton, Department of Statistics, Vienna.
Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with Missing Observations and Long-memory: An Application Study. Journal of Computational Statistics and Data g y pp y pAnalysis 50, 2028–2043.
Irhamah. (2001). Perbandingan Metode – metode Pendygaan Parameter Model ARFIMA. Tesis Magister (tidak dipublikasikan). Institut Teknologi Sepuluh Nopember. Surabaya.
John H R 1971 Spectrum Estimation With Missing Observations Air Force Office of Scientific Research John, H.R., 1971. Spectrum Estimation With Missing Observations. Air Force Office of Scientific Research, Office of Aerospace Research, United Related Fields 95, 538-553.
Koul, H.L. dan Mukherjee, K., 1993. Asymptotics of R-, MD- and LAD estimators in linear regression with long range dependent errors. Probab. Theory Related Fields 95, 538–553.
DAFTAR PUSTAKALardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA Processed and Model Selection Criteria: A Monte Carlo Study. MODEM- CNRS, University of Paris X.
Palma, W. dan Chan, N.H., 1997. Estimation and forecasting of long-memory processes with missing values. J. Forecasting 16, 395–410.
Palma, W. dan Del Pino, G., 1999. Statistical analysis of incomplete long-range dependent data. Biometrika86, 165–172.
Robinson, P.M. dan Hidalgo, F.J., 1997. Time series regression with long-range dependence. Ann. Statist. 25, 77–104.25, 77 104.
Sowell, F., 1992. Maximum likelihood estimation of stationary univariate fractionally integrated models. J. Econometrics 53, 165–188
Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company.Widarjono, A., 2007. Ekonometrika. Teori dan Aplikasi untuk Ekonomi dan Bisnis. Ekonisia. Yogyakarta.
Yajima, Y., 1988. On estimation of a regression model with long-memory stationary errors. Ann. Statist. 16, 791–807.
Yajima,Y. dan Nishino, H., 1999. Estimation of the autocorrelation function of a stationary time series with Yajima,Y. dan Nishino, H., 1999. Estimation of the autocorrelation function of a stationary time series with missing observations. Sankhy¯a Ser. A 61, 189–207.