content.lms.sabis.sakarya.edu.trcontent.lms.sabis.sakarya.edu.tr/Uploads/68595/37605/bölüm_11... · Web viewb0, x = 0 olduğunda bağımlı değişkenin tahmini değeridir. Yukarıdaki

Hedefler

Bu üniteyi çalıştıktan sonra;

- Basit Doğrusal regresyon öğrenecek- Regresyon Modeli kurma öğrenilecek- Çoklu regresyon modeli öğrenilecek

Anahtar Kavramlar

Beta katsayısıHata terimiScatter plotNormallik testiR2Durbin Watson İstatistiğiVIF DeğeriOtokorelasyon

İçindekiler

1. Basit Doğrusal Regresyon2. Basit Doğrusal Regresyon Modeli3. Çoklu Doğrusal Regresyon Modeli

1. Basit Doğrusal Regresyon

Regresyon analizi bir bağımlı değişken ile bir bağımsız (basit regresyon) veya birden fazla bağımsız (çoklu regresyon) değişken arasındaki ilişkilerin matematiksel eşitlik ile açılanması sürecidir. Regresyon analizinde değişkenler arasındaki ilişki doğrusal ise doğrusal regresyon, değil ise doğrusal olmayan regresyon olarak adlandırılır.

Onbirinci Bölüm

Regresyon Analizi

2 Sakarya Üniversitesi Bilimsel Araştırma ve Bilimsel Araştırma Süreci

2. Basit Doğrusal Regresyon Modeli

Y = β0 + β1x + e

β0 = Doğrunun y eksenini kestiği nokta

β1 = Doğrunun eğimi

e = şansa bağlı hata terimi

Burada β0 ve β1 hesaplanan ana kütlenin parametreleridir. Ancak yine de dikkate alınmayan bağımsız değişkenler olabileceğinden, verilen tesadüfi değişimleri gösteren ana kütle hata terimi de modele eklenmiştir.

Pratikte β0 ve β1 değerleri bilinmiyorsa, ana kütleden bir örnek alınarak ana kütle parametreleri hakkında istenilen bilgiler üretilir. Bu noktada tahmini değerler olarak b0 ve b1 kullanılır.

y = b0 + b1x

y = y’nin tahmini değeri

Örnek: Kişilerin aylık yiyecek harcamaları ile aylık gelirleri arasındaki ilişkiyi bulabilmek için 30 kişiye aylık gelirleri ve yiyecek için yaptıkları harcamalar sorulmuştur ve aşağıdaki cevaplar alınmıştır.

Yiyecek harcaması

(100 TL)

Gelir (100 TL) Yiyecek harcaması

(100 TL)

Gelir (100 TL)

9 35 10 50

15 49 13 45

7 21 13 46

11 39 10 37

5 15 10 38

8 28 7 20

9 25 7 23

7 24 9 32

8 29 8 31

3Bilimsel Araştırma ve Bilimsel Araştırma Süreci

9 34 8 30

12 40 7 26

3 10 14 47

5 14 12 41

4 13 4 14

8 27 13 42

Model: y = β0 + β1x + e

Regresyon eşitliği örnek için

y = b0 + b1x

y = yiyecek harcamalarını

x = geliri ifade edecektir.

Aşağıdaki formüller ile b0 ve b1 hesaplanabilir

b1 = ∑ (xi−x¿)¿¿¿

b0 = y – b1x

Yukarıdaki formüller kullanılarak b0 = 0,314 ve b1 = 0,283 ve doğrusal

regresyon modeli de

y= 0,314 + 0,283x olarak bulunur.

Regresyon parametreleri b0 ve b1 şu şekilde yorumlanabilir.

b0, x = 0 olduğunda bağımlı değişkenin tahmini değeridir. Yukarıdaki

problemde b0 = 0,314 olması şu anlama gelir. Bir insanın hiç geliri olmasa bile aylık en

az 31,4 TL tutarında bir yiyecek masrafı vardır.

b1 değeri regresyon katsayısıdır ve x’deki bir birimlik artışa karşılık y’deki

değişim miktarını gösterir. b1’in pozitif olması, bağımsız değişken x’in arttığında y’nin

artacağı anlamına gelir. Bu pozitif doğrusal ilişkidir. Aynı şekilde b1’in negatif olması,


bağımsız değişken x’in arttığında y’nin azalacağını gösterir (negatif doğrusal ilişki).

Buna göre gelirimiz 1 TL arttığında yiyecek harcamalarımız 28,3 kuruş artmaktadır.

Regresyon denklemi kullanılarak, verilen bir x değeri için y’nin tahmini değeri

bulunabilir. Örneğimizde gelir düzeyi yaklaşık 3500 TL olan bir kişinin tahmini yiyecek

harcamasını hesaplarsak,

y = 0,314 + 0,283x = 0,314 + 0,283 * (3500) = 990,814 TL tahmini yiyecek

masrafı olacaktır.

Basit regresyon analizine geçmeden önce değişkenler arasındaki normal dağılım

ve doğrusal ilişki varsayımlarının test edilmesi gerekir. Değişkenler arasındaki ilişkinin

doğrusal olup, olmadığı serpilme grafiği Scatter Plot ile test edilebilir. Graphs

menüsünden legacy dialogs ve Scatter Plot seçilir. Y axis kısmına bağımlı değişken, X

axis kısmına bağımsız değişken yerleştirilir ve Ok tuşuna basılır ve doğrusal ilişkinin

varlığı veya yokluğu gözlemlenir. Normal dağılım için Analyze menüsünde

Descriptives ve Explore seçenekleri seçilir. Burada Normality Tests with Plots seçeneği

seçilir ve Normallik testleri Komolgov Smirnov veya Shapiro Wilkes’e bakılır.

Basit doğrusal regresyon analizini SPSS’te yapmak için Analyze > regression >

Linear şeçenekleri seçilir. Bağımlı ve bağımsız değişken serileri tanımlandıktan sonra

istenilen regresyon metotu seçilir ve Ok tuşuna basılarak sonuçlar elde edilir.


Ardında Statistics menüsü seçilir ve collinearity diagnostics ve Durbin Watson

seçenekleri seçilir.


Continue ve Ok tuşlarına basılır ve doğrusal basit regresyon sonuçları elde edilir.

Variables Entered/Removedb

Model

Variables

Entered

Variables

Removed Method

1 Aylık ortalama

gelir

. Enter

a. All requested variables entered.

b. Dependent Variable: Ayylık ortalama yiyecek

harcaması

İlk Tabloda enter metodu kullanıldığını ve aylık ortalama gelir değişkeninin

regresyon modeline girdiği belirtilmiştir.

Model Summaryb

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate Durbin-Watson

1 ,946a ,895 ,891 1,01654 2,237

a. Predictors: (Constant), Aylık ortalama gelir

b. Dependent Variable: Ayylık ortalama yiyecek harcaması

Yukarıdaki Tabloda R2 değeri verilmektedir. Bulunan R2 değeri 0,895’tir.

Bunun anlamı bağımlı değişkendeki (Yemek harcaması) değişimin %89,5’i modele

giren bağımsız değişken (gelir) tarafından açıklanmaktadır. Yemek harcamalarındaki

değişimin %89,5’luk kısmı gelirdeki değişmeler tarafından açıklanabilmektedir. Burada

önemli bir istatistikte Durbin Watson istatistiğidir. Regresyonun önemli

varsayımlarından bir bağımsız ve bağımlı değişkenler arasında korelasyon olmamasıdır.

Ayrıca hata terimleri arasında da korelasyon olmamasıdır. SPSS korelasyon problemleri

için basit bir ölçüt geliştirmiştir. Durbin Watson istatistiği hata terimleri arasında

korelasyon olup, olmadığına bakmaktadır. Bu istatistik 0 ile 4 arasında yer alır. Eğer

istatistik değeri 2 civarında ise, korelasyon olmadığı şeklinde yorumlanır. 0’a yakın

değerler yüksek pozitif korelasyonu, 4’e yakın değerler yüksek negatif korelasyonu

belirtir. Bizim örneğimizde Durbin Watson istatistik değeri 2,237’dir. Yani 2


civarındadır ve hata terimleri arasında korelasyon olmadığı şeklinde yorumlanmalıdır.

Bu olumlu bir şeydir.

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 247,233 1 247,233 239,254 ,000a

Residual 28,934 28 1,033

Total 276,167 29

a. Predictors: (Constant), Aylık ortalama gelir

b. Dependent Variable: Ayylık ortalama yiyecek harcaması

Yukarıdaki Tabloda tüm modelin anlamlılığını gösteren F testi sonuçları

gösterilmiştir. Burada Sig. Değeri önemlidir. Eğer F testi değeri anlamlı bulunduysa

modelimiz tümüyle istatistiksel olarak anlamlıdır sonucuna ulaşırız. Yukarıda Sig.

Değeri 0,000 çıktığı yani 0,05’ten hatta 0,01’den küçük olduğu için anlamlı olduğunu

söyleyebiliriz. Bu durumda yemek harcamasını gelirle açıklamaya çalıştığımız

regresyon modeli anlamlıdır denebilir.

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 1,032 ,537 1,921 ,065

Aylık ortalama gelir ,253 ,016 ,946 15,468 ,000 1,000 1,000

a. Dependent Variable: Ayylık ortalama yiyecek harcaması

Yukarıdaki Tabloda parametre tahminleri verilmiştir. Bu değerler hatırlanacağı

üzere örneğimizde formül yardımı ile hesaplanan değerlerin aynısıdır. Ayrıca

parametrelerin anlamlılığını test etmek için t istatistiği değerleri de verilmiştir. Ayrıca

multicollinearity istatistiği sonuçları da verilmiştir. Regresyon modelinin katsayısının

değeri 1,032 çıkmıştır ve bu %10 seviyesinde anlamlıdır (significance değeri 0,065

olarak hesaplanmıştır). Gelirdeki 1 birimlik artış aylık yemek harcamalarını 0,253 birim

arttıracaktır. Bu katsayıya ilişkin t istatistiği değeri ve bunun significance değeri 0,000

çıkmıştır. Yani %1 anlamlılık seviyesinde bile bu katsayı anlamlıdır. Regresyon


modelindeki bir diğer önemli kural ise bağımlı ve bağımsız değişkenler arasında yüksek

korelasyon olmamasıdır. VIF değeri bu sorunun varlığını saptamamıza yarar. VIF

değeri 5 ve yukarısı söz konusu değişkenin diğer regresyon modeli değişkenleri ile

yüksek korelasyona sahip olduğunu ve modelden çıkarılması gerektiğini bildirir. Burada

VIF değeri aylık ortalama gelir için 1,00’dır. Yani bağımlı değişkenler ile yüksek

korelasyona sahip değildir. Eğer burada birden fazla bağımsız değişken olsaydı VIF

değerinin yorumu daha anlamlı olabilecekti.

3. Çoklu Doğrusal Regresyon Modeli

Basit doğrusal regresyon modeli birçok durum için elverişli olabilir ancak

gerçek hayatta birçok modelin açıklanması için iki veya daha fazla açıklayıcı (bağımsız)

değişkene ihtiyaç duyulacaktır. Birden fazla açıklayıcı değişkene sahip regresyon

modellerine çoklu regresyon modelleri adı verilmektedir.

y = β0 + β1x + e Basit doğrusal regresyon modeli

y = β0 + β1x1 + ….. + βnxn + e Çoklu doğrusal regresyon modeli

y = Bağımlı değişken

xi = Bağımsız değişkenler

βi = Tahmin edilecek parametreler

e = Hata terimi

Çoklu regresyon modelinin varsayımları aşağıdadır

1. Normallik dağılımı

2. Doğrusallık

3. Hata terimlerinin ortalması 0’dır

4. Sabit varyans

5. Otokorelayon olmaması

6. Bağımsız değişkenler arasında çoklu bağlantının olmaması

Çoklu regresyon modelinde H0 hipotezi tüm regresyon katsayılarının sıfıra eşit

olduğunu (H0 = β1 = β2 = β3 = …. = βn) şeklinde kurulurken Ha hipotezi en az bir


βi’nin sıfırdan farklı olduğu şeklinde kurulur. Parametrelerin tek tek istatistiksel olarak

anlamlılığı için t testi sonuçlarına ve modelin bir bütün olarak anlamlılığı için F testi

sonuçlarına bakılır.

Belirlilik katsayısı (R2) bağımlı değişkenin yüzde kaçının modele dahil edilen

bağımsız değişkenler tarafından açıklandığını gösterir. Çoklu regresyonda modeler dahil

edilen değişken sayısı arttıkça otomatik olarak R2 artar. Dolayısıyla çoklu regresyonda

adjusted R2 değerini kullanmamız daha doğru olur.

Ölçüm yapılan bağımsız değişkenler, bağımlı değişken arasındaki ilişki,

değişken sayısı arttıkça daha iyi izah edilir duruma gelir. Ancak değişken sayısının

artması ek ölçümleri gerektirdiğinden zahmetli ve pahalı bir iştir. Bu nedenler toplam

değişimi en az değişkenle açıklamak amaç olmalıdır.

Değişken seçiminde en fazla kullanılan metot enter metodudur. Enter metotunda

araştırmacı modeli oluşturan bağımsız değişkenleri belirtir. Ardından bu modelin

bağımlı değişkenleri tahmin etme başarısı değerlendirilir. Eğer bir bağımsız değişkenin

diğerinden daha önemli olduğu düşünülüyorsa bu model kullanılır. Her bir değişken

modele eklendiği gibi, her birinin modele katkısı da değerlendirilir. Eğer eklenen

değişkenin modeli tahmin etme gücü artmıyorsa değişkenin modelden çıkarılmasında

bir sakınca yoktur.

Değişken ekleme metodunda (Forward Selection), SPSS değişkenleri bağımlı

değişkenler olan korelasyonlarının güçlerine göre modele sırayla sokar. Modele giren

her bir değişkenin etkisi ölçülür ve modeli önemli derecede etkilemeyen değişkenler

modelden çıkarılır.

Değişken eleme işlemi (Backward Selection), SPSS tüm değişkenleri modele

dahil eder. En güçsüz bağımsız değişken modelden çıkarılır ve regresyon tekrar

hesaplanır. Eğer bu durumda model önemli derecede güçsüzleniyorsa, bağımsız

değişken tekrar modele eklenir, eğer güçsüzleşme önemli derecede değilse bağımsız

değişken modelden çıkarılır. Bu süreç sadece yararlı bağımsız değişkenler modelde

kalıncaya kadar devam eder.


Değişken ekleme ve eleme metodu (Stepwise Selection) ise her değişken modele

sırayla eklenir ve model değerlendirilir. Eğer eklenen değişken modele katkı sağlıyorsa

modelde bu değişken kalır. Ancak modeldeki diğer değişkenlerin tümü, modele katkı

yapıp yapmadıklarını değerlendirmek için yeniden test edilir. Eğer önemli derecede

katkı sağlanmıyorsa modelden çıkarılır. Böylece en az sayıda değişken yardımı ile

model açıklanmış olur.

Örnek: Bir firmanın toplam gelirleri üzerinde, reklam harcamalarının ve ürün

fiyatlarının etkilerini ortaya koymak istediğimizi düşünelim. Bu amaçla aşağıda haftalık

toplam gelir, ürün fiyatları ve reklam harcamalarına ilişki veri seti oluşturulmuştur.

Reklam harcamalarındaki artış, toplam geliri ne ölçüde arttırmaktadır ya da toplam gelir

fiyat değişiklerine hangi oranda duyarlıdır.

Bu durumda regresyon modelimiz aşağıdaki gibi olacaktır:

Gelir = α0 + β1(reklam) + β2(fiyat) + e

Gelir Fiyat Reklam Gelir Fiyat Reklam

123,1 1,92 12,4 124,2 2,12 8,80

124,3 2,15 9,90 98,40 2,13 3,20

89,30 1,67 2,40 114,80 1,89 5,40

141,30 1,68 13,8 142,50 1,50 17,3

112,80 1,75 3,50 122,60 1,93 11,20

108,10 1,55 1,80 127,70 2,27 11,20

143,90 1,54 17,80 113,00 1,66 7,90

124,20 2,10 9,80 144,20 1,73 17,00

110,10 2,44 8,30 109,20 1,59 3,30

111,70 2,47 9,80 106,80 2,29 7,10

123,80 1,86 12,60 145,00 1,86 15,30

123,50 1,93 11,50 124,00 1,91 12,70

110,20 2,47 7,40 106,70 2,34 6,10


100,90 2,11 6,10 153,20 2,13 19,60

123,30 2,10 9,50 120,10 2,05 6,30

115,70 1,73 8,80 119,30 1,89 9,00

116,60 1,86 4,90 150,60 2,12 18,70

153,50 2,19 18,80 92,20 1,87 2,20

149,20 1,90 18,90 130,50 2,09 16,00

89,00 1,67 2,30 112,50 1,76 4,50

132,60 2,43 14,10 111,80 1,77 4,30

97,50 2,13 2,90 120,10 1,94 9,30

106,10 2,33 5,90 107,40 2,37 8,30

115,30 1,75 7,60 128,60 2,10 15,40

98,50 2,05 5,30 124,60 2,29 9,20

135,10 2,35 16,80 127,20 2,36 10,20

Veriler SPSS’e girildikten sonra Analyze > Regression > Linear seçenekleri ile

doğrusal regresyon menüsü açılır.

Az sayıda bağımsız değişken olduğu için enter metodu daha uygun olacaktır.

Haftalık ortalama gelir değişkeni dependent kutucuğuna bağımlı değişken olarak taşınır.

Haftalık ortalama ürün fiyatı ve haftalık ortalama reklam harcamaları independent


kutucuğuna bağımsız değişkenler olarak aktarılır. Ardından sağ tarafta bulunan

Statistics kutucuğu tıklanır.

Collinearity Diagnostics ve Durbin Watson istatistikleri seçilir. Continue tuşuna

basılır. Plots seçeneğine tıklanır.

Y eksenine bağımlı değişken DEPENDNT ve X eksenine ZPRED

standartlaştırılmış tahmini değerler taşınır. Histogram ve Normal probability plot

kısımları işaretlenerek, çoklu doğrusal regresyon modelinin iki varsayımının (çoklu


normal dağılım ve doğrusallık varsayımlarının) testi yapılır. Continue tuşuna ve

ardından OK tuşuna basılır ve aşağıda yer alan SPSS analiz çıktıları elde edilir ve

yorumlanır.

Variables Entered/Removedb

Model

Variables

Entered

Variables

Removed Method

1 haftalık ortalama

reklam

harcamaları,

Haftalık

ortalama ürün

fiyatları

. Enter

a. All requested variables entered.

b. Dependent Variable: Haftalık ortalama geliriniz

Haftalık ortalama reklam harcamaları ve haftalık ortalama ürün fiyatları

değişkenleri regresyon modeline ente metodu ile dahil edilmiştir.

Model Summaryb

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate Durbin-Watson

1 ,931a ,867 ,862 6,06961 2,041

a. Predictors: (Constant), haftalık ortalama reklam harcamaları, Haftalık ortalama ürün

fiyatları


R2 değeri 0,931 çıkmıştır ancak çoklu regresyon olduğu için Adjusted R2 değeri

değeri dikkate alınmalıdır. Bu değer 0,862 olarak hesaplanmıştır. Yani iki bağımsız

değişken (reklam harcamaları ve ürün fiyatı), bağımlı değişkendeki (gelir) değişimin

%86,2’sini açıklayabilmektedirler. Bu değer oldukça yüksektir ve sosyal bilimler

araştırmalarında tatmin edicidir. Bu arada Durbin Watson istatistiği 2,041 olarak

hesaplanmıştır. 2 civarında çıktığı için otokorelasyon olmadığının bir göstergesidir.


ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 11776,184 2 5888,092 159,828 ,000a

Residual 1805,168 49 36,840

Total 13581,352 51

a. Predictors: (Constant), haftalık ortalama reklam harcamaları, Haftalık ortalama ürün fiyatları


ANOVA testi anlamlı çıkmıştır. P değeri 0,000’dır. Yani regresyon modeli bir

bütün olarak anlamlıdır.

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 104,786 6,483 16,164 ,000

Haftalık ortalama ürün

fiyatları

-6,642 3,191 -,109 -2,081 ,043 ,990 1,010

haftalık ortalama reklam

harcamaları

2,984 ,167 ,936 17,877 ,000 ,990 1,010

a. Dependent Variable: Haftalık ortalama geliriniz

Regresyon modelinin katsayıları ve anlamlılık değeri yukarıdaki tabloda

verilmiştir. Sabit terimin katsayısı 104,786 olarak hesaplanmış ve p değeri 0,000 olarak

belirtilmiştir. Bu durumda sabit terim anlamlıdır. Ürün fiyatlarının regresyon modeli

katsayısı -6,642 olarak hesaplanmıştır. T testi sonucunda anlamlılık derecesi 0,043

olarak hesaplanmıştır. 0,05’ten küçük olduğu için %5 anlamlılık derecesinde anlamlıdır.

Ancak görüldüğü gibi gelirler ürün fiyatı ters orantılı bir şekilde ilişkilidir. Çünkü

regresyon modeli katsayısı negatif çıkmıştır. Reklam harcamalarının regresyon modeli

katsayısı 2,984 olarak hesaplanmış ve p değeri 0,000 çıkmıştır yani modelin sabit terimi

gibi reklam harcamaları da yüksek derecede anlamlıdır. Collinearity istatistikleri 1,010

civarında çıkmıştır. 5 ve daha yüksek çıkmadığı için bağımsız değişkenler arasında

korelasyon olmadığı ve her iki değişkenin de modelde kalmasının uygun olacağı

şeklinde yorumlanabilir.


Aylık ortalama gelir histogramdan görüldüğü gibi yaklaşık normal olarak

dağılmaktadır. Normallik varsayımı sağlanmıştır.

Haftalık ortalama gelir ile tahmin edilen değerler arasındaki dağılım grafiği de

doğrusal pozitif bir ilişki olduğu yönündedir. Regresyon modelinin doğrusallık

varsayımı da sağlanmıştır.


Değerlendirme Soruları

1. Basit doğrusal regresyon modelini açıklayınız..2. Beta katsayısı, hata terimi regresyon modelinde ne ifade eder?3. Multicollinearity ve Durbin Watson İstatistiğini açıklayınız.4. Çoklu regresyon modelinin özellikleri nelerdir.

Kaynakça

Spiers, N., Manktelow, B. Ve Hewitt, M. J.(2009), Practical Statistics Using SPSS, National Institude for Health Research NHS, England.

Field, A. (2005), Discovering Statistics using SPSS, SAGE, London.

Kalaycı, Ş. (2006), SPSS Uygulamalaı Çok değişkenli İstatistik Teknikleri, Asil Yayın Dağıtım

Documents

content.lms.sabis.sakarya.edu.trcontent.lms.sabis.sakarya.edu.tr/Uploads/68595/37605/bölüm_11... · Web viewb0, x = 0 olduğunda bağımlı değişkenin tahmini değeridir. Yukarıdaki