12
0 SAKARYA ÜNİVERSİTESİ BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ Hafta 11 Yrd. Doç. Dr. Halil İbrahim CEBECİ Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi’ne aittir. "Uzaktan Öğretim" tekniğine uygun olarak hazırlanan bu ders içeriğinin bütün hakları saklıdır. İlgili kuruluştan izin almadan ders içeriğinin tümü ya da bölümleri mekanik, elektronik, fotokopi, manyetik kayıt veya başka şekillerde çoğaltılamaz, basılamaz ve dağıtılamaz. Her hakkı saklıdır © 2013 Sakarya Üniversitesi

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİcontent.lms.sabis.sakarya.edu.tr/Uploads/48788/29689/h11... · Veri analizleri için kullanılacak testler verilerin

  • Upload
    dokhanh

  • View
    230

  • Download
    0

Embed Size (px)

Citation preview

0

SAKARYAÜNİVERSİTESİ

BİLİŞİMTEKNOLOJİLERİİÇİNİŞLETMEİSTATİSTİĞİ

Hafta11 

Yrd. Doç. Dr. Halil İbrahim CEBECİ 

 

 

 

 

 

 

 

 

 

Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi’ne aittir. "Uzaktan Öğretim" tekniğine uygun olarak hazırlanan bu ders içeriğinin bütün hakları saklıdır. İlgili kuruluştan izin almadan ders içeriğinin tümü ya da bölümleri mekanik, elektronik, fotokopi, manyetik kayıt veya başka şekillerde çoğaltılamaz, basılamaz ve dağıtılamaz.

Her hakkı saklıdır © 2013 Sakarya Üniversitesi

1

BÖLÜM 5 

ÇIKARIMSAL İSTATİSTİK 

BÖLÜMÜN AMACI 

Bu  bölümün  amacı  ikiden  fazla  örneklem  üzerinde  karşılaştırmalı  analizler  gerçekleştirmek  adına 

kullanılacak  istatistiksel  yöntemler  hakkında  temel  bilgiler  vermek,  sonuçlarının  yorumlanabilmesi 

kabiliyetinin öğrenciye kazandırılmasıdır. 

 

5.4. İkiden Fazla Örneklem Testleri 

İkiden fazla örneklemin birbiri ile arasındaki farklılıkların istatistiksel açıdan anlamlı olup olmadığının 

analiz edilmesi  için çift örneklem testleri kullanılır. Bu testlerde esas olan herhangi bir grubun diğer 

gruplara  göre  farklılık  göstermesidir.  Örneğin  A  grubu  B  ve  C  gruplarından  farklı  bir  ortalamaya 

sahipse  (istatistiki açıdan) o  zaman  testler  farklılık olduğunu öngörür. Ama  test  sonucu B  ile C nin 

birbiri ile çok yakın sonuç üretmesi ile ilgilenmez, yani bu iki grup tamamen aynı sonuçları üretebilir.  

Veri analizleri  için kullanılacak testler verilerin bağımsız veya eşleştirilmiş olması ve verilerin normal 

dağılıma uyup uymaması ile birlikte farklılık gösterilir. 

 

 

Karşılaştırmalı Veri Analizi

Tek Örneklem Bağımsız Veri

Parametrik VeriTek Örneklem T 

Testi

Parametrik Olmayan Veri

Wilcoxon İşaretli Sıralar testi 

Çift Örneklem

Bağımsız Veri

Parametrik VeriBağımsız 

Örneklem T‐Testi

Parametrik Olmayan Veri

Mann Whitney U Testi

Eşleştirilmiş Veri

Parametrik VeriEşleştirilmiş 

Örneklem T Testi

Parametrik Olmayan Veri

WilcoxonEşleştirilmiş Çiftler Testi

İkiden Fazla Örneklem

Bağımsız Veri

Parametrik Veri Varyans Analizi

Tek Faktör (ANOVA)

Çift Faktör

Çok Faktör (MANOVA)

Parametrik Olmayan Veri

Kruskal Wallis Testi

Bağımlı Veri

Parametrik VeriRastgele Blok 

Dizaynı

Parametrik Olmayan Veri

Friedman Testi

2

5.4.1. Tek Yönlü Varyans Analizi (ANOVA) 

Eğer  2  veya  daha  fazla  grubun  (genelde  3  den  fazla)  farklılıklarının  incelenmesi  isteniyorsa  bu 

durumda ANOVA tercih edilmelidir.  

Aşağıda verilen örnek yardımıyla analizin işleyişini inceleyelim. 

ÖRNEK 

Bir araştırmacı üniversitelerin işletme fakültelerinde verilen analitik çözümleme yeteneği gerektiren  4  farklı  derste,  yüksek  başarı  ile  bitirme  durumlarının  farklılıklarını  analiz  etmek  istemektedir. Araştırmacı  dört  dersin  farklı  başarı  düzeylerine  sahip  olabileceğini  düşünmektedir.  Aşağıdaki tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.) 

Başarılı Not Alan Öğrenci Sayısı (AA ve BA) 

Karar Destek Sis.  Zeki Sistemler  Sistem Analizi  Girişimcilik 

35  27  25  34 

30  38  33  16 

32  35  29  26 

45  33  33  28 

35  36  31  34 

53  32  49  16 

52  26  38  43 

56  42  30  42 

60  33  45  31 

54  44  46  45  

 

 

ÇÖZÜM 

Öncelikle araştırma hipotezleri belirlenmelidir.  

: çö ü ğ ş ü . : çö ü ğ ş ü . 

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun  ikinci adımıdır.  İkiden  farklı grubun  analizi  yapıldığı,  verilerin  normal  dağıldığı  soruda  verildiğinden  ve  örneklemlerin  bağımsız olduğu da dikkate alındığında “ANOVA” yöntemini  0,05 değerinde test etmeyi tercih ediyoruz. 

Daha sonra analizler Excel yardımıyla gerçekleştirilebilir. 

 

 

 

 

 

3

EXCEL 

Öncelikle elimizde bulunan verileri analize uygun şekilde Excel’e yerleştirmeliyiz. 

Veri  girildikten  sonra Veri Çözümleme  aracına  gidilerek,  “Anova: Tek  Etken”  testi  seçilir. Aşağıdaki ekranda ilgili yerler girilir. 

 

Gelen ekranda “Giriş Aralığı” alanına test için girdiğimiz “Ders Sütunları” seçilir. Eğer veri seçimlerinde açıklama  satırları  seçildi  ise  (Bu  soruda  seçilmiştir), o  zaman  “Etiketler”  kutucuğu  seçilmelidir.  Son olarak  “Alfa”  kutucuğuna  anlamlılık  düzeyi  değeri  girilmelidir.  Bu  işlemler  bittikten  sonra  analiz sonuçlarını istediğimiz alan “Çıkış Aralığı” kısmından seçilmelidir. 

 

Yukarıdaki  sonuç  tablosu  incelendiğinde  F  testi  değerinin  yüksek  çıktığı  ve  buna  bağlı  olarak   hipotezi kabul olasılığının da anlamlılık düzeyinden düşük hesaplandığı görülmektedir. Sonuç olarak 

  hipotezi  red  edilip,    hipotezi  kabul  edilecek,  yani  analitik  çözümleme  gerektiren  derslerdeki başarı düzeylerinin farklık gösterdiği sonucuna ulaşılacaktır. 

Tabloda  verilen  ortalama  değerleri  dikkatlice  incelendiğinde  “Karar  Destek  Sistemleri”  dersinin ortalamasının çok farklı olması analiz sonucunu doğurmaktadır. “Zeki Sistemler” ve “Sistem Analizi” 

4

ortalamalarının birbirine  çok  yakın olduğu  sonucuna dikkat  ediniz. Bu  gibi durumlarda  TUKEY HSD ismiyle  anılan  özel  bir  istatistiksel  değer  tablosunun  incelenmesi  uygun  olacaktır.  (Bu  test  Excel yardımıyla  gerçekleştirilememektedir.  Bu  durumda  diğer  istatistiksel  paket  programlardan faydalanabilirsiniz) 

TUKEY HSD SONUÇLARI (Kabul Olasılıkları) 

   Karar Destek Sis.  Zeki Sistemler  Sistem Analizi  Girişimcilik 

Karar Destek Sis.  1,000  0,062  0,122  0,010 

Zeki Sistemler  0,062  1,000  0,989  0,872 

Sistem Analizi  0,122  0,989  1,000  0,705 

Girişimcilik  0,010  0,872  0,705  1,000 

Yukarıdaki tablo  incelendiğinde Sarı  ile gösterilen “Karar Destek Sistemleri”  ile “Girişimcilik” Dersleri farklılığının anlamlı olduğu görülmektedir. 

 

 

ÖRNEK 

Bir araştırmacı üniversitelerin  işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı  ile bitirme  durumlarının  farklılıklarını  analiz  etmek  istemektedir. Araştırmacı  dört  dersin  farklı  başarı düzeylerine  sahip olabileceğini düşünmektedir. Aşağıdaki  tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.) 

Başarılı Not Alan Öğrenci Sayısı (AA ve BA)

İstatistik Olasılık Yöneylem Üretim

Planlama 18 24 19 24

18 22 22 19

20 20 14 12

18 14 23 13

21 24 22 14

20 23 18 13

23 24 24 18

16 20 12 19

19 16 12 17

16 19 16 20  

 

 

 

 

 

 

 

 

 

 

5

ÇÖZÜM 

Öncelikle araştırma hipotezleri belirlenmelidir.  

: ş ü . : ş ü . 

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun  ikinci adımıdır.  İkiden  farklı grubun  analizi  yapıldığı,  verilerin  normal  dağıldığı  soruda  verildiğinden  ve  örneklemlerin  bağımsız olduğu da dikkate alındığında “ANOVA” yöntemini  0,05 değerinde test etmeyi tercih ediyoruz. 

Daha sonra analizler Excel yardımıyla gerçekleştirilebilir. 

 

EXCEL 

Önceki sorudakine benzer şekilde “Veri Çözümleme” ile soruyu çözersek, aşağıdaki sonuç tablosunu elde ederiz. 

 

Yukarıdaki sonuç tablosu  incelendiğinde F testi değerinin çok yüksek çıkmamış ve buna bağlı olarak   hipotezi  kabul  olasılığının  da  anlamlılık  düzeyinden  yüksek  hesaplandığı  görülmektedir.  Sonuç 

olarak    hipotezi  kabul  edilecek,    hipotezi  red  edilecektir,  yani  analitik  çözümleme  gerektiren derslerdeki başarı düzeylerinin farklık göstermediği sonucuna ulaşılacaktır. 

TUKEY HSD değer tablosu aşağıdaki gibidir 

TUKEY HSD SONUÇLARI 

   İstatistik  Olasılık  Yöneylem  Üretim Planlama 

İstatistik  1,000  0,721  0,973  0,609 

Olasılık  0,721  1,000  0,458  0,120 

Yöneylem  0,973  0,458  1,000  0,853 

Üretim Planlama  0,609  0,120  0,853  1,000 

Yukarıdaki  tablodan  bütün  grupların  birbiri  arasındaki  farklılıklarının  istatistiksel  açıdan  değerli olmadığı görülmektedir. Analiz sonuçları incelendiğinde de 0,16 kabul olasılığı değeri bu tablonun bir kanıtıdır. 

6

Yukarıda  verilen  iki  örnekte  de  verilerin  alındığı  üniversitelerin  bir  önemi  yoktur.  Yani  10  farklı 

üniversitenin rastgele seçildiği varsayılmaktadır. Fakat bazı durumlarda üniversitelerin önemli olduğu 

(yani  satırların  önemli  olduğu)  durumlarda  mevcuttur.  Bu  anlamda  test  biraz  farklılaşacaktır. 

“ANOVA: Çift Etken Testi” olarak adlandırılan bu durum bize önemli yorum avantajları sunabilir. 

Eğer her bir satıra bir üniversite geliyorsa, yani yineleme yoksa   o zaman “ANOVA: Yinelemesiz Çift 

Etken Testi” tercih edilmelidir. 

ÖRNEK 

Bir araştırmacı üniversitelerin  işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı  ile bitirme  durumlarının  farklılıklarını  analiz  etmek  istemektedir. Araştırmacı  dört  dersin  farklı  başarı düzeylerine sahip olabileceğini düşünmektedir. Ayrıca araştırmacı üniversiteler arasında da  farklılık olabileceğini  öngörmektedir.  Aşağıdaki  tabloyu  dikkate  alarak  bu  durumu  analiz  ediniz.  (Verilerin normal dağıldığı düşünülmektedir.) 

Başarılı Not Alan Öğrenci Sayısı (AA ve BA)

Üniversite

Karar Destek Sis. 

Zeki Sistemler

Sistem Analizi  Girişimcilik 

1 35  27  25  34 2 30  38  33  16 3 32  35  29  26 4 45  33  33  28 5 35  36  31  34 6 53  32  49  16 7 52  26  38  43 8 56  42  30  42 9 60  33  45  31 

10 54  44  46  45  

 

ÇÖZÜM 

İki farklı durum için iki farklı hipotez grubu hazırlanmalıdır.  

Dersler bazında farklılık: 

: çö ü ğ ş ü . : çö ü ğ ş ü . 

 Üniversite bazında farklılık: 

: çö ü ğ ş ü ü  

ç . : çö ü ğ ş ü ü  

ç .  

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun  ikinci adımıdır.  İkiden  farklı grubun  analizi  yapıldığı,  verilerin  normal  dağıldığı  soruda  verildiğinden  ve  örneklemlerin  bağımsız 

7

olduğu da dikkate alındığında “ANOVA: Yinelemesiz Çift Etken” yöntemini  0,05 değerinde test etmeyi tercih ediyoruz. 

Daha sonra analizler Excel yardımıyla gerçekleştirilebilir. 

 

EXCEL 

Önceki sorudakine benzer şekilde “Veri Çözümleme” ile soruyu çözersek, aşağıdaki sonuç tablosunu elde ederiz. 

Yukarıdaki  sonuç  tablosu  incelendiğinde  satırlar  açısından  da,  sütunlar  açısından  da  farklılıkların anlamlı  oldukları  görülmektedir.  (Satırlar=  Üniversiteler  arası  farklılık  (Kabul  olasılığı  =  0,038742), Sütunlar= Dersler açısından farklılık (Kabul olasılığı = 0,003956)) Yani hem üniversiteler açısından hem de  dersler  açısından  farklılıklar  anlamlıdır.  Yani  dersler  ve  üniversiteler  farklı  başarı  düzeylerini öngörmektedir. 

Burada  Üniversite  ve  derslerin  iki  farklı  etken  olduğunu  görmekteyiz.  Her  iki  etkende  tekrar 

etmemektedir.  Yani  her  bir  satırda  bir  üniversite  ve  her  bir  sütunda  bir  ders  mevcuttur.  Bazı 

durumlarda bu bilgi yeterli olmaz. Aşağıdaki soru ile beraber bu durumu daha iyi anlayabiliriz. 

 

 

8

 

ÖRNEK 

Bir araştırmacı üniversitelerin  işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı  ile bitirme  durumlarının  farklılıklarını  analiz  etmek  istemektedir. Araştırmacı  dört  dersin  farklı  başarı düzeylerine  sahip  olabileceğini  düşünmektedir.  Ayrıca  araştırmacı  üniversitelerde  bu  derslerden önce verilen Modelleme ve araştırma yöntemleri derslerinin bu derslerdeki başarı düzeylerini nasıl etkilediklerini  belirlemek  istemektedir.  Aşağıdaki  tabloyu  dikkate  alarak  bu  durumu  analiz  ediniz. (Verilerin normal dağıldığı düşünülmektedir.) 

Başarılı Not Alan Öğrenci Sayısı (AA ve BA)

Öncül Ders

Karar Destek Sis. 

Zeki Sistemler

Sistem Analizi  Girişimcilik 

Araşt. Yönt.  35  27  25  34 

Araşt. Yönt. 30  38  33  16 

Araşt. Yönt. 32  35  29  26 

Araşt. Yönt. 45  33  33  28 

Araşt. Yönt. 35  36  31  34 

Modelleme  53  32  49  16 

Modelleme 52  26  38  43 

Modelleme 56  42  30  42 

Modelleme 60  33  45  31 

Modelleme 54  44  46  45  

 

ÇÖZÜM 

Aşağıdaki verilen hipotezler araştırma amacını gerçeklemek adına oluşturulmalıdır. 

Dersler bazında farklılık: 

: çö ü ğ ş ü . : çö ü ğ ş ü . 

 Araştırma Yöntemleri dersinin öncül ders olarak alınması: 

: çö ü ğ ş ü ö ü  

AraştırmaYöntemleri ç . : çö ü ğ ş ü ö ü  

AraştırmaYöntemleri ç .  

Modelleme dersinin öncül ders olarak alınması: 

: çö ü ğ ş ü ö ü  

ç . : çö ü ğ ş ü ö ü  

ç .  

9

Uygun  test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu  sorunun  ikinci adımıdır.  İkiden  farklı grubun  analizi  yapıldığı,  verilerin  normal  dağıldığı  soruda  verildiğinden  ve  örneklemlerin  bağımsız olduğu  da  dikkate  alındığında  “ANOVA:  Yinelemeli  Çift  Etken”  yöntemini  0,05  değerinde  test etmeyi tercih ediyoruz. 

Daha sonra analizler Excel yardımıyla gerçekleştirilebilir. 

 

EXCEL 

Önceki sorudakine benzer şekilde “Veri Çözümleme” ile soruyu çözersek, aşağıdaki sonuç tablosunu elde ederiz. 

Yukarıdaki  tablo  incelendiğinde ANOVA  alt  tablosunda  yer  alan  “Örnek”  satırı  iki  farklı  alt  grubun dersler baz  alınmadan  farklılık  gösterip  göstermediği  ile  ilgilidir.  Yani  sorumuzda Modelleme öncül dersini  almak  ile  araştırma  yöntemleri  öncül  dersini  almanın  başarı  düzeylerini  farklılaştırdığı sonucuna ulaşılabilir.  Sütunlar  satırı  ise öncül dersleri dikkate  almadan derslerin başarı düzeylerini  karşılaştırır. Bu durumda  iki  farklı grubun  farklı başarı düzeylerine sahip olduğu görülmektedir. Son olarak etkileşim satırı  ise derslerdeki başarı düzeylerini öncül dersleri dikkate alarak  incelemektedir. Analiz  sonuç  tablosunda  bu  durumdaki  farklılığında  istatistiksel  açıdan  önemli  olduğu  sonucuna ulaşılabilir. 

10

5.4.2. Kruskal Wallis testi 

Eğer  verilerin  dağılımı  parametrik  değilse,  ve  örneklem  sayısı  2  den  fazla  ise,  verilerde  bağımsız 

oldukları varsayıldığında “Kruskal Wallis  testi”  istatistiksel hipotezi  test etmek adına kullanılır. Excel 

paket  programı  ile  parametrik  olmayan  testler  gerçekleştirilmediğinden  diğer  paket  programlar 

yardımıyla bu analizler gerçekleştirilir. 

Bu test sonuçlarının yorumlanması diğer hipotez testleri ile aynıdır. 

 

ÖZET 

İkiden  fazla  örneklem  olduğunda  parametrik  testlerden  ANOVA,  Çift  Etken  ANOVA  ve MANOVA 

testleri tercih edilebilir. (Verilerin bağımsız oldukları varsayımı ile) 

ANOVA  testlerinde  eğer  örnek  satırları  açısından  farklılık  araştırılması  söz  konusu  değilse,  yani 

rastgele seçilen örnekler arasındaki farklılıklar inceleniyorsa, bu durumda tek etken (sadece sütunlar) 

ANOVA gerçekleştirilir. Eğer satırlar açısından farklılık araştırılmak  isteniyor  ise, fakat satırlar tekrarlı 

değilse  ANOVA:  Yinelemesiz  Çift  Etken  analizi  gerçekleştirilmelidir.  Eğer  satırlarda  gruplanmış  ise 

(veriler  tekrar  ediyorsa)    yinelemeli  test  tercih  edilmelidir.  Yinelemeli  testte  satır  ve  sütunların 

etkileşimi de ayrıca farklılık düzeyinde incelenir. 

Parametrik olmayan veri seti durumunda ANOVA yerine Kruskal Wallis Testi tercih edilmelidir. 

 

 

SON NOT 

Verilerin bağımsız olup olmadıkları çok büyük önem arz etmektedir. Bu yüzden veri seti  iyi 

anlaşılmadan analiz yöntemi seçilmesi tercih edilmemelidir. 

Normal dağılıma uyup uymadığı bilinmeyen bir veri seti eğer normal dağılan bir ana kütleden 

çekildiği bilgisi mevcut ise parametrik testlerle değerlendirilebilir. 

Parametrik olmayan testleri Excel içerisinde yapmak mümkün değildir. 

Anlatılan analizlerin sadece sayısal (sayılabilir, aralık) verilerinde yapıldığına dikkat ediniz. 

 

 

 

 

 

 

 

 

 

 

 

11

 

ÇALIŞMA SORULARI 

S1 –  Bir araştırmacı üniversitelerin işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı 

ile bitirme durumlarının farklılıklarını analiz etmek  istemektedir. Araştırmacı dört dersin farklı başarı 

düzeylerine  sahip olabileceğini  düşünmektedir. Aşağıdaki  tabloyu dikkate  alarak bu  durumu  analiz 

ediniz. (Verilerin normal dağıldığı düşünülmektedir.) 

 

Başarılı Not Alan Öğrenci Sayısı (AA ve BA)

Üniversite Öncül Ders İstatistik Olasılık Yöneylem Üretim

Planlama 1 Araştırma Yöntemleri 18 24 19 24

2 Araştırma Yöntemleri 18 22 22 19

3 Araştırma Yöntemleri 20 20 14 12

4 Araştırma Yöntemleri 18 14 23 13

5 Araştırma Yöntemleri 21 24 22 14

6 Modelleme 20 23 18 13

7 Modelleme 23 24 24 18

8 Modelleme 16 20 12 19

9 Modelleme 19 16 12 17

10 Modelleme 16 19 16 20

a. Derslerin  ortalamaları  arasındaki  farklılığı  istatistiksel  hipotezleri  kurarak  test  ediniz. 

(Üniversite ve Öncül dersi dikkate almadan) 

b. Farklı üniversitelerdeki  sayısal derslerdeki başarı düzeylerini  istatistiksel hipotezleri kurarak 

test ediniz. (Öncül dersleri dikkate almadan) 

c. Farklı üniversitelerdeki  sayısal derslerdeki başarı düzeylerini  istatistiksel hipotezleri kurarak 

test ediniz. (Öncül dersleri de dikkate alarak) 

d. a, b, c şıklarını parametrik olmayan veri seti durumunda test ediniz. 

 

 

KAYNAKLAR 

1. Keller, Gerald; Statistics for Management and Economics, 9e, 2012 2. McClave, J.T, Benson, P.G, Sincich, T.; Statistics for Business and Economics, 11e, 2011 3. Sharpe N.R., De Veaux R.D., Velleman P.F.; Business Statistics 2e, 2012