BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİcontent.lms.sabis.sakarya.edu.tr/Uploads/48788/29689/h11... · Veri analizleri için kullanılacak testler verilerin

0

SAKARYAÜNİVERSİTESİ

BİLİŞİMTEKNOLOJİLERİİÇİNİŞLETMEİSTATİSTİĞİ

Hafta11

Yrd. Doç. Dr. Halil İbrahim CEBECİ

Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi’ne aittir. "Uzaktan Öğretim" tekniğine uygun olarak hazırlanan bu ders içeriğinin bütün hakları saklıdır. İlgili kuruluştan izin almadan ders içeriğinin tümü ya da bölümleri mekanik, elektronik, fotokopi, manyetik kayıt veya başka şekillerde çoğaltılamaz, basılamaz ve dağıtılamaz.

Her hakkı saklıdır © 2013 Sakarya Üniversitesi

1

BÖLÜM 5

ÇIKARIMSAL İSTATİSTİK

BÖLÜMÜN AMACI

Bu bölümün amacı ikiden fazla örneklem üzerinde karşılaştırmalı analizler gerçekleştirmek adına

kullanılacak istatistiksel yöntemler hakkında temel bilgiler vermek, sonuçlarının yorumlanabilmesi

kabiliyetinin öğrenciye kazandırılmasıdır.

5.4. İkiden Fazla Örneklem Testleri

İkiden fazla örneklemin birbiri ile arasındaki farklılıkların istatistiksel açıdan anlamlı olup olmadığının

analiz edilmesi için çift örneklem testleri kullanılır. Bu testlerde esas olan herhangi bir grubun diğer

gruplara göre farklılık göstermesidir. Örneğin A grubu B ve C gruplarından farklı bir ortalamaya

sahipse (istatistiki açıdan) o zaman testler farklılık olduğunu öngörür. Ama test sonucu B ile C nin

birbiri ile çok yakın sonuç üretmesi ile ilgilenmez, yani bu iki grup tamamen aynı sonuçları üretebilir.

Veri analizleri için kullanılacak testler verilerin bağımsız veya eşleştirilmiş olması ve verilerin normal

dağılıma uyup uymaması ile birlikte farklılık gösterilir.

Karşılaştırmalı Veri Analizi

Tek Örneklem Bağımsız Veri

Parametrik VeriTek Örneklem T

Testi

Parametrik Olmayan Veri

Wilcoxon İşaretli Sıralar testi

Çift Örneklem

Bağımsız Veri

Parametrik VeriBağımsız

Örneklem T‐Testi


Mann Whitney U Testi

Eşleştirilmiş Veri

Parametrik VeriEşleştirilmiş

Örneklem T Testi


WilcoxonEşleştirilmiş Çiftler Testi

İkiden Fazla Örneklem

Bağımsız Veri

Parametrik Veri Varyans Analizi

Tek Faktör (ANOVA)

Çift Faktör

Çok Faktör (MANOVA)


Kruskal Wallis Testi

Bağımlı Veri

Parametrik VeriRastgele Blok

Dizaynı


Friedman Testi

2

5.4.1. Tek Yönlü Varyans Analizi (ANOVA)

Eğer 2 veya daha fazla grubun (genelde 3 den fazla) farklılıklarının incelenmesi isteniyorsa bu

durumda ANOVA tercih edilmelidir.

Aşağıda verilen örnek yardımıyla analizin işleyişini inceleyelim.

ÖRNEK

Bir araştırmacı üniversitelerin işletme fakültelerinde verilen analitik çözümleme yeteneği gerektiren 4 farklı derste, yüksek başarı ile bitirme durumlarının farklılıklarını analiz etmek istemektedir. Araştırmacı dört dersin farklı başarı düzeylerine sahip olabileceğini düşünmektedir. Aşağıdaki tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.)

Başarılı Not Alan Öğrenci Sayısı (AA ve BA)

Karar Destek Sis. Zeki Sistemler Sistem Analizi Girişimcilik

35 27 25 34

30 38 33 16

32 35 29 26

45 33 33 28

35 36 31 34

53 32 49 16

52 26 38 43

56 42 30 42

60 33 45 31

54 44 46 45

ÇÖZÜM

Öncelikle araştırma hipotezleri belirlenmelidir.

: çö ü ğ ş ü . : çö ü ğ ş ü .

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun ikinci adımıdır. İkiden farklı grubun analizi yapıldığı, verilerin normal dağıldığı soruda verildiğinden ve örneklemlerin bağımsız olduğu da dikkate alındığında “ANOVA” yöntemini 0,05 değerinde test etmeyi tercih ediyoruz.

Daha sonra analizler Excel yardımıyla gerçekleştirilebilir.

3

EXCEL

Öncelikle elimizde bulunan verileri analize uygun şekilde Excel’e yerleştirmeliyiz.

Veri girildikten sonra Veri Çözümleme aracına gidilerek, “Anova: Tek Etken” testi seçilir. Aşağıdaki ekranda ilgili yerler girilir.

Gelen ekranda “Giriş Aralığı” alanına test için girdiğimiz “Ders Sütunları” seçilir. Eğer veri seçimlerinde açıklama satırları seçildi ise (Bu soruda seçilmiştir), o zaman “Etiketler” kutucuğu seçilmelidir. Son olarak “Alfa” kutucuğuna anlamlılık düzeyi değeri girilmelidir. Bu işlemler bittikten sonra analiz sonuçlarını istediğimiz alan “Çıkış Aralığı” kısmından seçilmelidir.

Yukarıdaki sonuç tablosu incelendiğinde F testi değerinin yüksek çıktığı ve buna bağlı olarak hipotezi kabul olasılığının da anlamlılık düzeyinden düşük hesaplandığı görülmektedir. Sonuç olarak

hipotezi red edilip, hipotezi kabul edilecek, yani analitik çözümleme gerektiren derslerdeki başarı düzeylerinin farklık gösterdiği sonucuna ulaşılacaktır.

Tabloda verilen ortalama değerleri dikkatlice incelendiğinde “Karar Destek Sistemleri” dersinin ortalamasının çok farklı olması analiz sonucunu doğurmaktadır. “Zeki Sistemler” ve “Sistem Analizi”

4

ortalamalarının birbirine çok yakın olduğu sonucuna dikkat ediniz. Bu gibi durumlarda TUKEY HSD ismiyle anılan özel bir istatistiksel değer tablosunun incelenmesi uygun olacaktır. (Bu test Excel yardımıyla gerçekleştirilememektedir. Bu durumda diğer istatistiksel paket programlardan faydalanabilirsiniz)

TUKEY HSD SONUÇLARI (Kabul Olasılıkları)

Karar Destek Sis. Zeki Sistemler Sistem Analizi Girişimcilik

Karar Destek Sis. 1,000 0,062 0,122 0,010

Zeki Sistemler 0,062 1,000 0,989 0,872

Sistem Analizi 0,122 0,989 1,000 0,705

Girişimcilik 0,010 0,872 0,705 1,000

Yukarıdaki tablo incelendiğinde Sarı ile gösterilen “Karar Destek Sistemleri” ile “Girişimcilik” Dersleri farklılığının anlamlı olduğu görülmektedir.

ÖRNEK

Bir araştırmacı üniversitelerin işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı ile bitirme durumlarının farklılıklarını analiz etmek istemektedir. Araştırmacı dört dersin farklı başarı düzeylerine sahip olabileceğini düşünmektedir. Aşağıdaki tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.)


İstatistik Olasılık Yöneylem Üretim

Planlama 18 24 19 24

18 22 22 19

20 20 14 12

18 14 23 13

21 24 22 14

20 23 18 13

23 24 24 18

16 20 12 19

19 16 12 17

16 19 16 20

5

ÇÖZÜM

Öncelikle araştırma hipotezleri belirlenmelidir.

: ş ü . : ş ü .

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun ikinci adımıdır. İkiden farklı grubun analizi yapıldığı, verilerin normal dağıldığı soruda verildiğinden ve örneklemlerin bağımsız olduğu da dikkate alındığında “ANOVA” yöntemini 0,05 değerinde test etmeyi tercih ediyoruz.


EXCEL

Önceki sorudakine benzer şekilde “Veri Çözümleme” ile soruyu çözersek, aşağıdaki sonuç tablosunu elde ederiz.

Yukarıdaki sonuç tablosu incelendiğinde F testi değerinin çok yüksek çıkmamış ve buna bağlı olarak hipotezi kabul olasılığının da anlamlılık düzeyinden yüksek hesaplandığı görülmektedir. Sonuç

olarak hipotezi kabul edilecek, hipotezi red edilecektir, yani analitik çözümleme gerektiren derslerdeki başarı düzeylerinin farklık göstermediği sonucuna ulaşılacaktır.

TUKEY HSD değer tablosu aşağıdaki gibidir

TUKEY HSD SONUÇLARI

İstatistik Olasılık Yöneylem Üretim Planlama

İstatistik 1,000 0,721 0,973 0,609

Olasılık 0,721 1,000 0,458 0,120

Yöneylem 0,973 0,458 1,000 0,853

Üretim Planlama 0,609 0,120 0,853 1,000

Yukarıdaki tablodan bütün grupların birbiri arasındaki farklılıklarının istatistiksel açıdan değerli olmadığı görülmektedir. Analiz sonuçları incelendiğinde de 0,16 kabul olasılığı değeri bu tablonun bir kanıtıdır.

6

Yukarıda verilen iki örnekte de verilerin alındığı üniversitelerin bir önemi yoktur. Yani 10 farklı

üniversitenin rastgele seçildiği varsayılmaktadır. Fakat bazı durumlarda üniversitelerin önemli olduğu

(yani satırların önemli olduğu) durumlarda mevcuttur. Bu anlamda test biraz farklılaşacaktır.

“ANOVA: Çift Etken Testi” olarak adlandırılan bu durum bize önemli yorum avantajları sunabilir.

Eğer her bir satıra bir üniversite geliyorsa, yani yineleme yoksa o zaman “ANOVA: Yinelemesiz Çift

Etken Testi” tercih edilmelidir.

ÖRNEK

Bir araştırmacı üniversitelerin işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı ile bitirme durumlarının farklılıklarını analiz etmek istemektedir. Araştırmacı dört dersin farklı başarı düzeylerine sahip olabileceğini düşünmektedir. Ayrıca araştırmacı üniversiteler arasında da farklılık olabileceğini öngörmektedir. Aşağıdaki tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.)


Üniversite

Karar Destek Sis.

Zeki Sistemler

Sistem Analizi Girişimcilik

1 35 27 25 34 2 30 38 33 16 3 32 35 29 26 4 45 33 33 28 5 35 36 31 34 6 53 32 49 16 7 52 26 38 43 8 56 42 30 42 9 60 33 45 31

10 54 44 46 45

ÇÖZÜM

İki farklı durum için iki farklı hipotez grubu hazırlanmalıdır.

Dersler bazında farklılık:


Üniversite bazında farklılık:

: çö ü ğ ş ü ü

ç . : çö ü ğ ş ü ü

ç .

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun ikinci adımıdır. İkiden farklı grubun analizi yapıldığı, verilerin normal dağıldığı soruda verildiğinden ve örneklemlerin bağımsız

7

olduğu da dikkate alındığında “ANOVA: Yinelemesiz Çift Etken” yöntemini 0,05 değerinde test etmeyi tercih ediyoruz.


EXCEL


Yukarıdaki sonuç tablosu incelendiğinde satırlar açısından da, sütunlar açısından da farklılıkların anlamlı oldukları görülmektedir. (Satırlar= Üniversiteler arası farklılık (Kabul olasılığı = 0,038742), Sütunlar= Dersler açısından farklılık (Kabul olasılığı = 0,003956)) Yani hem üniversiteler açısından hem de dersler açısından farklılıklar anlamlıdır. Yani dersler ve üniversiteler farklı başarı düzeylerini öngörmektedir.

Burada Üniversite ve derslerin iki farklı etken olduğunu görmekteyiz. Her iki etkende tekrar

etmemektedir. Yani her bir satırda bir üniversite ve her bir sütunda bir ders mevcuttur. Bazı

durumlarda bu bilgi yeterli olmaz. Aşağıdaki soru ile beraber bu durumu daha iyi anlayabiliriz.

8

ÖRNEK

Bir araştırmacı üniversitelerin işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı ile bitirme durumlarının farklılıklarını analiz etmek istemektedir. Araştırmacı dört dersin farklı başarı düzeylerine sahip olabileceğini düşünmektedir. Ayrıca araştırmacı üniversitelerde bu derslerden önce verilen Modelleme ve araştırma yöntemleri derslerinin bu derslerdeki başarı düzeylerini nasıl etkilediklerini belirlemek istemektedir. Aşağıdaki tabloyu dikkate alarak bu durumu analiz ediniz. (Verilerin normal dağıldığı düşünülmektedir.)


Öncül Ders

Karar Destek Sis.

Zeki Sistemler

Sistem Analizi Girişimcilik

Araşt. Yönt. 35 27 25 34

Araşt. Yönt. 30 38 33 16

Araşt. Yönt. 32 35 29 26

Araşt. Yönt. 45 33 33 28

Araşt. Yönt. 35 36 31 34

Modelleme 53 32 49 16





ÇÖZÜM

Aşağıdaki verilen hipotezler araştırma amacını gerçeklemek adına oluşturulmalıdır.

Dersler bazında farklılık:


Araştırma Yöntemleri dersinin öncül ders olarak alınması:

: çö ü ğ ş ü ö ü

AraştırmaYöntemleri ç . : çö ü ğ ş ü ö ü

AraştırmaYöntemleri ç .

Modelleme dersinin öncül ders olarak alınması:

: çö ü ğ ş ü ö ü

ç . : çö ü ğ ş ü ö ü

ç .

9

Uygun test yöntemi ve anlamlılık düzeylerinin belirlenmesi bu sorunun ikinci adımıdır. İkiden farklı grubun analizi yapıldığı, verilerin normal dağıldığı soruda verildiğinden ve örneklemlerin bağımsız olduğu da dikkate alındığında “ANOVA: Yinelemeli Çift Etken” yöntemini 0,05 değerinde test etmeyi tercih ediyoruz.


EXCEL


Yukarıdaki tablo incelendiğinde ANOVA alt tablosunda yer alan “Örnek” satırı iki farklı alt grubun dersler baz alınmadan farklılık gösterip göstermediği ile ilgilidir. Yani sorumuzda Modelleme öncül dersini almak ile araştırma yöntemleri öncül dersini almanın başarı düzeylerini farklılaştırdığı sonucuna ulaşılabilir. Sütunlar satırı ise öncül dersleri dikkate almadan derslerin başarı düzeylerini karşılaştırır. Bu durumda iki farklı grubun farklı başarı düzeylerine sahip olduğu görülmektedir. Son olarak etkileşim satırı ise derslerdeki başarı düzeylerini öncül dersleri dikkate alarak incelemektedir. Analiz sonuç tablosunda bu durumdaki farklılığında istatistiksel açıdan önemli olduğu sonucuna ulaşılabilir.

10

5.4.2. Kruskal Wallis testi

Eğer verilerin dağılımı parametrik değilse, ve örneklem sayısı 2 den fazla ise, verilerde bağımsız

oldukları varsayıldığında “Kruskal Wallis testi” istatistiksel hipotezi test etmek adına kullanılır. Excel

paket programı ile parametrik olmayan testler gerçekleştirilmediğinden diğer paket programlar

yardımıyla bu analizler gerçekleştirilir.

Bu test sonuçlarının yorumlanması diğer hipotez testleri ile aynıdır.

ÖZET

İkiden fazla örneklem olduğunda parametrik testlerden ANOVA, Çift Etken ANOVA ve MANOVA

testleri tercih edilebilir. (Verilerin bağımsız oldukları varsayımı ile)

ANOVA testlerinde eğer örnek satırları açısından farklılık araştırılması söz konusu değilse, yani

rastgele seçilen örnekler arasındaki farklılıklar inceleniyorsa, bu durumda tek etken (sadece sütunlar)

ANOVA gerçekleştirilir. Eğer satırlar açısından farklılık araştırılmak isteniyor ise, fakat satırlar tekrarlı

değilse ANOVA: Yinelemesiz Çift Etken analizi gerçekleştirilmelidir. Eğer satırlarda gruplanmış ise

(veriler tekrar ediyorsa) yinelemeli test tercih edilmelidir. Yinelemeli testte satır ve sütunların

etkileşimi de ayrıca farklılık düzeyinde incelenir.

Parametrik olmayan veri seti durumunda ANOVA yerine Kruskal Wallis Testi tercih edilmelidir.

SON NOT

Verilerin bağımsız olup olmadıkları çok büyük önem arz etmektedir. Bu yüzden veri seti iyi

anlaşılmadan analiz yöntemi seçilmesi tercih edilmemelidir.

Normal dağılıma uyup uymadığı bilinmeyen bir veri seti eğer normal dağılan bir ana kütleden

çekildiği bilgisi mevcut ise parametrik testlerle değerlendirilebilir.

Parametrik olmayan testleri Excel içerisinde yapmak mümkün değildir.

Anlatılan analizlerin sadece sayısal (sayılabilir, aralık) verilerinde yapıldığına dikkat ediniz.

11

ÇALIŞMA SORULARI

S1 – Bir araştırmacı üniversitelerin işletme fakültelerinde verilen sayısal 4 farklı derste, yüksek başarı

ile bitirme durumlarının farklılıklarını analiz etmek istemektedir. Araştırmacı dört dersin farklı başarı

düzeylerine sahip olabileceğini düşünmektedir. Aşağıdaki tabloyu dikkate alarak bu durumu analiz

ediniz. (Verilerin normal dağıldığı düşünülmektedir.)


Üniversite Öncül Ders İstatistik Olasılık Yöneylem Üretim

Planlama 1 Araştırma Yöntemleri 18 24 19 24

2 Araştırma Yöntemleri 18 22 22 19




6 Modelleme 20 23 18 13

7 Modelleme 23 24 24 18

8 Modelleme 16 20 12 19

9 Modelleme 19 16 12 17

10 Modelleme 16 19 16 20

a. Derslerin ortalamaları arasındaki farklılığı istatistiksel hipotezleri kurarak test ediniz.

(Üniversite ve Öncül dersi dikkate almadan)

b. Farklı üniversitelerdeki sayısal derslerdeki başarı düzeylerini istatistiksel hipotezleri kurarak

test ediniz. (Öncül dersleri dikkate almadan)

c. Farklı üniversitelerdeki sayısal derslerdeki başarı düzeylerini istatistiksel hipotezleri kurarak

test ediniz. (Öncül dersleri de dikkate alarak)

d. a, b, c şıklarını parametrik olmayan veri seti durumunda test ediniz.

KAYNAKLAR

1. Keller, Gerald; Statistics for Management and Economics, 9e, 2012 2. McClave, J.T, Benson, P.G, Sincich, T.; Statistics for Business and Economics, 11e, 2011 3. Sharpe N.R., De Veaux R.D., Velleman P.F.; Business Statistics 2e, 2012

Documents

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİcontent.lms.sabis.sakarya.edu.tr/Uploads/48788/29689/h11... · Veri analizleri için kullanılacak testler verilerin