42
İstatistik - 1 Tanımsal İstatistik Prof.Dr . Cem S. Sütcü Marmara Üniversitesi İletişim Fakültesi Bilişim A.B.D. cemsutcu.wordpress.com

Tanımsal İstatistik - WordPress.com

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tanımsal İstatistik - WordPress.com

İstatistik-1Tanımsal İstatistik

Prof.Dr. Cem S. SütcüMarmara Üniversitesi

İletişim Fakültesi Bilişim A.B.D.cemsutcu.wordpress.com

Page 2: Tanımsal İstatistik - WordPress.com

2

Temel KavramlarVeri kelimesi Latince’de “gerçek”, “reel” anlamına gelen “datum” kelimesine karşılık gelmektedir. “Data” olarak kullanılan kelime ise “datum” kelimesinin çoğuludur.Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri mutlaka somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir.

Page 3: Tanımsal İstatistik - WordPress.com

3

Temel Kavramlar

VERİ

ENFORMASYON

BİLGİ

BİLGELİK

Page 4: Tanımsal İstatistik - WordPress.com

4

Temel KavramlarBilgelik (Wisdom) ulaşılmaya çalışılan noktadır ve bu kavramların zirvesinde yer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortaya çıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır.Bilgi (Knowledge), bu süreçteki üçüncü aşamadır. Enformasyonun alıcı için taşıdığı anlamdır. Diğer bir deyişle alıcının bir fonksiyonudur. Enformasyonun, bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir. Dolayısıyla bireyin algılama yeteneği, yaratıcılık, deneyim gibi kişisel nitelikleri de bu süreci doğrudan etkilemektedir.Enformasyon (Information), veri kavramının tanımından yola çıkıldığında, piramitteki ikinci basamaktır. Yani verilerin ilişkilendirilmiş, düzenlenmiş, işlenmiş halidir. Bu haliyle enformasyon, potansiyel olarak içinde bilgi barından bir veri halindedir.Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş, ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş, düzenlenmemiş yani anlamlandırılmamışlardır. Ancak bu durum her zaman geçerli değildir. İşlenerek farklı bir boyut kazanan bir veri, daha sonra bu haliyle kullanılmak üzere kayıt altına alındığında, farklı bir amaç için veri halini koruyacaktır.

Page 5: Tanımsal İstatistik - WordPress.com

5

Bilimsel Araştırma

Araştırma yapmadan önce en temel olan, araştırılacak bir sorunun (bir hipotezin) varlığıdır.

Ho: Sıfır Hipotezi

H1: Alternatif Hipotez

Page 6: Tanımsal İstatistik - WordPress.com

6

Bilimsel AraştırmaDaha sonra bu sorunun ne kadar anlam taşıdığı, yani olası cevabın diğer hangi yeni soruları ve araştırmaları gündeme getireceği, pratik kullanım alanlarının neler olduğu, bilgi birikimine (knowledge) ne kadar katkıda bulunacağı, aynı hipotezin daha önce yeterli derecede araştırılıp araştırılmadığı, bulunan sonuçların tutarlılığı gibi sorular gündeme getirilmelidir.

Page 7: Tanımsal İstatistik - WordPress.com

7

Bilimsel Araştırma

Bundan sonraki aşama ise soru/hipotezin nasıl test edileceğidir. Kullanılacak yöntemin bilimsel (yani tekrar test edilebilir, diğer araştırmacılar ve klinisyenler tarafından anlaşılabilir, matematiksel geçerliliği mutabık olunan istatistiksel yöntemlerle incelenmiş) olması gereklidir.

Page 8: Tanımsal İstatistik - WordPress.com

8

Bilimsel Araştırma

Araştırmanın nasıl yapılacağı (uygun finansal destek, denek sayısı, ortam, vs.) daha sonra sorulacak bir sorudur. Yani araştırma sorusunun bilimsel olarak geçerli bir yöntemle nasıl test edileceği sorusunun cevabı aranmadan başlanan çalışmalar pek çok açıdan sıkıntılarla karşılaşacaktır.

Page 9: Tanımsal İstatistik - WordPress.com

9

Bilimsel AraştırmaBu sıkıntılara örnek olarak; seçilen anket/ görüşme yöntemi/ labaratuar testi/ ilaç dozu vs. sonradan değiştirilmesi, çalışma deseninin bozulması (yeniden başlama), denek sayısı ve/veya finans desteğinin yetmemesi, tanıların yanlış konması, sonuçlara etki eden kofaktörlerinunutulması, eksik data toplanması, zaman ve motivasyon kaybı, araştırmanın bitmemesi ve asla yayımlanmaması vs. sayılabilir.

Page 10: Tanımsal İstatistik - WordPress.com

10

Bilimsel AraştırmaÖncelikle yapılması gereken değişkenlerimizin tanımlanmasıdır. Bilimsel düşüncenin temelinde neden-sonuç ilişkisi yatar. Neredeyse tüm bilimsel araştırmalar da bu ilişkiyi inceler. Sonuç yani bağımlı değişken pek çok faktörden (bağımsız değişken) etkilenir.

Page 11: Tanımsal İstatistik - WordPress.com

11

Bilimsel Araştırmaİdeal araştırma, araştırdığı faktörler dışındaki değişkenlerin sabit tutulduğu araştırmadır. Fakat bunu gerçekleştirmek imkansızdır. Bu sebeple ideale en yakın araştırma incelediği faktörler dışındaki değişkenleri mümkün olduğunca hesaba katar. Araştırmalarda faktör (bağımsız değişken) sayısı arttıkça denek sayısının artması gerekir ve kullanılan istatistiksel yöntem değişir.

Page 12: Tanımsal İstatistik - WordPress.com

12

İstatistik

İstatistik, verilerin toplanması, organize edilmesi, özetlenmesi, sunulması, analiz edilmesi ve bu verilerden bir sonuca varılabilmesi ile ilgili olarak kullanılan bilimsel metotlar topluluğudur.

Page 13: Tanımsal İstatistik - WordPress.com

13

İstatistik

Uygun istatistik yöntemin seçilmesi için değişkenlerin ölçüm özellikleri iyi belirlemek gerekir. Kategorik değişkenlere, sayısal değişkenlerde uygulanabilecek istatistik yöntemleri uygulamak gibi hatalara düşmemek için, bu özellik çok önemlidir.

Page 14: Tanımsal İstatistik - WordPress.com

14

Ölçeklerİsimsel, Kalitatif (Nominal) ÖlçeklerSıralı (Ordinal) Ölçekler Aralık (Interval) ÖlçeklerOransal (Ratio) Ölçekler

Page 15: Tanımsal İstatistik - WordPress.com

15

İstatistiksel YöntemlerBetimsel (Tanımsal) İstatistik Yöntemleri– Merkezi Eğilim Ölçüleri– Dağılım (Değişim) Ölçüleri

Çıkarımsal İstatistik Yöntemleri– Farkların önemli olup olmadığının incelendiği

teknikler (Parametrik ve NonparametrikTestler).

– İlişki saptama ve eldeki verilerin kestirim yapabilme gücünü test eden teknikler(Regresyon ve Korelasyon Analizi).

Page 16: Tanımsal İstatistik - WordPress.com

16

Uygun İstatistiksel Analiz Yönteminin Seçimi

Bu aşamaya gelmeden;1. Araştırma soru/hipotezimiz var.2. Araştırma hipotezi bilimsel bir anlam ve değer taşıyor.3. Daha önceki literatür bilgileri incelenmiş, sorunun cevabı

araştırılmamış ya da yeterince aydınlatılamamışsa;

Şu soruların cevapları aranmalıdır:1. Araştırma bir farklılık araştırması mı yoksa bir ilişkisellik

araştırması mı olacaktır?2. Verilerin ölçekleri ne türdedir?3. Çalışmada kaç hasta/denek grubu vardır?4. Bağımsız değişkenlerimiz (faktörlerimiz) bir tane mi yoksa daha

fazla mıdır?5. Veri gruplarımız bağımlı (grup içi/repeated) mı yoksa bağımsız

mıdır?6. Sayısal verilerin dağılımı normal midir?

Page 17: Tanımsal İstatistik - WordPress.com

17

Merkezi Eğilim ÖlçüleriAritmetik Ortalama: Değerlerin toplamının denek sayısına bölünmesiyle elde edilir. Sayısal değişkenler için merkezi eğilim ölçütüdür. Ordinal değişkenler için kullanılamaz. Aşırı değerlerden etkilenir. Uç değerleri değerlendirme dışı tutan ya da uç değerlere daha az ağırlık veren kareli ortalama veya geometrik ortalama uç değerlerin etkisini azaltmak için kullanılabilir.Ortanca =Orta değer=Median: Küçükten büyüğe ya da büyükten küçüğe doğru sıralandığında, tam ortadaki deneğin değeridir. Denek sayısı çiftse, ortadaki iki deneğin ortalamaları alınır. Ordinal veriler için en iyi merkezi dağılım ölçütüdür. Aşırı değerlerden etkilenmez. Nominal değerler için uygun değildir.Tepe değeri = Mod: Değişkenler içinde en fazla görülen, en çok tekrarlanan değerdir. Tıpta nadir kullanılan bir merkezi eğilim ölçütüdür. Ordinal ve sayısal değişkenlerde kaba bir merkezi eğilim ölçütü olarak kullanılabilir. Nominal veriler için uygun bir merkezi eğilim ölçütüdür.

Page 18: Tanımsal İstatistik - WordPress.com

18

Dağılım (Değişim) ÖlçüleriFarklı grupların merkezi eğilim ölçütleri aynı olduğu halde, gruplar birbirlerinden çok farklı olabilir. Bu nedenle merkezi eğilim ölçütleri yanında, yayılma ölçütleri de çok önemlidir.Değer aralığı = Genişlik = Range: En basit yaygınlık ölçüsüdür. En küçük ve en büyük değer arasındaki farktır. Örnek büyüklüğü ile artma eğilimi vardır. Ortalama gibi, uç değerlerden çok etkilenir. En uçtaki iki değer arasında kalan değerler hakkında bilgi vermez. Standart sapma (standard deviation) ve varyans (variance): Tüm değerlerin dağılımı ile bilgi verirler. Tüm değerler eşitse, her ikisi de sıfıra eşittir. Değerler arasında farklar arttıkça standart sapma (σ) ve varyansbüyür. Standart sapma değişken değerlerinin ortalamanın etrafındaki yayılmasını temsil eden bir yayılma ölçütüdür. σ’in karesine varyans adı verilir. Merkezi eğilim ölçütü olarak ortalama kullanıldığında, yayılma ölçütü olarak da standart sapma kullanılır. Dağılım özelliği ne olursa olsun, değerlerin en az % 75’i ortalama ± 2σiçinde yer alır. Normal dağılım gösteren değişken değerleri için aşağıdaki kurallar geçerlidir :– 1. Değerlerin % 67’si ortalama ± 1σ içindedir.– 2. Değerlerin % 95’i ortalama ± 2σ içindedir.– 3. Değerlerin % 99’u ortalama ± 3σ içindedir.

Page 19: Tanımsal İstatistik - WordPress.com

19

N=100µ=?σ = ?

n1=20_x1=60s1=5

n2=20_x2=50s2=6

Page 20: Tanımsal İstatistik - WordPress.com

20

Page 21: Tanımsal İstatistik - WordPress.com

21

Dağılım (Değişim) ÖlçüleriStandart hata: Aynı evrenden seçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklemlerin ortalamalarının dağılmasına ortalamanın örneklem dağılımı denir. Ortalamanın örneklem dağılımının ölçütü ortalamanın standart hatası (standard error of mean = SEM)’ dır.Çalışmaya alınan örneklemin dağılma özellikleri verilmek isteniyorsa, doğru olanı Ss’nın verilmesidir. Çünkü, SEM örneklemdeki deneklerin dağılması ile ilgili olmadığı için, çalışma grubunun değişkenliğini göstermez. Çalışma gruplarındaki ortalamaların karşılaştırıldığı grafiklerde ise SEM kullanılması daha doğrudur. Değişim katsayısı [coefficient of variation (CV)]: Birimleri farklı olan değişkenlerin yayılmalarını karşılaştırmak için değişim katsayıları kullanılır. Değişim katsayısı, standart sapmanın ortalamaya oranının yüzde olarak ifadesidir.

Page 22: Tanımsal İstatistik - WordPress.com

22

Grafiksel GösterimlerHistogramlar

Page 23: Tanımsal İstatistik - WordPress.com

23

Grafiksel GösterimlerEğiklik (Skewness)Sağa eğik (skewed right) ve sola eğik (skewedleft)

Page 24: Tanımsal İstatistik - WordPress.com

24

Grafiksel GösterimlerBasıklık (Kurtosis)Eğri A: Dik,Eğri B: NormalEğri C: Basık

Page 25: Tanımsal İstatistik - WordPress.com

25

Neden Örnekleme

Bazı testlerin yok edici özelliği olması.

Anakütledeki tüm elemanları kontrol etmenin fiziksel zorluğu.

Anakütledeki tüm elemanları

incelemenin maliyeti.

Pek çok durumda örnek sonuçlarının yeterli bulunması.

Tüm anakütleyi kapsamanın uzun zaman alması.

Page 26: Tanımsal İstatistik - WordPress.com

Örnekleme TürleriTesadüfi Olmayan Örnekleme Anakütleden örnek kütleye seçilecek elemanlar belirli özellikleri nedeniyle örnek kütleye seçilir.Tesadüfi olmayan örneklemede bir elemanın örneğe seçilmesi örneği seçen kişinin kararına bağlıdır. Örneklem hatası örnek istatistiği ile ona karşılık gelen anakütle parametresi arasındaki farktır.

26

Page 27: Tanımsal İstatistik - WordPress.com

Örnekleme TürleriTesadüfi Örnekleme

a) Basit Tesadüfi Örnekleme: Anakütleden örnek kütleye seçilecek her elemanın eşit şansa sahip olması durumudur.

b) Sistematik Tesadüfi Örnekleme: Anakütledeki elemanlar belirli bir sırada dizilir. Tesadüfi bir başlangıç noktası seçilir ve sonra her k’ıncı eleman örnek kütleye seçilir.

27

Page 28: Tanımsal İstatistik - WordPress.com

Örnekleme Türleric) Tabakalı Tesadüfi Örnekleme: Anakütle önce ortak

özelliklere sahip alt gruplara bölünür. Bunlara tabaka denir. Sonra her bir tabakadan bir örnek kütle seçilir.

28

Page 29: Tanımsal İstatistik - WordPress.com

Örnekleme Türlerid) Küme Örneklemesi: Önce anakütle temel birimlere

bölünür. Sonra örnekler bu temel birimlerden seçilir. Her birimden eleman seçmek şart değildir.

29

Page 30: Tanımsal İstatistik - WordPress.com

Örnek ortalamalarının örneklem dağılımı bir anakütledenseçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklerin ortalamalarının dağılımıdır. Ortalamanın örneklem dağılımı da denir. Örnek ortalamalarının örneklemdağılımının ölçütü, ortalamanın standart hatasıdır. (standard error of mean = SEM)

Standart Hata

σ x = σ√ n

SEM, ’nın denek sayısının kareköküne bölümüne eşittir. Örneğin x= 15, s = 3.5, n = 50, SEM = 0.5 olsun. Evrendenseçilecek 50 denekli örneklemden elde edilen ana kütle ortalaması % 95 olasılıkla 15 ± 2sx = 14 – 16 arasında olacaktır.

s x = s √ n

veya eğer n >30 ise

Page 31: Tanımsal İstatistik - WordPress.com

Eğer anakütle standart sapması biliniyor veya örnek kütle çapı 30 dan büyükse, örnekleme dağılımı zdağılımına uygundur.

nszX ±

nstX ±

Eğer anakütle standart sapması bilinmiyor ve anakütle dağılımı normale yakınsa ve örnek kütle çapı 30 dan küçükse, örnekleme dağılımı t dağılımına uygundur.

Güven Aralığı

Page 32: Tanımsal İstatistik - WordPress.com

nsX 2±

nszX ±

Anakütle Ortalaması için güven aralığı

Anakütle ortalaması için % 95 CI

Anakütle ortalaması için % 99 CI

nsX 3±

CI: Confidence Interval (Güven Aralığı)

Page 33: Tanımsal İstatistik - WordPress.com

14.100.14494200.142

±=

±=±nsX

Güven aralığı limitleri 12.86ile 15.14 arasındadır.

49 kişi üzerinde yapılan bir araştırmada yaş ortalaması 14 ve standart sapmasının da 4 olduğu bulunmuştur. %95 olasılıkla Anakütle ortalaması kaçtır?

Page 34: Tanımsal İstatistik - WordPress.com

nppzp )1( −

±

Anakütle oranı için güven aralığı

Bir mahalleden tesadüfi olarak seçilmiş 144 seçmenin %20’sinin X partisini desteklediği görülmüştir. Mahalledeki X partili saçmen sayısı oranı %95 ihtimalle hangi aralıkta yer alır?

066.20. 144

)80)(.20(.220. ±=±

Page 35: Tanımsal İstatistik - WordPress.com

Anakütledeki değişim

Örnek çapını belirleyen 3 faktör:

Seçilen güven düzeyi

İzin verilen maksimum hata

Page 36: Tanımsal İstatistik - WordPress.com

2

=E

szn

Örnek çapının hesaplanması

E İzin verilen hataz seçilen güven düzeyine karşılık gelen z değeris pilot araştırmanın örnek standart sapması

Page 37: Tanımsal İstatistik - WordPress.com

1445

)20)(3( 2

=

=n

Bir firmanın halkla ilişkiler departmanı yeni ürettikleri ürün ile ilgili şikayetlerin ortalama 70 gün içinde geldiğini ve standart sapmanın da 20 gün olduğu bilmektedir. 5 günlük bir hata miktarını göze alarak %99 olasılıkla ortalama şikayet süresi tahmin edilmek istenirse ne kadar büyüklükte bir örnek çapı gerekir?

Page 38: Tanımsal İstatistik - WordPress.com

n p pZE

= −

( )1

2Elimizde olasılık değerleri varsa

kullanılacak formül:

p geçmişteki tecrübelere veya pilot çalışmaya göre kestirilen olasılık değeri

Z seçilen güven düzeyine karşılık gelen zdeğeri

E Araştırmacının tolerans gösterebileceği maksimum hata

Page 39: Tanımsal İstatistik - WordPress.com

40003.2)10)(.90(.

2

=

=n

Televizyonda Ana Haber bülteninin izlenme olasılığının %90 olduğu önceki çalışmalardan bilinmektedir.

Ana Haber bülteni ile ilgili bir izleyici araştırması yapabilmek için Kestirimimizi anakütle oranına göre %3 yanılma payı ile hesaplamayı kabul ederek, %95 güven düzeyinde kaç kişilik bir örnek kütle seçmek gerektiğini hesaplayınız.

Page 40: Tanımsal İstatistik - WordPress.com

Eğer anakütlede örnek çapı hesaplamasının gerektirdiğinden daha az denek olursa ne yapacağız?

Birinci Adım: Örnek çapını önceden yaptığınız gibi hesaplayın.

n = no

no

N1 +no birinci adımda hesaplanan örnek çapı.N anakütle çapı.

İkinci Adım: Yeni örnek çapını hesaplayın.

Page 41: Tanımsal İstatistik - WordPress.com

Bir araştırmacı bir üniversitedeki öğretim üyelerinin sigara içme yasağına uyup uymadığını araştırmak istemektedir. Araştırmacı, insanların %80’inin sigara yasağına uyduklarını söyleyeceğini beklemektedir.

Üniversitede 200 öğretim üyesi bulunmaktadır. Araştırmacı sonuçlardan %95 emin olmak istemektedir. Hata marjının da %3 ten fazla olmamasını istemektedir. Araştırma için kaç öğretim üyesi ile görüşülmelidir?

Page 42: Tanımsal İstatistik - WordPress.com

n p pZE

= −

( )1

2

Birinci AdımÖrnek çapını önceden yaptığınız gibi hesaplayın.

= (.80)(.20) 1.96.03

2= 711

İkinci AdımYeni örnek çapını hesaplayın.

n = no

no

Nn0/(1 + ) =

711711/(1 + )711

200= 156

2