Verilerin Özetlenmesindeserkanada.weebly.com/uploads/1/1/0/9/11093687/verilerin...Nicel veriler...

Preview:

Citation preview

Verilerin Özetlenmesinde

Kullanılan Sayısal Yöntemler

Merkezi Eğilim Ölçüleri

Merkezi eğilim ölçüsü, bir veri setindeki merkezi,

yada tipik, tek bir değeri ifade eder.

Nicel veriler için, reel sayı çizgisindeki yerini belirtir.

Verinin merkezi, veri setinin ortalama değeridir.

Aritmetik ortalama, medyan, mod, merkezi eğilim

ölçüleridir.

Ortalamanın Hesaplanması

En sık kullanılan merkezi eğilim ölçüsüdür.

Veriler toplanır ve veri setindeki gözlem sayısına

bölünür.

Aritmetik ortalama, veri setinde olmayan bir değer

olabilir.

Notasyon

Popülasyon Örneklem

Büyüklük N n

A. Ortalama

Örnek 1

10 yıllık bir dönemde AAA hisse senedinin yıllık ortalama

getirileri sırasıyla şöyledir:

%14; %17,3; %29; %-11,1; %-4,5; %3,7; %13,3; %9,5;

%6,1; %10

x 14 17,3 29 (-11,1) (-4,5) 3,7 13,3 9,5 6,1 10

10

87,3

8,73 10

Ağırlıklı Ortalama

Veri setinde farklı relatif öneme sahip gözlemlerin

olması durumunda kullanılır.

Ağırlıklı Ortalama= Toplam(xi*wi) / Toplam(wi),

– xi , veri setindeki değerler

– wi , ağırlıklar,

– i , 1 den toplam gözlem sayısına kadar olan

değerler

Ağırlıklı Ortalama (Örnek)

Kategori Ağırlık Puan

Vize Sınavı 30% 80

Final Sınavı 30% 75

Ödevler 30% 90

Sunumlar 10% 70

Ağırlıklı Ortalama = (80*0.3 + 75*0.3 + 90*0.3 +

70*0.1) / (0.3 + 0.3+ 0.3 + 0.1)=(24 + 22.5 + 27 + 7)

/ 1= 80.5

Örnek 2:

Tahmin edilen satışları hesaplayınız…

Olasılık Satışlar

Güzel hava 30% $10,000

Orta derecede güzel hava 50% $8,000

Kötü hava 19% $2,000

Kasırga 1% $0

Medyanın Hesaplanması

Medyan, sıralanmış bir veri setinin ortasındaki

değerdir.

Önce veri setindeki gözlemler sıralanır. Sonra,

(a) n tek sayı ise, medyan ortadaki sayıdır.

(b) n çift sayı ise, medyan ortadaki iki değerin

aritmetik ortalamasıdır.

Medyan, veri setinde olmayan bir değer olabilir.

Örnek 2

Aşağıdaki veri setlerinin medyan değerlerini hesaplayınız.

15, 16, 11, 22, 19, 10, 17, 22

2.6, 3.3, 5.0, 1.8, 0.7, 2.2, 4.1, 6.1, 6.7

Neden Medyan?

Amaç

– Aykırı değerlerin yaratabileceği tehlikeleri bertaraf etmek.

– Örnek:

• 0, 2,1,2,0,1,2,0,”7”

• Ar. Ort. (0,2,1,2,0,1,2,0) = 1

• Ar. Ort. (0,2,1,2,0,1,2,0,”7”) = 1.6

• Artış = (1.6-1) / 1 = 60%

• Medyan (0,2,1,2,0,1,2,0) = (0,0,0,1,1,2,2,2) = 1

• Medyan (0,2,1,2,0,1,2,0,7) = (0,0,0,1,1,2,2,2,7) = 1

Modun Hesaplanması

Veri setinde en sık gözlemlenen değer(ler)dir.

Bir veri setinde bir tane, iki tane yada birçok mod

değeri bulunabilir.

Veri setindeki tüm değerler bir kere meydana

geldiyse, yada her bir değer aynı sayıda

tekrarlandıysa, o veri setinde mod yoktur.

Mod daima veri setinde yer alan bir değerdir.

Örnek 3

Aşağıdaki veri setleri için mod değerlerini

hesaplayınız.

(a) 63, 68, 71, 67, 63, 72, 66, 67, 70

(b) 51, 77, 54, 51, 68, 70, 54, 65, 51

(c) 2, 2, 7, 7, 0, 0

Soru: Hangi eğilim ölçüsü en iyisidir?

Cevap: Veriye göre değişir.

Nitel veriler için mod kullanılmalıdır.

Yani en sık gözlemlenen yada yaygın olan

değer.

Nicel veriler için, veri seti aykırı değer(ler)

içermedikçe, aritmetik ortalama kullanılmalıdır.

Aykırı değer(ler) bulunan veri setlerinde medyan

kullanılmalıdır..

Örnek: Aşağıdaki veri setleri için en iyi merkezi

eğilim ölçüsünü seçiniz.

a. SÜ öğrencilerinin ortalama beden ölçüsü

(XS, S, M, L, XL, XXL).

b. Futbol takımı oyuncularının aldıkları ortalama

yıllık gelir.

c. Belli bir muhitteki benzer evlerin fiyat

ortalaması.

Merkezi Dağılım Ölçüleri

Merkezi eğilim ölçüleri verilerin sayı eksenindeki

konumunu belirtir.

Merkezi dağılım ölçüleri verilerin ne kadar yayıldıkları

hakkında ipucu verir.

Açıklık, varyans ve standart sapma en yaygın

merkezi dağılım ölçüleridir.

Açıklığın Hesaplanması

• En basit dağılım ölçüsü açıklıktır.

• Açıklık Maksimum değer Minimum

değer

Aşağıdaki veri setlerinin açıklıklarını hesaplayınız: a. 12 8 9 3

5 10 11 10

b. 3 3 12 3

3 3 3 3

Ortalamadan Sapma

• Veri setindeki her bir değer ortalamadan ne

kadar değişiklik göstermektedir?

• Ortalamadan sapma =

• Sapmalar toplamı her zaman sıfırdır (pozitif

sapmalar negatif sapmaları götürür)

• Bu etki nasıl ortadan kaldırılır?

• Varyans

Varyansın Hesaplanması

• Varyans, ortalamadan sapmaların karelerinin

ortalamasıdır.

• Formül:

Örnek varyansı

Popülasyon varyansı

Örnek: Aşağıdaki veri setinin varyansını hesaplayınız:

4.2 5.3 2.9 6.7 1.5

Çözüm:

Önce verinin ortalamasını hesaplayın.

Ortalama = 4.12.

Örnek Varyansı

xi

4.2 4.2 – 4.12 = 0.08 0.0064

5.3 5.3 – 4.12 = 1.18 1.3924

2.9 2.9 – 4.12 = –1.22 1.4884

6.7 6.7 – 4.12 = 2.58 6.6564

1.5 1.5 – 4.12 = –2.62 6.8644

Çözüm (devamı):

Örnek varyansı ise,

Standart Sapmanın Hesaplanması

• Standart sapma her bir veri değerinin ortalamadan,

ortalama olarak ne kadar uzaklıkta olduğunu ifade

eder.

• Formula:

Örnek standart sapması

Popülasyon standart sapması

Örnek:

Örnek verisinin standart sapmasını hesaplayınız. 5,8,7,6,9

Önce ortalama = Toplam (5,8,7,6,9) / 5 = 35 / 5 = 7

Xi

5 5-7=-2 4

8 8-7=1 1

7 7-7=0 0

6 6-7=-1 1

9 9-7=2 4

s2=Toplam (4+1+0+1+4) / (5-1) = 10 / 4 = 2.5

s = 1.58

Kısayol:

Bir önceki veri seti: 5,8,7,6,9

– Toplam (x) = 5+8+7+6+9

= 35

– Toplam (x2) = (5)2+(8)2+(7)2+(6)2+(9)2

= 25+64+49+36+81

= 255

– [Toplam (x)]2 = (35)2=1225

– s2 = [255-1225/5] / (5-1) = (255-245) / 4 = 10/4 = 2.5

– s = 1.58

Örnek:

Aşağıdaki veri seti için açıklık, varyans ve standart

sapmayı hesaplayınız.

1,2,3,2,3,4,5,35

Örnek:

Aşağıdaki veri seti için açıklık, varyans ve standart

sapmayı hesaplayınız.

15, 12, 13, 14, 15, 17, 18, 11, 12, 15

Örnek:

20 Beyşehirli girişimcinin yaşları

– 28, 39, 43, 53, 35, 32, 34, 29, 33, 31, 32, 31, 25, 22, 30, 29, 41, 36, 23, 47

İki veya daha fazla sayıdaki veri setinin göreli dağılımı

veya yayılımını gösterir.

Aşağıdaki veri setlerinden hangisinin daha büyük

standart sapması vardır?

Değişim katsayısı = (s / ) . 100%

Değişim Katsayısı

Aşağıdaki veri setlerinden hangisinin daha büyük

standart sapması vardır?

Veri seti A Ort. = 35 cm.; St. Sap. = 6 cm.

Veri seti B Ort. = $892,000; St. Sap. = $14,546.81

Değişim Katsayısı

Değişim Katsayısı

Veri seti A – Değişim katsayısı

Veri seti B – Değişim katsayısı

Gruplandırılmış Veri Setleri İçin Standart

Sapma ve Varyans

Final Notları

Not Frekans (f)

n = Örnek sayısı

f = Frekans

x = Orta nokta

Gruplandırılmış Veri Setleri İçin Standart

Sapma ve Varyans

Not Frekans (f) Orta nokta (x) f . x f . x2

Ampirik Kuralı

• Veri seti yaklaşık olarak çan şeklinde

olduğunda kullanılır.

• Bir setteki verilerin yaklaşık olarak

• %68’i 1 standart sapma aralığında (

• %95’i 2 standart sapma aralığında

( - 2s),

- s),

• %99.7’si ise 3 standart sapma aralığında

( - 3s)yer almaktadır.

Bir hastanede doğan bebeklerin ortalama ağırlıkları 3325 gram

ve standart sapmaları 571 gramdır. Bebeklerin yüzde kaçının

ağırlıkları 2183 ve 4467 gram aralığındadır?

Çözüm:

•Veriler çan eğrisi özelliği gösterdiği için ampirik kuralı

kullanılabilir.

• Öncelikle bu değerlerin ortalamadan kaç standart sapma uzak

olduğu hesaplanır.

2183 – 3325 = – 1142/571= –2 and 4467 – 3325 = 1142/571= 2

Veriler, ortalamanın 2 standart sapma üstünde ve altında yer

almaktadır. Bundan dolayı, bebeklerin %95’inin ağırlıkları 2183

ve 4467 gram aralığındadır.

Örnek (Ampirik Kuralının Kullanılması):

SÜ’den mezun olanların yıllık gelirlerinin çan eğrisi şeklinde

dağıldığını, ortalamanın 25.400 TL ve standart sapmanın ise

1.300 TL olduğunu varsayalım. Mezun olanların yüzde kaçının

yıllık gelirleri 24.100 TL ve 26.700 TL arasındadır?

Örnek (Ampirik Kuralının Kullanılması):

Chebyshev Kuralı

• Ampirik kuralı kullanılamadığı durumlarda, Chebyshev Kuralı

minimum düzeyde bir tahminleme yapılmasına olanak

tanımaktadır

• Popülasyon üyelerinin en az yüzde ( ) lik bölümü, K > 1

olması koşulu ile ortalamanın K standart sapması etrafında

toplanır.

• Buna göre, popülasyon üyelerinin

lik bir bölümü ortalamanın 2 standart sapma

luk bir bölümü ise ortalamanın 3 standart sapma

etrafında yer almaktadır.

Bir ilçede ortalama yıllık gelir 34.200 TL standart sapması ise

2.200 TL’dir. İlçe sakinlerinin yüzde kaçının 29.800 ve 38.600 TL

arasında yıllık geliri vardır?

Çözüm:

Veri setinin çan özelliği gösterip göstermediği bilinmediği için

Chebyshev Kuralı kullanılır.

Önce bu iki değerin ortalamanın kaç standart sapma etrafında

olduğunu belirlemek gerekmektedir.

29800 – 34200 = – 4400/2200= –2 and 38600 – 34200 = 4400/2200= 2

Veriler, ortalamanın 2 standart sapma etrafındadır. Bundan

dolayı, K = 2 ve ilçe sakinlerinin %75’inin 29.800 ve 38.600 TL

arasında yıllık geliri vardır.

Örnek (Chebyshev Kuralı):

Relatif Pozisyon Ölçüleri

Relatif Pozisyon Ölçüleri

Relatif pozisyon ölçüleri, verilerin sıralanmış bir setteki

pozisyonunu ifade etmektedir.

En sık karşılaşılan relatif pozisyon ölçüleri çeyrekler,

yüzdelikler ve standart skorlardır.

Çeyrekler

Çeyrekler bir veri setini 4 eşit parçaya böler.

Bir veri setindeki çeyrekleri bulmak için,

(1)Veriyi ortadan ikiye bölmek için medyan değerini kullan (Q2).

Veri sayısı tek ise, medyanı üst ve alt yarımlar için

kullan.

Veri sayısı çift ise, medyanı iki yarımda da kullanma.

(2) Alt grubun medyanı Q1, ve üst grubun medyanı Q3

dür.

Örnek (Çeyrekler):

2, 3, 5, 7, 8, 9, 10, 12, 15

Q1 Q2 Q3

Örnek 2 (Çeyrekler):

10, 12, 14, 15, 14, 16, 17, 18, 10, 19, 17, 17

10, 10, 12, 14, 14, 15, 16, 17, 17, 17, 18, 19

Aşağıdaki veri setinin Q1, Q2, ve Q3 değerlerini bulunuz.

Örnek 3 (Çeyrekler):

11 11 14 15 16

16 17 19 22 25

26 27 31 34 36

5’li Sayısal Değerler Özeti

5’li sayısal değerler özeti aşağıdaki değerleri

içermektedir:

(1) Minimum

(2) Q1

(3) Medyan

(4) Q3

(5) Maksimum

Box grafiği, 5’li sayısal değerler özetini temsil eden

bir grafiktir.

Box Grafiğinin Hazırlanması

8 9 10 2 5 3 7 12 15

Verileri sıraya diz.

2 3 5 7 8 9 10 12 15

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Minimum Q1 Q2 Q3 Maksimum

Yüzdelikler

Yüzdelikler veri setinin 100 eşit parçaya böler.

p’inci yüzdelik dilimdeki değerler, verilerin %p veya

daha azını kapsamaktadır.

Veri setindeki değerlerin yüzde kaçı belli bir değerin

altında yer almaktadır?

Formül:

1 0 0

p l n

l verinin pozisyonu

n örnek sayısı

p tam sayı olarak yüzdelik değeri

Örnek (Yüzdelikler):

Çözüm:

Önce verileri sıraya diz.

11 11 14 15 16 16 17 19 22 25 26 27 31 34 36

Örnek sayısı: n 15.

30. Yüzdelik dilim: p 30.

l = 4.5 olduğundan dolayı 5’e yuvarlanır ve 5. sıradaki

değer, yani 30. yüzdelik dilimdeki değer 16’dır.

30. Yüzdelik dilimde hangi değer vardır?

11 11 14 15 16

16 17 19 22 25

26 27 31 34 36

P=x*100/n

P = tam sayı olarak yüzdelik dilim

x = belirli bir değerin altındaki değer sayısı

n = örnek sayısı

En lezzetli tava yarışmasında 13 katılımcının skorları

aşağıdaki gibidir:

– 5,5,5,6,6,6,7,7,7,8,9,9,10

Soru: Ali Usta’nın skoru 9 ise, hangi yüzdelik dilimde

yer almaktadır?

Cevap

– Yüzdelik = 10 * 100 / 13 = 77. yüzdelik dilim.

Veri setindeki bir değerin yüzdelik

diliminin bulunması

Standart Skor (z-değeri)

• Standart skor, yada z-değeri, veri setinde bulunan

bir değerin ortalamadaki pozisyonu hakkında bilgi

vermektedir.

• Formül:

Popülasyon ortalaması

Örnek ortalaması

Popülasyon standart sapması

Örnek standart sapması

Örnek

Vize sınavındaki ortalamanın 80.1 ve standart

sapmanın 6.3 olduğunu varsayalım. Ayşe 92.5

aldıysa standart skoru nedir?

Çözüm:

z 92.5 80.1

1.97 6.3

80.1

6.3

x 92.5

Ahmet 87 aldı.

x 80

s 5

Örnek:

Aslı 82 aldı.

x 73

s 6

z = 1.4 z = 1.5

Sınavda, sınıfa göre kim daha başarılı oldu?

Recommended