Wykład 4 Magdalena Alama-Bucko´ 19 marca...

Preview:

Citation preview

StatystykaWykład 4

Magdalena Alama-Bucko

19 marca 2018

Magdalena Alama-Bucko Statystyka 19 marca 2018 1 / 33

Analiza struktury zbiorowosci

miary połozenia ( miary srednie)miary zmiennosci (rozproszenia, dyspersji)miary asymetriimiary koncentracji.

Miary zmiennosci (dyspersji, rozproszenia ) słuza do okreslaniazróznicowania jednostek zbiorowosci (tzn. jak bardzo jednostki rózniasie miedzy soba) ze wzgledu na wartosc badanej cechy.

Magdalena Alama-Bucko Statystyka 19 marca 2018 2 / 33

Miary zmiennosci dziela sie na:

a) miary bezwzgledne (podawane w jednostkach takich, jak danacecha)

miary klasyczne:

wariancja

odchylenie standardowe

odchylenie przecietne

miary pozycyjne:

rozstep

odchylenie cwiartkowe

b) miary wzgledne (podawane w %)

współczynnik zmiennosci (pozycyjny i klasyczny )

Magdalena Alama-Bucko Statystyka 19 marca 2018 3 / 33

Miary bezwzgledne

Magdalena Alama-Bucko Statystyka 19 marca 2018 4 / 33

Wariancja - to srednia arytmetyczna kwadratów odchylen wartoscicechy od sredniej (jednostka wariancji : jednostka2 czyli m2, kg2, ...)

s2 =(x1 − x)2 + (x2 − x)2 + ...+ (xn − x)2

n=

1n

n∑i=1

(xi − x)2.

Szereg rozdzielczy punktowy

s2 =(x1 − x)2 · n1 + ...+ (xk − x)2 · nk

n=

1n

k∑i=1

ni · (xi − x)2

Szereg rozdzielczy przedziałowy

s2 =(x1 − x)2 · n1 + ...+ (xk − x)2 · nk

n=

1n

k∑i=1

ni · (xi − x)2

gdzie xj jest srodkiem j- tego przedziału, czyli (xj , xj+1].

Magdalena Alama-Bucko Statystyka 19 marca 2018 5 / 33

Po przekształceniu wzoru na s2:

szereg szczegółowy

s2 =1n

n∑i=1

(xi − x)2 =1n

n∑i=1

x2i −

(1n

n∑i=1

xi

)2

=1n

n∑i=1

x2i − x2

szereg rozdzielczy punktowy

s2 =1n

k∑i=1

ni(xi−x)2 =1n

k∑i=1

nix2i −(

1n

k∑i=1

nixi

)2

=1n

k∑i=1

nix2i −x2

szereg rozdzielczy przedziałowy

s2 =1n

k∑i=1

ni · (xi − x)2 =1n

k∑i=1

ni · x2i − x2

gdzie xj jest srodkiem j- tego przedziału, czyli (xj , xj+1].

Magdalena Alama-Bucko Statystyka 19 marca 2018 6 / 33

zatem wariancje mozna wyliczyc równiez z wzoru

s2 = x2 − (x)2,

gdzie pierwsza srednia oznacza srednia arytmetyczna zkwadratów obserwacji

oczywiscie s2 =1n

n∑i=1

(xi − x)2 > 0

s2 = 0 , gdy wszystkie obserwacje sa sobie równe, czyli

x1 = x2 = .... = xn = x .

Magdalena Alama-Bucko Statystyka 19 marca 2018 7 / 33

Przykład 1

(1,1,1,2,2,3,4)

x =17(1 + 1 + 1 + 2 + 2 + 3 + 4) =

147

= 2

s2 =1n

7∑i=1

(xi − x)2

=(1− 2)2 + (1− 2)2 + (1− 2)2 + (2− 2)2

7

+(2− 2)2 + (3− 2)2 + (4− 2)2

7=

1 + 1 + 1 + 0 + 0 + 1 + 47

=

87.

Magdalena Alama-Bucko Statystyka 19 marca 2018 8 / 33

Przykład 2

szereg rozdzielczy punktowy

xi ni xi · ni xi − x (xi − x)2 ni(xi − x)2

1 3 3 -1 1 32 2 4 0 0 03 1 3 1 1 14 1 4 2 4 4

n = 7 14 8

x =3 + 4 + 3 + 5

7=

147

= 2

s2 =1n

k∑i=1

ni · (xi − x)2 =17· 8 =

87

Magdalena Alama-Bucko Statystyka 19 marca 2018 9 / 33

Przykład 3

szereg rozdzielczy przedziałowyprzedział ni xi xi · ni (xi − x)2 ni · (xi − x)2

[4.12,4.55] 6 4.33 25.98 2.4336 14.6016(4.55,4.98] 6 4.76 28.56 1.2769 7.6614(4.98,5.41] 9 5.19 46.71 0.49 4.41(5.41,5.84] 13 5.62 73.06 0.0729 0.9477(5.84,6.27] 11 6.05 66.55 0.9477 0.2816(6.27,6.7] 9 6.48 58.32 0.3481 3.1329(6.7,7.13] 7 6.91 48.37 1.0404 7.2828(7.13,7.56] 8 7.34 58.72 2.1025 16.82

n =69 406.27 55.138

x =169

8∑i=1

ni · xi =406.27

69= 5.89.

s2 =1n

k∑i=1

ni · (xi − x)2 =55.138

69= 0.7991.

Magdalena Alama-Bucko Statystyka 19 marca 2018 10 / 33

Odchylenie standardowe to pierwiastek kwadratowy z wariancji, czyli

s =√

s2.

wyraza sie w tych samych jednostkach, co badana cecha, tzn. wmetrach, kilogramach, ...

Interpretacja:

Przecietne odchylenie od sredniej wynosi s jednostek.

w przykładzie 1 : s2 = 87 = 1.1428⇒ s = 1.069.

w przykładzie 2: to samo co w przykładzie 1

w przykładzie 3: s2 = 0.7991⇒ s = 0.894.

Magdalena Alama-Bucko Statystyka 19 marca 2018 11 / 33

Typowy obszar zmiennosci

x − s < xtyp < x + s

Na ogół około 2/3 jednostek (czyli 67%) badanej zbiorowosciprzyjmuje wartosci w tego przedziału.

Dla około 67% jednostek wartosci badanej cechy róznia sie odwartosci sredniej o +/− s jednostek, co zapisujemy

x ± s.

Magdalena Alama-Bucko Statystyka 19 marca 2018 12 / 33

w przykładzie 1 i 2:

x = 2, s = 1.069, zatem

2− 1.069 < xtyp < 2 + 1.069

0.931 < xtyp < 3.069

Typowy "obiekt" przyjmował wartosci od 0.931 do 3.069.

w przykładzie 3:

x = 5.89, s = 0.89.

5.89− 0.89 < xtyp < 5.89 + 0.89

5 < xtyp < 6.78

Typowe "drzewo" w tym drzewostanie ma wysokosc od 5m do6,78m.

Magdalena Alama-Bucko Statystyka 19 marca 2018 13 / 33

Odchylenie przecietne (srednie) - to srednia arytmetyczna wartoscibezwzglednej odchylen wartosci cechy od sredniej (w jednostkachtakich jak cecha, czyli metrach, kg,...)

d =|x1 − x |+ |x2 − x |+ ...+ |xn − x |

n=

1n

n∑i=1

|xi − x |.

Szereg rozdzielczy punktowy

d =|x1 − x | · n1 + ...+ |xk − x | · nk

n=

1n

k∑i=1

ni · |xi − x |

Szereg rozdzielczy przedziałowy

d =|x1 − x | · n1 + ...+ |xk − x | · nk

n=

1n

k∑i=1

ni · |xi − x |

gdzie xj jest srodkiem j- tego przedziału, czyli (xj , xj+1].

Magdalena Alama-Bucko Statystyka 19 marca 2018 14 / 33

Rozstep z próby:

R = xmax − xmin.

róznica miedzy najmniejsza i najwieksza obserwacja

oczywiscie R > 0

R = 0⇔?

np. amplituda temperaturnp. rozpietosc czasu potrzebnego na wykonanie pewnejokreslonej czynnosci

Magdalena Alama-Bucko Statystyka 19 marca 2018 15 / 33

Odchylenie cwiartkowe:

Q =Q3 −Q1

2

mierzy poziom zróznicowania tylko czesci jednostek ( 50%srodkowych obserwacji, po odrzuceniu 25% obserwacjinajmniejszych i 25% obserwacji najwiekszych)

miara ta nie jest wrazliwa na skrajne (nietypowe wartosci)

Interpretacja:Przecietne odchylenie od mediany połowy srodkowych jednostekwynosi Q jednostek.

Magdalena Alama-Bucko Statystyka 19 marca 2018 16 / 33

w przykładzie 1:

Q1 = 1,Q3 = 2

Q =2− 1

2=

12.

w przykładzie 2 : Q1 = 1,Q3 = 3

Q =3− 1

2= 1.

w przykładzie 3:

Q1 = 5.23m,Q3 = 6.59m

Q =6.59− 5.23

2=

1.362

= 0.68m.

Przecietne odchylenie od mediany (czyli Me = 5.86m) połowysrodkowych jednostek wynosi 0.68m.

Magdalena Alama-Bucko Statystyka 19 marca 2018 17 / 33

Pomiedzy miarami zróznicowania zachodza relacje:

Q < d < s

d i s sa miarami dokładniejszymi, bo sa wyliczane na podstawiewszystkich obserwacji

Magdalena Alama-Bucko Statystyka 19 marca 2018 18 / 33

Typowy obszar zmiennosci ( parametry pozycyjne)

Me −Q < xtyp < Me + Q

Wartosci badanej cechy róznia sie od wartosci mediany (srodkowej) o+/- Q jednostek w zawezonym obszarze zmiennosci.

w przykładzie 2: Me = 2,Q = 1, zatem

2− 1 < xtyp < 2 + 1 ⇔ 1 < xtyp < 3

w przykładzie 3: Me = 5.86,Q = 0.68.

5.86− 0.68 < xtyp < 5.86 + 0.68 ⇔ 5.18 < xtyp < 6.54

Typowe drzewo ma wysokosc od 5.18m do 6.54m (w zawezonymobszarze zmiennosci)

Magdalena Alama-Bucko Statystyka 19 marca 2018 19 / 33

Współczynnik zmiennosci

słuzy do porównywania stopnia zróznicowania cechy w kilkupopulacjach

Im wyzsza wartosc współczynnika zróznicowania, tym silniejszezróznicowanie (niejednorodnosc) badanej zbiorowosci.

Magdalena Alama-Bucko Statystyka 19 marca 2018 20 / 33

Współczynnik zmiennosci (klasyczny):

Vs =sx· 100%

Interpretacja: Odchylenie standardowe stanowi Vs procentsredniej arytmetycznej.

Przykład 1 : x = 4, s = 1

Vs =sx· 100% =

14· 100% = 25%

Przykład 2 : x = 8, s = 2

Vs =sx· 100% =

28· 100% = 25%

Taki sam poziom zróznicowania.Przykład 3 : x = 10, s = 1

Vs =sx· 100% =

110· 100% = 10% najmniejsze zróznicowanie

Magdalena Alama-Bucko Statystyka 19 marca 2018 21 / 33

Vd =dx· 100%,

gdzie d oznacza odchylenie przecietne.

Interpretacja: Odchylenie srednie stanowi Vd procent sredniejarytmetycznej.

Współczynnik zmiennosci (pozycyjny):

VQ =Q

Me· 100%,

gdzie Q oznacza odchylenie cwiartkowe.

Interpretacja: Odchylenie cwiartkowe stanowi VQ procentwartosci mediany.

Magdalena Alama-Bucko Statystyka 19 marca 2018 22 / 33

Współczynnik zmiennosci V jest ilorazem bezwzglednej miarydyspersji i odpowiednich wartosci srednich, tzn.

x ↔ s,d

Me ↔ Q

moze byc wyrazany w procentach albo wartosciach liczbowych

Jezeli wyrazony w procentach to odpowiada na pytanie:

Jaki procent "wartosci sredniej" (tzn. odpowiednio x ,Me ) stanowiodpowiednia "miara rozproszenia" (tzn. odchyleniastandardowego, odch. sredniego, Q).

Magdalena Alama-Bucko Statystyka 19 marca 2018 23 / 33

Przy okreslaniu stopnia zróznicowania mozna przyjac nastepujacypodział:

V < 20% - małe zróznicowanie cechy (słabe)

20% 6 V < 40% - przecietne zróznicowanie cechy(umiarkowane)

40% 6 V < 100% - duze zróznicowanie cechy ( silne)

V > 100% - bardzo duze zróznicowanie cechy ( bardzo silne)

Magdalena Alama-Bucko Statystyka 19 marca 2018 24 / 33

Zadanie 1Analizie statystycznej poddano srednie miesieczne zyski 5 firm.Otrzymano m.in. nastepujace poziomy niektórych statystyk opisowych:

n = 5x = 31915 (srednia)Me = 34100 (mediana)Q1 = 27500 ( tzw. dolny kwartyl )Q3 = 36500 ( tzw. górny kwartyl)s = 7582,702 ( odchylenie standardowe)

Jednoczesnie wiadomo, ze przecietny zysk pewnej firmy kształtuje siena poziomie 21200 zł. Czy mozna ta firme uznac za typowa wsródbadanych? Odpowiedz podac uzywajac równolegle miar klasycznych ipozycyjnych.

Magdalena Alama-Bucko Statystyka 19 marca 2018 25 / 33

Dane: n = 5, x = 31915,Me = 34100,Q1 = 27500,Q3 =36500, s = 7582.

Typowy obszar zmiennosci (klasyczny) xtyp ∈ (x − s, x + s)xtyp ∈ (31915− 7583,31915 + 7583)⇔ xtyp ∈ (24332,39498).

Typowy obszar zmiennosci (pozycyjny)xtyp ∈ (Me −Q,Me + Q)

Q =Q3 −Q1

2=

36500− 275002

=9000

2= 4500

xtyp ∈ (34100− 4500,34100 + 4500)⇔ xtyp ∈ (29600,38600).

widac, ze zysk 21200 nie zawiera sie (w zadnym) typowymobszarze zmiennosci (ani klasycznym, ani pozycyjnym).

Koniec Zadania 1.

Magdalena Alama-Bucko Statystyka 19 marca 2018 26 / 33

Zadanie 2W pewnej okolicy zbadano ceny komputerów i bułek.Dla komputerów otrzymano x = 2500zł oraz s = 250 zł. Dla bułekotrzymano x = 0.6zł oraz s = 0.1 zł.Porównac zmiennosc sprzedawanych komputerów i bułek.

Dla komputerów mamy:

Vs =sx· 100% =

2502500

· 100% = 10%,

zatem odchylenie standardowe stanowi 10% sredniej arytmetycznej(ceny sprzedawanych komputerów).Dla bułek mamy:

Vs =sx· 100% =

0.10.6· 100% = 17%,

zatem odchylenie standardowe stanowi 17% sredniej arytmetycznej(ceny sprzedawanych bułek).Cena bułek jest bardziej zróznicowana, niz cena komputerów.

Magdalena Alama-Bucko Statystyka 19 marca 2018 27 / 33

Rozkład normalny

Rozkład normalny to rozkład w którym "szanse" otrzymaniaposzczególnych wartosci opisuje wykres postaci:

"dzwonowaty" kształtrozkład symetryczny z maksimum w punkcie x = D = Meczym bardziej oddalamy sie od sredniej, tym szanse malejawiele cech ma taki rozkład:wzrost i waga populacji ludzi i zwierzat, bład pomiaru, ilorazinteligencji......

Magdalena Alama-Bucko Statystyka 19 marca 2018 28 / 33

Reguła 3σ (czyt. 3-sigma)

Dla rozkładów normalnych lub zblizonych do normalnych zachodzizasada tzw. 3σ, która mówi ze

około 68% obserwacji przyjmuje wartosci w przedziale

(x − s, x + s)

około 95% obserwacji przyjmuje wartosci w przedziale

(x − 2s, x + 2s)

około 99.7% obserwacji przyjmuje wartosci w przedziale

(x − 3s, x + 3s)

Magdalena Alama-Bucko Statystyka 19 marca 2018 29 / 33

PrzykładWiadomo, ze przecietna waga (w kilogramach) noworodka jestzmienna losowa o rozkładzie normalnym. Zbadano odpowiednio duzapróbe i otrzymano:

x = 3.6, s = 0.25.

Zatemokoło 68% noworodków ma wage z przedziału

(x − s, x + s) = (3.35,3.85)

około 95% noworodków ma wage z przedziału

(x − 2s, x + 2s) = (3.1,4.1)

około 99.7% noworodków ma wage z przedziału

(x − 3s, x + 3s) = (2.85,4.35).

Magdalena Alama-Bucko Statystyka 19 marca 2018 30 / 33

PrzykładCzas pracy lamp RTG produkowanych w pewnym zakładzie marozkład normalny z wartoscia srednia 700 godzin i odchyleniemstandardowym 120 godzin.

Zatemokoło 68% lamp ma czas swiecenia z przedziału

(x − s, x + s) = (580h,820h)

około 95% lamp ma czas swiecenia z przedziału

(x − 2s, x + 2s) = (460h,940h)

około 99.7% lamp ma czas swiecenia z przedziału

(x − 3s, x + 3s) = (340h,1060h).

Magdalena Alama-Bucko Statystyka 19 marca 2018 31 / 33

Inny rozkład

W przypadku, gdy zmienna nie ma rozkładu normalnego (ma innyrozkład) albo znacznie rózni sie od rozkładu normalnego, powyzszyzakres z reguły 3σ ulega zmianie.

około 75% obserwacji przyjmuje wartosci w przedziale ( dlanormalnego 95%)

(x − 2s, x + 2s)

około 89% obserwacji przyjmuje wartosci w przedziale ( dlanormalnego 99.7%)

(x − 3s, x + 3s)

Magdalena Alama-Bucko Statystyka 19 marca 2018 32 / 33

Dziekuje za uwage !

Magdalena Alama-Bucko Statystyka 19 marca 2018 33 / 33

Recommended