Analýza kvantitativních dat I. Popisné statistiky a explorační analýza

Analýza kvantitativních dat I.

Popisné statistiky a explorační

jednorozměrná analýza Jiří Šafr

jiri.safr(zavináč)seznam.cz

poslední aktualizace 28. 2. 2015 (vytvořeno 29. 6. 2009)

UK FHSHistorická sociologie

(LS 2014+)

2

Obsah• Analýza kvantitativních dat (obecné principy)• Dva základní typy statistik / přístupy ve statistice• Připomenutí základních pojmů – typy znaků• Jednoduché popisné statistiky

→ třídění dat 1. stupně (jednorozměrná analýza):– Střední hodnoty: modus, medián, průměr– Variance-rozptýlení dat: rozptyl, směrodatná odchylka– Další míry variability-rozptýlení (rozpětí, kvantily, špičatost,

šikmost)• Střední hodnoty a míry variability v programu SPSS• Míry variability pro kategoriální proměnné (úvod):

– Směrodatná odchylka pro dichotomickou proměnnou– Variační poměr – v

• Vlastnosti rozdělení znaků• Ověření normality rozložení dat• Na co si dát v datech pozor• Standardizace na z-skóre

3

Analýza kvantitativních dat• Předmětem statistického zkoumání jsou

hromadné jevy: výskyt vlastností u velkého počtu prvků – statistických jednotek (osoby, organizace, události,…)

• Jejich vlastnosti vyjadřují statistické znaky (= proměnné): kvantitativní (číselné)/ kvalitativní (slovní).

• Získání dat pomocí šetření: - úplné-vyčerpávající- výběrové (pouze u části populace → výběrový soubor, který reprezentuje základní soubor)

[Cyhelský, Hustopecký, Závodský 1978]

4

Dva základní typy statistiky/ přístupy ve statistice

1. Popisná statistika: metody pro zjišťování a sumarizaci informací → grafy, tabulky, popisné charakteristiky (průměr, rozptyl percentily,..). Cílem je explorace – průzkum dat.

2. Inferenční statistika (statistická indukce): metody pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z jejího výběru (odhad parametru na základě výběru z populace).Cílem je ověřování hypotéz.

Proces analýzy dat musíme promyslet již ve stadiu plánování dotazníku

(modelu vztahů a hypotéz).

Nejprve malé připomenutí základních pojmů

7

Základní pojmy• Populace• Základní soubor• Výběrový soubor (vzorek)• Datový soubor• Znak

• Třídění dat (jedno a vícestupňové)• Absolutní četnost• Relativní (poměrná) četnost• Kumulativní četnost• Střední hodnota• Distribuce (rozdělení) hodnot proměnné

8

Typy znaků – proměnných Kategoriální:

Nominální– Kategorie jsou rovnocenné (na úrovni jmen) – př.: pohlaví, jména, typ rodiny, barva vlasů, profese

Pořadové (ordinální)– Kategorie lze seřadit do hierarchie– Lze se ptát: vyšší/nižší apod., ale ne o kolik

např.: spokojenost, stupeň souhlasu

Kardinální (intervalové/poměrové):• číselné proměnné

lze se ptát větší/ menší a o kolikpř.: věk, příjem, počet dětí

→ Různé typy znaků vyžadují v analýze odlišné přístupy (statistické míry).

9

Typy znaků – proměnných z hlediska úrovně měřeníDichotomický Vícekategoriální

(polynomický)př: Kraj

Kategoriální

(kategorizované)

Kardinální – číselné (numerické)

Zdroj: adaptováno podle [Babbie 1995: 137]

10

Kardinální znaky/proměnné

Kardinální znaky rozlišujeme na:• a) intervalové – nemají přirozený

počátek: obsahový smysl má rozdíl ale nikoliv podílPříklad: „Dnes je o 10 st. C tepleji“, ale ne „o 25% tepleji.“ / IQ nemá nulu

• b) poměrové – mají přirozený počátek (0 má význam), tudíž lze uvažovat i podíl.Příklad: „nulové“ i „dvojnásobné tržby“

11

Nominální znaky/proměnnéNominální znaky rozlišujeme na:• a) více-kategoriální – mají tři a více hodnot

(např. rodinný stav: svobodný/ná; ženatý/á; rozvedený/á; vdovec/vdova) Z hlediska analýzy jsou nejobtížněji analyzovatelné a výsledky interpretovatelné.

• b) dichotomické – mají jen dvě hodnoty lze je kódovat 0/1: 0 má význam jev nenastal; 1 jev nastal

(např. proměnná žena: 1 = žena a 0 = muž(+ostatní)) Z hlediska analýzy mají určité výhody (např. pravděpodobnost (tj. %) odpovídá průměru)

• Více-kategoriální lze převést na sadu dichotomických proměnných (tzv. dummy

znaky).

12

ProměnnáPřípady

(respondenti)

Hodnotyproměnné

Existují různé typy dat (datových matic), pro nás bude základníDvourozměrná datová matice (2-way data): PŘÍPADY × PROMĚNNÉ

13

Data 2-way: PŘÍPADY × PROMĚNNÉ • Person is the ‘‘object’’ and level of education is the ‘‘attribute’’ for

which the researcher wants a value assigned to each object.• (Nejen) v SPSS se lze setkat se 2 základními typy 2-way dat (někdy

označovaná také jako „SPSS data“), tj. data uspořádaná tak, že případy jsou v řádcích, proměnné ve sloupcích: – Individuální mikrodata – data kde případy jsou individuální

pozorování, nejčastěji respondenti, ale např. také novinové článkyPříklad: Důvěra lidí v prezidenta (informace o hodnotě proměnné u každého respondenta).

– Agregovaná data – individuální data sloučená za určitou vyšší organizační jednotku (např. školy, regiony nebo státy) většinou sumované z individuálních údajů

Ty mohou mít dále různou podobu– Kombinovaná individuální mikrodata s kontextuálními daty

(buď na agregované úrovni nebo jako kontext společný určité skupině individuí např. z oficiálních statistik nebo jiné formy výzkumu).

– Individuální mikrodata s opakovaným měřením v panelové studii.

Existují ale i jiné typy – uspořádání dat, která lze analyzovat, mj.: tabelární data (např. kontingenční tabulka), distanční data (např. korelační matice), časové řady a dal.

Jednoduché popisné statistiky

třídění dat 1. stupně:

•Střední hodnoty

•Míry variability

15

Střední hodnoty:

• nominální znaky → modus• ordinální znaky→ medián

(aritmetický průměr)

• intervalové znaky → aritmetický průměr

• Pomocí „jednoho čísla“ vyjadřujeme vlastnost znaku → typická hodnota datové řady

16

• Modus (Mo) = kategorie s největší četnostíNelze s ním provádět žádné algebraické operace. Může existovat i více modálních kategorií.

• Medián (Me) = hodnota, která je ve prostředku všech pozorování seřazených podle hodnotnebo jinak řečeno: Hodnota proměnné, před níž je polovina pozorování majících menší hodnotu a za níž je druhá polovina pozorování majících větší hodnotu než má medián. Při sudém počtu hodnot: průměr dvou prostředních hodnot.

_

• Aritmetický průměr (X) = součet hodnot dělený počtem pozorování

_• Pro symetrické rozložení hodnot je Mo = Me = X

Základní střední hodnoty (míry centrální tendence)

17

Modus (mode)

[Babbie 1995]

18

Medián

[Babbie 1995]

Poznámka: zde je důležité, aby hodnoty znaku byly seřazeny.

Máme 31 případů (žáků) seřazených podle věku, tj. medián je uprostřed (16. žák): 50 % případů je pod a 50 % nad ním.

Zde je medián zároveň modusem i průměrem.

19

Průměr

[Babbie 1995]

20

Střední hodnoty a jejich limity• Střední hodnota → popis rozložení hodnot znaku

„pomocí jednoho „typického“ čísla“ – těžiště uspořádání hodnot znaku

• To má pochopitelně limity:- jedno číslo k popisu znaku většinou nestačí (málokdy mají všechny případy přibližně stejnou hodnotu)

- neříká nic o variabilitě – rozptýlení dat- moc se nehodí pro kategoriální znaky (→ místo modusu ukazujeme raději celou distribuci hodnot v %)

Proto je vždy používáme zároveň s údaji o variabilitě, rozptylu → “kvalitativní“ informace

21

Základní charakteristiky variability → „Kvalitativní“ charakteristika středních hodnot (u kardinálních-číselných znaků)

• Rozptyl = střední hodnota kvadrátů odchylek od střední hodnoty

• Směrodatná odchylka = odmocnina z rozptylu náhodné veličiny (na rozdíl od rozptylu je v původních jednotkách proměnné)

• Výběrová směrodatná odchylka (dtto ale ve výběrovém souboru → malinká úprava ve vzorci, logicky jde o odmocninu z výběrového rozptylu)

• Jak uvidíme dále variabilitu hodnot proměnné lze popsat i podrobněji pomocí dalších měr.

22

Charakteristiky variability kardinálních znaků: Rozptyl a Směrodatná odchylka

Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na „kvalitu“ průměru.

Rozptyl (σ2) = součet kvadratických odchylek od průměru dělený rozsahem výběru (pokud jde o

výběrový soubor tak navíc zmenšeným o 1) (anglicky Variance)

Směrodatná odchylka (σ) = odmocnina z rozptylu (anglicky Standard Deviation – STDDEV)

Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty vyjádřená v původních hodnotách, v nichž proměnnou měříme (např. u věku v letech). Naproti tomu samotný rozptyl je bezrozměrný a špatně se tak interpretuje.

Existují také míry variability pro kategoriální (nominální) znaky, viz dále.

23

Výpočet směrodatné odchylky

Máme pozorování:2 5 4 3 1 8 2 6 2 7součet řady = 40; počet případů n = 10; průměr = 40/10 = 4odchylky od průměru (X=4):-2 1 0 -1 -3 4 -2 2 -2 3(součet odchylek je 9 – 9 = 0)čtverce odchylek:4 1 0 1 9 16 4 4 4 9 součet čtverců odchylek = 52průměrná čtvercová odchylka tj. rozptyl σ2= 52/10= 5,2směrodatná odchylka (odmocnina z rozptylu) s = 2,28Existují dva vzorečky: pro populační směrodatnou odchylku (zde – pro celou populaci) a pro výběrovou, tj. jen pro vzorek z populace, v níž je ve jmenovateli místo „n „n-1“.

pozorování: 2 5 4 3 1 8 2 6 2 7

odchylky od prům.: -2 1 0 -1 -3 4 -2 2 -2 3

čtverce odchylek 4 1 0 1 9 16 4 4 4 9

24

Výpočet směrodatné odchylky (př. 2)

Příklad 2. Máme pozorování:2 5 4 3 1 8 2 6 2Součet řady = 33; n = 9; průměr = 33/9 = 3,66odchylky od průměru:-1,66 1,34 0,34 -0,66 -2,66 4,34 -1,66 2,34 -1,66součet odchylek je = 0čtverce odchylek:2,76; 1,80; 0,12; 0,44; 7,08; 18,84; 2,76; 5,48; 2,76součet čtverců odchylek = 42,04

průměrná čtvercová odchylka tj. rozptyl = 42,04 /9= 4,67směrodatná odchylka (odmocnina z rozptylu) = 2,16

Obdobné jako předchozí příklad, ale vynechali jsme jedno – poslední pozorování (n=9).

25

Příklad k procvičení DATA: Věk AKD1 LS 2012

Porovnejte střední hodnoty (průměr, medián) a směrodatnou odchylku u skupin studentů z Denního a Kombinovaného studia

Denní232524232423222322

Kombinované

333048253146493826282631

26

Směrodatná odchylka v Excelu

STDEVPA pro základní souborSTDEVA pro výběrový soubor

V SPSS je výpočet pro výběrovou směrodatnou odchylku StD (tj. pro vzorek z populace).

27

Další popisné statistiky - variabilitaPro kardinální (číselné) proměnné• Minimum / maximum• Rozpětí (= max - min)

• Kvantily: dolní a horní kvartil → mezikvartilové rozpětí(jsou ale jiné členění do stejně početně zastoupených skupin, např. tercily (33 % / 33 % / 33 %), decily (10 % / 10 % …)

• Koeficienty šikmosti (Skewness)• Koeficienty špičatosti (Kurtosis)• Variační koeficient (= podíl směr.odchylky a průměru)

Pro kategoriální proměnné• míry variability (variační koeficient a jeho

varianty) – viz AKD II. 9. Míry variability: variační koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt

28

Různé typy proměnných a odpovídající popisné statistiky(střední hodnoty, míry variability, grafy, …)

Zdroj: [Rachad 2003: 81].

29

Střední hodnoty a míry variability v SPSS

K dispozici máme více možností, např. pomocí příkazů: FREQUENCIES, MEANS, DESCRIPTIVES a EXAMINE.

FREQUENCIES vek /STATISTICS MEAN STDDEV MEDIAN MODE.

*průměr, směrodatná odchylka, medián a Modus (v rámci STATISTICS) + tabulka frekvencí (počty a %), kterou lze vypnout pomocí přidání /FORMAT NOTABLE.

MEANS vek /CELLS MEAN STDDEV MEDIAN COUNT. *průměr, směrodatná odchylka, medián a počet platných případů.

DESCRIPTIVES vek.*průměr, směrodatná odchylka, počet platných případů; vhodné pro porovnání

hodnot u více proměnných (bohužel neumí medián).

EXAMINE vek /PLOT NONE.*velké množství statistik pro střední hodnoty a variabilitu, zde (PLOT NONE) bez grafů.

30

Střední hodnoty a míry variability v SPSS (output)

Explore

MeansFrequencies

Descriptives

31

Směrodatná odchylka pro dichotomickou proměnnou (podíl)• Variance = p*q kde p (resp. q) je pravděpodobnost (tj. p = % / 100).

• Směrodatná odchylka = √p*q nebo √p(1-p)

Příklad:p = 0,29 q = 0,71

StD = √0,29*0,71 = 0,45 Pokud máme hodnoty dichotomické proměnné kódovány jako 0/1 (např. 0=nepracuje, 1=pracuje), pak lze v SPSS použít výpočet pro kardinální znak, např. Descriptives (vzorec není ale stejný – výsledek se může nepatrně lišit).

Poznámka: Všimněte si, že hodnota rozptyl/StD je zcela závislá na hodnotě parametru (%).

32

Kvantily• Kvantily (obecně) → členění do stejně početně

zastoupených skupin• Tercily: tři skupiny (33 % / 33 % / 33 %)

• Decily: deset skupin (10 % / 10 % …)

• Kvartily: čtyři skupiny (25 % / 25 % / 25 % / 25 %)

→ mezikvartilové rozpětí: rozdíl horního a dolního kvartilu (x75 – x25)

• Zobrazujeme je (spolu s mediánem) v Boxplotu → jejich poloha ukáže na zešikmení (čím blíže je H nebo D kvartil k mediánu, tím větší zešikmení)

• Určení kvantilů v SPSS pomocí NTILES: FREQUENCIES vek /NTILES (4). *číslo v závorce určuje, pro kolik stejných skupin chceme určit hranice hodnot (na jejich základě můžeme dále rekódovat kardinální-spojitý znak na ordinální-kategoriální).

33

Boxplot – vousaté krabičky: vizualizace distribuce

KVARTILY dělí statistický soubor na desetiny: dolní Q0,25 (Q1) a horní Q0,denní5 (Q3)

Interkvartilové rozpětí:

HH = horní kvartil + 1,5 násobku interkvartilového rozpětí

DH = dolní kvartil + 1,5 násobku interkvartilového rozpětí

34

Variabilita hodnot u nominálního znakuNa rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává).

Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

35

Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků), zde jen úvod (v, D)

pro nominální proměnné:• Variační poměr – v• Nominální rozptyl – D (nomvar) (~ Giniho koeficient)

→ relativní počet všech dvojic, které nejsou ve stejné kategorii

• Normalizovaný nominální rozptyl (norm. nomvar nebo IQV)

• Entropie – H• Normalizovaná entropie – H*

pro ordinální proměnné: • Ordinální rozptyl - dorvar Variační koeficient a jeho varianty – viz AKD II. 9. Míry variability: variační

koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt

• Viz také http://iastat.vse.cz/Nominalni.html

http://metodykv.wz.cz/AKD2_variacni_koef.ppt

http://iastat.vse.cz/Nominalni.html










36

Vlastnosti měr variability kategoriálních znaků

• Čím vyšší hodnota tím vyšší heterogenita souboru

• Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita

• Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita

• Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor.

Zdroj: [Řehák, Řeháková 1986: 66-69]

37

Variační poměr – v• Nejjednodušší míra variability.

• Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou.

• Výhodou v je jednoduchost výpočtu.

• Nevýhodou v je, že je založeno pouze na modální četnosti (normvar – D je pracnější,ale odráží celou strukturu tabulky).

Zdroj: [Řehák, Řeháková 1986: 66]

38

Příklad: Variační poměr – v (DATA)

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

39

Příklad: Variační poměr – vZpůsob získávání denního tisku u pravidelných

čtenářů, pro Periodikum J (N = 1289)

Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku

48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9

modus 0,483 (= Předplácí) absolutní četnost 56,028v 0,517 = 116 * 0,483

v = 1 – (56,028 / 116) = 0,517

Zdroj: [Řehák, Řeháková 1986: 68-69]

lze spočítat v Excelu:

V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).

Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).

40

Nominální variance (nomvar)Index diversity (D)

• nomvar nebo D

• Kde: p – podíl pozorování v dané i-té kategorii

→ podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také

→ pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií.

Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích.

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Více k varianci kategoriálních znaků v AKD II.

http://metodykv.wz.cz/AKD2_variacni_koef.ppt

SPSS míry variability pro kategoriální proměnné neumí, ale na již hotovou tabulku (FREQUENCIES) lze v outputu použít skript Míry variability pro kategorizované proměnné

http://acrea.cz/cz/skripty/mira-variability

Vlastnosti rozdělení znaků

popisná statistka pro kardinální znaky v grafickém znázornění

43

Symetrie, variabilita

[Hanousek, Charamza 1992: 21]

Vlastnosti rozložení hodnot znaku, jsou dány střední hodnotou (průměrem) a rozptylem hodnot

44

Bimodální (dvouvrcholové) rozložení

• Proměnnou nejlépe reprezentují dvě střední hodnoty (průměry).

Zdroj: [Howell 2011: 52]

45

Šikmost a špičatost

[Hanousek, Charamza 1992: 21]

→ odchylky od symetrie (šikmost) a variability (špičatost/plochost)

46

Normální rozložení hodnot a směrodatná odchylka

http://www.stat.tamu.edu/~west/applets/normaldemo1.html

Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace) potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru (gaussovy křivky).

Platí, že v ploše pod křivkou vymezené +/- 1 směrodatnou odchylkou od průměru je 68 % případů (cca 2/3).

Rozložení hodnot (tvar křivky) je dán průměrem a rozptylem.

Zde jde o normované (standardizované) normální rozdělení, kde μ=0 a σ=1

47

A k čemu variance–variabilita dat (směrodatná odchylka) je?

• Směrodatná odchylka ukazuje na to, jak „kvalitně“ popisuje průměr data. (nulová STDEV = všechny případy mají stejnou hodnotu, tj. průměr)→ uvádíme-li průměr, tak vždy uvedeme i směrodatnou odchylku (StDev)

• Distribuci hodnot – varianci v datech musíme věcně interpretovat (StdDev, míry šikmosti, percentily, …).

• Před výpočty u numerické proměnné (korelace, průměr, …) ověřujeme rozložení hodnot, zda se (výrazněji) nevychyluje od normálního rozložení.

A pro výběrová data, tj. náhodný(!) vzorek z populace platí:• Normální rozdělení je vlastně zákonem chyb měření (a to i

těch o nichž nevíme, tj. přímo jsme je neměřili). A na tom jsou postaveny principy inferenční statistiky (testování hypotéz).

• Směrodatná odchylka slouží k výpočtu Standardní chyby (S.E.) → kvantifikace chyb měření (výběrové chyby)

48

Význam variance hodnot znaků• Zjednodušeně řečeno:

naším záměrem je, aby v datech–proměnné byla „dostatečná“ variabilita (tj. proměnlivost hodnot), která bude nenáhodná, tj. budeme ji schopni (většinou pomocí dalších „nezávislých“) proměnných vysvětlit.

• Pokud je variabilita prakticky nulová (či pouze náhodná), pak není co vysvětlovat (to v podstatě platí i, pokud je naopak extrémně vysoká).

• A abychom v datech dosáhli „dostatečné“ variability, to je úkol již pro přípravné fáze výzkumu (formulace modelu vztahů (výzkumných otázek/hypotéz) → rozhodnutí o zahrnutí indikátorů/proměnných, jejich operacionalizace, stanovení jednotek sběru dat a analýzy, velikosti a metodě výběru …).

Na co si dát v datech dát pozor

Variance a střední hodnoty

50

Vzájemná poloha průměru a mediánu

51

Průměr a rozptyl nejsou všechno!Ve všech čtyřech případech je stejné:maximum 170průměr 85směrodatná odchylka 25,8

Výsledek testu (interval hodnot)

případ 1

případ 2

případ 3

případ 4

20-29 1 - - -

30-39 4 2 - -

40-49 6 5 12 -

50-59 8 10 12 34

60-69 10 16 12 12

70-79 16 17 12 6

80-89 18 18 12 4

90-99 16 12 12 6

100-109 10 10 12 12

110-119 8 7 12 34

120-129 6 5 12 -

130-139 4 3 - -

140-149 1 1 - -

150-159 - 1 - -

160-169 - 1 - -

šikmost 0,00 0,57 0,00 0,00

špičatost -0,43 0,18 -1,23 -1,77

Zdroj: [Hanousek, Charamza 1992: 38-39]

52

Variabilita rozložení hodnot - doporučení

kardinální znaky• Průměr a směrodatná odchylka nestačí, uvádějte ještě

alespoň medián (vztah průměru a mediánu ukazuje na směr vychýlení)

• Grafické znázornění variability → Histogram (případně boxplot)

• Pokud chceme variabilitu popsat čísly: Koeficienty šikmosti (Skewness) a špičatosti (Kurtosis) nebo mezikvartilové rozpětí (rozdíl horního a dolního kvartilu)

• Vždy věnujeme nejprve pozornost extrémním hodnotám.kategoriální (nominální) znaky• Tabulka frekvencí (s %)

nebo graficky → Barchart

53

Ověření normality rozložení dat• Histogram → vizuálně orientačněPodrobněji a přesněji:• Q-Q graf (quantile-quantile): ukazuje kvantily

pozorované distribuce proměnné proti kvantilů zvolené distribuční funkceNormálně rozložená data → přímkový charakterv SPSS: Analyze, Descriptive statistics, Q-Q plots

• Kolmogorov-Smirnov test: H0 = data jsou normálně rozložena, Pozor na interpretaci výsledku: nízké! p (< 0,05) → distribuce dat se statisticky signifikantně lišší od normální distribuce. v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S...

• Dojde-li k porušení normality rozložení → rekódování, transformace (např. logaritmická), použití neparametrických metod

54

Rozložení četností a Q-Q graf

55

Standardizace na z-skóre odstranění původní metriky u kardinálních-číselných znaků

• Z – skóry: průměr X=0 a StD =1V transformované proměnné je aritmetický průměr roven

nule a směrodatná odchylka je jedna.

• Odchylka od průměru / směrodatnou odchylkou:

• Od každého pozorování odečteme průměr a vydělíme směrodatnou odchylkou.

• z-skóre = kolik standardních odchylek je danná hodnota vzdálena od střední hodnoty (aritmetického průměru)

• Většina nově transformovaných hodnot je v rozmezí od -3 do 3.

→ umožňuje porovnat znaky s odlišnou metrikou.

56

• V SPSS jednoduše pomocí Descriptives přidáním SAVE:

DESCRIPTIVES var1 /SAVE.

• V datech vznikne proměnná automaticky pojmenovaná Zvar1 (v Labelu je uvedeno „Zscore:“ a původní pojmenování)

• Pozor: Proměnná musí mít přibližně normální rozložení! (kontrolujeme aspoň vizuálně pomocí Histogramu) Pokud ne, pak lze transformovat na percentily.

• Existují i jiné principy standardizace dat, např. přímá standardizace.

Standardizace na z-skóre

57

Některé webové nástroje pro analýzuIndex of On-line Stats Calculatorshttp://www.physics.csbsju.edu/stats/Index.html

• Exact r×c Contingency Table:http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html

• Statistical Calculations• http://statpages.org/

• R. Webster West appletshttp://www.stat.tamu.edu/~west/http://www.stat.tamu.edu/~west/ph/

Učebnice:Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy

http://www.stahroun.me.cz/interstat/Statnotes: Topics in Multivariate Analysis, by G. David Garson

http://faculty.chass.ncsu.edu/garson/PAdenní65/index.htmStatSoft - Elektronická učebnice statistiky (anglicky)

http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31http://www.statsoft.com/textbook/

Více na webu v sekci Webové nástroje pro analýzu dat

www.metodykv.wz.cz/index.htm#webnastroje

http://www.metodykv.wz.cz/index.htm#webnastroje








Nejprve se ptej, k čemu analýza tvá má sloužit,

potom teprv výběrem metody dej se soužit.

[Hanousek, Charamza 1992 : 61]

Jednorozměrnou analýzou tj. tříděním dat prvního stupně

(univariate analysis) to teprve vše začíná …

→ dvourozměrná (a vícerozměrná) analýza,

elaborace vztahů …A navíc, pokud máme výběrová data → inferenční statistika (intervalové odhady, statistické testování

hypotéz, …)

60

Literatura• Babbie, E. 1995. The Practice of social Research. 7th

Edition. Belmont: Wadsworth. → kapitola 15 – Elementary Analyses.

• de Vaus, D., A. (1985) 2002. Surveys in Social Research, Fifth Edition. St Leonards NSW: Allen & Unwin / London: Routledge. → kapitola 13 – Univariate analysis.

• Disman, M. 1993. Jak se vyrábí sociologická znalost. Praha: Karolinum. → kapitola 8 – Já ti to spočítám aneb statistika pro úplně beznadějné případy (jen do st. 195).

• Hanousek, Charamza. 1992. Moderní metody zpracování dat. Matematická statistika pro každého. Praha: Grada.

• Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.

• Howell, D. C. 2014. Fundamental Statistics for the Behavioral Sciences. Belmont: Wadsworth.

Documents

Analýza kvantitativních dat I. Popisné statistiky a explorační analýza