Upload
verna
View
67
Download
0
Embed Size (px)
DESCRIPTION
UK FHS Historická sociologie (LS 2014+). Analýza kvantitativních dat I. Popisné statistiky a explorační analýza. Jiří Šafr jiri.safr(zavináč)seznam.cz. vytvořeno 29. 6. 2009, poslední aktualizace 26. 4. 2014. Obsah. Analýza kvantitativních dat (obecné principy) - PowerPoint PPT Presentation
Citation preview
Analýza kvantitativních dat I.
Popisné statistiky a explorační
jednorozměrná analýza Jiří Šafr
jiri.safr(zavináč)seznam.cz
poslední aktualizace 28. 2. 2015 (vytvořeno 29. 6. 2009)
UK FHSHistorická sociologie
(LS 2014+)
2
Obsah• Analýza kvantitativních dat (obecné principy)• Dva základní typy statistik / přístupy ve statistice• Připomenutí základních pojmů – typy znaků• Jednoduché popisné statistiky
→ třídění dat 1. stupně (jednorozměrná analýza):– Střední hodnoty: modus, medián, průměr– Variance-rozptýlení dat: rozptyl, směrodatná odchylka– Další míry variability-rozptýlení (rozpětí, kvantily, špičatost,
šikmost)• Střední hodnoty a míry variability v programu SPSS• Míry variability pro kategoriální proměnné (úvod):
– Směrodatná odchylka pro dichotomickou proměnnou– Variační poměr – v
• Vlastnosti rozdělení znaků• Ověření normality rozložení dat• Na co si dát v datech pozor• Standardizace na z-skóre
3
Analýza kvantitativních dat• Předmětem statistického zkoumání jsou
hromadné jevy: výskyt vlastností u velkého počtu prvků – statistických jednotek (osoby, organizace, události,…)
• Jejich vlastnosti vyjadřují statistické znaky (= proměnné): kvantitativní (číselné)/ kvalitativní (slovní).
• Získání dat pomocí šetření: - úplné-vyčerpávající- výběrové (pouze u části populace → výběrový soubor, který reprezentuje základní soubor)
[Cyhelský, Hustopecký, Závodský 1978]
4
Dva základní typy statistiky/ přístupy ve statistice
1. Popisná statistika: metody pro zjišťování a sumarizaci informací → grafy, tabulky, popisné charakteristiky (průměr, rozptyl percentily,..). Cílem je explorace – průzkum dat.
2. Inferenční statistika (statistická indukce): metody pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z jejího výběru (odhad parametru na základě výběru z populace).Cílem je ověřování hypotéz.
Proces analýzy dat musíme promyslet již ve stadiu plánování dotazníku
(modelu vztahů a hypotéz).
Nejprve malé připomenutí základních pojmů
7
Základní pojmy• Populace• Základní soubor• Výběrový soubor (vzorek)• Datový soubor• Znak
• Třídění dat (jedno a vícestupňové)• Absolutní četnost• Relativní (poměrná) četnost• Kumulativní četnost• Střední hodnota• Distribuce (rozdělení) hodnot proměnné
8
Typy znaků – proměnných Kategoriální:
Nominální– Kategorie jsou rovnocenné (na úrovni jmen) – př.: pohlaví, jména, typ rodiny, barva vlasů, profese
Pořadové (ordinální)– Kategorie lze seřadit do hierarchie– Lze se ptát: vyšší/nižší apod., ale ne o kolik
např.: spokojenost, stupeň souhlasu
Kardinální (intervalové/poměrové):• číselné proměnné
lze se ptát větší/ menší a o kolikpř.: věk, příjem, počet dětí
→ Různé typy znaků vyžadují v analýze odlišné přístupy (statistické míry).
9
Typy znaků – proměnných z hlediska úrovně měřeníDichotomický Vícekategoriální
(polynomický)př: Kraj
Kategoriální
(kategorizované)
Kardinální – číselné (numerické)
Zdroj: adaptováno podle [Babbie 1995: 137]
10
Kardinální znaky/proměnné
Kardinální znaky rozlišujeme na:• a) intervalové – nemají přirozený
počátek: obsahový smysl má rozdíl ale nikoliv podílPříklad: „Dnes je o 10 st. C tepleji“, ale ne „o 25% tepleji.“ / IQ nemá nulu
• b) poměrové – mají přirozený počátek (0 má význam), tudíž lze uvažovat i podíl.Příklad: „nulové“ i „dvojnásobné tržby“
11
Nominální znaky/proměnnéNominální znaky rozlišujeme na:• a) více-kategoriální – mají tři a více hodnot
(např. rodinný stav: svobodný/ná; ženatý/á; rozvedený/á; vdovec/vdova) Z hlediska analýzy jsou nejobtížněji analyzovatelné a výsledky interpretovatelné.
• b) dichotomické – mají jen dvě hodnoty lze je kódovat 0/1: 0 má význam jev nenastal; 1 jev nastal
(např. proměnná žena: 1 = žena a 0 = muž(+ostatní)) Z hlediska analýzy mají určité výhody (např. pravděpodobnost (tj. %) odpovídá průměru)
• Více-kategoriální lze převést na sadu dichotomických proměnných (tzv. dummy
znaky).
12
ProměnnáPřípady
(respondenti)
Hodnotyproměnné
Existují různé typy dat (datových matic), pro nás bude základníDvourozměrná datová matice (2-way data): PŘÍPADY × PROMĚNNÉ
13
Data 2-way: PŘÍPADY × PROMĚNNÉ • Person is the ‘‘object’’ and level of education is the ‘‘attribute’’ for
which the researcher wants a value assigned to each object.• (Nejen) v SPSS se lze setkat se 2 základními typy 2-way dat (někdy
označovaná také jako „SPSS data“), tj. data uspořádaná tak, že případy jsou v řádcích, proměnné ve sloupcích: – Individuální mikrodata – data kde případy jsou individuální
pozorování, nejčastěji respondenti, ale např. také novinové článkyPříklad: Důvěra lidí v prezidenta (informace o hodnotě proměnné u každého respondenta).
– Agregovaná data – individuální data sloučená za určitou vyšší organizační jednotku (např. školy, regiony nebo státy) většinou sumované z individuálních údajů
Ty mohou mít dále různou podobu– Kombinovaná individuální mikrodata s kontextuálními daty
(buď na agregované úrovni nebo jako kontext společný určité skupině individuí např. z oficiálních statistik nebo jiné formy výzkumu).
– Individuální mikrodata s opakovaným měřením v panelové studii.
Existují ale i jiné typy – uspořádání dat, která lze analyzovat, mj.: tabelární data (např. kontingenční tabulka), distanční data (např. korelační matice), časové řady a dal.
Jednoduché popisné statistiky
třídění dat 1. stupně:
•Střední hodnoty
•Míry variability
15
Střední hodnoty:
• nominální znaky → modus• ordinální znaky→ medián
(aritmetický průměr)
• intervalové znaky → aritmetický průměr
• Pomocí „jednoho čísla“ vyjadřujeme vlastnost znaku → typická hodnota datové řady
16
• Modus (Mo) = kategorie s největší četnostíNelze s ním provádět žádné algebraické operace. Může existovat i více modálních kategorií.
• Medián (Me) = hodnota, která je ve prostředku všech pozorování seřazených podle hodnotnebo jinak řečeno: Hodnota proměnné, před níž je polovina pozorování majících menší hodnotu a za níž je druhá polovina pozorování majících větší hodnotu než má medián. Při sudém počtu hodnot: průměr dvou prostředních hodnot.
_
• Aritmetický průměr (X) = součet hodnot dělený počtem pozorování
_• Pro symetrické rozložení hodnot je Mo = Me = X
Základní střední hodnoty (míry centrální tendence)
17
Modus (mode)
[Babbie 1995]
18
Medián
[Babbie 1995]
Poznámka: zde je důležité, aby hodnoty znaku byly seřazeny.
Máme 31 případů (žáků) seřazených podle věku, tj. medián je uprostřed (16. žák): 50 % případů je pod a 50 % nad ním.
Zde je medián zároveň modusem i průměrem.
19
Průměr
[Babbie 1995]
20
Střední hodnoty a jejich limity• Střední hodnota → popis rozložení hodnot znaku
„pomocí jednoho „typického“ čísla“ – těžiště uspořádání hodnot znaku
• To má pochopitelně limity:- jedno číslo k popisu znaku většinou nestačí (málokdy mají všechny případy přibližně stejnou hodnotu)
- neříká nic o variabilitě – rozptýlení dat- moc se nehodí pro kategoriální znaky (→ místo modusu ukazujeme raději celou distribuci hodnot v %)
Proto je vždy používáme zároveň s údaji o variabilitě, rozptylu → “kvalitativní“ informace
21
Základní charakteristiky variability → „Kvalitativní“ charakteristika středních hodnot (u kardinálních-číselných znaků)
• Rozptyl = střední hodnota kvadrátů odchylek od střední hodnoty
• Směrodatná odchylka = odmocnina z rozptylu náhodné veličiny (na rozdíl od rozptylu je v původních jednotkách proměnné)
• Výběrová směrodatná odchylka (dtto ale ve výběrovém souboru → malinká úprava ve vzorci, logicky jde o odmocninu z výběrového rozptylu)
• Jak uvidíme dále variabilitu hodnot proměnné lze popsat i podrobněji pomocí dalších měr.
22
Charakteristiky variability kardinálních znaků: Rozptyl a Směrodatná odchylka
Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na „kvalitu“ průměru.
Rozptyl (σ2) = součet kvadratických odchylek od průměru dělený rozsahem výběru (pokud jde o
výběrový soubor tak navíc zmenšeným o 1) (anglicky Variance)
Směrodatná odchylka (σ) = odmocnina z rozptylu (anglicky Standard Deviation – STDDEV)
Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty vyjádřená v původních hodnotách, v nichž proměnnou měříme (např. u věku v letech). Naproti tomu samotný rozptyl je bezrozměrný a špatně se tak interpretuje.
Existují také míry variability pro kategoriální (nominální) znaky, viz dále.
23
Výpočet směrodatné odchylky
Máme pozorování:2 5 4 3 1 8 2 6 2 7součet řady = 40; počet případů n = 10; průměr = 40/10 = 4odchylky od průměru (X=4):-2 1 0 -1 -3 4 -2 2 -2 3(součet odchylek je 9 – 9 = 0)čtverce odchylek:4 1 0 1 9 16 4 4 4 9 součet čtverců odchylek = 52průměrná čtvercová odchylka tj. rozptyl σ2= 52/10= 5,2směrodatná odchylka (odmocnina z rozptylu) s = 2,28Existují dva vzorečky: pro populační směrodatnou odchylku (zde – pro celou populaci) a pro výběrovou, tj. jen pro vzorek z populace, v níž je ve jmenovateli místo „n „n-1“.
pozorování: 2 5 4 3 1 8 2 6 2 7
odchylky od prům.: -2 1 0 -1 -3 4 -2 2 -2 3
čtverce odchylek 4 1 0 1 9 16 4 4 4 9
24
Výpočet směrodatné odchylky (př. 2)
Příklad 2. Máme pozorování:2 5 4 3 1 8 2 6 2Součet řady = 33; n = 9; průměr = 33/9 = 3,66odchylky od průměru:-1,66 1,34 0,34 -0,66 -2,66 4,34 -1,66 2,34 -1,66součet odchylek je = 0čtverce odchylek:2,76; 1,80; 0,12; 0,44; 7,08; 18,84; 2,76; 5,48; 2,76součet čtverců odchylek = 42,04
průměrná čtvercová odchylka tj. rozptyl = 42,04 /9= 4,67směrodatná odchylka (odmocnina z rozptylu) = 2,16
Obdobné jako předchozí příklad, ale vynechali jsme jedno – poslední pozorování (n=9).
25
Příklad k procvičení DATA: Věk AKD1 LS 2012
Porovnejte střední hodnoty (průměr, medián) a směrodatnou odchylku u skupin studentů z Denního a Kombinovaného studia
Denní232524232423222322
Kombinované
333048253146493826282631
26
Směrodatná odchylka v Excelu
STDEVPA pro základní souborSTDEVA pro výběrový soubor
V SPSS je výpočet pro výběrovou směrodatnou odchylku StD (tj. pro vzorek z populace).
27
Další popisné statistiky - variabilitaPro kardinální (číselné) proměnné• Minimum / maximum• Rozpětí (= max - min)
• Kvantily: dolní a horní kvartil → mezikvartilové rozpětí(jsou ale jiné členění do stejně početně zastoupených skupin, např. tercily (33 % / 33 % / 33 %), decily (10 % / 10 % …)
• Koeficienty šikmosti (Skewness)• Koeficienty špičatosti (Kurtosis)• Variační koeficient (= podíl směr.odchylky a průměru)
Pro kategoriální proměnné• míry variability (variační koeficient a jeho
varianty) – viz AKD II. 9. Míry variability: variační koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt
28
Různé typy proměnných a odpovídající popisné statistiky(střední hodnoty, míry variability, grafy, …)
Zdroj: [Rachad 2003: 81].
29
Střední hodnoty a míry variability v SPSS
K dispozici máme více možností, např. pomocí příkazů: FREQUENCIES, MEANS, DESCRIPTIVES a EXAMINE.
FREQUENCIES vek /STATISTICS MEAN STDDEV MEDIAN MODE.
*průměr, směrodatná odchylka, medián a Modus (v rámci STATISTICS) + tabulka frekvencí (počty a %), kterou lze vypnout pomocí přidání /FORMAT NOTABLE.
MEANS vek /CELLS MEAN STDDEV MEDIAN COUNT. *průměr, směrodatná odchylka, medián a počet platných případů.
DESCRIPTIVES vek.*průměr, směrodatná odchylka, počet platných případů; vhodné pro porovnání
hodnot u více proměnných (bohužel neumí medián).
EXAMINE vek /PLOT NONE.*velké množství statistik pro střední hodnoty a variabilitu, zde (PLOT NONE) bez grafů.
30
Střední hodnoty a míry variability v SPSS (output)
Explore
MeansFrequencies
Descriptives
31
Směrodatná odchylka pro dichotomickou proměnnou (podíl)• Variance = p*q kde p (resp. q) je pravděpodobnost (tj. p = % / 100).
• Směrodatná odchylka = √p*q nebo √p(1-p)
Příklad:p = 0,29 q = 0,71
StD = √0,29*0,71 = 0,45 Pokud máme hodnoty dichotomické proměnné kódovány jako 0/1 (např. 0=nepracuje, 1=pracuje), pak lze v SPSS použít výpočet pro kardinální znak, např. Descriptives (vzorec není ale stejný – výsledek se může nepatrně lišit).
Poznámka: Všimněte si, že hodnota rozptyl/StD je zcela závislá na hodnotě parametru (%).
32
Kvantily• Kvantily (obecně) → členění do stejně početně
zastoupených skupin• Tercily: tři skupiny (33 % / 33 % / 33 %)
• Decily: deset skupin (10 % / 10 % …)
• Kvartily: čtyři skupiny (25 % / 25 % / 25 % / 25 %)
→ mezikvartilové rozpětí: rozdíl horního a dolního kvartilu (x75 – x25)
• Zobrazujeme je (spolu s mediánem) v Boxplotu → jejich poloha ukáže na zešikmení (čím blíže je H nebo D kvartil k mediánu, tím větší zešikmení)
• Určení kvantilů v SPSS pomocí NTILES: FREQUENCIES vek /NTILES (4). *číslo v závorce určuje, pro kolik stejných skupin chceme určit hranice hodnot (na jejich základě můžeme dále rekódovat kardinální-spojitý znak na ordinální-kategoriální).
33
Boxplot – vousaté krabičky: vizualizace distribuce
KVARTILY dělí statistický soubor na desetiny: dolní Q0,25 (Q1) a horní Q0,denní5 (Q3)
Interkvartilové rozpětí:
HH = horní kvartil + 1,5 násobku interkvartilového rozpětí
DH = dolní kvartil + 1,5 násobku interkvartilového rozpětí
34
Variabilita hodnot u nominálního znakuNa rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává).
Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).
35
Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků), zde jen úvod (v, D)
pro nominální proměnné:• Variační poměr – v• Nominální rozptyl – D (nomvar) (~ Giniho koeficient)
→ relativní počet všech dvojic, které nejsou ve stejné kategorii
• Normalizovaný nominální rozptyl (norm. nomvar nebo IQV)
• Entropie – H• Normalizovaná entropie – H*
pro ordinální proměnné: • Ordinální rozptyl - dorvar Variační koeficient a jeho varianty – viz AKD II. 9. Míry variability: variační
koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt
• Viz také http://iastat.vse.cz/Nominalni.html
36
Vlastnosti měr variability kategoriálních znaků
• Čím vyšší hodnota tím vyšší heterogenita souboru
• Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita
• Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita
• Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor.
Zdroj: [Řehák, Řeháková 1986: 66-69]
37
Variační poměr – v• Nejjednodušší míra variability.
• Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou.
• Výhodou v je jednoduchost výpočtu.
• Nevýhodou v je, že je založeno pouze na modální četnosti (normvar – D je pracnější,ale odráží celou strukturu tabulky).
Zdroj: [Řehák, Řeháková 1986: 66]
38
Příklad: Variační poměr – v (DATA)
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
39
Příklad: Variační poměr – vZpůsob získávání denního tisku u pravidelných
čtenářů, pro Periodikum J (N = 1289)
Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku
48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9
modus 0,483 (= Předplácí) absolutní četnost 56,028v 0,517 = 116 * 0,483
v = 1 – (56,028 / 116) = 0,517
Zdroj: [Řehák, Řeháková 1986: 68-69]
lze spočítat v Excelu:
V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).
Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).
40
Nominální variance (nomvar)Index diversity (D)
• nomvar nebo D
• Kde: p – podíl pozorování v dané i-té kategorii
→ podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také
→ pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií.
Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích.
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
Více k varianci kategoriálních znaků v AKD II.
http://metodykv.wz.cz/AKD2_variacni_koef.ppt
SPSS míry variability pro kategoriální proměnné neumí, ale na již hotovou tabulku (FREQUENCIES) lze v outputu použít skript Míry variability pro kategorizované proměnné
http://acrea.cz/cz/skripty/mira-variability
Vlastnosti rozdělení znaků
popisná statistka pro kardinální znaky v grafickém znázornění
43
Symetrie, variabilita
[Hanousek, Charamza 1992: 21]
Vlastnosti rozložení hodnot znaku, jsou dány střední hodnotou (průměrem) a rozptylem hodnot
44
Bimodální (dvouvrcholové) rozložení
• Proměnnou nejlépe reprezentují dvě střední hodnoty (průměry).
Zdroj: [Howell 2011: 52]
45
Šikmost a špičatost
[Hanousek, Charamza 1992: 21]
→ odchylky od symetrie (šikmost) a variability (špičatost/plochost)
46
Normální rozložení hodnot a směrodatná odchylka
http://www.stat.tamu.edu/~west/applets/normaldemo1.html
Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace) potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru (gaussovy křivky).
Platí, že v ploše pod křivkou vymezené +/- 1 směrodatnou odchylkou od průměru je 68 % případů (cca 2/3).
Rozložení hodnot (tvar křivky) je dán průměrem a rozptylem.
Zde jde o normované (standardizované) normální rozdělení, kde μ=0 a σ=1
47
A k čemu variance–variabilita dat (směrodatná odchylka) je?
• Směrodatná odchylka ukazuje na to, jak „kvalitně“ popisuje průměr data. (nulová STDEV = všechny případy mají stejnou hodnotu, tj. průměr)→ uvádíme-li průměr, tak vždy uvedeme i směrodatnou odchylku (StDev)
• Distribuci hodnot – varianci v datech musíme věcně interpretovat (StdDev, míry šikmosti, percentily, …).
• Před výpočty u numerické proměnné (korelace, průměr, …) ověřujeme rozložení hodnot, zda se (výrazněji) nevychyluje od normálního rozložení.
A pro výběrová data, tj. náhodný(!) vzorek z populace platí:• Normální rozdělení je vlastně zákonem chyb měření (a to i
těch o nichž nevíme, tj. přímo jsme je neměřili). A na tom jsou postaveny principy inferenční statistiky (testování hypotéz).
• Směrodatná odchylka slouží k výpočtu Standardní chyby (S.E.) → kvantifikace chyb měření (výběrové chyby)
48
Význam variance hodnot znaků• Zjednodušeně řečeno:
naším záměrem je, aby v datech–proměnné byla „dostatečná“ variabilita (tj. proměnlivost hodnot), která bude nenáhodná, tj. budeme ji schopni (většinou pomocí dalších „nezávislých“) proměnných vysvětlit.
• Pokud je variabilita prakticky nulová (či pouze náhodná), pak není co vysvětlovat (to v podstatě platí i, pokud je naopak extrémně vysoká).
• A abychom v datech dosáhli „dostatečné“ variability, to je úkol již pro přípravné fáze výzkumu (formulace modelu vztahů (výzkumných otázek/hypotéz) → rozhodnutí o zahrnutí indikátorů/proměnných, jejich operacionalizace, stanovení jednotek sběru dat a analýzy, velikosti a metodě výběru …).
Na co si dát v datech dát pozor
Variance a střední hodnoty
50
Vzájemná poloha průměru a mediánu
51
Průměr a rozptyl nejsou všechno!Ve všech čtyřech případech je stejné:maximum 170průměr 85směrodatná odchylka 25,8
Výsledek testu (interval hodnot)
případ 1
případ 2
případ 3
případ 4
20-29 1 - - -
30-39 4 2 - -
40-49 6 5 12 -
50-59 8 10 12 34
60-69 10 16 12 12
70-79 16 17 12 6
80-89 18 18 12 4
90-99 16 12 12 6
100-109 10 10 12 12
110-119 8 7 12 34
120-129 6 5 12 -
130-139 4 3 - -
140-149 1 1 - -
150-159 - 1 - -
160-169 - 1 - -
šikmost 0,00 0,57 0,00 0,00
špičatost -0,43 0,18 -1,23 -1,77
Zdroj: [Hanousek, Charamza 1992: 38-39]
52
Variabilita rozložení hodnot - doporučení
kardinální znaky• Průměr a směrodatná odchylka nestačí, uvádějte ještě
alespoň medián (vztah průměru a mediánu ukazuje na směr vychýlení)
• Grafické znázornění variability → Histogram (případně boxplot)
• Pokud chceme variabilitu popsat čísly: Koeficienty šikmosti (Skewness) a špičatosti (Kurtosis) nebo mezikvartilové rozpětí (rozdíl horního a dolního kvartilu)
• Vždy věnujeme nejprve pozornost extrémním hodnotám.kategoriální (nominální) znaky• Tabulka frekvencí (s %)
nebo graficky → Barchart
53
Ověření normality rozložení dat• Histogram → vizuálně orientačněPodrobněji a přesněji:• Q-Q graf (quantile-quantile): ukazuje kvantily
pozorované distribuce proměnné proti kvantilů zvolené distribuční funkceNormálně rozložená data → přímkový charakterv SPSS: Analyze, Descriptive statistics, Q-Q plots
• Kolmogorov-Smirnov test: H0 = data jsou normálně rozložena, Pozor na interpretaci výsledku: nízké! p (< 0,05) → distribuce dat se statisticky signifikantně lišší od normální distribuce. v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S...
• Dojde-li k porušení normality rozložení → rekódování, transformace (např. logaritmická), použití neparametrických metod
54
Rozložení četností a Q-Q graf
55
Standardizace na z-skóre odstranění původní metriky u kardinálních-číselných znaků
• Z – skóry: průměr X=0 a StD =1V transformované proměnné je aritmetický průměr roven
nule a směrodatná odchylka je jedna.
• Odchylka od průměru / směrodatnou odchylkou:
• Od každého pozorování odečteme průměr a vydělíme směrodatnou odchylkou.
• z-skóre = kolik standardních odchylek je danná hodnota vzdálena od střední hodnoty (aritmetického průměru)
• Většina nově transformovaných hodnot je v rozmezí od -3 do 3.
→ umožňuje porovnat znaky s odlišnou metrikou.
56
• V SPSS jednoduše pomocí Descriptives přidáním SAVE:
DESCRIPTIVES var1 /SAVE.
• V datech vznikne proměnná automaticky pojmenovaná Zvar1 (v Labelu je uvedeno „Zscore:“ a původní pojmenování)
• Pozor: Proměnná musí mít přibližně normální rozložení! (kontrolujeme aspoň vizuálně pomocí Histogramu) Pokud ne, pak lze transformovat na percentily.
• Existují i jiné principy standardizace dat, např. přímá standardizace.
Standardizace na z-skóre
57
Některé webové nástroje pro analýzuIndex of On-line Stats Calculatorshttp://www.physics.csbsju.edu/stats/Index.html
• Exact r×c Contingency Table:http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html
• Statistical Calculations• http://statpages.org/
• R. Webster West appletshttp://www.stat.tamu.edu/~west/http://www.stat.tamu.edu/~west/ph/
Učebnice:Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy
http://www.stahroun.me.cz/interstat/Statnotes: Topics in Multivariate Analysis, by G. David Garson
http://faculty.chass.ncsu.edu/garson/PAdenní65/index.htmStatSoft - Elektronická učebnice statistiky (anglicky)
http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31http://www.statsoft.com/textbook/
Více na webu v sekci Webové nástroje pro analýzu dat
www.metodykv.wz.cz/index.htm#webnastroje
Nejprve se ptej, k čemu analýza tvá má sloužit,
potom teprv výběrem metody dej se soužit.
[Hanousek, Charamza 1992 : 61]
Jednorozměrnou analýzou tj. tříděním dat prvního stupně
(univariate analysis) to teprve vše začíná …
→ dvourozměrná (a vícerozměrná) analýza,
elaborace vztahů …A navíc, pokud máme výběrová data → inferenční statistika (intervalové odhady, statistické testování
hypotéz, …)
60
Literatura• Babbie, E. 1995. The Practice of social Research. 7th
Edition. Belmont: Wadsworth. → kapitola 15 – Elementary Analyses.
• de Vaus, D., A. (1985) 2002. Surveys in Social Research, Fifth Edition. St Leonards NSW: Allen & Unwin / London: Routledge. → kapitola 13 – Univariate analysis.
• Disman, M. 1993. Jak se vyrábí sociologická znalost. Praha: Karolinum. → kapitola 8 – Já ti to spočítám aneb statistika pro úplně beznadějné případy (jen do st. 195).
• Hanousek, Charamza. 1992. Moderní metody zpracování dat. Matematická statistika pro každého. Praha: Grada.
• Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.
• Howell, D. C. 2014. Fundamental Statistics for the Behavioral Sciences. Belmont: Wadsworth.