109
Základné pojmy a štatistická terminológia Deskriptívna štatistika Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

Základné pojmy a štatistická terminológia

Embed Size (px)

DESCRIPTION

Základné pojmy a štatistická terminológia. Deskriptívna štatistika. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. Sebahodnotenie. - PowerPoint PPT Presentation

Citation preview

Page 1: Základné pojmy a štatistická terminológia

Základné pojmy a štatistická terminológia

Deskriptívna štatistika

Iveta WaczulíkováPeter Slezák

Fakulta matematiky, fyziky a informatiky UK

Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

Page 2: Základné pojmy a štatistická terminológia

Sebahodnotenie1. Kedy použijete štandardnú (smerodajnú) odchýlku SD

(standard deviation) a kedy strednú chybu priemeru SEM (standard error of mean)?

2. Aký je rozdiel medzi hladinou významnosti alfa a pravdepodobnosťou p (p – value)?

3. Ako je formulovaná nulová (výskumná) hypotéza a (komplementárne) ako alternatívna?

4. 5. Aké sú predpoklady použitia studentovho t – testu a

čo sa tu testuje?6. Aký je rozdiel medzi koreláciou a lineárnou regresiou?7. Aký je rozdiel medzi senzitivitou a špecificitou

diagnostického testu?8. Aký je rozdiel medzi pomerom šancí OR (odds ratio) a

pomerom rizík RR (risk ratio)?

Page 3: Základné pojmy a štatistická terminológia

Namiesto úvodu

Sidney Harris http://www.sciencecartoonsplus.com/index.htm

http://www.hsl.unc.edu/Services/Tutorials/EBM/

Page 4: Základné pojmy a štatistická terminológia

Úvod do metodológie medicínskeho výskumu

Výskumný zámer a experimentálny / klinický dizajn

Pátrame po efekte (o ktorom máme východiskovú predstavu)

Page 5: Základné pojmy a štatistická terminológia

Efekt

• Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte.

• Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne.

• Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej procedúry

• Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.

Page 6: Základné pojmy a štatistická terminológia

• V biológii, medicíne (a iných vedách) výsledok náhodného pokusu je vyjadrený reálnym číslom

• Tieto čísla vytvárajú reálne náhodné veličiny (premenné)

• Ako často konkrétne hodnoty náhodnej veličiny nastávajú, je matematicky exaktne popísané – rozdelenie pravdepodobnosti

• Rozdelenie pravdepodobností môžeme popísať pomocou – distribučnej funkcie; funkcie hustoty rozdelenia pravdepodobnosti (u spojitej veličiny)

Page 7: Základné pojmy a štatistická terminológia

Vzťah pravdepodobnosti ku skutočnosti, rozdelenia pravdepodobností

Náhodný pokus je pokus konaný za presne definovaných podmienok, výsledok pokusu je dopredu neistý, ale opakovaním pokusu zisťujeme stabilitu frekvencie výskytu možných výsledkov. Teoretický idealizovaný opis – model skutočnosti.

Náhodný jav je ľubovoľné tvrdenie o výsledku náhodného pokusu (jav nemožný, jav pravdepodobný, jav istý).Pravdepodobnosť môžeme formálne zaviesť tak, že každému z elementárnych javov j priradíme nezáporné číslo pj tak, že ich súčet je rovný jednej.

Náhodná veličina je všeobecne funkcia, ktorá každému elementárnemu javu priradí hodnotu X() z nejakej množiny možných číselných hodnôt. Pre náhodnú veličinu X tvorí zoznam „dvojíc“ hodnôt x*

j a pj (j=1...m) rozdelenie pravdepodobností náhodnej veličiny X (diskrétne alebo spojité).

Page 8: Základné pojmy a štatistická terminológia

Užitočné vedieť

„Likelihood is the hypothetical probability that an event that has already occurred would yield a specific outcome. The concept differs from that of a probability in that a probability refers to the occurrence of future events, while a likelihood refers to past events with known outcomes.“ (Fisher)

Page 9: Základné pojmy a štatistická terminológia

Otázka na niečo, čo vieme ZMERAŤa vyjadriť číslom (skórami)

Rešerš, predbežné experimenty

Výskumná hypotéza – kvalifikovaný odhad o tom, ako fungujú veci.

Schéma experimentu, „logistika“.Plánujeme potrebný počet nezávislých pokusov, ktoré môžeme spresniť opakovaním („paralelky“).V experimente testujeme,či dáta podporujú hypotézu.Najlepšie tzv. „fér testom“ – menímelen jeden faktor (NZ premenná)za konšt. podmienok (kontrolné faktory sú konštantné).

Vyhodnotenie dátového súboru: deskripcia,testovanie štatistických hypotéz, Formulovanie záverov, nových hypotéz

Záverečná správa, prezentácie, publikácie= nezávislé kritické posúdenie výsledkov

Page 10: Základné pojmy a štatistická terminológia

Výskumné otázky vedú k testovaniu štatistických hypotéz

Page 11: Základné pojmy a štatistická terminológia

Hypothesis tests are procedures for making rational decisions about the reality of effects.

Väčšina rozhodnutí v živote vyžaduje výber jednej z viacerých možných alternatív. Takéto rozhodnutie je urobené bez znalosti toho, či je korektné alebo nie; teda je založené na nekompletnej informácii.

Racionálne rozhodovanie (decízia)

je charakterizované použitím procedúry, ktorá do rozhodovacieho procesu včlení šancu/pravdepodobnosť (likelihood/probability) nastatia daného javu (napr. úspechu liečby).

Procedúra musí byť zostavená takým spôsobom, aby každý, kto použije rovnakú informáciu, dospel k tomu istému rozhodnutiu.

Page 12: Základné pojmy a štatistická terminológia

• Predpoklady úspešného výskumu:komunikujem so školiteľom/vedúcim tímu,mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a hypotézy,viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to potvrdíme)

• Mám kvalitný dizajn experimentálnej (klinickej) štúdie:- viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele),- viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod (efekt, koncový bod), viem, ktoré musím zmerať a zaznamenať pre môj model, viem, aké typy analýz dát potrebujem vykonať- mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie a vylučovacie kritériá, spôsob priradenia do skupín,- mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa efektu alebo podľa „najhoršieho scenára“

• Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej veterinárnej správy (štúdia na zvieratách)

• Mám svedomito zmerané (zozbierané) dáta a pripravenú databázu (zakódované subjekty, označené skupiny, formát a kontrola dát (filtrovanie dát), usporiadanie...

Page 13: Základné pojmy a štatistická terminológia

definícia vedeckého problému

ako znie pracovná hypotéza?

výber štatistického testu

výber skúmanej vzorky

zbieranie údajov

použitie vhodného testu

rozhodnutie o výsledku

Page 14: Základné pojmy a štatistická terminológia

Základné štatistické pojmy – vysvetlenie

Štatistický súbor je neprázdna konečná množina objektov, ktoré majú spoločné vlastnosti. Rozsah súboru n je počet všetkých prvkov množiny. Štatistické jednotky alebo prvky štatistického súboru sú prvky zvolenej množiny. Štatistické údaje (dáta) sú kvantitatívne údaje zistené skúmaním hromadných javov. Štatistický znak je spoločná vlastnosť štatistických jednotiek (značí sa obvykle x). Hodnoty znaku - jednotlivé údaje znaku - označíme x1, x2 ... x3

Delenie znakov - kvantitatívne a kvalitatívne Zisťovanie hodnôt volených znakov v určitom štatistickom súbore sa nazýva štatistické šetrenie.

Page 15: Základné pojmy a štatistická terminológia

Praktické použitie štatistiky v dvoch rovinách

• Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl.

Grafická prezentácia rozdelenie dát rozdelenie

pravdepodobností (štatistické rozdelenie)

a

• Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti.

Page 16: Základné pojmy a štatistická terminológia

Populácia (základný súbor)- konečný rozsah- nekonečný rozsah

Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma.

Page 17: Základné pojmy a štatistická terminológia

• základný súbor-populácia

• parameter• pravdepodobnosť

• populačný priemer (reprezentatívna hodnota parametra)

• populačná smerodajná odchýlka (premenlivosť parametra v populácii)

• výber zo základného súboru(náhodný výber)

• odhad parametra (štatistika)

• relatívna početnosť (ni/N)

• výberový priemer

• výberová smerodajná odchýlka

Populácia a výber – vysvetlenie pojmov

Page 18: Základné pojmy a štatistická terminológia

Pohľad na svet prostredníctvom dát

J. R. Statist. Soc. A (2011), 174, Part 2, pp. 247–295

Page 19: Základné pojmy a štatistická terminológia

Populačný parameter sa snažíme odhadnúť na základe deskripcie výberu z populácie. Presnosť odhadu závisí od kvality experimentálneho dizajnu (metóda výberu, jeho veľkosť (početnosť), merané alebo zaznamenávané charakteristiky apod.

Výber (z populácie)– Reprezentatívny výber – výber, kt. dobre odráža

štruktúru skúmanej populácie– Selektívny výber (nereprezentatívny) – dáva

skreslený výber o študovanej populácii– Zámerný výber - presnosť zovšeobecňujúcich

záverov sa opiera o expertné hľadisko (skôr ako o štatistickú metodológiu)

Page 20: Základné pojmy a štatistická terminológia

Náhodný výber

• Prostý• Mechanický (systematický)• Oblastný (stratifikovaný)• Skupinový• Viacstupňový

• Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru

Page 21: Základné pojmy a štatistická terminológia

Premenné/znaky (variables)Aby sme mohli matematické uvažovanie aplikovať na klinický obraz pacienta,

MRI, CT, EKG, bezpečnosť (safety profile), terapeutický účinok (efficacy trend), účinnosť terapeutického postupu (effectiveness)... musia byť redukované na premenné: Merania: teplota, TK … Počty: WBC, ... Skóre: Papanicolaou, Karnofsky, EDSS, Kurtzke... Binárne: úspech success / neúspech failure (čoho) ...

Pojem NÁHODNÁ PREMENNÁ

Page 22: Základné pojmy a štatistická terminológia

Premenné – základné definície• Premenná• všeobecnejšie ju možno definovať ako veličinu, ktorá môže

nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení.

• Typy premenných: • Číselné premenné – (možno zmerať)• spojité (koncentrácia onkomarkera) a intervalové (vek)• Vyznačujú sa reprezentatívnou (strednou) hodnotou

(najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu)

• Kategorické premenné (možno zaradiť)• Nominálne – klasifikujú nejakú vlastnosť (genotyp) • Ordinálne – určujú stupeň vlastnosti (cancer staging).

Charakterizujú sa početnosťami (%) v jednotlivých kategóriách

Page 23: Základné pojmy a štatistická terminológia

• závislé premenné – ich hodnoty môžeme len zmerať alebo registrovať (experimentátor nemá vplyv na to, akú hodnotu prijmú, napr. registrujeme, ako sa objekt zachová na zmenu zadanú experimentátorom). Časté v observačných štúdiách. • nezávislé premenné – ich hodnoty môžeme počas experimentu nastaviť, alebo meniť (sú manipulované experimentátorom, alebo môže ísť o grupovanie-zaradenie do skupín podľa veku, pohlavia (stratifikácia) ap). Sú nezávislé od počiatočných podmienok, vlastností, „sklonov” skúmaných objektov. Časté v randomizovaných kontrolovaných štúdiách.

• (regresia)

Page 24: Základné pojmy a štatistická terminológia

Závislá vs. nezávislá premennápríklad predikčného modelu

Chi2 test dobrej zhody medzi experimentálnym a modelovým výsledkom pre df=48: nesignifikantný (P >0,999)Chi2 test maximálnej vierohodnosti modelu pre df=6: vysoko signifikantný (P < 0,0001)

logit y = - 0,38 - 0,24 x (vek) + 1,25 x (TD) - 7,30 x (SM grade) + 4,28 x (AVM skóre) - 7,04 x (embolizácia) + 1,42 x (iniciálna rýchlosť obliterácie)

Hraničný (cut-off) bod = 0,5  Senzitivita 92% Špecificita 94%Pomer pravdepodobností pravdivého odhadu 16,5Pozitívna predikčná hodnota testu je 97,14%. 

0 25 50 75 1000

25

50

75

100

1-špecificita

Senz

itivi

ta /

%

Page 25: Základné pojmy a štatistická terminológia

• Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom manipulujeme počas experimentu (kontrolujeme). V observačných štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom variability v sledovanej odpovedi (v závislej premennej).

• Pozadie (background, baseline, skresľujúce (confounders), modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme merať (identifikovať), ale nemôžeme ich kontrolovať. Ich zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do odpovede (hodnoty závislej premennej).

• Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych dôvodov ich držíme konštatntné počas trvania štúdie.

• Nekontrolovateľné (hard-to-change) premenné, premenné, o ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách, resp. Experimentálnej a kontrolnej skupine randomizovaným výberom a zaslepením - blinding).

Premenné-klasifikácia

Page 26: Základné pojmy a štatistická terminológia

Efekt - pripomenutie

• Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte.

• Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne.

• Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej procedúry

• Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.

Page 27: Základné pojmy a štatistická terminológia

Vzťahy medzi závislou a nezávislou premennou

A simple statistical mediation model

Page 28: Základné pojmy a štatistická terminológia

Confounding

Nosenie zápaliek

Rakovina pľúc

fajčenie

• „confounder“ = zavádzajúci faktor, je premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome)

Page 29: Základné pojmy a štatistická terminológia

Faktor potlačujúci efekt (suppressor)

Zástupný faktor (surrogate factor)

Faktor v príčinnej postupnosti (intervening factor)

Faktor modifikujúci účinok (mediating variable, modifier)

Page 30: Základné pojmy a štatistická terminológia

Vzájomne korelované faktory(problém multikolinearity)

Časovo-závislé faktoryich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania

Rizikový faktor

Efekt

Faktor(y) korelujúce s vybraným rizikovým f.

Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u detí apod.

Page 31: Základné pojmy a štatistická terminológia

Typ funkčnej závislosti premenných

• diskrétne premenné sa menia skokom a môžu prijímať len definované hodnoty celých/racionálnych čísel (typické pre nominálne a ordinálne veličiny, viď ďalej) • spojité premenné môžu prijať ľubovoľné hodnoty obvykle z definovaného intervalu reálnych čísel

Page 32: Základné pojmy a štatistická terminológia

 Mierka (úrovne

merania/pozorovania)

– nominálna, ordinálna, intervalová, pomerová

– diskrétna, spojitá (continuous)

Page 33: Základné pojmy a štatistická terminológia

• nominálna – zavedenie disjunktných kategórií (napr. binárna škála), ktoré vyčerpávajú všetky možnosti. Neporovnávame, len rozlišujeme (kódovanie slovných úrovní faktoru = hodnôt premennej)

• ordinálna – podobné požiadavky ako u nominálnej škály, ale naviac je usporiadaná (usporiadaný faktor).

• intervalová – ešte naviac predpokladá, že medzi susednými usporiadanými hodnotami škály sú v nejakom zmysle rovnaké vzdialenosti. Ide o rozdiel hodnôt. Nula nemusí znamenať neexistenciu vlastnosti/znaku.

• podielová (pomerná) – najkomplexnejší údaj, ktorý vyjadruje aj násobok predom definovaného jednotkového množstva. Nula znamená neexistenciu vlastnosti/znaku.

Page 34: Základné pojmy a štatistická terminológia

Vyjadrovacie prostriedky štatistiky

Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru

Grafy a tabuľky

Page 35: Základné pojmy a štatistická terminológia

Formát dát (simulovaná databáza)Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom

vstup: chirurgická intervenciavýstup: úmrtie

Kódovanie v programe StatsDirect:

Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)

Pacient Pohlavie(F=1)

Vek(roky)

Objem(čas 0)(cm3)

Perioperačnékomplikácie

(A=1)

GRADE(kumulovane

skore)

Závažnosť diagnozy (čas 0)

Time to event-death(mes)

Censordata

2 1 32 5,520 0 6 2 63 0

8 0 37 3,117 1 4 1 49 0

9 1 24 5,661 0 7 1 37 0

10 1 38 7,218 1 9 1 52 1

20 0 31 7,122 1 8 2 74 1

21 1 43 2,319 0 3 1 26 0

23 0 38 6,510 1 7 2 41 1

24 0 33 4,382 0 5 2 66 0

25 1 40 8,816 1 10 2 8 1

29 1 34 6,918 1 8 1 13 1

30 0 29 7,058 0 8 1 55 0

Page 36: Základné pojmy a štatistická terminológia

(Bio)medicínske dátové súboryŠtandardne: na tvorbu databázy za účelom výskumu je potrebný súhlas etickej

komisie. Analytikovi sa databáza odosiela BEZ identifikačných údajov pacienta. Prípady treba očíslovať a lekár musí pre seba zachovať zoznam s jednoznačným priradením. Kódy prípadov sú obvykle v prvom stĺpci.

Prvý riadok sú popisky meraných/pozorovaných alebo zaznamenaných charakteristík tak, aby boli JEDNOZNAČNE definované pre danú sadu údajov v stĺpci. Jeden znak / jedna charakteristika = jeden stĺpec. Prvý riadok obvykle „berú “ štat. programy automaticky ako hlavičku - pri zdvojených riadkoch a bunkách hlásia chybu)

Každý ďalší riadok sú údaje pre konkrétny prípad / subjekt. Ak nebolo meranie realizované, bunka sa označí * alebo ostane prázdna. Medzi používané skratky patrí n.a. (not applicable, N/A, značí sa aj „x“)

Kódy a dáta pacientov nasledujú za sebou BEZ PRERUŠENIA, ČI ZLUČOVANIA BUNIEK. Ak je viac skupín, napr. Patológia vs. Kontrola, v druhom stĺpci, hneď za číslom subjektu, je kód skupiny (môže byť aj text). Napr. 1 (aktívne liečený subjekt), 2 (placebo), prípadne ešte 3 (zdravá kontrola).

Alebo E (experimentálna skupina) vs. K (kontrolná skupina)Alebo O (operovaní), F (farmakologicky liečení) N (bez liečby) a podobne.

Databázu pred odoslaním analytikovi skontrolujeme – využívame exc. funkcie (filter)

Page 37: Základné pojmy a štatistická terminológia

Formát dát (simulovaná databáza)Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom

vstup: chirurgická intervenciavýstup: úmrtie

Kódovanie v programe StatsDirect:

Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)

Pacient Pohlavie(F=1)

Vek(roky)

Objem(čas 0)(cm3)

Perioperačnékomplikácie

(A=1)

GRADE(kumulovane

skore)

Závažnosť diagnozy (čas 0)

Time to event-death(mes)

Censordata

2 1 32 5,520 0 6 2 63 0

8 0 37 3,117 1 4 1 49 0

9 1 24 5,661 0 7 1 37 0

10 1 38 7,218 1 9 1 52 1

20 0 31 7,122 1 8 2 74 1

21 1 43 2,319 0 3 1 26 0

23 0 38 6,510 1 7 2 41 1

24 0 33 4,382 0 5 2 66 0

25 1 40 8,816 1 10 2 8 1

29 1 34 6,918 1 8 1 13 1

30 0 29 7,058 0 8 1 55 0

Page 38: Základné pojmy a štatistická terminológia

Grafické prezentovanie dát

- Praktické príklady

Page 39: Základné pojmy a štatistická terminológia

• A) kategorické dátagrafické alebo tabuľkové zobrazenie vybranej charakteristiky (znaku, premennej)

Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf, koláčový graf

Page 40: Základné pojmy a štatistická terminológia

Stĺpcové grafy

5,005,00

0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

VAS Z VAS K

Page 41: Základné pojmy a štatistická terminológia

Kumulatívne stĺpcové grafy

Muži Ženy0

10

20

30

40

50

60

70

80

90

100

Početnosti vo vekových kvartiloch

4.kvartil3.kvartil2.kvartil1kvartil

Page 42: Základné pojmy a štatistická terminológia

Koláčové grafy

Proporcie karcinómov

6; 8%

16; 22%

32; 45%

18; 25%

211

111

121

122

Page 43: Základné pojmy a štatistická terminológia

B) Intervalové a spojité dáta

• Prezentácia: - pre popisnú štatistiku:

ak máme malý počet dát (obvykle „n“ do 30): krabicový graf a „spread plot“ak máme vyššie počty: krabicový graf a histogram (obálka histogramu nám hovorí o pravdepodobnostnom rozdelení dát)

- Pre identifikáciu odľahlých (extrémnych) hodnôt: prednostne „spread plot“, vhodný aj krabicový graf (ďalej nasleduje test)

- Pre prezentovanie rozdielov medzi 2 a viac skupinami: stĺpcový graf, krabicový graf (pre vlastným testovaním rozdielov)

- Pre prezentovanie vzťahov medzi 2 premennými: XY graf = scatter, (pre vlastným testovaním vzťahov)

- Pre prezentovanie vzťahov medzi viac ako 2 premennými: tabuľka (matica) korelačných koeficientov

Page 44: Základné pojmy a štatistická terminológia

Priemer erytrocytov

0

5

10

Frequency

6,2 6,4 6,6 6,8 7,0 7,2 7,4 7,6 7,8 8,0 8,2 8,4 8,6

Mid-points for E

Histogram

Page 45: Základné pojmy a štatistická terminológia

Populačná pyramída

Page 46: Základné pojmy a štatistická terminológia

Krabicové grafy

Page 47: Základné pojmy a štatistická terminológia

Spread plot

20 25 30 35 40

pred

po

skóre testu

Page 48: Základné pojmy a štatistická terminológia

Bodové grafy95% Prediction Interval

0 5 10 15-20

0

20

40

60

Volume LV [cm3]

LFH [mm]

Page 49: Základné pojmy a štatistická terminológia

Spojnicové grafy

Page 50: Základné pojmy a štatistická terminológia

Ladder plot

20

25

30

35

40

pred po

Page 51: Základné pojmy a štatistická terminológia

Forest (Meta-Analysis)

Page 52: Základné pojmy a štatistická terminológia

ROC

Page 53: Základné pojmy a štatistická terminológia

Survival (K-M estimator)Survival Plot (PL estimates)

0 50 100 150 2000,00

0,25

0,50

0,75

1,00

Survivor

Times

Page 54: Základné pojmy a štatistická terminológia
Page 55: Základné pojmy a štatistická terminológia

Rozdelenia pravdepodobností náhodných premenných v biológii

Page 56: Základné pojmy a štatistická terminológia

Priemer erytrocytov

0

5

10

Frequency

6,2 6,4 6,6 6,8 7,0 7,2 7,4 7,6 7,8 8,0 8,2 8,4 8,6

Mid-points for E

Page 57: Základné pojmy a štatistická terminológia

Spojité rozdelenia pravdepodobnostíČastejšie sa používa iný popis chovania náhodnej veličiny – distribučná funkcia náhodnej veličiny X.

Distribučná funkcia udáva pravdepodobnosť, že náhodná veličina X neprekročí dané x. Pre spojité rozdelenie môžeme distribučnú funkciu zapísať ako integrál z hustoty f(x) nazývanej tiež frekvenčná funkcia.

Hodnota f(x) v bode x je úmerná pravdepodobnosti, že náhodná veličina (premenná) padne do blízkeho okolia tohoto bodu (nadobudne definovanú hodnotu- je to početnosť realizácií daného javu)• normálne

• Studentovo• chi2

• Fisher-Snedecoreovo• binomické• Poissonovo

Page 58: Základné pojmy a štatistická terminológia

Distribučná funkcia a hustota pravdepodobnosti

Page 59: Základné pojmy a štatistická terminológia

Distribučná funkcia(Cumulative

distribution function)

Funkcia hustoty pravdepodobnosti

(probability density function)

Page 60: Základné pojmy a štatistická terminológia

Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data 

within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.

Page 61: Základné pojmy a štatistická terminológia

-4 -2 2 4

0.1

0.2

0.3

0.4

-4 -2 2 4

0.1

0.2

0.3

0.4

Normálne rozdelenie

68,28%

95,45%

99,73%

- 3-3

z(/2)

Page 62: Základné pojmy a štatistická terminológia

Normované normálne rozdelenie

x

zSND,

Page 63: Základné pojmy a štatistická terminológia

Pravdepodobnosti výberu rôznych počtov mužov z celkového počtu 48 osôb (mužov a žien) vo výbere, ak uvažujeme parametrickú proporciu mužov rovnú 

0,5.

Page 64: Základné pojmy a štatistická terminológia

Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data 

within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.

Page 65: Základné pojmy a štatistická terminológia

Left: Frequencies of 5,000 numbers randomly generated to fit a distribution skewed to the right. Right: Frequencies of 5,000 numbers randomly 

generated to fit a bimodal distribution.

Page 66: Základné pojmy a štatistická terminológia

Kritické hodnoty (c) normálneho rozdelenia

1- 0,90 0,95 0,99 0,999

0,1 0,05 0,01 0,001

/2 0,05 0,025 0,005 0,0005

c=z(/2) 1,645 1,96 2,576 3,291

Výberový priemer je tiež normálne rozdelený (centrálna limitná veta)., preto pravdepodobnosť 1- je súčasne aj koeficient spoľahlivosti pre populačný priemer. Udáva hranice intervalu spoľahlivosti (confidence interval), ktorý má tvar: x c SE(x ) kde „c“ je kritická hodnota a

SE je stredná chyba výberového priemeru SE(x ) = n , čo je vlastne variabilita výberového priemeru, akú má pri opakovaných meraniach. SE charakterizuje presnosť, s akou (jeden) výberový priemer odhaduje príslušný populačný priemer. NIE JE MOŽNÉ JU POVAŽOVAŤ ZA MIERU VARIABILITY NÁHODNEJ VELIČINY „X“ V POPULÁCII.

Page 67: Základné pojmy a štatistická terminológia

Hustota rozdelenia u spojitého rozdelenia alebo predpis pre pravdepodobnosti jednotlivých hodnôt

u diskrétneho rozdelenia popisujú chovanie náhodnej veličiny ÚPLNE, ale príliš zložito.

Existuje nejaké číslo/čísla, ktoré v sebe sústreďujú čo možno najväčšiu informáciu o náhodnej veličine?

Hlavné popisné (deskriptívne) ukazovatele

Page 68: Základné pojmy a štatistická terminológia

Miery polohy (tzv.centrálna tendencia)

Hodnota okolo ktorej sa dáta sústreďujú -

„stred” dát

•stredná hodnota (aritmetická, priemer)• stredná hodnota geometrická• stredná hodnota harmonická• medián• modálna (modus)• minimum, maximum

Page 69: Základné pojmy a štatistická terminológia

Aritmetický priemer

• Vhodný pre kvantitatívne znaky merané na číselnej stupnici

• Nie ordinálne znaky• Citlivý na odľahlé hodnoty (nevhodný

pre šikmé „nenormálne“ rozdelenia)

n

iixn

x1

1

x

Page 70: Základné pojmy a štatistická terminológia

Medián

• ak sú dáta usporiadané vzostupne/zostupne, rozdelí ich na dve rovnako veľké skupiny

• Kvantitatívne a ordinálne veličiny (informácia o poradí hodnôt)

• prostredná hodnota (nepárny počet prvkov), aritmetický priemer z dvoch stredných prvkov (párny počet prvkov výberu)

• Neovplyvnený odľahlými pozorovaniami• Napr.: ED50 – 50% účinná dávka

x~

Page 71: Základné pojmy a štatistická terminológia

Modus

• Modus je hodnota, ktorá sa v súbore dát vyskytuje najčastejšie

• Dôležitý najmä pre nominálne znaky (krvné skupiny)

• Najtypickejšia hodnota znaku• Nie je ovplyvnený hodnotami

všetkých prvkov vo výbere

Page 72: Základné pojmy a štatistická terminológia

Miery polohy a typy rozdelení

medián=priemer=modus modus priemer modus

medián

modus medián priemer priemer medián modus

Page 73: Základné pojmy a štatistická terminológia

Miery variability

Vyjadrujú premenlivosť vnútri skupiny/populácie

• rozptyl (disperzia, variancia = SD2)• smerodajná odchýlka (štandardná deviácia, SD)•variačné rozpätie (maximum-minimum)• medzikvartilové rozpätie Dôležitá poznámka: stredná chyba priemeru (SEM) nie je mierou variability danej veličiny v populácii!variance, standard deviation, range,

interquartile range, standard error of mean

Page 74: Základné pojmy a štatistická terminológia

• Smerodajná odchýlka má rovnaké jednotky ako meraná veličina!

n

ii xx

nS

1

22 )(1

1

2SSD

• S2 – rozptyl• SD – smerodajná odchýlka

Page 75: Základné pojmy a štatistická terminológia
Page 76: Základné pojmy a štatistická terminológia
Page 77: Základné pojmy a štatistická terminológia

Medzikvartilové rozpätie

• Z empirických distribučných funkcií môžeme zisťovať: percentily, decily, kvartily

• (horný kvartil) Q3 - (dolný kvartil) Q1• (medián – stredný kvartil - Q2 = 5.

decil = 50. percentil)

• Krabicové grafy (box and whisker plots)

Page 78: Základné pojmy a štatistická terminológia

http://en.wikipedia.org/wiki/File:Boxplot_vs_PDF.png

Page 79: Základné pojmy a štatistická terminológia

Ďalšie popisné ukazovatele

• variačný koeficient V = (SD/x) · 100% Centrálne momenty• šikmosť skew (g1 , vyjadruje symetriu

rozloženia pozorovaní (dát) okolo priemeru)• špicatosť kurtosis (g2 , vyjadruje

„koncentráciu“ t.j. zoskupenie hodnôt pozorovaní okolo priemeru.

Ak je rozloženie normálne, šikmosť aj špicatosť sú blízko nuly, čo sa využíva pri orientačnej informácii o normalite experimentálnych dát.

Iné:• indexy rôznorodnosti – diverzity (Shannonova

entropia, Simpsonov index)

Page 80: Základné pojmy a štatistická terminológia

Normálne rozdelenie-kurtóza (špicatosť)

Page 81: Základné pojmy a štatistická terminológia
Page 82: Základné pojmy a štatistická terminológia

Ďalej:

• Odhad populačného (parametra) – priemeru

• Systematická a náhodná chyba

Page 83: Základné pojmy a štatistická terminológia

• základný súbor-populácia

• parameter• pravdepodobnosť

• populačný priemer (reprezentatívna hodnota parametra)

• populačná smerodajná odchýlka (premenlivosť parametra v populácii)

• výber zo základného súboru(náhodný výber)

• odhad parametra (štatistika)

• relatívna početnosť

• výberový priemer

• výberová smerodajná odchýlka

Populácia a výber –zopakovanie pojmov

Page 84: Základné pojmy a štatistická terminológia
Page 85: Základné pojmy a štatistická terminológia

Presnosť a správnosť

• náhodná chyba– biologická– metodologická

• systematickáchyba (bias)

- očakávaná (efekt)- nežiaduca

(skresľujúci faktor)

Poznámka: pripomeňme si dôležitosť intervalov spoľahlivosti (95%CI)

Page 86: Základné pojmy a štatistická terminológia

Presnosť a správnosť

Page 87: Základné pojmy a štatistická terminológia

Odhad populačného priemeru

• (Výberový) Priemer – bodový odhad populačného priemeru

Tento odhad je zaťažený chybou• SEM, CI – confidence interval (interval

spoľahlivosti) – intervalový odhad populačného priemeru

nx

96,1

Page 88: Základné pojmy a štatistická terminológia

Zvárová et.al.2004

Page 89: Základné pojmy a štatistická terminológia

SD vs. SEM• SD – popis variancie výberového rozdelenia

dát. Výrazne (predvídateľne) sa nemení s rastúcim počtom dát - veľkosťou výberu (n). Zaujímavý pojem z pohľadu deskriptívnej štatistiky.

• SEM – intervalový odhad populačného (skutočného) priemeru. Hovorí nám, ako presne sme určili populačný priemer. Zaujímavý pojem z pohľadu induktívnej a inferenčnej štatistiky.

n

SDSEM

Page 90: Základné pojmy a štatistická terminológia

Populačné rozdelenie výšky

Výber z populácie

Výberové rozdelenie

μ = 150cm; σ = 5cm

Vytvoríme histogram (výberové rozdelenie výšok) a preložíme normálnym rozdelením

Výberový priemer = 148cm

Výberová SD = 4,5cm

Odhady populačných parametrov

(μ a σ)Zopakujeme celý experiment ešte raz

Page 91: Základné pojmy a štatistická terminológia

Populačné rozdelenie výšky

Výber z populácie

Výberové rozdelenie

μ = 150cm; σ = 5cm

Získame niekoľko výberov → niekoľko bodových odhadov (skutočného) populačného priemeru sledovanej veličiny (výšky), ktoré nebudú úplne rovnaké budú sa od seba líšiť.

Z tejto skutočnosti vyplývajú dve dôležité veci!!!

Page 92: Základné pojmy a štatistická terminológia

Ak boli tieto výbery urobené „dobre“ (náhodne), predstavujú tzv. reprezentatívne výbery a odhady populačných parametrov sú blízke skutočným populačným parametrom.

Potrebujeme však určiť, ako presne sme ich odhadli...

Page 93: Základné pojmy a štatistická terminológia

1. Z každého experimentu (výberu) nestačí urobiť len bodový odhad populačného priemeru. Musíme určiť, aký presný je tento odhad → Intervalový odhad populačného priemeru. (SEM, 95% intervaly spoľahlivosti pre priemer).

2. Výberové priemery majú tiež svoje vlastné rozdelenie (rozdelenie výberových priemerov), ktoré je vždy normálne (Gaussovo)!!!. T.j. priemery z jednotlivých experimentov (výberov) predstavujú premennú (veličinu) rovnakú, ako je napríklad výška mužov, hladina glukózy u diabetikov atď.

Page 94: Základné pojmy a štatistická terminológia

Populačné rozdelenie výškyμ = 150cm; σ = 5cm

Výberové rozdelenie priemerov

Page 95: Základné pojmy a štatistická terminológia

Výberové rozdelenie priemerov

Smerodajná odchýlka tohto výberového rozdelenia priemerov sa označuje ako SEM !!!

± 1,96 SEM = 95% CI pre priemer

Výberové rozdelenie priemerov

Page 96: Základné pojmy a štatistická terminológia

• V skutočnosti robíme len jeden experiment, máme len jeden výber.

• SEM môžme z neho určiť nasledovne:

n

SDSEM

Odhad populačnej σ

nx

96,1

Page 97: Základné pojmy a štatistická terminológia

Čo to teda znamená?

95%CI pre priemer

Page 98: Základné pojmy a štatistická terminológia

• SE – standard error sa odhaduje aj pre iné štatistické parametre, nielen pre priemer.

• Taktiež intervaly spoľahlivosti CI

Page 99: Základné pojmy a štatistická terminológia

Demonštrovanie platnosti centrálnej limitnej vety

Rozsah výběru „n“, opakování 100x

Stále užšie histogramy odpovedajú klesajúcej smerodajnej odchýlke priemerov: 4,345 pre n=1, 1,395 pre n=10 a 0,491 pre n=100. Prvá hodnota je odhad parametra , posledná je odhad strednej chyby priemeru zo 100 pozorovaní, teda odhad pre /100=/10. Aj keď je pôvodné rozdelenie nesymetrické, výberové priemery majú rozdelenie blízke k normálnemu.

Page 100: Základné pojmy a štatistická terminológia

Pokračovanie príkladu: intervaly spoľahlivosti pre populačný priemer veku matiek zo 100 náhodných výberov

Zo 100 95%-ných intervalov spoľahlivosti len 4 nepokrývajú skutočnú hodnotu populačného priemeru. Aj keď je rozdelenie veku matiek výrazne nesymetrické a nemôžeme použiť predpoklad o normálnom rozdelení, centrálna limitná veta zaručuje, že výberové priemery (pre n=100) už majú rozdelenie prakticky normálne.

Page 101: Základné pojmy a štatistická terminológia

Jednotlivé pozorovania (krížiky) a priemery (červené body) pre náhodné výbery z populácie s parametrickým priemerom rovným 5 (horizontálna

čiara).

Page 102: Základné pojmy a štatistická terminológia

Priemery zo 100 náhodných výberov (N=3) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).

Page 103: Základné pojmy a štatistická terminológia

Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=3) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).

Page 104: Základné pojmy a štatistická terminológia

Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=20) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).

Page 105: Základné pojmy a štatistická terminológia

Ďakujeme za pozornosť

Page 106: Základné pojmy a štatistická terminológia

Študijná literatúra1. Zvárová et. al. Základy statistiky pro biomedicínské

obory I., III. Praha, Karolinum, 2004.2. Motulsky H.J., Christopoulos A.: Fitting models to biological data

using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003

3. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.

4. Armitage, P., Berry, G., Matthews, J.N.S.: Statistical methods in medical research 4th ed, Blackwell science (2002) 816

1. Slezák Peter a spol. http://bio-med-stat.webnode.sk/2. Zvára. Biostatistika. Praha, Karolinum, 2001.3. http://www.statsdirect.com/help4. http://rimarcik.com/navigator/

Doplnkový materiál k štúdiu

Page 108: Základné pojmy a štatistická terminológia

„How to lie with statistics“ (D. Huff)

0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B0

2

4

6

8

10

12

14

A B

Page 109: Základné pojmy a štatistická terminológia

Štatistická chyba I. druhu – riziko odsúdenia nevinného človeka (nepoznáme, že platí nulová hypotéza)

Štatistická chyba II. druhu – riziko prepustenia zločinca (nepoznáme, že neplatí nulová hypotéza)

je nevinný je vinný

reálny svet - založený na faktoch

verd

ikt je nevinný

je vinný chyba I. druhu

chyba II. druhu

Štatistické chyby