56
Totale diapositive 56

03statistica errore standard_56

Embed Size (px)

Citation preview

Page 1: 03statistica errore standard_56

Totale diapositive 56

Page 2: 03statistica errore standard_56

Totale diapositive 56

Page 3: 03statistica errore standard_56

Totale diapositive 56

ALTRI VALORI DI CORRISPONDENZA TRA Z E LA DENSITA’ DI PROBABILITA’

0,500 = P{ z < 0 }0,500 = P{ z > 0 }0,900 = P{- 1,65 < z < +1,65 }0,950 = P{- 1,96 < z < +1,96 } 0,955 = P{- 2 < z < + 2 } 0,990 = P{- 2,58 < z < + 2,58 } 0,997 = P{ - 3 < z < + 3 }

Page 4: 03statistica errore standard_56

Totale diapositive 56

QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA

Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1.

Page 5: 03statistica errore standard_56

Totale diapositive 56

  Il fatto che ci rivolgiamo ad un campione, che è solo una parte della popolazione, comporta che le “misure” che effettuiamo sul campione sono in qualche modo sbagliate.

Più correttamente, le STIME che effettuiamo sul campione hanno un certo grado di INCERTEZZA.

Page 6: 03statistica errore standard_56

Totale diapositive 56

 

Quando parliamo di valori tipici della popolazione, parliamo di PARAMETRI

Quando parliamo di valori tipici di un campione, parliamo di STATISTICHE.

Quando facciamo inferenza, attribuiamo conclusioni fatte sul campione alla popolazione, parliamo allora di STIME DI

PARAMETRI, e relativi INTERVALLI DI CONFIDENZA (o di intervalli di credibilità nella statistica bayesiana)

Si usano le lettere latine per il campione (S, X, Y..) quelle greche per la popolazione (μ, σ , …)

Page 7: 03statistica errore standard_56

Totale diapositive 56

Teorema del limite centrale

Se tutti i possibili campioni casuali di numerosità n vengono estratti da una data popolazione avente media mu e varianza sigma-quadro,

all’aumentare di n le medie di questi campioni approssimeranno una distribuzione normale, con media mu e varianza sigma-quadro/N.

Indipendentemente dalla forma della distribuzione !

Media della popolazione Varianza della

popolazione

Media delle medie

campionarieVarianza

delle medie campionarie

Page 8: 03statistica errore standard_56

Totale diapositive 56

universo

Media, varianza

Media, varianza

campioni

………………

Distribuzione delle medie campionarie

Media, varianzaMedia, varianzaMedia, varianza

Page 9: 03statistica errore standard_56

Totale diapositive 56

Teorema del limite centrale

La varianza delle medie campionarie diminuisce all’aumentare della grandezza del campione (n). Si parla di ERRORE STANDARD.

Più grandi sono i campioni, minore è l’errore standard e più precisa è la media campionaria nello stimare la media della popolazione.

Page 10: 03statistica errore standard_56

Totale diapositive 56

Teorema del limite centrale

Distribuendosi le medie campionarie secondo una curva normale, possiamo conoscere la probabilità che le medie campionarie siano

comprese in un dato intervallo.

Page 11: 03statistica errore standard_56

Totale diapositive 56

Teorema del limite centrale

UNIVERSO 100000 CASI

Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100

. . .

Media=173 Media=174 Media=176 Media=172 Media=175

Le medie campionarie (sotto) approssimano la media della popolazione (174) a meno di un certo margine di incertezza

(che dipende dall’errore standard).

Media= 174 Dev.std.=15

Page 12: 03statistica errore standard_56

Totale diapositive 56

Teorema del limite centrale

UNIVERSO 100000 CASI

Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100

. . .

Media=173 Media=174 Media=176 Media=172 Media=175

Media= 174 Dev.std.=15

n campionario uguale a 100

Page 13: 03statistica errore standard_56

Totale diapositive 56

Z

0,950,025 0,025

Il 95% di tutte le medie campionarie sono comprese nell’intervallo:

p(Z)

Page 14: 03statistica errore standard_56

Totale diapositive 56

Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti a più/meno 1,96.

Se consideriamo il primo campione estratto abbiamo che l’incertezza della stima del valore medio di questo campione riguarda l’intervallo:

Page 15: 03statistica errore standard_56

Totale diapositive 56

Se stiamo lavorando sul primo campione estratto abbiamo che l’incertezza della stima del valore medio

dell’altezza nella popolazione riguarda l’intervallo:

Estratti un numero molto elevato di campioni di numerosità 100, l’altezza è nel 95% dei casi

compresa tra 170,1 e 176,9

Page 16: 03statistica errore standard_56

Totale diapositive 56

0,950,025 0,025

173 176,9170,1

Page 17: 03statistica errore standard_56

Totale diapositive 56

0,95

0,025 0,025

Prendendo un campione più ampio… n=1000

174 174,9173,1

Page 18: 03statistica errore standard_56

Totale diapositive 56

170 175,4164,6

0,95

0,025 0,025

Prendendo un campione più piccolo … n=30

Page 19: 03statistica errore standard_56

Totale diapositive 56

Incertezza e numerosità campionaria

n=1000

n=100

n=50L’e.s. è funzione di n

Page 20: 03statistica errore standard_56

Totale diapositive 56

Esempio tratto da M.Pisati, “Analisi dei dati”

Page 21: 03statistica errore standard_56

Totale diapositive 56

Quando la deviazione standard della popolazione non è nota, e la numerosità del campione è elevata, è

possibile stimare l’errore standard usando la deviazione standard del campione.

IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student, una distribuzione che approssima la curva

normale, ma che ha errori standard più ampi (le code sono più lunghe) ed è funzione anche della

dimensione del campione.Se n è molto grande T e Z convergono.

Page 22: 03statistica errore standard_56

Totale diapositive 56

VALORI DI CORRISPONDENZA TRA T E LA DENSITA’ DI PROBABILITA’:

0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,66 < t < +1,66 }0,950 = P{- 1,98 < t < +1,98 } 0,990 = P{- 2,62 < t < + 2,62 }

0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,65 < t < +1,65 }0,950 = P{- 1,96 < t < +1,96 } 0,990 = P{- 2,57 < t < + 2,57 }

PER n=100

PER n molto grande(convergono con Z)

Page 23: 03statistica errore standard_56

Totale diapositive 56

Test di significatività

Se testiamo un’ipotesi su un campione, quanto la risposta che diamo a questa ipotesi è “vera” anche nella

popolazione?

Page 24: 03statistica errore standard_56

Totale diapositive 56

μ è la differenza prima-dopo attesa nella popolazione

Ho: μ = 0

H1: μ ≠ 0

Più la stima nel campione è lontana da 0 e più è verosimile che Ho sia falsa

Test di ipotesi

Page 25: 03statistica errore standard_56

Totale diapositive 56

▪Usualmente rappresenta l’ipotesi “no associazione” o “no differenza”

L’ipotesi nulla: Ho

Page 26: 03statistica errore standard_56

Totale diapositive 56

▪Tipicamente rappresenta quello che si sta cercando di provare

L’ipotesi alternativa: H1 (HA)

Page 27: 03statistica errore standard_56

Totale diapositive 56

▪Noi valutiamo entrambe le ipotesi allo stesso tempo (si rifiuta Ho, non si rifiuta Ho)

▪Si assume che l’ipotesi nulla sia vera e si calcola la probabilità che il campione sia stato estratto dalla popolazione definita dall’ipotesi nulla

Test di ipotesi

Page 28: 03statistica errore standard_56

Totale diapositive 56

▪La differenza media della pressione arteriosa prima-dopo uso dei contraccettivi è pari a

4,8 mm/Hg

▪Forse Ho è vera e noi abbiamo soltanto estratto per caso un campione inusuale

▪Noi dobbiamo misurare quanto sia probabile aver estratto il nostro campione se l’ipotesi nulla è vera

Test di ipotesiesempio

Page 29: 03statistica errore standard_56

Totale diapositive 56

▪Qual è la probabilità di aver estratto un campione che ha una differenza media di 4,8 mm/Hg se fosse vera l’ipotesi nulla (cioè nessuna reale differenza)?

▪Questa probabilità è il p-value

▪Se p è molto piccolo, ci suggerisce che il risultato osservato non può essere facilmente spiegato dal caso

Test di ipotesivalore p (p-value)

Page 30: 03statistica errore standard_56

Totale diapositive 56

▪Come si calcola il p-value?

Test di ipotesivalore p (p-value)

▪Con la distribuzione campionaria!!

Page 31: 03statistica errore standard_56

Totale diapositive 56 Totale diapositive 168

▪Se vale Ho …

Calcolo valore p (p-value)

μo

Distribuzione campionaria di tutte le medie campionarie per campioni di dimensione n

Page 32: 03statistica errore standard_56

Totale diapositive 56 Totale diapositive 168

▪Per calcolare il p-value si prende la media campionaria ottenuta e valutiamo quanto sia inusuale dato Ho

Calcolo valore p (p-value)

μo

Page 33: 03statistica errore standard_56

Totale diapositive 56

▪Torniamo al problema:

n=10; = -4,8; DS =4,6

▪Quanto la nostra media campionaria è lontana da μo=0 in “termini statistici”?

▪Dobbiamo perciò misurare quanti errori standard è –4,8 lontano da 0

Calcolo valore p (p-value)

Page 34: 03statistica errore standard_56

Totale diapositive 56

Utilizzazione del p-value per prendere un

decisione

P-value = 0,01

E’ questa probabilità piccola abbastanza per ritenere che l’ipotesi nulla μ = 0 sia falsa?

Definizione del cut-offSotto quale valore soglia riteniamo che un p-value suggerisca di rifiutare l’ipotesi nulla?

Page 35: 03statistica errore standard_56

Totale diapositive 56

Utilizzazione del p-value per prendere un

decisione

Definizione di un cut-off

Standard cut-off: 0,05 (scelta arbitraria)

p<0,05 è detto statisticamente significativo

Page 36: 03statistica errore standard_56

Totale diapositive 56

Utilizzazione del p-value per prendere un

decisione

Definizione di un cut-off

Standard cut-off: 0,05 (scelta arbitraria)

p<0,05 è detto statisticamente significativo

Page 37: 03statistica errore standard_56

Totale diapositive 56

Test di livello di significatività α=5%

Definiamo con α la probabilità dell’errore di I tipo. Questo valore, detto livello di significatività di un test per H0=innocente

α=P(rifiutare Ipotesi nulla: H0 quando essa è “vera”)

non si possono diminuire entrambi gli errori…

Prima di fare un test si decide il valore di α=0,05 (5%), α=0,01 (1%)

α varia a seconda dei contesti (vedi es. casa farmaceutica)

Page 38: 03statistica errore standard_56

Totale diapositive 56

Test di verifica dell’Ipotesisignificato interpretativo

• Un Test accetta o rifiuta H0, non dimostra mai che è H0 vera o falsa.

• H1 è corroborata (sostenuta) o meno dai dati, mai accettata o rifiutata e tanto “vera” o “falsa”

• Si dice “test di significatività al 5%”, ma …ho due tipi di errore… (ma abbiamo deciso di costruire il test per Ho, che vogliamo tenere “sotto controllo”).

❖ α = 5% = P(rifiutare H0 quando H0 è vera)=P(err I° tipo)❖ β =P(accettare H0 quando H0 non è vera)=P(err. II° tipo)

Page 39: 03statistica errore standard_56

Totale diapositive 56

Test di verifica dell’Ipotesipraticamente…

• Il test è una formula che mi danno gli statistici (+/- complessa e con +/- senza senso logico/intuitivo)

• premesso che ai dati si possa applicare certi modelli matematici, gli statistici mi dicono che:❖ se l’ipotesi H0 è vera, il test deve assumere certi

valori (regione di accettazione) con una certa prob.❖ se H0 è falsa deve assumerne altri (regione di rifiuto).

• Ergo: calcolo il test con i miei dati e …decido!.

Page 40: 03statistica errore standard_56

Totale diapositive 56

Test di verifica dell’Ipotesi – Valore p

Quando comunico l’esito di un test ad altri:❖ dico solo significativo/non significativo (accetto/rifiuto)❖ o posso dire di più?

meglio riportare il:valore p= livello di significatività osservato

ovvero: il più alto valore di α che mi farebbe rifiutare H0

❖ Se p<0,01 rifiuto H0 ❖ Se 0,01<p<0,05 si tende a rifiutare❖ p>0,05 accetto H0

• E’ un indicatore della plausibilità dell’ipotesi H0

Page 41: 03statistica errore standard_56

Totale diapositive 56

p-values

p-values sono probabilità (numeri tra 0 ed 1)

Valori che si avvicinano a 0 indicano che i risultati campionari ottenuti sono inverosimili quando l’ipotesi nulla è vera

Il p-value NON è la probabilità che l’ipotesi nulla sia vera!

Il p-value per se non dà informazione sulla qualità scientifica di uno studio

Page 42: 03statistica errore standard_56

Totale diapositive 56

Test di ipotesi e intervallo di confidenza

Intervallo di confidenza e p-value sono complementari

0 1,53 1,87[ ]

Se 0 non è contenuto nell’intervallo di confidenza al 95%, allora noi potremmo rifiutare Ho al livello α = 0,05 (cioè p<0,05)

Page 43: 03statistica errore standard_56

Totale diapositive 56

Alcune considerazioni sull’inferenza statistica

Significatività statistica non implica la causalità

Significatività statistica non va interpretato come significatività scientifica

Page 44: 03statistica errore standard_56

Totale diapositive 56

Alcune considerazioni sull’inferenza statistica

Esempio:N=100.000, x=0,03 mmHg; s=4,57; p-value=0,04

Grandi dimensioni campionarie possono produrre piccoli p-values anche quando l’effetto del fenomeno studiato è molto piccolo (non significativo dal punto di vista scientifico)

Page 45: 03statistica errore standard_56

Totale diapositive 56

Alcune considerazioni sull’inferenza statistica

Esempio:N=5, x=5,00 mmHg; s=4,57; p-value=0,07(non si può rifiutare Ho al livello α=0,05)

Questo risultato realmente ci dice che non ci sia una relazione tra pressione arteriosa ed uso di contraccettivi orali?

E se prendessimo un campione più grande?

Page 46: 03statistica errore standard_56

Totale diapositive 56

RIASSUMENDO

Page 47: 03statistica errore standard_56

Totale diapositive 56

Indici di tendenza centrale per distribuzioni simmetriche e deformate

Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri biologici (es. numero di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso una curva particolare con una forma a campana,

Page 48: 03statistica errore standard_56

Totale diapositive 56

Questo tipo di curva, che ha un solo 'picco' (classe di massima frequenza o moda: curva unimodale), viene detta «gaussiana» o «Normale»; essa è simmetrica, nel senso che si può dividere in due parti, specularmente uguali, tracciando una linea verticale in corrispondenza del valore di massima frequenza. In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono

Page 49: 03statistica errore standard_56

Totale diapositive 56

importante notare che, nelle distribuzioni asimmetriche, moda, media e mediana non coincidono, ma assumono la disposizione indicata nel grafico 1 dove, come si vede, la media è l'indice che più viene influenzato dall'esistenza di dati estremi.

Page 50: 03statistica errore standard_56

Totale diapositive 56

Variabilità biologica: indici di variazione (o di dispersione)

Intervallo di variazione

L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il dato più alto e quello più basso, oppure specificando il valore del dato più alto e quello del dato più basso (campo di variazione o range). L'intervallo di variazione non considera la variabilità delle osservazioni fra i due estremi ed ha lo svantaggio di dipendere strettamente dal numero di osservazioni e di aumentare con l'aumentare di esse.

Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i seguenti valori (in cm):54, 57, 57, 58, 59, 60, 60, 61, 66. L'intervallo di variazione è di 66-54 = 12 cm.

Page 51: 03statistica errore standard_56

Totale diapositive 56

Deviazione standard

Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard.

La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati hanno una distribuzione normale.

Page 52: 03statistica errore standard_56

Totale diapositive 56

Per riassumere:volendo descrivere dati a distribuzione normale, conviene specificare media e deviazione standard; volendo descrivere dati a distribuzione deformata, conviene specificare mediana e percentili. dati a distribuzione simmetrica ..... usare media e deviazione standard dati a distribuzione non simmetrica ..... usare mediana e percentili

Calcolo della deviazione standard

La formula serve a calcolare la deviazione standard di una serie di misure. La «devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-1).

Page 53: 03statistica errore standard_56

Totale diapositive 56

Indici di variazione: caratteristiche

Page 54: 03statistica errore standard_56

Totale diapositive 56

Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente utilizzabile nel calcolo statistico.

La deviazione standard è adatta a manipolazioni matematiche, ma dovrebbe essere utilizzata soltanto se i dati di origine hanno distribuzione Normale.

I percentili sono validi sia per distribuzioni normali (si ricorda che, in tal caso, il 50° percentile è uguale alla media) che non normali. In ogni caso, al fine di fornire un'idea della variabilità dei dati, è bene indicare sempre non soltanto la mediana ma anche - ed almeno - il 25° ed il 75° percentile.

Page 55: 03statistica errore standard_56

Totale diapositive 56

Variabilità biologica, deviazione standard e normalità

É già stato detto che fonti di variazione sono presenti in ogni misurazione di un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico definito «curva di distribuzione Normale» o «gaussiana».

Questo modello è particolarmente utile, in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard. Infatti, in una gaussiana il 95% dei dati cade nell'intervallo media ± 2 volte la deviazione standard.

Più precisamente, si può dimostrare che l'intervallo (media ± deviazione standard) comprende il 68% circa dei dati; l'intervallo (media ± 2 deviazioni standard) ne comprende il 95% e l'intervallo (media ± 3 deviazioni standard) comprende pressoché tutti i dati (99.7%).

Page 56: 03statistica errore standard_56

Totale diapositive 56

una delle domande più frequenti che sorgono immediatamente quando si viene a conoscenza di un valore di una misura biologica eseguita su un individuo è:«si tratta di un valore «normale»?ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati "normali"? - 240 pulsazioni cardiache/minuto in un pappagallino ondulato; - 150.000 linfociti per mm cubo nel sangue di un bovino; - 45 atti respiratori/minuto in un cane boxer adulto.