05 - Statistiche Inferenzialiisi-personale.csr.unibo.it/vittorio.maniezzo/didattica/DSS/05... · Ordinali I valori permettono un ordinamento, ma gli intervalli fra valori possono

1

Vittorio Maniezzo – Università di Bologna

Statistiche Inferenziali

introduzione( )non per statistici!

Popolazione e campione

Popolazione: l’intero insieme dei dati, individui, oggetti o risultati di interesse.

• Spesso troppo grande per essere analizzato completamente

• Può essere reale o ipotetica (es. i risultati di un esperimento ripetuto infinite volte)

Campione: un sottinsieme della popolazione. • Un campione può essere casuale (ogni membro ha la stessa

probabilità di essere estratto dalla popolazione) o a scelta

ragionata (non probabilistica).

• La selezione casuale cerca di assicurare che il campione sia rappresentativo della popolazione.

2Vittorio Maniezzo – Università di Bologna

2

Variabili

Le variabili sono le quantità misurate in un campione. Possono essere:

• Quantitative (numeriche) Continue: Quantificate su scala continua (es. altezza delle persone nell’aula).

Comunque si fissino due valori, tutti i valori intermedi potrebbero essere assunti.

Discrete: quantificate con conteggi (es. numero di persone nell’aula). Per qualunque valore, esiste tutto un intervallo con il valore è il centro, in cui nessun altro valore può essere assunto.

• Categoriche Nominali: i valori identificano le categorie, ma le quantità non hanno senso (es.

genere, nazionalità).

Ordinali I valori permettono un ordinamento, ma gli intervalli fra valori possono essere variabili (es. livelli occupazionali, gerarchie al lavoro).


Livelli di misura

Scale nominali: i valori indentificano le categorie, le quantità non hanno senso. Unica relazione: l’identità, unica operazione ammessa: il conteggio

Scale ordinali: i valori permettono un ordinamento, ma gli intervalli fra valori possono essere variabili. Relazione d’ordine asimmetrica e transitiva, non è possibile quantificare le differenze di intensità tra le osservazioni.

Scale a intervalli: le misure sono continue con intervalli uguali fra i punti; lo zero è arbitrario (es. tempo, temperatura Fahrenheit o Celsius). Lo zero non indica l’assenza totale della quantità che si sta misurando, non è possibile il rapporto tra coppie di valori (una temperatura di 80 gradi non è il doppio di una di 40 gradi)

Scale di rapporti: tutte le proprietà precedenti e anche uno zero naturale (es. altezza, distanza, velocità, età, peso, reddito, temperatura Kelvin).

Vittorio Maniezzo – Università di Bologna 4

3

Parametri e statistiche

Parametri: quantità che descrivono le caratteristiche di una popolazione. Di solito non sono note e vogliamo fare una inferenza statistica sui parametri.

Statistiche descrittive: quantità e tecniche usate per descrivere le caratteristiche di un insieme di dati, es. media, deviazione standard, box-plot, …

Statistica inferenziale: tecniche per analizzare i campioni e generalizzarli alla popolazione

Errore campionario: differenza fra le statistiche campionarie e i valori dei corrispondenti parametri della popolazione



Statistiche descrittive

4

Distribuzioni di frequenza

Una Distribuzione di Frequenza (empirica) o Istogrammaper una variabile continua presenta un conteggio delle osservazioni, raggruppate in classi o gruppi predefiniti

Una Distribuzione di Frequenza Relativa presenta le corrispondenti proporzioni di osservazioni all’interno delle classi

Un grafico a barre (barchart) presenta le frequenze per una variabile categorica


Esempio – Velocita' autostradali

Rilevazioni autovelox di velocità di autoveicoli che percorrono un tratto autostradale, misurate in Km/h.


121 82 100 151 68 58

95 145 64 201 101 163

84 57 139 60 78 94

119 104 110 113 118 203

62 83 67 93 92 110

25 123 70 48 95 42

5

Tabella frequenze relative

Velocità (Km/h) Frequenza Frequenza

Relativa

Frequenza rel.

cumulata

20-39 1 0.028 0.028

40-59 4 0.111 0.139

60-79 7 0.194 0.333

80-99 8 0.222 0.555

100-119 8 0.222 0.777

120-139 3 0.083 0.860

140-159 2 0.056 0.916

160-179 1 0.028 0.944

180-199 0 0.000 0.944

200-219 2 0.056 1.000

Totale 36 1.000


Distribuzione di frequenza


6

Misure di tendenza centrale

Le misure di tendenza centrale indicano in che zona dell’intervallo dei valori ammissibili si trovano i dati. Misure comuni sono:

1. La media aritmetica

2. La mediana

3. La moda


La media

12

Siano x1,x2,x3,…,xn i valori misurati di una variabile casuale X, da un campione di cardinalità n.

La media aritmetica è definita come:


In Excel: MEDIA(dati)

In R: mean(X)

�̅ � 1� � ��

�

�

7

Esempio

13

Alcune delle velocità rilevate su un tratto autostradale sono:

151, 124, 132, 170, 146, 124, 113.

La media è


�̅ � �151 124 132 170 146 124 113�7 � 137.14

Mediana e Moda

• Si organizzano n dati campionari per valori crescenti, poi la mediana è

• Il valore di mezzo se n è dispari

• La media fra i due valori di mezzo se n è pari

• La moda è il valore rilevato più di frequente.


In Excel: MEDIANA(dati)

In R: median(X)

In Excel: MODA(dati)

In R: non c'è predefinita

8

Esempio

N dispari

Le velocità viste prima, ordinate, sono:

113, 124, 124, 132, 146, 151, 170.

La mediana è il valore di mezzo: 132.

Due viaggiatori guidavano a 124 Km/h, quindi la moda è 124.


N pari

Volendo prenotare l’albergo per una settimana bianca in montagna si chiedono i preventivi a sei alberghi. I preventivi sono:366, 327, 274, 292, 274, 230.Riorganizzati per ordine crescente: 230, 274, 274, 292, 327, 366. La mediana è a metà fra i due valori centrali: (274+292) ÷ 2 = 283. Due alberghi hanno chiesto la stessa cifra, la moda è 274.

Media e mediana

Se il campione contiene dei valori molto alti o molto bassi, la media tende a venirne distorta.

La mediana non è influenzata da valori molto grandi (o molto piccoli), per cui è una misura migliore si centralità quando la distribuzione è distorta.

Se media=mediana=moda allora i dati sono detti simmetrici.


9

Quartili e percentili

Utilizzando lo stesso principio dell’ordinamento crescente dei dati e della loro posizione, è possibile definire vari quantili (per esempio, dividendo in 4 intervalli si ottengono i quartili, e così via).

Se si divide in 100 intervalli, si ottengono i percentili.

Per esempio, il 75° percentile è il valore del dato che, nell’ordinamento crescente, ha un posizione tale che:

• il 75% dei dati ha un valore inferiore (cioè rimane a sinistra nell’ordinamento)

• il 25% dei dati ha un valore superiore (cioè rimane a destra nell’ordinamento)

Nota: la mediana è il 2° quartile e il 50° percentile

Vittorio Maniezzo – Università di Bologna17

Quartili e IQR

La mediana divide una distribuzione in due metà.

Il primo e terzo quartile (denotati Q1 e Q3) sono definiti come:

• 25% dei dati sono sotto Q1 (e 75% sopraQ1),

• 25% dei dati sono sopra Q3 (e75% sottoQ3)

L’inter-quartile range (IQR) è la differenza fra il primo e il terzo quartile: IQR = Q3- Q1

Esempio velocità ordinate:

113 124 124 132 146 151 170

Q1 Q3

Inter Quartile Range (IQR): 151-124 = 27


In Excel: manuale (diff. Fra quartili)

In R: quantile(X)

IQR(X)

10

Misure di dispersione

Le misure di dispersione caratterizzano quanto il campione è distribuito, quanto sono variabili i dati.

Misure di dispersione di uso comune sono:

1. Range

2. Varianza e deviazione standard

3. Coefficiente di variazione (o deviazione standard relativa)

4. Inter-quartile range (visto prima)


Range (campo di variazione)

Il Range del campione è la differenza fra il valore più grande e il più piccolo nel campione.

Facile da calcolare:

• Esempio velocità: min=25, max=203, quindi range=178 Km/h

Utile per definire scenari, il migliore o il peggiore

Molto sensibile ai valori estremi.


In Excel: MAX(dati)-MIN(dati), RANGE (ingl) è un'altra cosa

In R: range(X)

11

Varianza

21

La varianza, s2, è la media aritmetica del quadrato delle deviazioni rispetto alla media:


>

In Excel: VAR.P(dati), VAR.C(dati)

In R: var(X)

Nota: lo stimatore è corretto se la media della popolazione è nota, in caso contrario (si conosce solo il campione) occorre dividere per n-1 e non per n.

�� ∑ �� ̅ ��

�� ∑ �� ̅ �� 1

Deviazione standard

22

La deviazione standard (o scarto quadratico medio), s, è la radice quadrata della varianza


s ha il vantaggio di avere la stessa unità di misura della variabile originaria x

In Excel: DEV.ST.P(dati), DEV.ST.C(dati)In R: sd(X)

� � ∑ ��̅ ��

!oppure � � ∑ ��̅ ��

��!

12

Esempio

Dati Deviazione Deviazione2

151 13.86 192.02

124 -13.14 172.73

132 -5.14 26.45

170 32.86 1079.59

146 8.86 78.45

124 -13.14 172.73

113 -24.14 582.88

Somma= 960.0 Somma= 0.00 Somma= 2304.86

�̅ � 137.14


� �� ̅ �"

�� 2304.86 � � 2304.86

7! � 18.14

Il coefficiente di variazione (CV) o deviazione standard

relativa (RSD) è la deviazione standard espressa come percentuale della media:

Il CV non è influenzato da variazioni moltiplicative dalla scala, quindi è utile quando si vogliono confrontare distribuzioni di

variabili misurate su scale diverse

Esempio:

Coefficiente di Variazione


$% � 100 & 19.6137.1 % � 14.3%

$% � ��̅ & 100%

13

Box-plot

Un box-plot è una rappresentazione visiva di una distribuzione basata su:

• Minimo

• Q1

• Mediana

• Q3

• Massimo

Utile per confrontare grossi insiemi di dati


Valore max.

III quartile

Mediana

I quartile

Valore min.

In R: boxplot(data, …)

Esempio

Velocità su strada extraurbana:

62, 64, 68, 70, 70, 74, 74, 76, 76, 78, 78, 80

Q1=(68+70)÷2 = 69,

Q3=(76+78)÷2 = 77

IQR = (77 – 69) = 8


14

Fil rouge: esempio confronto

Vittorio Maniezzo - University of Bologna 27

Si vogliono confrontare due algoritmi di minimizzazione. Li si prova entrambi su 12 problemi test.

a1 a2

media 5.57 9.02varianza 8.63 19.12

stdev 2.94 4.37mediana 4.85 8.90

moda N/A N/AQ1 3.17 7.60Q3 8.34 10.65IQR 5.17 3.05

range 7.74 15.34CV 52.74 48.46

nome opt HEU1 HEU2 a1 a2

gapc_0 1931 2117 2059 9.63 6.63e201600 180659 197864 189087 9.52 4.67gapd_0 6353 6776 7246 6.66 14.06gapb_0 1843 1905 1989 3.36 7.92

cesenaGAP 2881 2956 3323 2.60 15.34gapa_0 1698 1763 1844 3.83 8.60gapd_4 6185 6493 7115 4.98 15.04e05100 12681 12976 13887 2.33 9.51e10200 23307 23749 25452 1.90 9.20e20400 44879 47000 49052 4.73 9.30

elba 10979 11860 10979 8.02 0.00e401600 178307 194866 192588 9.29 8.01

Statistiche descrittive elementari:

Esempio fil rouge: confronto fra box-plot


15

Esempio fil rouge: in R


a1=c(9.632314863,9.523466863,6.658271683,3.364080304,2.603262756,3.82803298,4.979789814,2.326314959,1.896425966,4.726041133,8.024410238,9.286791881);a2=c(6.628689798,4.665142617,14.05635133,7.921866522,15.34189518,8.598351001,15.03637833,9.510290987,9.203243661,9.298335524,0,8.009220053);> A = data.frame(a1,a2);> str(A);'data.frame': 12 obs. of 2 variables:$ a1: num 9.63 9.52 6.66 3.36 2.6 ...$ a2: num 6.63 4.67 14.06 7.92 15.34 ...

> boxplot(A$a1,A$a2,+ main = "two boxplots",+ at = c(1,2),+ names = c("a1","a2"),+ las=2,+ col=c("red","blue"),+ border="black",+ horizontal=FALSE,+ notch=FALSE)>

Un outlier (estremo, esterno) è una osservazione con valore molto diverso da quelli degli altri dati.

Un outlier può essere dovuto a un problema di misura o può essere indicativo di una sotto/popolazione con valori anormalmente alti o bassi.

Per rappresentarli in un box-plot, si ridefinisconoi limiti inferiori e superiori (delle linee) come:

Limite inferiore= Q1-1.5×IQR

Limite superiore= Q3+1.5×IQR

I dati potrebbero non arrivare araggiungere questi valori!

Se ci sono dati < limite inf. o > limite sup., sono considerati outlier.

outlier

Outlier


16

Outlier

Gli outlier possono disturbare le descrizioni:

• Distorcendo la media.

• Aumentando la variabilità.

Eliminazione degli outlier:

• In un campione *normale* i valori campionari dovrebbero essere sempre entro 3 SD dalla media.

• Spesso i valori esterni a 1.5-2 SD sono scartati a priori.


In R:> boxplot(A$a1,A$a2,col="grey", outcol="red")> A$a3=c(3,4,5,49,50,59,41,42,44,62,38,49,38,57,57,56,50,51,23,76)> boxplot(A$a1,A$a2,A$a3,col="grey", outcol="red")

Scatter-plot

Rappresenta la relazione fra due variabili continue

Utile nelle prime fasi di un’indagine, per stabilire se può esserci alta correlazione fra le due

Rende evidenti gli outlier


In R:plot(A$a1, A$a2, main="Scatterplot Example",xlab="a1", ylab="a2 ")

17


Statistiche inferenziali

Campionamento

Problema: come raccogliere solamente un numero limitato di dati, un campione, e attraverso la loro analisi pervenire a conclusioni generali, che possano essere estese a tutta la popolazione.

Per giungere a queste conclusioni si deve ricorrere all’inferenza: alla capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione).


18

Popolazione

campione

Parametri

Statistiche

Politica di campionamento

stima

Stima statistica


Stima statistica

Stima


Stima puntuale Stima a intervalli

media campionaria

proporzioni (quantili)

intervallo di confidenza della media

Intervallo di confidenza delle proporzioni

Le stime puntuali cadono sempre all’interno della stima

degli intervalli corrispondenti

19

Stimatore e stima

Esempio: Quale stipendio si può aspettare un neolaureato al primo impiego?

Si sceglie un campione casuale ad es. di n=5 neolaureati già assunti (a tempo indeterminato!) e si calcola il valore atteso della loro retribuzione. Sia ad esempio stipendio medio in busta paga = € 1300 / mese.

Questa è una stima del salario ipotetico, la media campionaria è uno stimatore del salario.

La stima è il valore assunto dallo stimatore per un campione, cioè in uno specifico punto dell’universo dei campioni


Distribuzione degli stimatori

Lo stimatore è una variabile casuale connessa all’estrazione casuale di un campione, la stima ottenuta da un campione può essere diversa da quella ottenuta con un altro campione

La stima tende differire dal parametro da stimare, ma se conosciamo la distribuzione campionaria dello stimatore possiamo quantificare probabilisticamente l’errore.

Conoscere la distribuzione serve per descrivere l’andamento dei risultati che si possono osservare replicando il piano di campionamento.

Degli stimatori (distribuzioni) interessa soprattutto valore atteso (media) e varianza.


20

Media del campione e della popolazione

Se da una stessa popolazione si ripete 20 volte un'operazione di campionamento, ogni volta con un diverso campione casuale, si otterranno 20 medie diverse e 20 ds diverse.

Risultato fondamentale: l’insieme di queste medie dei campioni tende ad assumere una distribuzione particolare, detta normale, anche se la popolazione di origine non è distribuita normalmente.

Il processo di campionamento casuale è di per sé un fenomeno che si distribuisce normalmente.


Teorema del limite centrale

Il teorema del limite centrale afferma che, data una certa

popolazione con media μ e DS σ, da cui si estrae un numero infinito di campioni casuali di numerosità n, man mano che n aumenta la

distribuzione delle medie dei campioni tende a una distribuzione

normale, con media μ uguale a quella della popolazione di origine) e DS = ) �!* .

Qualunque sia la forma della distribuzione della popolazione originale, la distribuzione delle medie dei campioni tende alla distribuzione normale.

Spesso la distribuzione normale viene raggiunta rapidamente, anche per valori non molto grandi di n.


21

La distribuzione normale


Una distribuzione normale in una variabile X con media µ e varianza σ� è una distribuzione statistica con funzione di probabilità:

, � � 1- 2.! /� ��0 �/��)��

definita sul dominio x ∈(∞, ∞). Statistici e matematici usano il termine “distribuzione normale”, i fisici talvolta la chiamano “distribuzione Gaussiana” e gli studiosi di scienze sociali si riferiscono ad essa come “curva a campana”.

Z score

Lo z-score (standard score, normal score) è un modo di trasformare ogni singolo valore di una distribuzione normale nel suo equivalente standardizzato, specificando di quante ds il valore dista dalla media della popolazione.


22

In una distribuzione normale :

68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media



Distribuzione normale (z)


• L’ascissa rappresenta i valori. L’ordinata rappresenta la densità di

probabilità dei valori. L’area sotto la curva rappresenta l’insieme di tutti i casi possibili, cioè la probabilità totale.

• Le probabilità non sono mai riferite a un punto, ma a un intervallo, e rappresentano il rapporto fra tutti i casi che rientrano in quell’intervallo e il totale dei casi

Distribuzione z, probabilita’


23

Stima di intervalliIntervallo di confidenza (IC)

Fornisce un intervallo di valori al cui interno crediamo, conun certo livello di confidenza, che cada il valore vero

IC per medie di popolazione


95%2$ � �̅ 3 1.96 4/5. 67.�!

99%2$ � �̅ 3 2.58 4/5. 67.�!

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0

34% 34%14% 14%

2% 2%

z

-1.96 1.96-2.58 2.58

Stima di intervalliIntervallo di confidenza (IC)


95% dei dati

99% dei dati

24

Ipotesi(es. medie uguali)

Dati per verifica delle ipotesi

Accetta ipotesi Rifiuta ipotesi

C A S O

L’errore casuale (il caso) può essere controllato gestendo la significatività statistica o gli intervalli di confidenza

Errore sistematico

Stima statistica: il ruolo del caso


Test di verifica delle ipotesi

• Il test statistico della verifica delle ipotesi è un processo logico-matematico che porta alla conclusione di non

poter respingere oppure di poter respingere l'ipotesi

della casualità, mediante il calcolo di probabilità di commettere un errore con queste affermazioni.

• L’ipotesi che il risultato ottenuto con i dati sperimentali sia dovuto solo al caso è chiamata ipotesi nulla ed è indicata con H0. Con essa si afferma che le differenze tra due o più gruppi siano imputabili essenzialmente al

caso.


25

Test

Ci si pone il quesito:

Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano

dovute a fattori esclusivamente casuali, quale è la probabilità che fra

tutte le alternative possibili si presenti proprio la situazione descritta

dai dati raccolti (o una ancora più estrema)?

Se tale probabilità risulta (relativamente) alta, convenzionalmente uguale o superiore al 5%, si imputeranno le differenze a fattori

puramente casuali (accettazione dell’ipotesi nulla).

Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come verosimile che le differenze siano dovute a fattori non casuali (non accettazione dell’ipotesi nulla).


Esempio

Se gettiamo in aria una moneta per 10 volte consecutivamente abbiamo le seguenti probabilità che esca testa:

testa croce tot. lanci P (%) 10 0 10 0,10 9 1 10 0,98 Ipotesi nulla respinta

8 2 10 4,39 7 3 10 11,72

6 4 10 20,51

5 5 10 24,61 Ipotesi nulla accettata

4 6 10 20,51

3 7 10 11,72

2 8 10 4,39 1 9 10 0,98 Ipotesi nulla respinta

0 10 10 0,10 100 Vittorio Maniezzo – Università di Bologna 50

26

Errori di tipo 1 e di tipo 2

• Si commette un errore di tipo 1, quando si respinge un ipotesi nulla che in effetti è vera;

• si commette un errore di tipo 2, quando si accetta un ipotesi nulla che in effetti è falsa.

• La probabilità di commettere un errore di tipo 1 viene indicata con α e quindi la situazione complementare (ovvero di non sbagliare, accettando un ipotesi nulla che è vera) ha probabilità (1 - α).

• La probabilità di commettere un errore di tipo 2, viene invece indicata con β e quindi la situazione complementare (ovvero di non sbagliare, scartando un ipotesi nulla che è falsa) ha probabilità (1 - β).


Errori di tipo 1 e di tipo 2

• Errore di tipo 1 è l’errore che si commette rifiutando l’ipotesi nulla quando è vera

È un risultato Falso positivo

La probabilità di commettere un tale errore è data dal livello di

significatività statistica α

• Errore di tipo 2 è l’errore che si commette accettando l’ipotesi nulla

quando è falsa

È un risultato Falso negativo

La probabilità di commettere un tale errore è indicata con β.

La probabilità di prendere una decisione corretta rifiutando l’ipotesi nulla quando è falsa è 1- β e si chiama potenza del test


27

Test di ipotesi: errori di tipo I e II


α: livello di significatività 1-β: potenza del test

Test di ipotesi: errori di tipo I e II

La probabilità di commettere un errore di tipo I (α) può essere ridotta cambiando il livello di significatività.


α =0.05Ci sono solo 5 possibilità su 100 che il risultato sia classificato come "significativo" per puro caso

sarà più difficile avere un risultato significativo

la potenza del test verrà ridottaIl rischio di un errore di tipo II crescerà

La probabilità di commettere un errore di tipo II (β) può essere ridotta aumentando il livello di significatività.

Aumenterà la probablità di un errore di tipo I

28

Errori


Errori

Se l’ipotesi nulla è falsa allora qualche altra ipotesi, H1, deve essere vera. Se non siamo in grado di specificare questa ipotesi alternativa, non è possibile determinare la probabilità di commettere un errore di tipo II.

Spesso non è possibile individuare una unica ipotesi alternativa, per cui si considera solo il livello di significatività α, senza fissare β: si ritiene più opportuno cautelarsi nei confronti del tipo di errore più grave, quello di tipo I.

Questa valutazione è motivata dal fatto che mentre il rifiuto di H0 implica che sia vera l’ipotesi alternativa, la sua accettazione implica che “non ci sono elementi sufficienti per rifiutarla”.


29

Conservativita'

Nessun risultato è in assoluto impossibile nei confronti di H0 (ma solo più o meno probabile), quindi ogni volta che la si rifiuta si corre il rischio di fare un errore di tipo I con una probabilità α, livello di significatività di solito fissato al 5% (0,05) o al 1% (0,01), e per la stessa ragione ogni volta che si accetta si corre il rischio opposto (errore di tipo II).

I test di verifica dell’ipotesi ci consentono di prendere una decisione con una predeterminata probabilità di sbagliare (livello di significatività β, o di non sbagliare, livello di protezione 1 - β ).

Test con alto livello di protezione sono anche detti più conservativi.


Procedura per un test d’inferenza

I – IPOTESIIpotesi nulla, ipotesi alternativa

II - RACCOLTA DEI DATITipo di scala; caratteristiche della distribuzione dei dati

III - SCELTA DEL TESTSulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei dati

IV - RISULTATO DEL TEST- PROBABILITA'Probabilità di ottenere quel risultato, nella condizione espressa dall'ipotesi nulla

V – DECISIONE - SCELTA TRA LE DUE IPOTESIProbabilità α

VI – ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTOPotenza a posteriori e a priori, probabilità β


30

Test: relazioni fra variabili

1) Relazioni fra variabili:

Esempi: correlazione, regressione.

2) Differenze fra variabili:

es. Test su differenza di efficacia di approcci risolutivi diversi

Esempi: t-test; Analysis of Variance (ANOVA), Wilcoxon, ...


Test: tipi di test

Principale distinzione fra test parametrici i non-parametrici

Test Parametrici sono basati su assunzioni sulla distribuzione dei parametri della popolazione. Di solito si assume una distribuzione normale (Gaussiana). I test parametrici sono i più potenti, ma possono essere fuorvianti se le ipotesi di base non sono soddisfatte.

Test non-parametrici non fanno assunzioni sulla distribuzione della popolazione (sono anche chiamati test liberi da distribuzione, distribution free tests). Di solito basati sui ranghi delle osservazioni, cioè sul loro numero d'ordine invece che sulle osservazioni in se'.

Hanno minore potenza e sono meno flessibili dei test parametrici.


31

Test: tipi di test

Test non parametrici sono giustificati quando:

1) le variabili hanno evidenti scostamenti dalla normalità (o sono fortemente asimmetriche o presentano più di un picco);

2) quando il campione è troppo piccolo per comprendere se esiste una distribuzione normale dei dati;

3) quando le osservazioni sono rappresentate da classifiche ordinali (es. gravità di una malattia da 1 a 4).


Scelta di un test statistico

Griglia per la scelta:

1. Tipo di dati:

2. Se dati di frequenza, allora test della famiglia del Chi-quadro.

3. Altrimenti, interessano relazioni fra variabili o differenze fra gruppi?

4. Se relazioni fra variabili, allora test di correlazione.

5. Se differenze fra gruppi, allora ANOVA. t di Student, ….

6. In ogni famiglia, ci sono test equivalenti parametrici e non parametrici.


32

Parametric: Non-param:Pearson's r Spearman's r

Point biserialPhi-coefficient

Flowchart


Differences ? Relationships ?

1 or 2 sample Chi-square

How many variables?

START

FrequencyData?

Same orDifferent

participants in each condition?

Two or more

Parametric: Unrelated t-testNon-param:Mann Whitney

Different

How many experimental conditions?

One

Factorial Within Subjects (Repeated Measures)

ANOVA

Same

Factorial Mixed Design (Split-Plot)

ANOVA

Both True

Different

Factorial Between Groups ANOVA

3 or more

Same orDifferent


Two

Same orDifferent


Parametric: Non-param:Oneway FriedmanWithin Ss or(Repeated Page’s Lmeasures) Trend TestANOVA

Same

Different

Parametric: Non-param:Oneway Kruskal-Between Wallis orGroup JonckheereANOVA Trend Test

Same

Parametric: Non-Param:Related Wilcoxont-test

Test di ipotesi: il valore p


95%

2.5%

2.5%

La probabilità di avere un valore all’esterno dell’intervallo delle linee verdi se l’ipotesi nulla è vera è < 5%

33

Test di ipotesi: il valore p


p = probabilità di osservare un valore più estremo di

quello considerato, se l’ipotesi nulla è vera

Minore è il valore p, maggiore è la possibilità che l’ipotesi

nulla sia una spiegazione dei dati

Nell’esempio:

• Risultati esterni alle linee verdi: p < 0.05,

• Risultati interni alle linee verdi: p > 0.05

Il valore dell’ipotesi nullainterno all’intervallo 95%

Il valore dell’ipotesi nullaesterno all’intervallo 95%

p > 0.05

p < 0.05

Accettata l’ipotesi nulla

Rifiutata l’ipotesi nulla

Test di ipotesi: intervalli di confidenza e significativita'


34

Test di normalita'


Per decidere se utilizzare un test parametrico o non parametrico è necessario determinare se i dati sono compatibili con specifiche distribuzioni.

Noi consideriamo solo la distribuzione normale.

Esistono test specifici per determinare la compatibilità con la distribuzione normale, es.:• Kolmogorov–Smirnov• Shapiro–Wilk• ...

Noi utilizzeremo approcci non standard, molto rudi ma immediati.

Test di normalita': metodo 1 (rude)

1. Necessario un campione sufficientemente ampio, bene almeno 50 punti

2. Calcolare media (A), mediana (M), range (R), e deviazionestandard (σ) del campione.

3. A e M devono essere vicini, < 1% di R. (distrib. normale è simmetrica, A = M). Se molto diversi, distribuzione non normale.

4. Regola 68-95-99.7: in una distribuzione normale, 68% dei dati sono entro σ da A, il 95% entro 2σ, il 99.7% entro 3σ.

5. Se passi 3 e 4 soddisfatti, la distribuzione del campione potrebbe essere normale.

6. Bisognerebbe usare test più affidabili, come i test di Kolmogorov-Smirnov, Anderson-Darling, o Shapiro-Wilk.


35


Altro modo immediato e rude: confronto dell'istogramma dei dati con la curva normale. Facile da fare in Excel, servono molti dati (> 1009.

Si ordinano i dati, li si raggruppa arbitrariamente (in "bins"). In Excel necessari i limiti inferiori di ogni bin.

In Excel bisogna attivare il componete aggiuntivo "Analisi dati", quindi scegliere istogramma. Inserire la serie dati in "intervallo di input" e la serie bins in "Intervallo della classe". Checkare "Grafico in output" e si ha una cosa del tipo:

Confrontare con una normale con la stessa media e DS:


IDEA: i dati distribuiti normalmente hanno la stessa area compresa fra

due dati successivi. Es., 7 punti, l'area sotto la curva fra due punti successivi è 1/7 dell'area totale.

In Excel, si può avere l'area sottesa fino a un punto x usando la Cumulative Distribution Function (CDF) :

CDF = DISTRIB.NORM.N(x, media, Standard Deviation, TRUE )

L’area nell'intervallo fra due punti successivi è la differenza delle relative CDF.

Esempio, dati -4 -3 0.8 1.8 3.9 6.2 6.5 (ordinati!)



Stessa area

sottesa

36


SI calcolano n (7), media (1.74), e DS (4.15) della colonna DATI, ordinati.

• Si aggiunge una colonna CDFNORM con probabilità equispaziate (dati

distribuiti normalmente). La CDF della media vale 0.5. Le CDF degli altri dati sono centrate sulla media (0.5) e poi separate di 1/n. Se num dati pari, i due centrali hanno media 0.5 e sono separati di 1/n.

• Si aggiunge una colonna CDFNORMZ con i dati in CDFNORM trasformati in z score:

INV.NORM.S(CDFNORM) () (NORM.S.INV se inglese)

• Si aggiunge una colonna DATINORM, con i dati z adattatati ai parametri campionari:

INV.NORM.N(CDFNORM, media camp., dev.st. camp.)(NORM.INV se inglese)


Test di normalita': metodo 3 (rude)Il test si effettua plottando in un grafico (a dispersione) i valori dei dati reali (DATI) e quelli normali (DATINORM) verso gli z score (CDFNORMZ).

Nel grafico, i DATI dovrebbero approssimare la retta generata dai DATINORM.


Grafico: 1) inserisci grafico 2) mouse dx seleziona dati 3) voci aggiungi 4) modifica serie

CDFNORMZ

37

Test di normalita’: fil rouge


Gradi di libertàil numero di punti, elementi o altre unità nei dati in ingresso, che sono liberi di variare,Spesso pari al numero di osservazioni meno 1.

Test su una o due code• test su una coda sono usati per ipotesi già orientate• test su due code in tutti gli altri casi

Parametri caratterizzanti un test


38

Distribuzione t di Student


Famiglia di distribuzioni al variare di k = gradi di libertà


Utilizzata se la varianza della popolazione non è nota (non lo è

quasi mai). La si stima con - � ∑ ��0 �!!��

!e così si passa da z a t.

La distribuzione t somiglia molto alla distribuzione Z, ma ha le code un po’ più pronunciate, a riflettere l’incertezza aggiunta dal processo di stima.

Maggiore è la dimensione del campione (quindi il numero di elementi usati per stimare σ), e maggiore è la somiglianza di t con Z.

Se n>50, t e Z sono molto simili.


39



t

0

t (n = 5)

t (n = 13)Le distribuzioni t hanno forma a campana, ma con code maggiori di quelle della normale

Normale

Standard(t con n = ∞)

Nota: t → z se n cresce


La distribuzione t:

• Approssima la normale se n>100.

• Può essere utilizzata al posto della normale se la dimensione del campione è abbastanza ampia.

• Riflette l’incertezza introdotta dall’uso della deviazione standard del campione, invece che di quella della popolazione.


40

T test

Il test t di Student è un test parametrico che si usa per verificare se c'è stato effetto da una operazione (dati accoppiati, misurando prima e dopo) o comunque per verificare se due gruppi (campioni) sono diversi.

Confronta due medie e dice se sono significativamente diverse. Si calcola un valore di t funzione della differenza di medie e varianze. Più è alto t più è probabile che le medie siano diverse.

In generale

t = (differenza fra medie) / (variabilità dei gruppi)

La formula specifica dipende dal tipo di test, ce ne sono molti


t-test a una o due code


Nel test ad una coda, la zona di rifiuto è solamente da una parte della distribuzione (a sinistra quando il segno è negativo, a destra quando è positivo)

Nel test a due code, la zona di rifiuto è distribuita dalle due parti

Il test a due code è più conservativo (vi si ricorre quando non si ha alcuna idea sui possibili risultati) mentre il test ad una coda è più potente

41

t test appaiati: esempio 1 in excel

SI considera una ricerca locale su un problema di max. Prima della ricerca (10, 3, 5, 6, 3, 5) dopo (12, 15, 9, 7, 9, 6)

Poi componente aggiuntivo -> strumenti di analisi -> test t, due campioni accoppiati per medie

Media ipotizzata: 0 (ipotesi nulla, 0), alfa 0.05 (o 0.01).

Si ottiene


< 0.05< t

t test: esempio in excel

Risultati: il valore di t è 2.511.

Test a una coda

Il t è maggiore del t critico a una coda (2.015). Quindi con il 95% di certezza la differenza è significativa.

Stessa conclusione via p-value, che per una coda è 0.027 (< 0.05).

Test a due code

Qui ciascuna delle code ha una regione critica pari al 2.5% dell'area totale. Il t non è abbastanza grande per essere posizionato nel 2.5% più esterno: t = 2.511 < 2.571 (valore critico a due code).

Analogamente, p-value = 0.054 > 0.05 (alpha del test).


42

t test appaiati: esempio 2 in excel


Ancora confronto fra due algoritmi, diverse ripetizioni sulla stessa istanza.

Alg. A Alg. B Test t: due campioni assumendo varianze diverse

1 639 650

2 646 633 Alg. A Alg. B

3 650 631 Media 643.8 637

4 641 637 Varianza 54.4 39.6

5 641 642 Osservazioni 10 11

6 637 638 Differenza ipotizzata per le medie 0

7 659 640 gdl 19

8 650 634 Stat t 2.261646

9 640 626 P(T<=t) una coda 0.018167

10 635 636 t critico una coda 1.734064

11 - 640 P(T<=t) due code 0.036334

Medie 643.8 635.7 t critico due code 2.100922

t di Student in Excel

t = 2.261646.

• Confrontando t con il t critico per 19 gradi di libertà (gdl = num. dati –num. gruppi; 21-2=19) il valore è superiore a quello della colonna p=5%. Si rifiuta l'ipotesi zero, la differenza è significativa per p<0.05. Ciò significa che c'è una probabilità inferiore al 5% che la differenza sia dovuta al caso.

• Inoltre p=0.036334 (due code). Ciò significa che c'è una probabilità inferiore a 3.64% che la differenza sia dovuta al caso. Si può affermare che la differenza sia significativa per p=0.0344, quindi è significativa allo 0.05, ma non (ad. es.) allo 0.01.


43

Fil rouge: t-test in excel


Fil rouge: t-test in R


> t.test(a1,a2)

Welch Two Sample t-test

data: a1 and a2

t = -2.2698, df = 19.249, p-value = 0.03489

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-6.6318342 -0.2715927

sample estimates:

mean of x mean of y

5.570767 9.022480

> t critico 2.10!

< 0.025, 5% a due

code

44

t-test fra due gruppi

• Nel t-test per campioni indipendenti (unpaired) si confrontano due campioni che si riferiscono a due gruppi di soggetti diversi (per esempio risultati ottenuti su uno stesso problema da algoritmo A o algoritmo B):

between-subject design.

• Nel t-test per campioni appaiati (paired) i due campioni si riferiscono a due diverse misurazioni dello stesso parametro nello stesso gruppo di soggetti (per esempio una soluzione prima e dopo la ricerca locale). In questo caso ci saranno due misurazioni per ogni soggetto, e quindi la numerosità dei due campioni è necessariamente uguale:within-subject design.


Test non parametrici: dati ordinali

Gruppi correlati

• Wilcoxon matched-pairs signed-rank test: confronto fradue gruppi

• Friedman matched samples: confronto fra due o piùgruppi

Gruppi indipendenti

• Wilcoxon rank-sum (Mann-Whitney U): confronto fra due

gruppi

• Kruskal-Wallis H: confronto fra due o più gruppi


45

Test non parametrici: Wilcoxon test

Domanda: c'è differenza di qualità fra i risultati prodotti da un algoritmo A e quelli di un algoritmo B?Tipo di variabile da confrontare? ContinuaDistribuita normalmente? No (e n piccola) Quanti gruppi sono coinvolti? dueWilcoxon rank-sum test (unpaired) o Wilcoxon signed-rank test (paired)


Due variabili correlate, nessuna assunzione sulle loro distribuzioni.

Ipotesi nulla: le due variabili hanno la stessa distribuzione

Il test è basato sulla grandezza delle differenze fra coppie, e dà più peso alle coppie che hanno una differenza grande.

Considera i ranghi dei valori assoluti delle differenze fra due variabili

In R: wilcox.test(a1,a2,paired=FALSE)wilcox.test(a1,a2,paired=TRUE)

Test di Wilcoxson, signed-rank

Test molto semplice: si ordinano i dati dei gruppi e si sommano le

posizioni (rank) di ciascuno quando supera l’altro.

Idea: si sommano a turno i rank degli ordinamenti in cui uno dei due gruppi supera l'altro. Più le somme sono diverse, più i gruppi saranno diversi. Se gruppi simili, le posizioni alte e basse nell’ordinamento saranno equamente suddivise.

La statistica del test di Wilcoxon W è la più piccola delle due somme. Più W è bassa meno è probabile che la differenza sia dovuta al caso. (infatti se bassa uno dei due va sempre meglio).

Una tabella di valori critici indica la probabilità di ottenere ogni particolare valore di W solo per caso. (Nota: Wilcoxon è atipico. Di solito, maggiore è la statistica, minore è la prob. di averla avuta per caso. Qui l’inverso).


46

1. Calcola le differenze (col segno) dei valori in ogni coppia di dati corrispondenti.

2. Ordina le differenze, ignorando il segno (val. assoluto). Ignora le differenze pari a 0. Minimo = 1. Differenze uguali hanno rank uguale alla media delle posizioni corrispondenti. Somma i rank positivi (nell’es. = 22, A meglio di B) e somma i rank negativi (es.= 6, B meglio di A).

3. W è la somma minima; es. W = 6. N è il numero di differenze, senza considerare quelle nulle. Es. N = 8 - 1 = 7.

4. Usa la tabella per trovare il valore critico di W, dato N. Il valore di W deve essere uguale o minore al valore critico per essere statisticamente significativo.

Wicoxson, signed-rank


Tabella


Se il campione più alto contiene più di 20 elementi, la distribuzione di W si approssima alla normale con questi parametri:

�8 � 0

-8 � �� 1��2� 1�6

!

47

Stessi dati, ricopiabili


Wilcoxon Signed-Ranks Table

Critical Vaues for 2-tail significance levels

nalpha

0.10 0.05 0.02 0.01

5 06 2 07 3 2 08 5 3 1 09 8 5 3 1

10 10 8 5 311 13 10 7 512 17 13 9 713 21 17 12 914 25 21 15 1215 30 25 19 1516 35 29 23 1917 41 34 27 2318 47 40 32 2719 53 46 37 3220 60 52 43 3721 67 58 49 4222 75 65 56 4823 83 73 62 5424 91 81 69 6125 100 89 77 68

Due versioni dello stesso algoritmo che individuano quanti camion servono per trasportare un insieme dato di bancali (soggetti a vincoli operativi). 8 istanze diverse

Esempio, Wilcoxon signed-rank


Istanza Alg. A Alg. B Differenza Rank

1 15 10 5 4.5

2 12 14 -2 2.5

3 11 11 0 Ignora

4 16 11 5 4.5

5 14 4 10 6

6 13 1 12 7

7 11 12 -1 1

8 8 10 -2 2.5

Media: 12.5,

DS: 2.56

Mediana: 12.5 Mediana: 10.5

48

Il valore critico di W per N = 7 è 2. Il valore calcolato W = 6 è maggiore di quello critico.I due gruppi non sono quindi significativamente diversi.

Conclusione: i due algoritmi hanno una efficacia equivalente.

Esempio, test di Wilcoxon


Esempio 2


Il valore di W è sufficiente per ritenere che vi sia un effetto significativo della ricerca?

Confronto fra risultati ottenuti su 5 istanze da un algoritmo che implementa una ricerca locale casualizzata (SA) di raffinamento

49

Wicoxon: rank-sum


Corrispettivo non parametrico del t-test unpaired (campioni indipendenti, es. algoritmi diversi).Anche noto come test di Mann-Whitney o test U di Mann-Whitney

1. Sia un campione "c1" e l'altro campione "c2"

2. Prendendo ogni osservazione in c1, contare il numero di osservazioni in c2 che sono inferiori (in valore) al valore corrente di c1 (contando 1/2 per ogni osservazione uguale).

3. Il totale ottenuto è il valore U1.

4. Procedere simmetricamente per calcolare U2.

Wicoxon: rank-sum


La statistica Wilcoxon rank-sum osservata U è il più piccolo dei due valori calcolati (U1 e U2).

Se U < Ucritical, (riportato in tabella solo per combinazioni di dimensioni N1 e N2 uguali, ma possono essere diverse, e per alcuni tassi di falsi positivi α), si rifiuta l'ipotesi nulla H0.

N1 N2 0.0025 0.005 0.05 0.1

4 4 0 0 1 5

5 5 0 0 4 8

6 6 1 2 7 13

7 7 3 4 11 18

8 8 6 7 15 24

9 9 9 11 21 32

10 10 13 16 27 40

11 11 18 21 34 49

12 12 24 27 42 59

13 13 30 34 51 70

14 14 38 42 61 82

15 15 46 51 72 95

16 16 54 60 83 109

17 17 64 70 96 124

18 18 74 81 109 139

19 19 85 93 123 156

20 20 97 105 138 174

Per campioni di dimensioni maggiori di 20 si utilizza l’approssimazione normale.

50

Fil rouge: Wilcoxon rank-sum


Fil rouge: U test in R


> wilcox.test(a1,a2,paired=FALSE)

Wilcoxon rank sum test

data: a1 and a2W = 42, p-value = 0.08873alternative hypothesis: true location shift is not equal to 0

Non è più piccolo del valore in tabella.Non si può rifiutare H0.

51

Test parametrici e non parametrici


Documents

05 - Statistiche Inferenzialiisi-personale.csr.unibo.it/vittorio.maniezzo/didattica/DSS/05... · Ordinali I valori permettono un ordinamento, ma gli intervalli fra valori possono