Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Preview:

Citation preview

Test StatisticiTest Statistici

Metodi Quantitativi per Economia, Finanza e Management

Esercitazione n°5

Riferimenti

Mail di riferimento:

Alberto Saccardi alberto.saccardi@nunatac.it orario ricevimento lunedì 16.30-17.30

Elena Pallini epallini@liuc.it orario ricevimento venerdì 10.30-11.30

Federica Calabretti fcalabretti@liuc.it orario ricevimento venerdì 10.30-11.30

Lavoro di gruppo

• Inviare il questionario via mail a epallini@liuc.it e fcalabretti@liuc.it

• Attendere la validazione del questionario e procedere alla somministrazione dello stesso

• Argomenti da trattare nel lavoro di gruppo:– Analisi univariata– Analisi bivariata– Test statistici– Analisi fattoriale– Regressione lineare utilizzando come regressori i fattori

Test per lo studio dell’associazione tra variabili

• Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione.

• Obiettivo dei testObiettivo dei test:: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario.

Esistono due ipotesi: – HH00 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata– HH11 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che

il ricercatore sta cercando di dimostrare.

Legenda:Risultato

(Probabilità)

Stato di Natura

Decisione

NonRifiutare

H0

No errore (1 - )

Errore Secondo Tipo

( β )

RifiutareH0

Errore Primo Tipo

( )

Possibili Risultati Verifica di Ipotesi

H0 Falsa H0 Vera

No Errore ( 1 - β )

Test per lo studio dell’associazione tra variabili

• Si può incorrere in due tipologie di errore:

• Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera– Considerato un tipo di errore molto serio

• Chiamato livello si significatività del test• Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10)

• Errore di Secondo Tipo

– Non rifiutare un’ipotesi nulla falsa

• (1 – β) è definito come la potenza del test

Test per lo studio dell’associazione tra variabili

La probabilità dell’errore di secondo tipo è β

La probabilità dell’errore di primo tipo è

Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata

Lettura di un test statistico (1)Esempio:

almeno un bi≠01) Ipotesi

b1= b2 = ....=bk = 0 H0:

H1:

2) Statistica test Statistica F

3) p-value

Rappresenta la probabilità di commettere l’errore di prima specie.Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test

Lettura di un test statistico (2)

Se p-value piccolo (< ) RIFIUTO H0

Altrimenti (>= ) ACCETTO H0

Il p-value è il più piccolo valore di Il p-value è il più piccolo valore di per il quale Hper il quale H00 pu puòò essere rifiutata essere rifiutata

Fissato un livello di significatività :

PROC FREQ - Descrizione

La PROC FREQ permette di

• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete

• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative

discrete

• calcolare indici di dipendenza relativi a tabelle di contingenza

Test chi-quadro – Indipendenza statistica

• Si applica alle tabelle di contingenza a due dimensioni

• Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa)

• Si calcola con la PROC FREQ (opzione CHISQ)

PROC FREQ – Sintassi generale

proc freq data= dataset option(s);

tables variabile1 * variabile2 /option(s);

run;

Calcolo dell’indice chi-quadro

OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze• /chisq calcola l’indice chi-quadro e altre misure di

associazione basate sul chi-quadro

Esempio n°1- Test chi-quadro – Indipendenza statistica

proc freq data=corso.telefonia;

table sesso * computer /chisq;

run;

C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?

Le frequenze della variabile COMPUTER subordinata a SESSO:Le frequenze della variabile COMPUTER subordinata a SESSO:

Esempio n°1- Test chi-quadro – Indipendenza statistica

Le frequenze della variabile di SESSO subordinata a COMPUTER:Le frequenze della variabile di SESSO subordinata a COMPUTER:

Cosa sono le frequenze Cosa sono le frequenze subordinate?subordinate?Frequency

PercentRow Pct 0 1Col Pct 16 84 100

6.78 35.59 42.3716 84

28.57 46.6740 96 136

16.95 40.68 57.6329.41 70.5971.43 53.33

56 180 23623.73 76.27 100

F

M

Total

Table of sesso by computersesso(sesso) computer(computer) Total

sesso=F

Cumulative CumulativeFrequency Percent

0 16 16 16 161 84 84 100 100

sesso=M

Cumulative CumulativeFrequency Percent

0 40 29.41 40 29.411 96 70.59 136 100

computercomputer Frequency Percent

computercomputer Frequency Percent

computer = 0

Cumulative CumulativeFrequency Percent

F 16 28.57 16 28.57M 40 71.43 56 100

computer = 1

Cumulative CumulativeFrequency Percent

F 84 46.67 84 46.67M 96 53.33 180 100

sesso

sesso Frequency Percent

sesso

sesso Frequency Percent

Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

Esempio n°1- Test chi-quadro – Indipendenza statistica

FrequencyPercentRow Pct 0 1Col Pct 16 84 100

6.78 35.59 42.3716 84

28.57 46.6740 96 136

16.95 40.68 57.6329.41 70.5971.43 53.33

56 180 23623.73 76.27 100

F

M

Total

Table of sesso by computersesso(sesso) computer(computer) Total

Esempio n°1- Test chi-quadro – Indipendenza statistica

Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti

Statistic DF Value ProbChi-Square 1 5.7275 0.0167Likelihood Ratio Chi-Square 1 5.9139 0.015Continuity Adj. Chi-Square 1 5.0104 0.0252Mantel-Haenszel Chi-Square 1 5.7032 0.0169Phi Coefficient -0.1558Contingency Coefficient 0.1539Cramer's V -0.1558

Possiamo concludere che le due variabili sono statisticamente dipendenti?

Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui:

H0 : indipendenza statistica tra X e Y

H1 : dipendenza statistica tra X e Y

proc freq data=corso.telefonia;

table sesso * marca /chisq;

run;

C’è indipendenza statistica tra le variabili SESSO e MARCA?

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

Frequency

PercentRow Pct Altro Lg Motorola Nek Nokia PalmOne Samsung Siemens Sony

EricssonCol Pct 2 8 19 2 45 1 15 1 7 100

0.85 3.39 8.05 0.85 19.07 0.42 6.36 0.42 2.97 42.372 8 19 2 45 1 15 1 7

33.33 61.54 36.54 50 43.69 100 37.5 20 58.334 5 33 2 58 0 25 4 5 136

1.69 2.12 13.98 0.85 24.58 0 10.59 1.69 2.12 57.632.94 3.68 24.26 1.47 42.65 0 18.38 2.94 3.68

66.67 38.46 63.46 50 56.31 0 62.5 80 41.676 13 52 4 103 1 40 5 12 236

2.54 5.51 22.03 1.69 43.64 0.42 16.95 2.12 5.08 100

F

M

Total

Table of sesso by marcasesso marca Total

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti

Statistic DF Value ProbChi-Square 8 7.0754 0.5285

Likelihood Ratio Chi-Square

8 7.5018 0.4836

Mantel-Haenszel Chi-Square

1 0.0103 0.9191

Phi Coefficient 0.1731Contingency Coefficient 0.1706

Cramer's V 0.1731

than 5. Chi-Square may not be a valid test.

WARNING: 44% of the cells have expected counts less

Test t – Indipendenza lineare

• Si applica a variabili quantitative

• Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo)

• Si calcola con la PROC CORR

PROC CORR - Descrizione

La PROC CORR permette di

• calcolare la correlazione tra due o più variabili quantitative

PROC CORR – Sintassi generale

proc corr data= dataset;

var variabile1 variabile2 … variabilen;

run;

Correlazione tra due o più variabili

PROC CORR - Esempio

Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno.

proc corr data=corso.telefonia;

var cell_h fisso_h;

run;

Output PROC CORR - Esempio

Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.

1 2 3 4 5fi sso_h

5

10

15

20

c

e

l

l

_

h

PROC CORR - Esempio

Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e:

• durata media delle chiamate ricevute [durata_chiamate_r]

• numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h]

• numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h]

proc corr data=corso.telefonia;

var durata_chiamate_e durata_chiamate_r

cell_h fisso_h;

run;

Output PROC CORR - Esempio

0 20 40 60 80

dur at a_ chi amat e_e

0

20

40

60

80d

u

r

a

t

a

_

c

h

i

a

m

Esempio n°1 - Test t – Indipendenza lineare

C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)?

proc corr data=corso.telefonia;

var cell_h fisso_h;

run;

Esempio n°1 - Test t – Indipendenza lineare

Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

Esempio n°2 - Test t – Indipendenza lineare

C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)?

proc corr data=corso.telefonia;

var fisso_h email_h;

run;

Esempio n°2 - Test t – Indipendenza lineare

Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili

Test F – Indipendenza in media

• test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X

• la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa(ANOVA : ANalysis Of Variance)

• il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza

H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro )

H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

Test F – Indipendenza in mediaDevianza Totalesomma dei quadrati degli scarti di ogni valore dalla media generale

gdl = n-1 (n = num. dati)

 

Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale

gdl = p-1 (p= num. gruppi)

Varianza tra

Devianza interna ai gruppi (o entro i gruppi )somma degli scarti al quadrato di ogni valore dalla media del suo gruppo

gdl = n-p Varianza nei(o entro)

F= VarTRA/ VarNEI

Significatività del test p-value :

- se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.

PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa

PROC ANOVA DATA=dataset;

CLASS X;

MODEL Y=X;

MEANS X;

RUN;

Esempio (1/2)

PROC ANOVA DATA =corso.telefonia;

CLASS operatore;

MODEL soddisfazione_globale=operatore;

MEANS operatore;

RUN;

C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)?

Esempio (2/2)Output proc anova:

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 8.9317803 2.9772601 1.61 0.1884

Error 231 427.8086453 1.8519855   

Corrected Total 234 436.7404255     

Level of N soddisfazione_globaleoperatore Mean Std Dev

Tim 55 6.16363636 1.33004645Tre 12 6.41666667 1.31137217

Vodafone 153 6.62745098 1.29209313Wind 15 6.4 2.06328448

Devianza Varianza

TraNei (Entro)

R-Square Coeff Var Root MSE soddisfazione_globale Mean

0.020451 20.9571 1.360877 6.493617eta quadro

Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media

non esiste una relazione di dipendenza in media tra le due variabili

Esercizi 1.Testare se le variabili area geografica e

sesso del data set DENTI sono statisticamente indipendenti

2.Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI

3. Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.

Recommended