35
Test Statistici Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Embed Size (px)

Citation preview

Page 1: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test StatisticiTest Statistici

Metodi Quantitativi per Economia, Finanza e Management

Esercitazione n°5

Page 2: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Riferimenti

Mail di riferimento:

Alberto Saccardi [email protected] orario ricevimento lunedì 16.30-17.30

Elena Pallini [email protected] orario ricevimento venerdì 10.30-11.30

Federica Calabretti [email protected] orario ricevimento venerdì 10.30-11.30

Page 3: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Lavoro di gruppo

• Inviare il questionario via mail a [email protected] e [email protected]

• Attendere la validazione del questionario e procedere alla somministrazione dello stesso

• Argomenti da trattare nel lavoro di gruppo:– Analisi univariata– Analisi bivariata– Test statistici– Analisi fattoriale– Regressione lineare utilizzando come regressori i fattori

Page 4: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test per lo studio dell’associazione tra variabili

• Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione.

• Obiettivo dei testObiettivo dei test:: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario.

Esistono due ipotesi: – HH00 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata– HH11 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che

il ricercatore sta cercando di dimostrare.

Page 5: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Legenda:Risultato

(Probabilità)

Stato di Natura

Decisione

NonRifiutare

H0

No errore (1 - )

Errore Secondo Tipo

( β )

RifiutareH0

Errore Primo Tipo

( )

Possibili Risultati Verifica di Ipotesi

H0 Falsa H0 Vera

No Errore ( 1 - β )

Test per lo studio dell’associazione tra variabili

• Si può incorrere in due tipologie di errore:

Page 6: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

• Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera– Considerato un tipo di errore molto serio

• Chiamato livello si significatività del test• Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10)

• Errore di Secondo Tipo

– Non rifiutare un’ipotesi nulla falsa

• (1 – β) è definito come la potenza del test

Test per lo studio dell’associazione tra variabili

La probabilità dell’errore di secondo tipo è β

La probabilità dell’errore di primo tipo è

Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata

Page 7: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Lettura di un test statistico (1)Esempio:

almeno un bi≠01) Ipotesi

b1= b2 = ....=bk = 0 H0:

H1:

2) Statistica test Statistica F

3) p-value

Rappresenta la probabilità di commettere l’errore di prima specie.Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test

Page 8: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Lettura di un test statistico (2)

Se p-value piccolo (< ) RIFIUTO H0

Altrimenti (>= ) ACCETTO H0

Il p-value è il più piccolo valore di Il p-value è il più piccolo valore di per il quale Hper il quale H00 pu puòò essere rifiutata essere rifiutata

Fissato un livello di significatività :

Page 9: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC FREQ - Descrizione

La PROC FREQ permette di

• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete

• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative

discrete

• calcolare indici di dipendenza relativi a tabelle di contingenza

Page 10: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test chi-quadro – Indipendenza statistica

• Si applica alle tabelle di contingenza a due dimensioni

• Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa)

• Si calcola con la PROC FREQ (opzione CHISQ)

Page 11: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC FREQ – Sintassi generale

proc freq data= dataset option(s);

tables variabile1 * variabile2 /option(s);

run;

Calcolo dell’indice chi-quadro

OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze• /chisq calcola l’indice chi-quadro e altre misure di

associazione basate sul chi-quadro

Page 12: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°1- Test chi-quadro – Indipendenza statistica

proc freq data=corso.telefonia;

table sesso * computer /chisq;

run;

C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?

Page 13: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Le frequenze della variabile COMPUTER subordinata a SESSO:Le frequenze della variabile COMPUTER subordinata a SESSO:

Esempio n°1- Test chi-quadro – Indipendenza statistica

Le frequenze della variabile di SESSO subordinata a COMPUTER:Le frequenze della variabile di SESSO subordinata a COMPUTER:

Cosa sono le frequenze Cosa sono le frequenze subordinate?subordinate?Frequency

PercentRow Pct 0 1Col Pct 16 84 100

6.78 35.59 42.3716 84

28.57 46.6740 96 136

16.95 40.68 57.6329.41 70.5971.43 53.33

56 180 23623.73 76.27 100

F

M

Total

Table of sesso by computersesso(sesso) computer(computer) Total

sesso=F

Cumulative CumulativeFrequency Percent

0 16 16 16 161 84 84 100 100

sesso=M

Cumulative CumulativeFrequency Percent

0 40 29.41 40 29.411 96 70.59 136 100

computercomputer Frequency Percent

computercomputer Frequency Percent

computer = 0

Cumulative CumulativeFrequency Percent

F 16 28.57 16 28.57M 40 71.43 56 100

computer = 1

Cumulative CumulativeFrequency Percent

F 84 46.67 84 46.67M 96 53.33 180 100

sesso

sesso Frequency Percent

sesso

sesso Frequency Percent

Page 14: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

Esempio n°1- Test chi-quadro – Indipendenza statistica

FrequencyPercentRow Pct 0 1Col Pct 16 84 100

6.78 35.59 42.3716 84

28.57 46.6740 96 136

16.95 40.68 57.6329.41 70.5971.43 53.33

56 180 23623.73 76.27 100

F

M

Total

Table of sesso by computersesso(sesso) computer(computer) Total

Page 15: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°1- Test chi-quadro – Indipendenza statistica

Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti

Statistic DF Value ProbChi-Square 1 5.7275 0.0167Likelihood Ratio Chi-Square 1 5.9139 0.015Continuity Adj. Chi-Square 1 5.0104 0.0252Mantel-Haenszel Chi-Square 1 5.7032 0.0169Phi Coefficient -0.1558Contingency Coefficient 0.1539Cramer's V -0.1558

Possiamo concludere che le due variabili sono statisticamente dipendenti?

Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui:

H0 : indipendenza statistica tra X e Y

H1 : dipendenza statistica tra X e Y

Page 16: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

proc freq data=corso.telefonia;

table sesso * marca /chisq;

run;

C’è indipendenza statistica tra le variabili SESSO e MARCA?

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Page 17: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

Frequency

PercentRow Pct Altro Lg Motorola Nek Nokia PalmOne Samsung Siemens Sony

EricssonCol Pct 2 8 19 2 45 1 15 1 7 100

0.85 3.39 8.05 0.85 19.07 0.42 6.36 0.42 2.97 42.372 8 19 2 45 1 15 1 7

33.33 61.54 36.54 50 43.69 100 37.5 20 58.334 5 33 2 58 0 25 4 5 136

1.69 2.12 13.98 0.85 24.58 0 10.59 1.69 2.12 57.632.94 3.68 24.26 1.47 42.65 0 18.38 2.94 3.68

66.67 38.46 63.46 50 56.31 0 62.5 80 41.676 13 52 4 103 1 40 5 12 236

2.54 5.51 22.03 1.69 43.64 0.42 16.95 2.12 5.08 100

F

M

Total

Table of sesso by marcasesso marca Total

Page 18: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°2 - Test chi-quadro – Indipendenza statistica

Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti

Statistic DF Value ProbChi-Square 8 7.0754 0.5285

Likelihood Ratio Chi-Square

8 7.5018 0.4836

Mantel-Haenszel Chi-Square

1 0.0103 0.9191

Phi Coefficient 0.1731Contingency Coefficient 0.1706

Cramer's V 0.1731

than 5. Chi-Square may not be a valid test.

WARNING: 44% of the cells have expected counts less

Page 19: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test t – Indipendenza lineare

• Si applica a variabili quantitative

• Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo)

• Si calcola con la PROC CORR

Page 20: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC CORR - Descrizione

La PROC CORR permette di

• calcolare la correlazione tra due o più variabili quantitative

Page 21: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC CORR – Sintassi generale

proc corr data= dataset;

var variabile1 variabile2 … variabilen;

run;

Correlazione tra due o più variabili

Page 22: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC CORR - Esempio

Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno.

proc corr data=corso.telefonia;

var cell_h fisso_h;

run;

Page 23: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Output PROC CORR - Esempio

Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.

1 2 3 4 5fi sso_h

5

10

15

20

c

e

l

l

_

h

Page 24: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC CORR - Esempio

Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e:

• durata media delle chiamate ricevute [durata_chiamate_r]

• numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h]

• numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h]

proc corr data=corso.telefonia;

var durata_chiamate_e durata_chiamate_r

cell_h fisso_h;

run;

Page 25: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Output PROC CORR - Esempio

0 20 40 60 80

dur at a_ chi amat e_e

0

20

40

60

80d

u

r

a

t

a

_

c

h

i

a

m

Page 26: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°1 - Test t – Indipendenza lineare

C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)?

proc corr data=corso.telefonia;

var cell_h fisso_h;

run;

Page 27: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°1 - Test t – Indipendenza lineare

Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

Page 28: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°2 - Test t – Indipendenza lineare

C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)?

proc corr data=corso.telefonia;

var fisso_h email_h;

run;

Page 29: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio n°2 - Test t – Indipendenza lineare

Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili

Page 30: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test F – Indipendenza in media

• test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X

• la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa(ANOVA : ANalysis Of Variance)

• il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza

H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro )

H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

Page 31: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Test F – Indipendenza in mediaDevianza Totalesomma dei quadrati degli scarti di ogni valore dalla media generale

gdl = n-1 (n = num. dati)

 

Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale

gdl = p-1 (p= num. gruppi)

Varianza tra

Devianza interna ai gruppi (o entro i gruppi )somma degli scarti al quadrato di ogni valore dalla media del suo gruppo

gdl = n-p Varianza nei(o entro)

F= VarTRA/ VarNEI

Significatività del test p-value :

- se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.

Page 32: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa

PROC ANOVA DATA=dataset;

CLASS X;

MODEL Y=X;

MEANS X;

RUN;

Page 33: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio (1/2)

PROC ANOVA DATA =corso.telefonia;

CLASS operatore;

MODEL soddisfazione_globale=operatore;

MEANS operatore;

RUN;

C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)?

Page 34: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esempio (2/2)Output proc anova:

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 8.9317803 2.9772601 1.61 0.1884

Error 231 427.8086453 1.8519855   

Corrected Total 234 436.7404255     

Level of N soddisfazione_globaleoperatore Mean Std Dev

Tim 55 6.16363636 1.33004645Tre 12 6.41666667 1.31137217

Vodafone 153 6.62745098 1.29209313Wind 15 6.4 2.06328448

Devianza Varianza

TraNei (Entro)

R-Square Coeff Var Root MSE soddisfazione_globale Mean

0.020451 20.9571 1.360877 6.493617eta quadro

Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media

non esiste una relazione di dipendenza in media tra le due variabili

Page 35: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Esercizi 1.Testare se le variabili area geografica e

sesso del data set DENTI sono statisticamente indipendenti

2.Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI

3. Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.