Upload
trinhnhu
View
217
Download
0
Embed Size (px)
Citation preview
31/03/2017
1
Metodi statistici per le ricerche di mercato
Prof.ssa Isabella MingoA.A. 2016-2017
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»
Un grafico per studiare la relazione tra caratteriquantitativi: lo Scatter-Plot o Grafico diDispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri
quantitativi
Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.
L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza
La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri
Rmer 2016-2017
31/03/2017
2
Esempio
Distribuzione Unitaria Doppia
Unità Statistica
VenditeSpesa per
pubblicità su radio e TV
1 973 02 1119 03 875 254 625 255 910 306 971 307 931 358 1177 359 882 40
10 982 4011 1628 4512 1577 4513 1044 5014 914 5015 1329 5516 1330 5517 1405 6018 1436 6019 1521 6520 1741 6521 1866 7022 1717 70
Scatter Plot
0
500
1000
1500
2000
0 10 20 30 40 50 60 70 80
Spesa per pubblicità radio e TV
Vend
ite
U.S
Rmer 2016-2017
Interdipendenza tra due caratteri quantitativi
• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y
• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un
carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere
Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere
31/03/2017
3
.. .si puo analizzare l’interdipendenza graficamente
1. Concordanza: nuvola allungata verso alto a destra
2. Discordanza: nuvola allungata verso alto a sinistra
3. Assenza di interdipendenza lineare: punti sparsi
Interdipendenza tra due caratteri quantitativi
• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:
n
MyMxn
iyixi
xy
1
)()(
Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson
31/03/2017
4
IL Coefficiente di correlazione lineare di Bravais e Pearson
• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.
r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:
Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre?Calcolare il coefficiente di correlazione tra i due caratteri .
I. Mingo 2016-2017
Esercizio
31/03/2017
5
Step per calcolare il coefficiente di correlazione
FSSC
1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli
scarti dalla rispettiva media3. Ottenere la covarianza
• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.
• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità
statistiche.4. Ottenere gli scarti quadratici medi
• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità
statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici
medi-
5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli
scarti quadratici medi dei due caratteri (ottenuti al punto 4).
Correlazione e relazione lineare
I. Mingo 2016-2017
31/03/2017
6
Correlazione e relazione lineare
r=0,976r=0,002
Le caratteristiche dei punti-unità espresse dalledue variabili (le due dimensioni del pianocartesiano) possono essere riassunte da unasola la retta.
Non è possibile individuare una rettache riassuma le due variabili poichéesse sono indipendenti.
I. Mingo 2016-2017
Correlazione: esempi
Correlazioni
-,897 ,976 -,337
-682,661 2617,602 -45,033
-35,930 137,769 -2,37020 20 20
Correlazione di PearsonSomma dei quadrati edei prodotti incrociatiCovarianzaN
tasso didisocc.
Tasso diattività delle
donne
Tasso didisoccupazion
e giovanile
Minorennidenunciati
per 100minorenni
in età 14-17anni
Tasso di disoccupazione
3020100
Tass
o di
atti
vità
del
le d
onne
50
40
30
20
Tasso di disoccupazione
3020100
Tass
o di
dis
occu
pazio
ne g
iova
nile
70
60
50
40
30
20
10
0
Tasso di disoccupazione
3020100
Min
oren
ni d
enun
ciat
i per
100
min
oren
ni
6
5
4
3
2
1
31/03/2017
7
Uso del software : la correlazione
I. Mingo 2016-2017
Analisi della dipendenza lineare tra due variabili quantitative
I. Mingo 2016-2017
• L’analisi della dipendenza è asimmetrica: date due variabiliquantitative, X e Y, si è interessati a studiare se e in che misura lavariabile Y (variabile dipendente ) sia influenzata dalla X (variabileindipendente).
• Scelta la variabile indipendente X e quella dipendente Y, la rappresentazione grafica della distribuzione unitaria doppia di tali variabili attraverso il grafico di dispersione, consente di individuare la eventuale relazione lineare tra X ed Y.
• Si è visto che è’ possibile tracciare una retta, detta interpolante, tra i punti dello scatterplot tale che si avvicini a tutti i punti riproducendo, con una certa approssimazione, la nuvola.
31/03/2017
8
I. Mingo 2016-2017
La funzione di una retta è la seguente:Y= a+bX
dove:• a è l’intercetta della retta sull’asse delle ordinate Y, cioè è il punto in
cui la retta interseca l’asse Y e quindi è il valore di Y che corrisponde ad un valore di X=0;
• b è il coefficiente angolare della retta , cioè il valore che indica la sua inclinazione. Se b>0 la retta è ascendente, ossia inclinata dal basso a sinistra verso l’alto a destra; se b<0 la retta è discendente, ossia inclinata dal basso a destra verso l’alto a sinistra.
Nello studio empirico della relazione di dipendenza lineare tra X ed Y l’obiettivo è quello di individuare per ciascun punto Pi un nuovo punto che sia il più vicino possibile al punto Pi pur giacendo sulla retta che passa nella nuvola di punti.
La funzione della retta
La differenza tra il valore yi osservato e quello teorico è definito residuo
La funzione della retta interpolante
La migliore retta individuabile è quella che rende minimi tali residui
31/03/2017
9
La relazione lineare tra X e Y e la retta di regressione
I. Mingo 2014-2015
Come individuare questa retta?Secondo il metodo dei minimi quadrati la migliore retta è quella che
rende minima la somma dei quadrati dei residui: questa retta vienechiamata retta di regressione.
Come si calcola la retta di regressione: che cosa sono i parametri a e b?
I. Mingo 2014-2015
31/03/2017
10
Il coefficiente di regressione e il coefficiente di correlazione
•
I. Mingo 2016-2017
Come si interpreta Il coefficiente di regressione
•
I. Mingo 2016-2017
31/03/2017
11
푦푖 = −2,46 + 1,19푥푖
EsercizioRiprendendo la tabella 5 dell’esercizio precedente calcolare il coefficiente di regressione tra le vendite (variabile dipendente) e le spese in pubblicità (variabile indipendente), e l’intercetta della retta di regressione. Scrivere l’equazione della retta di regressione.
b=20,03/16,81=1,19
푎 = 푀(푌) − 푏푀(푋) a=10,83-(1,19*11,17)=-2,4623
Valutare la bontà di adattamento della retta di regressione
•
I. Mingo 2016-2017
31/03/2017
12
Criterio per valutare la bontà di adattamento: il coefficiente di determinazione R2
•
I. Mingo 2016-2017
Come si interpreta R2
•
I. Mingo 2016-2017
31/03/2017
13
Uso del software: regressione
I. Mingo 2016-2017
Uso del software:output
I. Mingo 2016-2017
Ŷi=-2,474 +1,192Xi
R2= 3436.96/3908=0,879
R2 corretto tiene conto dei gradi di libertà del modello, cioè del numero di unità statistiche e del numero di variabili indipendenti (k) e si utilizza nella regressione multipla.
beta=B * DSx/DSy):È un coefficiente indipendente dalle unità di x e y , poiché le variabili indipendenti sono espresse in forma standardizzata (Z-score) - Nella regressione lineare bivariatacorrisponde alla r di Pearson
gl
kn-k+1
N-1
31/03/2017
14
Esercizio
I. Mingo 2016-2017
A partire dall’output seguente :• Disegnare la retta di regressione tra Reddito del nucleo familiare e Costo
di richiesta di indennizzo• Qual è la correlazione tra le due variabili?• Come si può valutare l’adattamento della retta di regressione ai punti
empirici?• Utilizzando il modello lineare, quale sarà il costo di indennizzo medio a
fronte di un reddito familiare pari a 91(in migliaia)?
Esercizio
I. Mingo 2016-2017
In una popolazione statistica si è osservato che la relazione tra anni di istruzione (x) e reddito annuo (y) può essere espressa dalla relazione seguente:
ŷ= -20000+4000x
Se la deviazione standard di x=2 e quella di y=16000, qual è la correlazione tra le due variabili?
calcolo
31/03/2017
15
Numero di variabili e tipi di regressione
I. Mingo 2016-2017
La regressione multipla
I. Mingo 2016-2017
I modelli di regressione multipla rappresentano unaestensione della regressione bivariata, si utilizzano neicasi in cui la variabile quantitativa dipendente Y èespressa in funzione di più variabili quantitative, definiteregressori, che si suppongono indipendenti e di cui sivuole controllare l’effetto su quella dipendente.
Le variabili devono essere del seguente tipo:• variabile dipendente (Y): quantitativa• variabili indipendenti (X1, X2… Xk): quantitative o dicotomiche.
In presenza di due variabili indipendenti si ottiene un piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano.
31/03/2017
16
La relazione lineare nel caso di più di due variabili
• la variabile osservata Y, nell’individuo i-esimo, viene espressa in funzione di p regressori;
• il parametro a , detto intercetta o costante, è il valore assunto da Y quando tutti i p regressori considerati sono pari a zero,
• i parametri bp esprimono la variazione media di Y dovuta da ogni variazione unitaria di ciascuno regressore tenendo costanti tutti gli altri.
• Ogni coefficiente bp esprime l’effetto lineare di ogni variabile Xp al netto degli effetti delle altre variabili incluse nel modello.
• Il parametro ε rappresenta l’errore che si commette nel predire il valore effettivo di Y mediante il modello lineare adottato.
I. Mingo 2016-2017
Yi= a + b1Xi1+ b2Xi2+…… bpXip + εi =
ip
k
ppba
1
La regressione multipla
• Si tratta di individuare il migliore iperpiano possibile cioè quello che più si approssima ai valori osservati e dunque che rende minime le differenze tra i valori che il modello ci consente di predire e i valori empirici.
I. Mingo 2016-2017
min)][ˆ 2
1
22
ip
k
ppiii
ba
Ŷi= a + b1Xi1+ b2Xi2+…… bkXik
31/03/2017
17
I coefficienti di regressione parziali
• ogni coefficiente di regressione bk tra la variabile dipendente eciascuna variabile indipendente esprime la variazione media delvalore della variabile dipendente prodotta da ogni variazione unitariadi ogni regressore, tenendo costanti i valori assunti da tutti gli altri.
• mediante questo controllo possiamo separare gli effetti netti esercitatida ogni variabile indipendente Xk da quelli esercitati dagli altriregressori;
• Questi coefficienti vengono definiti parziali, perché tengono ancheconto dell’interdipendenza tra i regressori e della dipendenza dellavariabile dipendente anche da tutti gli altri regressori inclusi nelmodello .
• Per due regressori:
I. Mingo 2016-2017
Regressione multipla : usa del software
I. Mingo 2016-2017
31/03/2017
18
I. Mingo 2016-2017
ŷi= 25,630 +0,093xi1 – 1,418xi2
F= (3834,363/2)/(73,637/141)=3671)
Test F Si usa nell’inferenza.Verifica se il valore campionario di R2 èsignificativamente diverso da 0F è uguale al rapporto tra la devianza media spiegata dalla regressione (media dei quadrati)e la devianza media residua..
R-quadrato è il coefficiente di detrminazione
R è la correlazione multipla: rappresenta il gradi di associazione globale tra la variabile dipendente e quelle indipendenti.
Regressione multipla: la multicollinearità
I. Mingo 2016-2017
• La multicollinearità rappresenta un problema per la correttainterpretazione dei coefficienti di regressione
• Consiste nella eventuale presenza di correlazione tra le variabiliindipendenti.
• Si parla di collinearità perfetta quando tale correlazione è pari a 1,in tal caso l’iperpiano di regressione non è univocamenteidentificabile, poiché è possibile individuare infinite superfici che siadattano ai dati empirici.
• Nella pratica di ricerca il caso più comune è quello della quasi-collinearità) tanto da incidere sull’accuratezza dei risultati dellaregressione:
• Tanto più elevata è la correlazione tra le variabili indipendenti tantopiù instabili saranno i risultati e dunque più difficile stabilirne lasignificatività statistica.
31/03/2017
19
Come individuare la multicollinearità1. Analizzare il coefficiente correlazione bivariato tra le variabili
indipendenti a due a due accertando che non sia molto elevato e che non sia maggiore di quello calcolato tra ciascuna delle variabili indipendenti e quella dipendente.
2. Utilizzare gli indici di Tolleranza (tolerance) e VIF (Varianceinflaction factor o fattore di accrescimento della varianza).
• Il primo indice Ti= (1-Ri²), in cui Ri² è il coefficiente di determinazione nella regressione della variabile indipendente i-esima sugli altri regressori – misura la quantità di varianza di questa variabile che non è spiegata dalle altre variabili indipendenti.
• Se Ti= 1 la collinearietà non esiste; viceversa se Ti= 0 allora si è in presenza del problema della collinearità perfetta.
• Il secondo indice VIFi= 1/ Ti costituisce il reciproco di Ti , pertanto in caso di multicollinearità il suo valore aumenta perché il denominatore si approssima allo zero.
I. Mingo 2016-2017
Uso del software
I. Mingo 2016-2017
31/03/2017
20
I. Mingo 2016-2017
La Tolleranza *100 è la percentuale della varianza di un dato regressore che non può essere spiegato dall’altro regressore.I valori della Tolleranza mostrano che solo il 12% della varianza di ciascun regressorenon può essere spiegata dall’altro, mentre l’88%può essere spiegata dall’altro.
Un fattore di inflazione della varianza (VIF) maggiore di 2 è di solito considerato problematico. In tabella VIF=8,36 !Pertanto tra i due regressori esiste collinearità.E’ opportuno eliminare il regressore meno significativo per il modello.
L’
Analisi della dipendenza tra un carattere quantitativo e uno qualitativo
I. Mingo 2016-2017
L’analisi della dipendenza tra due caratteri X e Y , di cui il primo qualitativo e l’altro quantitativo, può essere compiuta confrontando i valori medi del carattere quantitativo calcolati nell’ambito di ciascuna delle modalità assunte dal carattere qualitativo . Tali valori si definiscono medie condizionate.
Si segue un approccio asimmetrico:Si ipotizza che siano le diverse modalità del carattere qualitativo ad influire sui valori che in media il carattere quantitativo assume sulle unità statistiche: si parlerà allora di dipendenza o indipendenza in media di Y da X.
Diremo che:• Y è indipendente in media da X se i valori medi di Y condizionatamente alle
K modalità di X, non variano, cioè:• Y è dipendente in media da X se le medie condizionate di Y rispetto a X
non sono tutte uguali. Tanto maggiore è la variabilità di tali medie tanto più forte è la dipendenza tra i due caratteri.
31/03/2017
21
Esempio
I. Mingo 2016-2017
La spesa media mensile per un determinato prodotto è dieuro 42,93. Si evidenziano spese medie differenti a secondadella posizione nella professione degli acquirenti.
Spesa media per il prodotto BB per categoria occupazionale degli intervistati.
Occupazione
Spesa media mensile
Freq. Assoluta
Varianza di Dirigente 59,11 339 78,51 Impiegato 41,58 456 87,48 Commerciante 33,24 204 94,04 Agricoltore 36,56 36 91,8 Artigiano 41,53 163 51,41 Operaio 31,90 220 34,90 Totale 42,93 1418 170,76
Si può concludere che sulla spesa per il prodotto BB influisca la categoria occupazionale?
Indice per misurare la forza di associazione: Eta quadrato
• L’indice eta quadrato rapporta la variabilità spiegata ossia la parte dellavariabilità totale di Y riprodotta dalle medie condizionate, alla varianzatotale di Y.
con
• Variabilità
I. Mingo 2016-2017
L’indice è ottenuto rapportando la variabilità spiegata
.
Può assumere valori compresi tra 0 e 1.Tra questi due estremi, i valori di eta quadrato possono essere interpretaticome la proporzione della variabilità di un carattere imputabile alledifferenti categorie di un altro.
Variabilità totale di Y riprodotta dalle medie condizionate
Varianza totale di Y
31/03/2017
22
I. Mingo 2016-2017
La varianza delle medie della spesa media (M(Y|X)) spiegata dalle categorie occupazionali (X) può essere calcolata nel modo seguente:
Eta sarà:
I. Mingo 2016-2017
In questo caso possiamo dunque concludere che il 57% circa della variabilità della spesa media per il prodotto BB dipende dalla categoria occupazionale dei clienti.
31/03/2017
23
Uso del software:Valori medi per sottogruppi di popolazione.Confronta medie
I. Mingo 2016-2017
Uso del software :output
I. Mingo 2016-2017
La variabilità riprodotta dalle mediecondizionate è prossima allo 0%I livelli di soddisfazione riguardanti i dueitems considerati non si diversificanosignificativamente tra maschi efemmine.
31/03/2017
24
Esercizio
Il premio ramo vita medio erogato da un’assicurazione è di 827 mila euro. Si evidenziano premi differenti a seconda delle ripartizioni delle agenzie. Sapendo che la varianza del premio è di 166394, si può concludere che ci sia una relazione tra ammontare medio del premio e ripartizione geografica?
I. Mingo 2016-2017
Media Nnord-ovest 1141 25
nord-est 1109 20centro 861 22sud 442 23isole 412 13Totale 827 103
Premi ramo vitaRipartizioni