Metodi statistici per le ricerche di mercato · Nello studio empirico della relazione di dipendenza ... La funzione della retta interpolante ... In una popolazione statistica si è

31/03/2017

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella MingoA.A. 2016-2017

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Un grafico per studiare la relazione tra caratteriquantitativi: lo Scatter-Plot o Grafico diDispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri

quantitativi

Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.

L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza

La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri

Rmer 2016-2017

31/03/2017

2

Esempio

Distribuzione Unitaria Doppia

Unità Statistica

VenditeSpesa per

pubblicità su radio e TV

1 973 02 1119 03 875 254 625 255 910 306 971 307 931 358 1177 359 882 40

10 982 4011 1628 4512 1577 4513 1044 5014 914 5015 1329 5516 1330 5517 1405 6018 1436 6019 1521 6520 1741 6521 1866 7022 1717 70

Scatter Plot

0

500

1000

1500

2000

0 10 20 30 40 50 60 70 80

Spesa per pubblicità radio e TV

Vend

ite

U.S

Rmer 2016-2017

Interdipendenza tra due caratteri quantitativi

• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y

• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un

carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere

Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere

31/03/2017

3

.. .si puo analizzare l’interdipendenza graficamente

1. Concordanza: nuvola allungata verso alto a destra

2. Discordanza: nuvola allungata verso alto a sinistra

3. Assenza di interdipendenza lineare: punti sparsi

Interdipendenza tra due caratteri quantitativi

• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:

n

MyMxn

iyixi

xy

1

)()(

Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson

31/03/2017

4

IL Coefficiente di correlazione lineare di Bravais e Pearson

• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.

r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:

Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre?Calcolare il coefficiente di correlazione tra i due caratteri .

I. Mingo 2016-2017

Esercizio

31/03/2017

5

Step per calcolare il coefficiente di correlazione

FSSC

1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli

scarti dalla rispettiva media3. Ottenere la covarianza

• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.

• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità

statistiche.4. Ottenere gli scarti quadratici medi

• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità

statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici

medi-

5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli

scarti quadratici medi dei due caratteri (ottenuti al punto 4).

Correlazione e relazione lineare

I. Mingo 2016-2017

31/03/2017

6

Correlazione e relazione lineare

r=0,976r=0,002

Le caratteristiche dei punti-unità espresse dalledue variabili (le due dimensioni del pianocartesiano) possono essere riassunte da unasola la retta.

Non è possibile individuare una rettache riassuma le due variabili poichéesse sono indipendenti.

I. Mingo 2016-2017

Correlazione: esempi

Correlazioni

-,897 ,976 -,337

-682,661 2617,602 -45,033

-35,930 137,769 -2,37020 20 20

Correlazione di PearsonSomma dei quadrati edei prodotti incrociatiCovarianzaN

tasso didisocc.

Tasso diattività delle

donne

Tasso didisoccupazion

e giovanile

Minorennidenunciati

per 100minorenni

in età 14-17anni

Tasso di disoccupazione

3020100

Tass

o di

atti

vità

del

le d

onne

50

40

30

20


3020100

Tass

o di

dis

occu

pazio

ne g

iova

nile

70

60

50

40

30

20

10

0


3020100

Min

oren

ni d

enun

ciat

i per

100

min

oren

ni

6

5

4

3

2

1

31/03/2017

7

Uso del software : la correlazione

I. Mingo 2016-2017

Analisi della dipendenza lineare tra due variabili quantitative

I. Mingo 2016-2017

• L’analisi della dipendenza è asimmetrica: date due variabiliquantitative, X e Y, si è interessati a studiare se e in che misura lavariabile Y (variabile dipendente ) sia influenzata dalla X (variabileindipendente).

• Scelta la variabile indipendente X e quella dipendente Y, la rappresentazione grafica della distribuzione unitaria doppia di tali variabili attraverso il grafico di dispersione, consente di individuare la eventuale relazione lineare tra X ed Y.

• Si è visto che è’ possibile tracciare una retta, detta interpolante, tra i punti dello scatterplot tale che si avvicini a tutti i punti riproducendo, con una certa approssimazione, la nuvola.

31/03/2017

8

I. Mingo 2016-2017

La funzione di una retta è la seguente:Y= a+bX

dove:• a è l’intercetta della retta sull’asse delle ordinate Y, cioè è il punto in

cui la retta interseca l’asse Y e quindi è il valore di Y che corrisponde ad un valore di X=0;

• b è il coefficiente angolare della retta , cioè il valore che indica la sua inclinazione. Se b>0 la retta è ascendente, ossia inclinata dal basso a sinistra verso l’alto a destra; se b<0 la retta è discendente, ossia inclinata dal basso a destra verso l’alto a sinistra.

Nello studio empirico della relazione di dipendenza lineare tra X ed Y l’obiettivo è quello di individuare per ciascun punto Pi un nuovo punto che sia il più vicino possibile al punto Pi pur giacendo sulla retta che passa nella nuvola di punti.

La funzione della retta

La differenza tra il valore yi osservato e quello teorico è definito residuo

La funzione della retta interpolante

La migliore retta individuabile è quella che rende minimi tali residui

31/03/2017

9

La relazione lineare tra X e Y e la retta di regressione

I. Mingo 2014-2015

Come individuare questa retta?Secondo il metodo dei minimi quadrati la migliore retta è quella che

rende minima la somma dei quadrati dei residui: questa retta vienechiamata retta di regressione.

Come si calcola la retta di regressione: che cosa sono i parametri a e b?

I. Mingo 2014-2015

31/03/2017

10

Il coefficiente di regressione e il coefficiente di correlazione

•

I. Mingo 2016-2017

Come si interpreta Il coefficiente di regressione

•

I. Mingo 2016-2017

31/03/2017

11

푦푖 = −2,46 + 1,19푥푖

EsercizioRiprendendo la tabella 5 dell’esercizio precedente calcolare il coefficiente di regressione tra le vendite (variabile dipendente) e le spese in pubblicità (variabile indipendente), e l’intercetta della retta di regressione. Scrivere l’equazione della retta di regressione.

b=20,03/16,81=1,19

푎 = 푀(푌) − 푏푀(푋) a=10,83-(1,19*11,17)=-2,4623

Valutare la bontà di adattamento della retta di regressione

•

I. Mingo 2016-2017

31/03/2017

12

Criterio per valutare la bontà di adattamento: il coefficiente di determinazione R2

•

I. Mingo 2016-2017

Come si interpreta R2

•

I. Mingo 2016-2017

31/03/2017

13

Uso del software: regressione

I. Mingo 2016-2017

Uso del software:output

I. Mingo 2016-2017

Ŷi=-2,474 +1,192Xi

R2= 3436.96/3908=0,879

R2 corretto tiene conto dei gradi di libertà del modello, cioè del numero di unità statistiche e del numero di variabili indipendenti (k) e si utilizza nella regressione multipla.

beta=B * DSx/DSy):È un coefficiente indipendente dalle unità di x e y , poiché le variabili indipendenti sono espresse in forma standardizzata (Z-score) - Nella regressione lineare bivariatacorrisponde alla r di Pearson

gl

kn-k+1

N-1

31/03/2017

14

Esercizio

I. Mingo 2016-2017

A partire dall’output seguente :• Disegnare la retta di regressione tra Reddito del nucleo familiare e Costo

di richiesta di indennizzo• Qual è la correlazione tra le due variabili?• Come si può valutare l’adattamento della retta di regressione ai punti

empirici?• Utilizzando il modello lineare, quale sarà il costo di indennizzo medio a

fronte di un reddito familiare pari a 91(in migliaia)?

Esercizio

I. Mingo 2016-2017

In una popolazione statistica si è osservato che la relazione tra anni di istruzione (x) e reddito annuo (y) può essere espressa dalla relazione seguente:

ŷ= -20000+4000x

Se la deviazione standard di x=2 e quella di y=16000, qual è la correlazione tra le due variabili?

calcolo

31/03/2017

15

Numero di variabili e tipi di regressione

I. Mingo 2016-2017

La regressione multipla

I. Mingo 2016-2017

I modelli di regressione multipla rappresentano unaestensione della regressione bivariata, si utilizzano neicasi in cui la variabile quantitativa dipendente Y èespressa in funzione di più variabili quantitative, definiteregressori, che si suppongono indipendenti e di cui sivuole controllare l’effetto su quella dipendente.

Le variabili devono essere del seguente tipo:• variabile dipendente (Y): quantitativa• variabili indipendenti (X1, X2… Xk): quantitative o dicotomiche.

In presenza di due variabili indipendenti si ottiene un piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano.

31/03/2017

16

La relazione lineare nel caso di più di due variabili

• la variabile osservata Y, nell’individuo i-esimo, viene espressa in funzione di p regressori;

• il parametro a , detto intercetta o costante, è il valore assunto da Y quando tutti i p regressori considerati sono pari a zero,

• i parametri bp esprimono la variazione media di Y dovuta da ogni variazione unitaria di ciascuno regressore tenendo costanti tutti gli altri.

• Ogni coefficiente bp esprime l’effetto lineare di ogni variabile Xp al netto degli effetti delle altre variabili incluse nel modello.

• Il parametro ε rappresenta l’errore che si commette nel predire il valore effettivo di Y mediante il modello lineare adottato.

I. Mingo 2016-2017

Yi= a + b1Xi1+ b2Xi2+…… bpXip + εi =

ip

k

ppba

1

La regressione multipla

• Si tratta di individuare il migliore iperpiano possibile cioè quello che più si approssima ai valori osservati e dunque che rende minime le differenze tra i valori che il modello ci consente di predire e i valori empirici.

I. Mingo 2016-2017

min)][ˆ 2

1

22

ip

k

ppiii

ba

Ŷi= a + b1Xi1+ b2Xi2+…… bkXik

31/03/2017

17

I coefficienti di regressione parziali

• ogni coefficiente di regressione bk tra la variabile dipendente eciascuna variabile indipendente esprime la variazione media delvalore della variabile dipendente prodotta da ogni variazione unitariadi ogni regressore, tenendo costanti i valori assunti da tutti gli altri.

• mediante questo controllo possiamo separare gli effetti netti esercitatida ogni variabile indipendente Xk da quelli esercitati dagli altriregressori;

• Questi coefficienti vengono definiti parziali, perché tengono ancheconto dell’interdipendenza tra i regressori e della dipendenza dellavariabile dipendente anche da tutti gli altri regressori inclusi nelmodello .

• Per due regressori:

I. Mingo 2016-2017

Regressione multipla : usa del software

I. Mingo 2016-2017

31/03/2017

18

I. Mingo 2016-2017

ŷi= 25,630 +0,093xi1 – 1,418xi2

F= (3834,363/2)/(73,637/141)=3671)

Test F Si usa nell’inferenza.Verifica se il valore campionario di R2 èsignificativamente diverso da 0F è uguale al rapporto tra la devianza media spiegata dalla regressione (media dei quadrati)e la devianza media residua..

R-quadrato è il coefficiente di detrminazione

R è la correlazione multipla: rappresenta il gradi di associazione globale tra la variabile dipendente e quelle indipendenti.

Regressione multipla: la multicollinearità

I. Mingo 2016-2017

• La multicollinearità rappresenta un problema per la correttainterpretazione dei coefficienti di regressione

• Consiste nella eventuale presenza di correlazione tra le variabiliindipendenti.

• Si parla di collinearità perfetta quando tale correlazione è pari a 1,in tal caso l’iperpiano di regressione non è univocamenteidentificabile, poiché è possibile individuare infinite superfici che siadattano ai dati empirici.

• Nella pratica di ricerca il caso più comune è quello della quasi-collinearità) tanto da incidere sull’accuratezza dei risultati dellaregressione:

• Tanto più elevata è la correlazione tra le variabili indipendenti tantopiù instabili saranno i risultati e dunque più difficile stabilirne lasignificatività statistica.

31/03/2017

19

Come individuare la multicollinearità1. Analizzare il coefficiente correlazione bivariato tra le variabili

indipendenti a due a due accertando che non sia molto elevato e che non sia maggiore di quello calcolato tra ciascuna delle variabili indipendenti e quella dipendente.

2. Utilizzare gli indici di Tolleranza (tolerance) e VIF (Varianceinflaction factor o fattore di accrescimento della varianza).

• Il primo indice Ti= (1-Ri²), in cui Ri² è il coefficiente di determinazione nella regressione della variabile indipendente i-esima sugli altri regressori – misura la quantità di varianza di questa variabile che non è spiegata dalle altre variabili indipendenti.

• Se Ti= 1 la collinearietà non esiste; viceversa se Ti= 0 allora si è in presenza del problema della collinearità perfetta.

• Il secondo indice VIFi= 1/ Ti costituisce il reciproco di Ti , pertanto in caso di multicollinearità il suo valore aumenta perché il denominatore si approssima allo zero.

I. Mingo 2016-2017

Uso del software

I. Mingo 2016-2017

31/03/2017

20

I. Mingo 2016-2017

La Tolleranza *100 è la percentuale della varianza di un dato regressore che non può essere spiegato dall’altro regressore.I valori della Tolleranza mostrano che solo il 12% della varianza di ciascun regressorenon può essere spiegata dall’altro, mentre l’88%può essere spiegata dall’altro.

Un fattore di inflazione della varianza (VIF) maggiore di 2 è di solito considerato problematico. In tabella VIF=8,36 !Pertanto tra i due regressori esiste collinearità.E’ opportuno eliminare il regressore meno significativo per il modello.

L’

Analisi della dipendenza tra un carattere quantitativo e uno qualitativo

I. Mingo 2016-2017

L’analisi della dipendenza tra due caratteri X e Y , di cui il primo qualitativo e l’altro quantitativo, può essere compiuta confrontando i valori medi del carattere quantitativo calcolati nell’ambito di ciascuna delle modalità assunte dal carattere qualitativo . Tali valori si definiscono medie condizionate.

Si segue un approccio asimmetrico:Si ipotizza che siano le diverse modalità del carattere qualitativo ad influire sui valori che in media il carattere quantitativo assume sulle unità statistiche: si parlerà allora di dipendenza o indipendenza in media di Y da X.

Diremo che:• Y è indipendente in media da X se i valori medi di Y condizionatamente alle

K modalità di X, non variano, cioè:• Y è dipendente in media da X se le medie condizionate di Y rispetto a X

non sono tutte uguali. Tanto maggiore è la variabilità di tali medie tanto più forte è la dipendenza tra i due caratteri.

31/03/2017

21

Esempio

I. Mingo 2016-2017

La spesa media mensile per un determinato prodotto è dieuro 42,93. Si evidenziano spese medie differenti a secondadella posizione nella professione degli acquirenti.

Spesa media per il prodotto BB per categoria occupazionale degli intervistati.

Occupazione

Spesa media mensile

Freq. Assoluta

Varianza di Dirigente 59,11 339 78,51 Impiegato 41,58 456 87,48 Commerciante 33,24 204 94,04 Agricoltore 36,56 36 91,8 Artigiano 41,53 163 51,41 Operaio 31,90 220 34,90 Totale 42,93 1418 170,76

Si può concludere che sulla spesa per il prodotto BB influisca la categoria occupazionale?

Indice per misurare la forza di associazione: Eta quadrato

• L’indice eta quadrato rapporta la variabilità spiegata ossia la parte dellavariabilità totale di Y riprodotta dalle medie condizionate, alla varianzatotale di Y.

con

• Variabilità

I. Mingo 2016-2017

L’indice è ottenuto rapportando la variabilità spiegata

.

Può assumere valori compresi tra 0 e 1.Tra questi due estremi, i valori di eta quadrato possono essere interpretaticome la proporzione della variabilità di un carattere imputabile alledifferenti categorie di un altro.

Variabilità totale di Y riprodotta dalle medie condizionate

Varianza totale di Y

31/03/2017

22

I. Mingo 2016-2017

La varianza delle medie della spesa media (M(Y|X)) spiegata dalle categorie occupazionali (X) può essere calcolata nel modo seguente:

Eta sarà:

I. Mingo 2016-2017

In questo caso possiamo dunque concludere che il 57% circa della variabilità della spesa media per il prodotto BB dipende dalla categoria occupazionale dei clienti.

31/03/2017

23

Uso del software:Valori medi per sottogruppi di popolazione.Confronta medie

I. Mingo 2016-2017

Uso del software :output

I. Mingo 2016-2017

La variabilità riprodotta dalle mediecondizionate è prossima allo 0%I livelli di soddisfazione riguardanti i dueitems considerati non si diversificanosignificativamente tra maschi efemmine.

31/03/2017

24

Esercizio

Il premio ramo vita medio erogato da un’assicurazione è di 827 mila euro. Si evidenziano premi differenti a seconda delle ripartizioni delle agenzie. Sapendo che la varianza del premio è di 166394, si può concludere che ci sia una relazione tra ammontare medio del premio e ripartizione geografica?

I. Mingo 2016-2017

Media Nnord-ovest 1141 25

nord-est 1109 20centro 861 22sud 442 23isole 412 13Totale 827 103

Premi ramo vitaRipartizioni

Documents

Metodi statistici per le ricerche di mercato · Nello studio empirico della relazione di dipendenza ... La funzione della retta interpolante ... In una popolazione statistica si è