ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale

ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: RELAZIONI TRA VARIABILI

1 / 36

Relazioni fra variabili

Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.

Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36


Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.

Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36


Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.

Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36


Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.

2 / 36


Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:

• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36



• i casi in cui entrambe le variabili siano categoriche

• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36



• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative

• i casi in cui una variabile sia categorica e l’altraqualitativa.

3 / 36



• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra

qualitativa.

3 / 36

Associazione fra variabili: variabile risposta evariabile esplicativa

Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente).

Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.

La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.

La variabile esplicativa:

a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;

b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.

4 / 36


Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.





4 / 36







4 / 36







4 / 36







4 / 36

Associazione fra variabili categoriche

Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.

Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.

5 / 36

Associazione fra variabili categoriche

Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.

5 / 36

Tabella di contingenza

YX y1 y2 · · · yj · · · yk Totale rigax1 n11 n12 · · · n1j · · · n1k ∑

kj=1 n1j

x2 n21 n22 · · · n2j · · · n2k ∑kj=1 n2j

......

... · · ·... · · ·

...xi ni1 ni2 · · · nij · · · nik ∑

kj=1 nij

......

... · · ·... · · ·

...xr nr1 nr2 · · · nrj · · · nrk ∑

kj=1 nrj

Totale col ∑ri=1 ni1 ∑

ri=1 ni2 ∑

ri=1 nij ∑

ri=1 nik n

6 / 36

Tabella di contingenza

PesticidiTipo agricoltura Si No Totale riga

Biologica 29 98 127Tradizionale 19485 7086 26571Totale col 19514 7184 26698

7 / 36

Tabella di contingenza: proporzionicondizionate

PesticidiTipo agricoltura Si No Totale prop. Totale riga

Biologica 0.23 0.77 1 127Tradizionale 0.73 0.27 1 26571

Calcolo le proporzioni per riga, ad esempio nella prima cella abbiamo29/127 = 0.23.Questo ci permette di confrontare le proporzioni di Pesticidi usati neidue tipi di agricoltura. Siccome consideriamo un tipo di agricoltura pervolta nel calcolo della proporzione si parla di proporzione condizionataper riga.

8 / 36


Per confrontare le proporzioni condizionate si usa un diagramma abarre particolare, detto a barre accostate.

9 / 36


Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.

Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36


Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.

Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36


Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.

10 / 36

Tabella di contingenza: proporzionicondizionate per colonna

Vediamo come sarebbe la tabella se decidessimo di fis-sare le colonne.

PesticidiTipo agricoltura Si No

Biologica 0.0015 0.014Tradizionale 0.9985 0.986Totale prop. 1 1

Totale colonna 19514 7184

11 / 36

Tabella di contingenza: indipendenza

Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.

Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.

Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:



12 / 36







12 / 36







12 / 36

Tabella di contingenza: indipendenzaGrafico a barre accostate nel caso in cui si ipotizzi indipendenza trauso di pesticidi e tipo di agricoltura.

13 / 36

Associazione fra variabili quantitative: graficodi dispersione

Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.

In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.

Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.

14 / 36





14 / 36





14 / 36


Supponiamo di voler disegnare il grafico di dispersione relativoalla relazione che lega il volume e il diametro del tronco di undataset di 31 alberi di ciliegio. Scegliamo di spiegare il volumein base al diametro.

15 / 36

Associazione fra variabili quantitative:positiva e negativa

Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y

sono associate negativamente quando al cresceredei valori di x decrescono i valori di y

non sono associate se lo scatterplot non evidenzianessun andamento particolare.

Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.

16 / 36






16 / 36






16 / 36






16 / 36


Osserviamo le seguenti associazioni:

17 / 36

Associazione fra variabili quantitative:covarianza e correlazione lineare

Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:

• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.

• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.

Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.

18 / 36






18 / 36






18 / 36

CovarianzaSiano date n osservazioni congiunte di due variabili x e y:

(x1,y1),(x2,y2), . . . ,(xn,yn)

• Covarianza della popolazione

Cov(x,y) = σxy =∑

ni=1(xi −µx)(yi −µy)

Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y

• Varianza campionaria

Cov(x,y) = sxy =∑

ni=1(xi − x)(yi − y)

n−1con x media campionaria di x e y media campionariadi y.

19 / 36


(x1,y1),(x2,y2), . . . ,(xn,yn)




N

con µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y


Cov(x,y) = sxy =∑



19 / 36


(x1,y1),(x2,y2), . . . ,(xn,yn)






Cov(x,y) = sxy =∑



19 / 36


(x1,y1),(x2,y2), . . . ,(xn,yn)






Cov(x,y) = sxy =∑



19 / 36


(x1,y1),(x2,y2), . . . ,(xn,yn)






Cov(x,y) = sxy =∑


n−1

con x media campionaria di x e y media campionariadi y.

19 / 36


(x1,y1),(x2,y2), . . . ,(xn,yn)






Cov(x,y) = sxy =∑



19 / 36

Covarianza

Possiamo interpretare la covarianza come segue:

• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Covarianza


• Cov(x,y)> 0: relazione lineare positiva

• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Covarianza


• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa

• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Covarianza


• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare

20 / 36

Associazione fra variabili quantitative: indicedi correlazione

L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.

• Coefficiente di correlazione della popolazione

ρ =σxy

σxσy

• Coefficiente di correlazione campionaria

r =sxy

sxsy

21 / 36




ρ =σxy

σxσy


r =sxy

sxsy

21 / 36




ρ =σxy

σxσy


r =sxy

sxsy

21 / 36




ρ =σxy

σxσy


r =sxy

sxsy

21 / 36




ρ =σxy

σxσy


r =sxy

sxsy

21 / 36

Indice di correlazione

Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:

• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due

variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due

variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

quanto più il suo valore si avvicina a 0.

22 / 36



• L’indice di correlazione varia sempre tra −1 e 1

• Si ha una relazione linerae positiva forte tra le duevariabili quanto più il suo valore si avvicina a 1

• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1

• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.

22 / 36




variabili quanto più il suo valore si avvicina a 1

• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1


22 / 36





variabili quanto più il suo valore si avvicina a −1


22 / 36





variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili

quanto più il suo valore si avvicina a 0.

22 / 36


Interpretiamo il coefficiente di correlazione:

23 / 36

Indice di correlazioneConsideriamo nuovamente i dati sui ciliegi:

si può misurare che la correlazione tra le due variabili è paria 0.967, per cui risulta chiaro che esiste una relazione linearepositiva molto forte tra le due variabili.

24 / 36

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.

Consideriamo il grafico seguente

Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.

25 / 36

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente


25 / 36

Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente


25 / 36

Associazione fra variabili quantitative:regressione lineare

Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.

Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.

L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.

26 / 36





26 / 36





26 / 36

Regressione lineare

Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:

y = a+bx

• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate

• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.

27 / 36

Regressione lineare


y = a+bx



27 / 36

Regressione lineare


y = a+bx



27 / 36

Regressione lineare

I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:

y = a+bx.

L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.

• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.

• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.

28 / 36

Regressione lineare


y = a+bx.




28 / 36

Regressione lineare


y = a+bx.




28 / 36

Regressione lineare


y = a+bx.




28 / 36

Regressione lineare: interpretazione deicoefficienti

Consideriamo l’esempio sugli alberi di ciliegio. Supponiamo divoler studiare come la misura del Diametro (in pollici) del troncoinfluenzi il suo Volume (in piedi). La variabile dipendente sarà al-lora y = Volume, mentre la variabile indipendente x = Diametro.L’equazione della retta di regressione stimata per questo prob-lema risulta

y =−36.943+5.066x

29 / 36


Consideriamo l’esempio sugli alberi di ciliegio.

• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.

• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.

30 / 36



• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.

• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.

30 / 36



y =−36.943+5.066x

supponiamo di voler predire il valore del Volume per un diametropari a 14.

Se la retta descrive correttamente la relazione tra levariabili allora

yx=14 =−36.943+5.066×14 = 33.981

per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.

31 / 36



y =−36.943+5.066x

supponiamo di voler predire il valore del Volume per un diametropari a 14.Se la retta descrive correttamente la relazione tra levariabili allora

yx=14 =−36.943+5.066×14 = 33.981

per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.

31 / 36

Ricapitolazione: esercizio.

Sia dato un campione di osservazioni sulla misurazione del di-ametro del tronco (in cm) e del raggio della chioma (in m) per10 pini bianchi. Si vuole studiare se la misura del diametro deltronco influenzi il raggio della chioma. Si considera quindi lavariabile esplicativa x= diametro e la risposta y= raggio chioma.I dati rilevati sono i seguenti:

x 5.0 12.7 7.6 17.8 5.1 15.2 10.2 22.9 20.3 10.1

y 0.91 1.83 1.22 2.18 1.22 2.30 1.70 2.74 2.65 1.52

Disegnare il diagramma di dispersione, calcolare covarianza,correlazione e interpretarla.

32 / 36

Documents

ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: …ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI 1/36. ... e capire che tipo di relazione le lega. Lo scopo principale