Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
ESPLORAZIONE DEI DATI CON SINTESINUMERICHE: RELAZIONI TRA VARIABILI
1 / 36
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.
Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
2 / 36
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.
Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
2 / 36
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.
Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
2 / 36
Relazioni fra variabili
Molto spesso si è interessati a confrontare tra loro duevariabili e capire che tipo di relazione le lega.Lo scopo principale nello studio delle relazioni tra due vari-abili è quello di capire se si può trovare una associazionetra esse.Esiste associazione tra due variabili se è più plausibile cheun determinato valore della prima variabile si verifichi incorrispondenza di determinati valori della seconda vari-abile.Esistono diversi metodi statistici che permettono di studi-are le associazioni e valutare quanto forti esse siano.
2 / 36
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra
qualitativa.
3 / 36
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche
• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra
qualitativa.
3 / 36
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative
• i casi in cui una variabile sia categorica e l’altraqualitativa.
3 / 36
Relazioni fra variabili
Nello studiare l’associazione tra due variabili dobbiamo dis-tinguere:
• i casi in cui entrambe le variabili siano categoriche• i casi in cui entrambe le variabili siano quantitative• i casi in cui una variabile sia categorica e l’altra
qualitativa.
3 / 36
Associazione fra variabili: variabile risposta evariabile esplicativa
Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente).
Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.
La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.
La variabile esplicativa:
a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;
b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.
4 / 36
Associazione fra variabili: variabile risposta evariabile esplicativa
Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.
La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.
La variabile esplicativa:
a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;
b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.
4 / 36
Associazione fra variabili: variabile risposta evariabile esplicativa
Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.
La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.
La variabile esplicativa:
a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;
b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.
4 / 36
Associazione fra variabili: variabile risposta evariabile esplicativa
Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.
La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.
La variabile esplicativa:
a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;
b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.
4 / 36
Associazione fra variabili: variabile risposta evariabile esplicativa
Quando si effettuano confronti tra due variabili spesso si cerca diindividuare una variabile risposta (o dipendente) e una variabileesplicativa (o indipendente). Si esamina come gli esiti della vari-abile risposta sono spiegati dai valori della variabile esplicativa.
La variabile risposta è la variabile di esito rispetto allaquale operiamo i confronti.
La variabile esplicativa:
a) se categorica individua i gruppi da confrontarerispetto ai valori assunti dalla variabile risposta;
b) se quantitativa definisce il cambiamento nei diversivalori numerici da confrontare rispetto ai valoriassunti dalla variabile risposta.
4 / 36
Associazione fra variabili categoriche
Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.
Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.
5 / 36
Associazione fra variabili categoriche
Per confrontare due variabili categoriche si consideranodelle tabelle di frequenza a doppia entrata dette tabelle dicontingenza.Una tabella di contingenza è una forma di sintesi usata pervisualizzare simultaneamente due variabil categoriche. Lesue righe elencano le categorie di una delle due variabili,mentre le sue colonne elencano le categorie dell’altra. Ognicella della tabella contiene il numero di osservazioni che,nel campione, sono da riferirsi a una determinata combi-nazione di categorie delle due variabili qualitative.
5 / 36
Tabella di contingenza
YX y1 y2 · · · yj · · · yk Totale rigax1 n11 n12 · · · n1j · · · n1k ∑
kj=1 n1j
x2 n21 n22 · · · n2j · · · n2k ∑kj=1 n2j
......
... · · ·... · · ·
...xi ni1 ni2 · · · nij · · · nik ∑
kj=1 nij
......
... · · ·... · · ·
...xr nr1 nr2 · · · nrj · · · nrk ∑
kj=1 nrj
Totale col ∑ri=1 ni1 ∑
ri=1 ni2 ∑
ri=1 nij ∑
ri=1 nik n
6 / 36
Tabella di contingenza
PesticidiTipo agricoltura Si No Totale riga
Biologica 29 98 127Tradizionale 19485 7086 26571Totale col 19514 7184 26698
7 / 36
Tabella di contingenza: proporzionicondizionate
PesticidiTipo agricoltura Si No Totale prop. Totale riga
Biologica 0.23 0.77 1 127Tradizionale 0.73 0.27 1 26571
Calcolo le proporzioni per riga, ad esempio nella prima cella abbiamo29/127 = 0.23.Questo ci permette di confrontare le proporzioni di Pesticidi usati neidue tipi di agricoltura. Siccome consideriamo un tipo di agricoltura pervolta nel calcolo della proporzione si parla di proporzione condizionataper riga.
8 / 36
Tabella di contingenza: proporzionicondizionate
Per confrontare le proporzioni condizionate si usa un diagramma abarre particolare, detto a barre accostate.
9 / 36
Tabella di contingenza: proporzionicondizionate
Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.
Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.
10 / 36
Tabella di contingenza: proporzionicondizionate
Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.
Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.
10 / 36
Tabella di contingenza: proporzionicondizionate
Il grafico a barre accostate mostra come ci sia un’associazionetra l’uso di pesticidi e il tipo di agricoltura.Poichè il condizionamento riguarda il tipo di agricoltura, sti-amo considerando il pesticida come variabile risposta e iltipo di agricoltura come variabile esplicativa.Si potrebbe pensare di prendere come variabile rispostail tipo di agricoltura e quindi condizionare sulle colonne,considerando i due tipi di pesticidi. In questo caso nonsarebbe molto sensato, è improbabile che il tipo di agri-coltura sia spiegato dall’uso di pesticidi.
10 / 36
Tabella di contingenza: proporzionicondizionate per colonna
Vediamo come sarebbe la tabella se decidessimo di fis-sare le colonne.
PesticidiTipo agricoltura Si No
Biologica 0.0015 0.014Tradizionale 0.9985 0.986Totale prop. 1 1
Totale colonna 19514 7184
11 / 36
Tabella di contingenza: indipendenza
Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.
Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.
Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:
PesticidiTipo agricoltura Si No Totale prop. Totale riga
Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571
12 / 36
Tabella di contingenza: indipendenza
Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.
Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.
Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:
PesticidiTipo agricoltura Si No Totale prop. Totale riga
Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571
12 / 36
Tabella di contingenza: indipendenza
Se la percentuale condizionata si presenta in modo marcata-mente diverso tra righe (se stiamo condizionando per riga) ocolonne (se stiamo condizionando per colonna), individuiamoun’associazione tra variabili categoriche.
Se la percentuale condizionata è molto simile tra righe (se sti-amo condizionando per riga) o colonne (se stiamo condizio-nando per colonna), individuiamo una situazione di indipendenza.
Esempio Se ipotizzassimo l’indipendenza la tabella delle pro-porzioni condizionate potrebbe essere del tipo:
PesticidiTipo agricoltura Si No Totale prop. Totale riga
Biologica 0.40 0.60 1 127Tradizionale 0.40 0.60 1 26571
12 / 36
Tabella di contingenza: indipendenzaGrafico a barre accostate nel caso in cui si ipotizzi indipendenza trauso di pesticidi e tipo di agricoltura.
13 / 36
Associazione fra variabili quantitative: graficodi dispersione
Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.
In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.
Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.
14 / 36
Associazione fra variabili quantitative: graficodi dispersione
Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.
In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.
Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.
14 / 36
Associazione fra variabili quantitative: graficodi dispersione
Per confrontare due variabili quantitative si possono costru-ire dei grafici che mostrano quali valori assume una vari-abile in corrispondenza dei valori dell’altra, si parla di graficodi dispersione o scatterplot.
In un grafico di dispersione una variabile viene rappresen-tata sull’asse delle ascisse, mentre l’altra variabile vieneriportata sull’asse delle ordinate. I valori relativi ad ogniunità statistica sono rappresentati da un punto del pianoche ha come coordinata sull’asse orizzontale il valore rel-ativo alla prima variabile e coordinata sull’asse verticale ilvalore assunto dalla seconda variabile.
Se si sono individuate una variabile risposta e una esplica-tiva, allora la prima va sull’asse delle ordinate e la secondasull’asse delle ascisse.
14 / 36
Associazione fra variabili quantitative: graficodi dispersione
Supponiamo di voler disegnare il grafico di dispersione relativoalla relazione che lega il volume e il diametro del tronco di undataset di 31 alberi di ciliegio. Scegliamo di spiegare il volumein base al diametro.
15 / 36
Associazione fra variabili quantitative:positiva e negativa
Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y
sono associate negativamente quando al cresceredei valori di x decrescono i valori di y
non sono associate se lo scatterplot non evidenzianessun andamento particolare.
Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.
16 / 36
Associazione fra variabili quantitative:positiva e negativa
Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y
sono associate negativamente quando al cresceredei valori di x decrescono i valori di y
non sono associate se lo scatterplot non evidenzianessun andamento particolare.
Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.
16 / 36
Associazione fra variabili quantitative:positiva e negativa
Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y
sono associate negativamente quando al cresceredei valori di x decrescono i valori di y
non sono associate se lo scatterplot non evidenzianessun andamento particolare.
Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.
16 / 36
Associazione fra variabili quantitative:positiva e negativa
Due variabili x e ysono associate positivamente quando al crescere deivalori di x crescono i valori di y
sono associate negativamente quando al cresceredei valori di x decrescono i valori di y
non sono associate se lo scatterplot non evidenzianessun andamento particolare.
Esempio Il volume e il diametro dei dati sui ciliegi sonoassociati positivamente.
16 / 36
Associazione fra variabili quantitative:positiva e negativa
Osserviamo le seguenti associazioni:
17 / 36
Associazione fra variabili quantitative:covarianza e correlazione lineare
Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:
• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.
• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.
Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.
18 / 36
Associazione fra variabili quantitative:covarianza e correlazione lineare
Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:
• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.
• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.
Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.
18 / 36
Associazione fra variabili quantitative:covarianza e correlazione lineare
Esistono degli indici che permettono di calcolare se il legametra due variabili sia di tipo lineare, ossia possa essere rap-presentato da una retta:
• La covarianza è la media del prodotto delle deviazionidelle due variabili confrontate. Fornisce una misura dicome le due variabili varino insieme lungo una retta.
• L’ indice di correlazione è la misura della forzadell’associazione lineare espressa in valori compresitra −1 e 1.
Questi indici non prevedono venga designata una variabilerisposta e una esplicativa.
18 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1con x media campionaria di x e y media campionariadi y.
19 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
N
con µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1con x media campionaria di x e y media campionariadi y.
19 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1con x media campionaria di x e y media campionariadi y.
19 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1con x media campionaria di x e y media campionariadi y.
19 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1
con x media campionaria di x e y media campionariadi y.
19 / 36
CovarianzaSiano date n osservazioni congiunte di due variabili x e y:
(x1,y1),(x2,y2), . . . ,(xn,yn)
• Covarianza della popolazione
Cov(x,y) = σxy =∑
ni=1(xi −µx)(yi −µy)
Ncon µx media della popolazione per la variabile x e µymedia della popolazione per la variabile y
• Varianza campionaria
Cov(x,y) = sxy =∑
ni=1(xi − x)(yi − y)
n−1con x media campionaria di x e y media campionariadi y.
19 / 36
Covarianza
Possiamo interpretare la covarianza come segue:
• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare
20 / 36
Covarianza
Possiamo interpretare la covarianza come segue:
• Cov(x,y)> 0: relazione lineare positiva
• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare
20 / 36
Covarianza
Possiamo interpretare la covarianza come segue:
• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa
• Cov(x,y) = 0: assenza di relazione lineare
20 / 36
Covarianza
Possiamo interpretare la covarianza come segue:
• Cov(x,y)> 0: relazione lineare positiva• Cov(x,y)< 0: relazione lineare negativa• Cov(x,y) = 0: assenza di relazione lineare
20 / 36
Associazione fra variabili quantitative: indicedi correlazione
L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.
• Coefficiente di correlazione della popolazione
ρ =σxy
σxσy
• Coefficiente di correlazione campionaria
r =sxy
sxsy
21 / 36
Associazione fra variabili quantitative: indicedi correlazione
L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.
• Coefficiente di correlazione della popolazione
ρ =σxy
σxσy
• Coefficiente di correlazione campionaria
r =sxy
sxsy
21 / 36
Associazione fra variabili quantitative: indicedi correlazione
L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.
• Coefficiente di correlazione della popolazione
ρ =σxy
σxσy
• Coefficiente di correlazione campionaria
r =sxy
sxsy
21 / 36
Associazione fra variabili quantitative: indicedi correlazione
L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.
• Coefficiente di correlazione della popolazione
ρ =σxy
σxσy
• Coefficiente di correlazione campionaria
r =sxy
sxsy
21 / 36
Associazione fra variabili quantitative: indicedi correlazione
L’indice (o coefficiente) di correlazione è costruito a partiredalla covarianza.
• Coefficiente di correlazione della popolazione
ρ =σxy
σxσy
• Coefficiente di correlazione campionaria
r =sxy
sxsy
21 / 36
Indice di correlazione
Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:
• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due
variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due
variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili
quanto più il suo valore si avvicina a 0.
22 / 36
Indice di correlazione
Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:
• L’indice di correlazione varia sempre tra −1 e 1
• Si ha una relazione linerae positiva forte tra le duevariabili quanto più il suo valore si avvicina a 1
• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1
• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.
22 / 36
Indice di correlazione
Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:
• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due
variabili quanto più il suo valore si avvicina a 1
• Si ha una relazione lineare negativa forte tra le duevariabili quanto più il suo valore si avvicina a −1
• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.
22 / 36
Indice di correlazione
Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:
• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due
variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due
variabili quanto più il suo valore si avvicina a −1
• Si ha una relazione lineare debole tra le due variabiliquanto più il suo valore si avvicina a 0.
22 / 36
Indice di correlazione
Possiamo descrivere alcune caratteristiche dell’indice dicorrelazione:
• L’indice di correlazione varia sempre tra −1 e 1• Si ha una relazione linerae positiva forte tra le due
variabili quanto più il suo valore si avvicina a 1• Si ha una relazione lineare negativa forte tra le due
variabili quanto più il suo valore si avvicina a −1• Si ha una relazione lineare debole tra le due variabili
quanto più il suo valore si avvicina a 0.
22 / 36
Associazione fra variabili quantitative: indicedi correlazione
Interpretiamo il coefficiente di correlazione:
23 / 36
Indice di correlazioneConsideriamo nuovamente i dati sui ciliegi:
si può misurare che la correlazione tra le due variabili è paria 0.967, per cui risulta chiaro che esiste una relazione linearepositiva molto forte tra le due variabili.
24 / 36
Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.
Consideriamo il grafico seguente
Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.
25 / 36
Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente
Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.
25 / 36
Indice di correlazioneL’indice di correlazione lineare individua solamente associazionidi tipo lineare.Consideriamo il grafico seguente
Si evidenzia una forte relazione di tipo parabolico tra le due vari-abili che non può essere descritta da una retta. In casi comequesti la correlazione lineare è zero.
25 / 36
Associazione fra variabili quantitative:regressione lineare
Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.
Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.
L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.
26 / 36
Associazione fra variabili quantitative:regressione lineare
Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.
Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.
L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.
26 / 36
Associazione fra variabili quantitative:regressione lineare
Quando due variabili mostrano una correlazione lineare si puòdecidere di stimare l’equazione della retta che meglio approssimatale relazione a partire dai dati.
Si parla in tal caso di regressione lineare. La retta di regressionelineare permette di descrivere la relazione lineare tra una vari-abile risposta, indicata con y, e una variabile esplicativa, indicatacon x.
L’equazione della retta costruita sui dati permette di determinarei valori della variabile dipendente in base ai valori della variabileindioendente. Il metodo di regressione permette di capire sela variabile x influenza la variabile y, per cui è di fondamentaleimportanza identificare il ruolo delle variabil.
26 / 36
Regressione lineare
Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:
y = a+bx
• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate
• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.
27 / 36
Regressione lineare
Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:
y = a+bx
• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate
• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.
27 / 36
Regressione lineare
Ricordiamo che date due variabili x e y l’equazione di una rettaassume la forma:
y = a+bx
• il coefficiente a viene detto intercetta e indica il punto in cuila retta incontra l’asse delle ordinate
• il coefficiente b viene detto coefficiente angolare e denota lapendenza della retta.
27 / 36
Regressione lineare
I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:
y = a+bx.
L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.
• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.
• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.
28 / 36
Regressione lineare
I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:
y = a+bx.
L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.
• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.
• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.
28 / 36
Regressione lineare
I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:
y = a+bx.
L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.
• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.
• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.
28 / 36
Regressione lineare
I valori di y stimati a partire dai valori di x tramite la retta di re-gressione vengono indicati con y. Per cui l’equazione di regres-sione ha la forma:
y = a+bx.
L’equazione della retta di regressione permette di prevedere qualisarebbero i valori della variabile risposta in corrispondenza di di-versi valori della variabile esplicativa.
• L’intercetta rappresenta il valore previsto della y quandox = 0, potrebbe non avere alcun valore interpretativo.
• La pendenza rappresenta l’aumento o il decremento delvalore previsto per y per ogni aumento unitario di x.
28 / 36
Regressione lineare: interpretazione deicoefficienti
Consideriamo l’esempio sugli alberi di ciliegio. Supponiamo divoler studiare come la misura del Diametro (in pollici) del troncoinfluenzi il suo Volume (in piedi). La variabile dipendente sarà al-lora y = Volume, mentre la variabile indipendente x = Diametro.L’equazione della retta di regressione stimata per questo prob-lema risulta
y =−36.943+5.066x
29 / 36
Regressione lineare: interpretazione deicoefficienti
Consideriamo l’esempio sugli alberi di ciliegio.
• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.
• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.
30 / 36
Regressione lineare: interpretazione deicoefficienti
Consideriamo l’esempio sugli alberi di ciliegio.
• Il valore stimato per l’intercetta ci dice che quando ilDiametro è pari a 0 il Volume previsto misura −36.943piedi. In questo caso avere un diametro nullo non ha alcunsenso, per cui l’intercetta non da nessuna informazioneinterpretativa.
• La pendenza stimata è pari a 5.066, positiva, per cui larettaha un andamento crescente. Possiamo dire che perogni aumento di un pollice del diametro il volume aumentadi 5.066 piedi.
30 / 36
Regressione lineare: interpretazione deicoefficienti
Consideriamo l’esempio sugli alberi di ciliegio.
y =−36.943+5.066x
supponiamo di voler predire il valore del Volume per un diametropari a 14.
Se la retta descrive correttamente la relazione tra levariabili allora
yx=14 =−36.943+5.066×14 = 33.981
per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.
31 / 36
Regressione lineare: interpretazione deicoefficienti
Consideriamo l’esempio sugli alberi di ciliegio.
y =−36.943+5.066x
supponiamo di voler predire il valore del Volume per un diametropari a 14.Se la retta descrive correttamente la relazione tra levariabili allora
yx=14 =−36.943+5.066×14 = 33.981
per cui si prevede che per un diametro di 14 pollici si abbia unvolume di 33.981 piedi.
31 / 36
Ricapitolazione: esercizio.
Sia dato un campione di osservazioni sulla misurazione del di-ametro del tronco (in cm) e del raggio della chioma (in m) per10 pini bianchi. Si vuole studiare se la misura del diametro deltronco influenzi il raggio della chioma. Si considera quindi lavariabile esplicativa x= diametro e la risposta y= raggio chioma.I dati rilevati sono i seguenti:
x 5.0 12.7 7.6 17.8 5.1 15.2 10.2 22.9 20.3 10.1
y 0.91 1.83 1.22 2.18 1.22 2.30 1.70 2.74 2.65 1.52
Disegnare il diagramma di dispersione, calcolare covarianza,correlazione e interpretarla.
32 / 36