19
Captulo 3 Regresin y correlacin 3.1. Planteamiento del problema Consideremos una v.a. bidimensional (X; Y ). Los dos casos extremos que se pueden dar respecto a la relacin entre X e Y son los siguientes: - Independencia. Si X e Y son independientes, la variable X no ofrece ninguna informacin sobre Y (ni Y sobre X ). Todas las distribuciones condicionadas (Y=X = x) coinciden con la distribucin marginal de Y . - Dependencia funcional. Decimos que hay dependencia funcional cuando existe una funcin h tal que Y = h(X ) (o una funcin g con X = g(Y )). Conociendo el valor x que ha tomado X se conoce el valor y que ha tomado Y : se tiene que y = h(x). Esto es, P fY = h(x)=X = xg =1. De este modo, la variable X ofrece informacin completa sobre Y . Las distribuciones condicionadas (Y=X = x) son degeneradas: (Y=X = x) h(x). Por ejemplo, si X es el resultado del lanzamiento de un dado e Y es el cuadrado del resultado se tiene que Y = X 2 . En este captulo construiremos funciones h œtiles para analizar la relacin entre X e Y en los casos intermedios, en los que no hay ni independencia ni dependencia funcional. Esta funcin h permite obtener una aproximacin (una prediccin ) para el valor que toma Y conociendo el valor que ha tomado X . Por ejemplo, si X es el peso e Y la altura de los niæos de cierto colectivo, ¿quØ se puede decir sobre la altura de los niæos que pesan 35 Kg? 1

Capitulo3-probabilidad

Embed Size (px)

DESCRIPTION

Regresión y correlación

Citation preview

Page 1: Capitulo3-probabilidad

Capítulo 3

Regresión y correlación

3.1. Planteamiento del problema

Consideremos una v.a. bidimensional (X;Y ). Los dos casos extremos que se pueden dar

respecto a la relación entre X e Y son los siguientes:

- Independencia. Si X e Y son independientes, la variable X no ofrece ninguna

información sobre Y (ni Y sobre X). Todas las distribuciones condicionadas (Y=X = x)

coinciden con la distribución marginal de Y .

- Dependencia funcional. Decimos que hay dependencia funcional cuando existe

una función h tal que Y = h(X) (o una función g con X = g(Y )). Conociendo el valor x

que ha tomado X se conoce el valor y que ha tomado Y : se tiene que y = h(x). Esto es,

P fY = h(x)=X = xg = 1. De este modo, la variable X ofrece información completa sobre

Y . Las distribuciones condicionadas (Y=X = x) son degeneradas: (Y=X = x) � h(x). Por

ejemplo, si X es el resultado del lanzamiento de un dado e Y es el cuadrado del resultado

se tiene que Y = X2.

En este capítulo construiremos funciones h útiles para analizar la relación entre X e

Y en los casos intermedios, en los que no hay ni independencia ni dependencia funcional.

Esta función h permite obtener una aproximación (una predicción) para el valor que toma

Y conociendo el valor que ha tomado X. Por ejemplo, si X es el peso e Y la altura de los

niños de cierto colectivo, ¿qué se puede decir sobre la altura de los niños que pesan 35 Kg?

1

Page 2: Capitulo3-probabilidad

3. Regresión y correlación

Aquí solo se presenta el estudio probabilístico, a partir de la distribución conjunta de

(X;Y ), y no el estudio estadístico, que sirve para realizar inferencias a partir de un conjunto

de datos (los datos de n niños elegidos al azar, en el ejemplo anterior).

El procedimiento para construir la función h consiste en elegirla de modo que Y tome

valores �cercanos�a h(X). Consideramos como medida (promedio) de cercanía la esperanza

Eh(Y � h (X))2

i, y entonces, buscamos la función h : R �! R con la que se alcanza el

mínimo

m��nhEh(Y � h (X))2

i. (3.1)

Empezamos con la obtención de h en el caso restringido en el que imponemos que h

sea una función lineal, y después estudiaremos el caso general, cuya solución involucra la

esperanza condicionada. En el primer caso se dice que h es la �recta de regresión�y en el

caso general se dice que h es la �curva de regresión�.

Podemos estar interesados en la relación de la altura, ahora no solo con el peso, sino

con el peso, el diámetro torácico, y el diámetro craneal, considerados conjuntamente. Es-

tudiaremos los �planos de regresión�y las �super�cies de regresión�, que son la extensión

de la recta y la curva de regresión en el caso en que X no es unidimensional.

3.2. Rectas de regresión

Buscamos la función lineal y = h(x) = a+ bx con la que se alcanza el mínimo en (3.1),

o sea, buscamos los valores (reales) a y b con los que se minimiza

L(a; b) = E[(Y � (a+ bX))2] . (3.2)

Desarrollando el cuadrado y teniendo en cuenta que la esperanza es un operador lineal, se

obtiene

L(a; b) = E[Y 2] + a2 + b2E[X2]� 2bE[XY ] + 2abE[X]� 2aE[Y ] . (3.3)

2

Page 3: Capitulo3-probabilidad

3.2 Rectas de regresión

Para obtener los valores a y b con los que se minimiza L(a; b) derivamos e igualamos a cero

las derivadas:

dL

da= 2a+ 2bE[X]� 2E[Y ] = 0 (3.4)

dL

db= 2bE[X2]� 2E[XY ] + 2aE[X] = 0 . (3.5)

La solución de este sistema de ecuaciones, denominadas ecuaciones normales, es la siguiente:

a = E[Y ]� E[X]Cov(X;Y )�2X

= �Y � �X�XY�2X

, (3.6)

b =E[XY ]� E[X]E[Y ]E[X2]� (E[X])2 =

Cov(X;Y )

�2X=�XY�2X

=�Y�X� . (3.7)

Por tanto, la función lineal y = h(x), con h(x) = a + bx, con la que se alcanza el mínimo

m��na;b L(a; b) = m��nhEh(Y � (a+ bX))2

ies

y = �Y ��XY�2X

�X +�XY�2X

x . (3.8)

A esta recta se la denomina recta de regresión de Y sobre X.

La recta de regresión de Y sobre X se puede expresar del siguiente modo utilizando el

coe�ciente de correlación:y � �Y�Y

= �x� �X�X

. (3.9)

Esta expresión es muy fácil de memorizar, y a partir de ella se obtiene (3.8) de un modo

inmediato.

De un modo similar se obtiene la recta de regresión de X sobre Y :

x = �X ��XY�2Y

�Y +�XY�2Y

y , (3.10)

que se puede expresar comox� �X�X

= �y � �Y�Y

. (3.11)

Téngase en cuenta que en la recta de regresión de Y sobre X la variable es x, e y

son los valores que toma la función h(x) (lineal), al contrario de lo que ocurre con la otra

recta. Para representar ambas rectas en el mismo grá�co hay que tener en cuenta este

hecho. Si las representamos en el plano (x; y), como es habitual, la recta de X sobre Y

se obtiene representando, para cada valor y en el eje de ordenadas, el punto (x; y) tal que

3

Page 4: Capitulo3-probabilidad

3. Regresión y correlación

x es la imagen de y por la correspondiente recta de regresión. A efectos prácticos, para

representar esta recta de X sobre Y en el plano (x; y), se despeja y en (3.10) y se representa

la función de x así obtenida (que es la función inversa para esa recta).

Las dos rectas de regresión intersecan en el punto (�X ; �Y ).

Ejemplo 1. Consideremos una v.a. con función de densidad

f(x; y) = 6y si 0 < y < x < 1 . (3.12)

Determina las dos rectas de regresión.

Solución: Calculamos los momentos. Las funciones de densidad marginales son

f1(x) = 3x2 si 0 < x < 1 y f2(y) = 6y(1� y) si 0 < y < 1 . (3.13)

Resolviendo las correspondientes integrales se obtiene E [X] = 34 y E

�X2�= 3

5 , y a partir

de aquí, V [X] = E�X2�� E [X]2 = 3

80 , y E [Y ] = 12 y E

�Y 2�= 3

10 , y a partir de aquí,

V [Y ] = 120 . Se tiene que

E [XY ] =

Z 1

0

Z x

0xyf(x; y)dydx =

2

5, (3.14)

y entonces la covarianza vale �XY = Cov (X;Y ) = E [XY ]� E [X]E [Y ] = 140 .

La recta de regresión de Y sobre X es y = 23x :

y = �Y ��XY�2X

�X +�XY�2X

x =1

2� 1=403=80

3

4+1=40

3=80x =

2

3x . (3.15)

La recta de regresión de X sobre Y es x = 1+y2 :

x = �X ��XY�2Y

�Y +�XY�2Y

y =3

4� 1=401=20

1

2+1=40

1=20y =

1

2+1

2y . (3.16)

Para representar la recta x = 12 +

12y, de X sobre Y , en el plano (x; y), despejamos y,

obteniendo y = 2x� 1.

Es inmediato comprobar que el punto de intersección de ambas rectas es

(x; y) =

�3

4;1

2

�= (E [X] ; E [Y ]) . (3.17)

4

Page 5: Capitulo3-probabilidad

3.3 El coe�ciente de correlación

A la pendiente �XY�2X

de la recta de regresión de Y sobre X se la denomina coe�ciente

de regresión de Y sobre X, y se denota por Y=X , y a la pendiente�XY�2Y

de la recta de

regresión de X sobre Y se la denomina coe�ciente de regresión de X sobre Y , y se denota

por X=Y .

Y=X =�XY�2X

=�Y�X� , y X=Y =

�XY�2Y

=�X�Y� . (3.18)

En el ejemplo anterior, el coe�ciente de regresión de Y sobre X es Y=X = 23 , y el

coe�ciente de regresión de X sobre Y es X=Y =12 .

También se puede obtener la �parábola de regresión� (no lo hacemos), o considerar

incluso un polinomio de grado mayor que 2.

3.3. El coe�ciente de correlación

Proposición 2. El coe�ciente de correlación

� =�12�1�2

=Cov(X;Y )pV [X]

pV [Y ]

, (3.19)

satisface las siguientes propiedades:

a) Se tiene que j�j � 1, esto es, �1 � � � 1, con igualdad si y solo si el soporte de

(X;Y ) está contenido en una recta del plano, o sea, si Y = a+ bX para algún a y b.

b) Se tiene que � (aX + b; cY + d) = � (X;Y ), con a; c > 0.

Demostración

a) Es inmediato a partir de la desigualdad de Cauchy-Schwartz.

b) Se tiene que

� (aX + b; cY + d) =Cov (aX + b; cY + d)

� (aX + b)� (cY + d)(3.20)

=E [(aX + b� E [aX + b]) (cY + d� E [cY + d])]r

Eh(aX + b� E [aX + b])2

irEh(cY + d� E [cY + d])2

i (3.21)

=acE [(X � E [X]) (Y � E [Y ])]r

a2Eh(X � E [X])2

irc2E

h(Y � E [Y ])2

i = � (X;Y ) . (3.22)

5

Page 6: Capitulo3-probabilidad

3. Regresión y correlación

Una consecuencia importante de este resultado es que el coe�ciente de correlación no

depende de las unidades de medida usadas, esto es, � (cX; dY ) = � (X;Y ). Por ejemplo, si

X es un peso, en Kg, e Y es una longitud, en metros, entonces para expresar el peso en

gramos y la longitud en cm se consideran las v.a. 1000X y 100Y , y se tiene que

� (1000X; 100Y ) = � (X;Y ) . (3.23)

El resultado � (aX + b; cY + d) = � (X;Y ) involucra aplicaciones lineales en general. Por

ejemplo, si X ó Y son mediciones de temperatura, entonces � no depende de las unidades

de medida, puesto que todas las escalas usadas habitualmente se relacionan linealmente: x

grados centígrados son 95x+ 32 grados Fahrenheit y x+ 273

016 grados Kelvin.

Las rectas de regresión de Y sobreX, y�EY�Y= �x�EX�X

, y deX sobre Y , x�EX�X= �y�EY�Y

,

coinciden solo cuando j�j = 1.

Si � = 0 las rectas son y = EY y x = EX, constantes. La representación grá�ca en el

plano (x; y) consiste en una recta horizontal y la otra vertical.

Otras formas de expresar la recta de regresión de Y sobre X, utilizando el coe�ciente

de correlación, son:

y = �Y + ��Y�X

(x� �X) = �Y � ��Y�X�X + �

�Y�Xx . (3.24)

Del mismo modo, la recta de regresión de X sobre Y se puede expresar como

x = �X + ��X�Y

(y � �Y ) = �X � ��X�Y�Y + �

�X�Yy . (3.25)

El coe�ciente de correlación � entre X e Y es una cantidad útil para �medir el ajuste�

de la recta de regresión.

Una medida del ajuste debe indicar hasta que punto se cumple el objetivo de aproximar

bien Y mediante h(X) = a + bX. Las cantidades a y b se han obtenido de modo que

minimizan la esperanza L(a; b) en (3.2). La medida que consideramos es precisamente ese

valor, minimo, de L(a; b) = E�(Y � (a+ bX))2

�, que calculamos a continuación como

función de los momentos.

6

Page 7: Capitulo3-probabilidad

3.3 El coe�ciente de correlación

Proposición 3. Sea (X;Y ) una v.a. bidimensional. Se tiene que

E�(Y � (a+ bX))2

�= (1� �2)�2Y , (3.26)

siendo y = a+ bx = �Y � � �Y�X �X + ��Y�Xx la recta de regresión de Y sobre X.

Demostración Se tiene que

L(a; b) = E�(Y � (a+ bX))2

�= E

"�Y �

��Y + �

�Y�X(X � �X)

��2#(3.27)

= E

"�(Y � �Y )�

���Y�X(X � �X)

��2#(3.28)

= E

"(Y � �Y )2 +

���Y�X(X � �X)

�2� 2 (Y � �Y )

���Y�X(X � �X)

�#

= V [Y ] +

���Y�X

�2V [X]� 2��Y

�XCov(X;Y ) (3.29)

= �2Y + �2�2Y � 2�

�Y�X��X�Y (3.30)

= �2Y + �2�2Y � 2�2�2Y = �2Y � �2�2Y =

�1� �2

��2Y . (3.31)

Si j�j = 1 se tiene que L(a; b) = (1 � 1)�2Y = 0, esto es, E�(Y � (a+ bX))2

�= 0,

y entonces Y = a + bX. Por tanto, como cabía esperar, en el caso j�j = 1 la recta de

regresión y = ax + b determina la relación funcional lineal establecida por la proposición

(2): Y = a+ bX con esos mismos a y b.

¿Por qué si E�(Y � (a+ bX))2

�= 0 entonces Y = a + bX?: la variable aleatoria

Z = (Y � (a+ bX))2 es no negativa, y entonces EZ � 0, con EZ = 0 si y solo si Z = 0, y

de aquí se obtiene el resultado. Para ser mas precisos, tendríamos que sustituir la condición

Z = 0 por P fZ = 0g = 1, pero ésto es irrelevante a efectos prácticos.

Si X e Y son incorreladas (por ejemplo, cuando son independientes), entonces se tiene

que L(a; b) = (1�0)�2Y = �2Y . Ésto corresponde al caso más desfavorable, en el que a+ bX

no tiene utilidad para aproximar Y .

El error cuadrático medio que se comete aproximando el valor de una observación de

Y por EY es E�(Y � EY )2

�= �2Y .

7

Page 8: Capitulo3-probabilidad

3. Regresión y correlación

El error cuadrático medio que se comete aproximando el valor de una observación de

Y por a+ bX, una vez observado X = x, es

E�(Y � (a+ bx))2=X = x

�= E

�(Y � (a+ bX))2=X = x

�. (3.32)

Promediando este error sobre todos los valores x, según la distribución de X, obtenemos

E�E�(Y � (a+ bX))2=X

��= E

�(Y � (a+ bX))2

�= (1� �2)�2Y , (3.33)

por la proposición 1. A esta cantidad se la denomina varianza residual.

Podemos medir la �bondad del ajuste�de Y mediante a+ bX a traves del cociente de

estos errores, que vale

E�(Y � (a+ bX))2

�E [(Y � EY )2] =

(1� �2)�2Y�2Y

= 1� �2 . (3.34)

Obsérvese que 0 � 1 � �2 � 1 , con 1 � �2 = 0 si j�j = 1 (dependencia funcional lineal) y

1� �2 = 1 si � = 0 (incorrelación).

Ejemplo 4. Calcula el coe�ciente de correlación y la varianza residual en el ejemplo 1.

Solución: Se obtiene � = 00577, y de aquí 1 � �2 = 00667. La varianza residual para la

recta de regresión de Y sobre X vale�1� �2

��2Y = 0

00334 . La varianza residual para la

recta de regresión de X sobre Y vale�1� �2

��2X = 0

00250 .

También se pueden considerar transformaciones sobre Y , como Z = log Y , con el �n de

mejorar el ajuste, si la bondad del ajuste de Z sobre X es mejor que la de Y sobre X.

3.4. Curvas de regresión

Resolvemos ahora el problema general de obtener la función h : R �! R, sin restric-

ciones, que minimiza E�(Y � h(X))2

�.

Se veri�ca que

Eh(Y � h(X))2

i= E

hEh(Y � h(X))2 =X

ii. (3.35)

8

Page 9: Capitulo3-probabilidad

3.4 Curvas de regresión

La variable aleatoria E[(Y � h(X))2=X] toma los valores

E[(Y � h(X))2=X = x] = E[(Y � h(x))2=X = x] . (3.36)

Por tanto, el problema se reduce a obtener, para cada x, un valor h(x) tal que esperanza

Eh(Y � h(x))2 =X = x

ies mínima.

Teniendo en cuenta que, para una v.a. Z, se tiene que E[(Z � c)2] se minimiza con

c = E [Z], obtenemos que

Eh(Y � h(x))2 =X = x

i(3.37)

se minimiza con h(x) = E [Y=X = x], que proporciona entonces la solución del problema

que hemos planteado: se tiene que�(Y � h(X))2

�se minimiza con h(X) = E [Y=X].

A la curva y = h(x) se la denomina curva de regresión de Y sobre X. Esta función

h(x) se suele denotar por m2(x). De este modo, la curva de regresión de Y sobre X es la

función

y = m2(x) (3.38)

con m2(x) = E[Y=X = x].

La curva de regresión de X sobre Y es la función h que minimiza E[(X � h(Y ))2].

Razonando del mismo modo que antes se obtiene que la curva de regresión de X sobre Y

es

x = m1(y) , (3.39)

con m1(y) = E[X=Y = y].

Una propiedad útil es la siguiente: si la curva de regresión es una recta entonces coincide

con la recta de regresión. El hecho de que la curva coincida con la recta de regresión permite

obtener la recta sin necesidad de calcular los momentos de (X;Y ).

Pueden darse todas las posibilidades: que ambas curvas sean rectas, que lo sea solo una

de ellas, o que ninguna curva sea una recta.

Ejemplo 5. Consideremos una variable aleatoria (X;Y ) continua con función de densidad

f (x; y) =1

2xsi 0 <

y

2< x < 1 .

9

Page 10: Capitulo3-probabilidad

3. Regresión y correlación

Determina las rectas y las curvas de regresión.

Solución: Comenzamos obteniendo las curvas, y si alguna es una función lineal

coincidirá con la recta de regresión, que ya no habrá que calcular. En la solución del

examen del 31-10-12 se calcularon para esta distribución las esperanzas condicionadas que

determinan las rectas de regresión: se tiene que E [Y=X = x] = x y E [X=Y = y] =

1�y=2� log(y=2) . Entonces, las curvas de regresión son:

y = x (Y sobre X), (3.40)

x =1� y=2� log (y=2) (X sobre Y ). (3.41)

Puesto que la curva de regresión de Y sobre X es una recta, y = x, entonces es también

la recta de regresión. Además, sirve para calcular algunos momentos, como explicamos a

continuación. Puesto que la recta de Y sobre X es y = �Y � �XY�2X�X +

�XY�2Xx , debe ser

�Y ��XY�2X

�X = 0 y�XY�2X

= 1 . (3.42)

Conociendo tres de los cinco momentos que intervienen en las dos ecuaciones, los otros dos

pueden ser obtenidos despejando. En este caso, en la solución del examen se calculan todos

los momentos de orden 1 y 2, por lo que no necesitamos las ecuaciones. Comprueba que

los valores allí calculados satisfacen estas ecuaciones. La recta de X sobre Y es

x = �X ��XY�2Y

�Y +�XY�2Y

y =1

2� 1=127=36

1

2+1=12

7=36y (3.43)

=2

7+3

7y . (3.44)

Ejemplo 6. Consideremos una v.a. con función de densidad

f(x; y) = 6y si 0 < y < x < 1 (3.45)

(igual que en el ejemplo 1). Determina las dos curvas de regresión.

Solución: Las funciones de densidad marginales son

f1(x) = 3x2 si 0 < x < 1 y f2(y) = 6y(1� y) si 0 < y < 1 , (3.46)

10

Page 11: Capitulo3-probabilidad

3.4 Curvas de regresión

y entonces las funciones de densidad condicionadas son:

- Para 0 < x < 1, f(y=x) =2y

x2si y 2 (0; x) . (3.47)

- Para 0 < y < 1, f(x=y) =1

1� y si x 2 (y; 1) , (3.48)

esto es, (X=Y = y) � U (y; 1).

Calculando la correspondiente integral se obtiene E [Y=X = x] = 23x, y entonces la

curva de regresión de Y sobre X es

y =2

3x , (3.49)

que es una recta, y coincide por tanto con la recta de regresión de Y sobre X. El hecho de

que la curva coincida con la recta de regresión permite obtener la recta sin necesidad de

calcular los momentos de (X;Y ), como se hizo en el ejemplo 1.

Se tiene que E [X=Y = y] = E [U (y; 1)] = y+12 , y entonces la curva de regresión de X

sobre Y es

x =1

2+1

2y , (3.50)

que es una recta, y coincide por tanto con la recta de regresión de X sobre Y , que ya se

calculó también en el ejemplo 1.

Aunque no se pide, explicamos como obtener algunos de los momentos de primer y

segundo orden, ya calculados en el ejemplo 1, aquí a partir de las rectas de regresión,

obtenidas de un modo indirecto. La recta de regresión de Y sobre X tiene la forma y =

�Y � �XY�2X�X +

�XY�2Xx , y entonces, puesto que y = 2

3x es dicha recta, se tiene que

�Y ��XY�2X

�X = 0 , y�XY�2X

=2

3. (3.51)

La recta de regresión de X sobre Y tiene la forma x = �X � �XY�2Y�Y +

�XY�2Yy , y entonces,

puesto que x = 12 +

12y es dicha recta, se tiene que

�X ��XY�2Y

�Y =1

2, y

�XY�2Y

=1

2. (3.52)

Después de calcular uno cualquiera de los cinco momentos involucrados (mejor �X ó �Y , que

son los que requieren menos cálculos), los otros cuatro momentos se obtienen resolviendo

el sistema formado por las cuatro ecuaciones en (3.51) y (3.52).

11

Page 12: Capitulo3-probabilidad

3. Regresión y correlación

Ejemplo 7. Consideremos dos v.a.i.i.d. X e Y con distribución Beta Be(2; 1). Sea

T = m��n fX;Y g y Z = m�ax fX;Y g . (3.53)

Calcula las rectas y las curvas de regresión para (T;Z).

Solución: La función de densidad de la Beta Be(2; 1) es f(x) = 2x si 0 < x < 1. La

función de densidad de (T;Z) es

g(t; z) = 2(2� 1) [F (z)� F (y)]2�2 f(t)f(z) (3.54)

= 8tz si 0 < t < z < 1 . (3.55)

Calculamos las curvas en primer lugar. Si alguna es una recta, entonces coincide con la recta

de regresión, que queda con ello ya obtenida. Las distribuciones marginales y condicionadas

son:

g1(t) = 4t(1� t2) si 0 < t < 1 . (3.56)

g2(z) = 4z3 si 0 < z < 1 . (3.57)

- Para 0 < t < 1, g(z=t) =2z

1� t2 si z 2 (t; 1) .

- Para 0 < z < 1, g(t=z) =2t

z2si t 2 (0; z) .

Las esperanzas condicionadas valen:

E [Z=T = t] =2

3

1� t31� t2 =

2

3

t2 + t+ 1

t+ 1, y (3.58)

E [T=Z = z] =2

3z . (3.59)

Por tanto, la curva de regresión de Z sobre T es

z =2

3

t2 + t+ 1

t+ 1, (3.60)

y la curva de regresión de T sobre Z es

t =2

3z , (3.61)

que es además la recta de regresión de T sobre Z.

12

Page 13: Capitulo3-probabilidad

3.5 Razón de correlación

Para calcular la otra recta de regresión debemos calcular los momentos �T , �Z , �TZ y

�2T . Podemos ahorrarnos algunas cuentas utilizando la recta de T sobre Z, ya calculada: la

recta de T sobre Z tiene la forma

t = �T ��TZ�2Z

�Z +�TZ�2Z

z , (3.62)

y puesto que esta recta es t =2

3z, se tiene que

�T ��TZ�2Z

�Z = 0 y�TZ�2Z

=2

3, (3.63)

y por tanto

�T =2

3�Z y �TZ =

2

3�2Z . (3.64)

Calculamos �Z , �2T y �2Z .

Para i = 1; 2 se obtiene E[Zi] = 4=(4 + i), y de aquí se obtiene �Z = 4=5 y �2Z = 2=75.

Por (3.64) se obtiene �TZ = 4=225 y �T = 8=15.

Calculamos E[T 2] para obtener �2T . Se obtiene E[T2] = 1=3 y de aquí, �2T = 11=225.

La recta de regresión de Z sobre T es

z = �Z ��TZ�2T

�T +�TZ�2T

t (3.65)

=20

33+12

33t . (3.66)

3.5. Razón de correlación

Hemos obtenido en el apartado 3.4 que la esperanza E[(Y � h(X))2] se minimiza con

h : R �! R dada por h(x) = E [Y=X = x].

Obsérvese que el mínimo de la esperanza en (3.37), que se obtiene con h(x) = E [Y=X = x],

es justamente la varianza condicionada V [Y=X = x]:

m��nhEh(Y � h(x))2 =X = x

i= E

h(Y � E [Y=X = x])2 =X = x

i= V [Y=X = x] . (3.67)

Ésto es similar a lo que ocurre con el valor mínimo de E[(Z � c)2], que es justamente la

varianza de Y :

m��ncEh(Y � c)2

i= E

h(Y � E [Y ])2

i= V [Y ] . (3.68)

13

Page 14: Capitulo3-probabilidad

3. Regresión y correlación

Se tiene que el valor mínimo de m��nhE�(Y � h(X))2

�(el análogo a la varianza residual

para la recta de regresión) es E [V [Y=X]]:

m��nhE�(Y � h(X))2

�= E

h(Y � E [Y=X])2

i(3.69)

= EhEh(Y � E [Y=X])2 =X

ii(3.70)

= E [V [Y=X]] , (3.71)

puesto que la v.a Eh(Y � E [Y=X])2 =X

itoma los valores

Eh(Y � E [Y=X])2 =X = x

i= E

h(Y � E [Y=X = x])2 =X = x

i= V [Y=X = x] . (3.72)

Podemos medir la �bondad del ajuste�de Y mediante E[Y=X] a traves de un cociente

de errores análogo al que se obtuvo en (3.34) para la recta de regresión, que vale

E�(Y � E[Y=X])2

�E [(Y � EY )2] =

E[V [Y=X]]

�2Y=�2Y � V [E[Y=X]]

�2Y(3.73)

= 1� V [E[Y=X]]�2Y

, (3.74)

teniendo en cuenta que

�2Y = V [Y ] = E [V [Y=X]] + V [E [Y=X]] . (3.75)

La comparación entre la bondad del ajuste para la recta, dada por 1 � �2, y para la

curva, dada por (3.74), lleva a considerar al cociente en (3.74), denotado por �2Y=X , como

el análogo para la curva de lo que es �2 para la recta. De hecho, cuando la curva es una

recta ambas cantidades coinciden. A esta cantidad

�2Y=X =V [E[Y=X]]

�2Y(3.76)

se la denomina razón de correlación de Y sobre X.

Se veri�ca que

0 � �2Y=X � 1, (3.77)

con �2Y=X = 0 si y solo si X e Y son independientes (y en este caso V [E [Y=X]] = 0), y con

�2Y=X = 1 si y solo si hay dependencia funcional (lineal o no) entre X e Y (y en este caso

E [V [Y=X]] = 0).

14

Page 15: Capitulo3-probabilidad

3.6 Planos de regresión

Se veri�ca que

0 � �2 � �2Y=X � 1 , (3.78)

con �2 = �2Y=X solamente en el caso de que la curva de regresión sea una recta, que coincide

entonces con la recta de regresión. Si �2Y=X = 0 se tiene que �2 = 0, lo que re�eja el hecho

de que la independencia implica la incorrelación, y si �2 = 1 se tiene que �2Y=X = 1, lo que

re�eja el hecho de que la dependencia funcional lineal implica, por supuesto, la dependencia

funcional.

La razón de correlación de X sobre Y es

�2X=Y =V [E[X=Y ]]

�2X, (3.79)

que no coincide en general con �2Y=X , a diferencia de lo que ocurre en el caso lineal, en el

que �(X;Y )2 = �(Y;X)2.

3.6. Planos de regresión

Estudiamos aquí la regresión lineal de Y sobre X en el caso de que X sea un vector

aleatorio.

Consideremos una v.a.�XY

�= (X1; : : : ; Xk; Y )

0, con X = (X1; : : : ; Xk)0. Buscamos la

función h : Rk �! R lineal con la que se alcanza el mínimo

m��nhEh(Y � h (X))2

i. (3.80)

Una tal función h lineal tiene la forma h (x1; : : : ; xk) = a+Pki=1 bixi , o, vectorialmente,

h (x) = a + bx, con x = (x1; : : : ; xk)0, y b = (b1; : : : ; bk). La función y = a + bx es la

ecuación de un (hiper)plano k-dimensional. Obsérvese que dhdbi= d

bibx = xi.

Buscamos entonces los valores a; b1; : : : ; bk que hacen mínima la esperanza

L (a;b) = Eh(Y � (a+ bX))2

i. (3.81)

Para ello, planteamos k+1 ecuaciones igualando a cero la derivada de L (a;b) respecto de

cada uno de sus argumentos. Se tiene en este caso que la derivada de la esperanza coincide

15

Page 16: Capitulo3-probabilidad

3. Regresión y correlación

con la esperanza de la derivada, lo que simpli�ca los cálculos. Calculamos las derivadas de

(y � (a+ bx))2:

d

da(y � (a+ bx))2 = 2 (y � (a+ bx))2�1 d

da(y � (a+ bx)) = 2 (y � (a+ bx)) , (3.82)

d

dbi(y � (a+ bx))2 = 2 (y � (a+ bx)) d

dbi(y � (a+ bx)) = 2 (y � (a+ bx))xi . (3.83)

Tomando esperanzas e igualando a cero obtenemos las ecuaciones

a+ b1E [X1] + � � �+ bkE [Xk] = E [Y ] (3.84)

aE [X1] + b1E�X21

�+ � � �+ bkE [XkX1] = E [X1Y ] (3.85)

... (3.86)

aE [Xk] + b1E [X1Xk] + � � �+ bkE�X2k

�= E [XkY ] (3.87)

Estas ecuaciones se pueden expresar matricialmente, de una forma compacta. Conside-

remos el vector aleatorio Z =�1X

�= (1; X1; : : : ; Xk)

0 y sea c = (a;b)= (a; b1; : : : ; bk). Es

inmediato comprobar que el sistema se expresa como

E�ZZ0c0

�= E [ZY ] . (3.88)

De�niendo la esperanza de una matriz de variables aleatorias como la matriz de las corres-

pondientes esperanzas, queda de�nida E [ZZ0]. Es inmediato comprobar que E [ZZ0c0] =

E [ZZ0] c0 , y por tanto E [ZY ] = E [ZZ0] c0. Despejando se obtiene c0 = E [ZZ0]�1E [ZY ],

y entonces

c = E�Z0Y

�E�ZZ0

��1 , (3.89)

que es entonces la solución del sistema.

El plano de regresión de Y sobre X es

y = a+ bx = cz = E�Z0Y

�E�ZZ0

��1z . (3.90)

En el siguiente ejemplo se realizan los cálculos para k = 1, obteniéndose la recta de regresión

ya estudiada en el apartado 3.2.

16

Page 17: Capitulo3-probabilidad

3.6 Planos de regresión

Ejemplo 8. Con k = 1, y llamandoX aX1, se tiene que Z = (1; X1)0 = (1; X)0. Realizando

los cálculos se obtiene

ZZ0 =

0B@ 1 X

X X2

1CA , E�ZZ0

�=

0B@ 1 E [X]

E [X] E�X2�1CA , (3.91)

��E �ZZ0��� = E �X2�� E [X]2 = �2X , y (3.92)

E�ZZ0

��1=

1

�2X

0B@ E�X2��E [X]

�E [X] 1

1CA . (3.93)

Además,

Z0Y = (Y;XY ) , E�Z0Y

�= (E [Y ] ; E [XY ]) , (3.94)

y entonces

c = E�Z0Y

�E�ZZ0

��1 (3.95)

=1

�2X

�E�X2�E [Y ]� E [X]E [XY ] ;�E [X]E [Y ] + E [XY ]

�(3.96)

=1

�2X

�E�X2�E [Y ]� E [X]E [XY ] ;�E [X]E [Y ] + E [XY ]

�. (3.97)

Simpli�cando, obtenemos

E�X2�E [Y ]� E [X]E [XY ]

�2X=

��2X + E [X]

2�E [Y ]� E [X]E [XY ]�2X

(3.98)

= E [Y ] +E [X]2E [Y ]� E [X]E [XY ]

�2X(3.99)

= E [Y ] +E [X] (E [X]E [Y ]� E [XY ])

�2X(3.100)

= E[Y ]� E[X]�XY�2X

, (3.101)

y 1�2X(�E [X]E [Y ] + E [XY ]) = �XY

�2X, y entonces

c =

��Y � �X

�XY�2X

;�XY�2X

�. (3.102)

Por tanto, el plano de regresión, en este caso una recta, es (con x = x y z = (1;x)0)

y = h (x) = a+ bx = cz = �Y � �X�XY�2X

+�XY�2X

x . (3.103)

17

Page 18: Capitulo3-probabilidad

3. Regresión y correlación

Por (3.88) y la linealidad de la esperanza, se tiene que

0 = E�ZZ0c0

�� E [ZY ] = E

�ZZ0c0 � ZY

�(3.104)

= E�Z�Z0c0 � Y

��= �E [(Y � cZ)Z] , (3.105)

siendo 0 un vector de ceros. Puesto que la primera componente del vector Z es 1, se

tiene que la primera componente del vector E [(Y � cZ)Z] es E [(Y � cZ)], que debe ser

entonces 0, por (3.104) y (3.105). Por tanto, E [Y ] = E [cZ] = E [a+ bX] = a + bE [X].

Este resultado permite obtener la primera componente, a, del vector c = E [Z0Y ]E [ZZ0]�1

sin necesidad de realizar los cálculos: se tiene que

a = E [Y ]� bE [X] . (3.106)

A las variables X1; : : : ; Xk se las denomina variables explicativas.

3.7. Plano de regresión de Y sobre (X1; X2). Coe�cientes de

correlación parciales y multiple.

Estudiamos aquí con mayor detalle el caso k = 2 del apartado anterior.

Consideremos una v.a. (X1; X2; Y ). Buscamos la función h : R2 �! R lineal,

h (x1; x2) = a+ b1x1 + b2x2 , (3.107)

con la que se alcanza el mínimo m��nhEh(Y � h (X1; X2))2

i.

La expresión y = a + b1x1 + b2x2 es la ecuación de un plano bidimensional (un plano

propiamente dicho).

Buscamos entonces los valores a; b1; b2 que hacen mínima la esperanza

L (a; b1; b2) = Eh(Y � (a+ b1X1 + b2X2))2

i. (3.108)

Particularizamos a este caso k = 2 la solución obtenida en el apartado anterior. Se

tiene que Z = (1; X1; X2)0 y c = (a; b1; b2). Denotamos por �1; �2; �Y las esperanzas de

X1; X2; Y , respectivamente, y por �21; �22; �

2Y las varianzas. Denotamos las covarianzas por

18

Page 19: Capitulo3-probabilidad

3.7 Plano de Y sobre (X1; X2). Correlación parcial y multiple.

�ij , con i; j = 1; 2; Y , y por �ij los coe�cientes de correlación. Se tiene que

ZZ0 =

0BBBB@1 X1 X2

X1 X21 X1X2

X2 X2X1 X22

1CCCCA , E�ZZ0

�=

0BBBB@1 E [X1] E [X2]

E [X1] E�X21

�E [X1X2]

E [X2] E [X2X1] E�X22

�1CCCCA ,

(3.109)

y el determinante vale jE [ZZ0]j =�1� �212

��21�

21 . La expresión de E [ZZ

0]�1 es aparatosa,

y no la presentamos. Presentamos directamente el vector c = (a; b1; b2) con el que se

minimiza (3.108). Por (3.106) se tiene que a = E [Y ] � bE [X] = �Y � b1�1 � b2�2. Los

valores de b1 y b2 son:

b1 =�1Y � �12�2Y1� �212

�Y�1

y b2 =�2Y � �12�1Y1� �212

�Y�2

. (3.110)

A estas cantidades b1 y b2 se las denomina coe�cientes de regresión parcial. A las cantidades

�1Y .2 =�1Y � �12�2Yp1� �212

q1� �22Y

=

p1� �212q1� �22Y

�1�Yb1 y (3.111)

�2Y .1 =�2Y � �12�1Yp1� �212

q1� �21Y

=

p1� �212q1� �21Y

�2�Yb2 (3.112)

se las denomina coe�cientes de correlación parcial.

Calculamos la varianza residual:

Eh(Y � (a+ b1X1 + b2X2))2

i= E

h((Y � �Y )� b1 (X1 � �1)� b2 (X2 � �2))2

i(3.113)

= �2Y + b21�21 + b

22�22 � 2b1�1Y � 2b2�2Y + 2b1b2�12 = �2Y

�1� �2Y .12

�, (3.114)

con

�2Y .12 =�21Y + �

22Y � 2�212�21Y �22Y1� �212

. (3.115)

A �Y .12 se le denomina coe�ciente de correlación múltiple.

Del mismo modo que la bondad del ajuste con la recta de regresión se mide mediante�1� �2

�, la bondad del ajuste con el plano de regresión se mide mediante

�1� �2Y .12

�.

Apuntes sobre variable aleatoria multidimensional

Víctor M. Ruiz Morcillo

19