Upload
elio-fernando-rojas-machado
View
213
Download
1
Embed Size (px)
DESCRIPTION
Regresión y correlación
Citation preview
Capítulo 3
Regresión y correlación
3.1. Planteamiento del problema
Consideremos una v.a. bidimensional (X;Y ). Los dos casos extremos que se pueden dar
respecto a la relación entre X e Y son los siguientes:
- Independencia. Si X e Y son independientes, la variable X no ofrece ninguna
información sobre Y (ni Y sobre X). Todas las distribuciones condicionadas (Y=X = x)
coinciden con la distribución marginal de Y .
- Dependencia funcional. Decimos que hay dependencia funcional cuando existe
una función h tal que Y = h(X) (o una función g con X = g(Y )). Conociendo el valor x
que ha tomado X se conoce el valor y que ha tomado Y : se tiene que y = h(x). Esto es,
P fY = h(x)=X = xg = 1. De este modo, la variable X ofrece información completa sobre
Y . Las distribuciones condicionadas (Y=X = x) son degeneradas: (Y=X = x) � h(x). Por
ejemplo, si X es el resultado del lanzamiento de un dado e Y es el cuadrado del resultado
se tiene que Y = X2.
En este capítulo construiremos funciones h útiles para analizar la relación entre X e
Y en los casos intermedios, en los que no hay ni independencia ni dependencia funcional.
Esta función h permite obtener una aproximación (una predicción) para el valor que toma
Y conociendo el valor que ha tomado X. Por ejemplo, si X es el peso e Y la altura de los
niños de cierto colectivo, ¿qué se puede decir sobre la altura de los niños que pesan 35 Kg?
1
3. Regresión y correlación
Aquí solo se presenta el estudio probabilístico, a partir de la distribución conjunta de
(X;Y ), y no el estudio estadístico, que sirve para realizar inferencias a partir de un conjunto
de datos (los datos de n niños elegidos al azar, en el ejemplo anterior).
El procedimiento para construir la función h consiste en elegirla de modo que Y tome
valores �cercanos�a h(X). Consideramos como medida (promedio) de cercanía la esperanza
Eh(Y � h (X))2
i, y entonces, buscamos la función h : R �! R con la que se alcanza el
mínimo
m��nhEh(Y � h (X))2
i. (3.1)
Empezamos con la obtención de h en el caso restringido en el que imponemos que h
sea una función lineal, y después estudiaremos el caso general, cuya solución involucra la
esperanza condicionada. En el primer caso se dice que h es la �recta de regresión�y en el
caso general se dice que h es la �curva de regresión�.
Podemos estar interesados en la relación de la altura, ahora no solo con el peso, sino
con el peso, el diámetro torácico, y el diámetro craneal, considerados conjuntamente. Es-
tudiaremos los �planos de regresión�y las �super�cies de regresión�, que son la extensión
de la recta y la curva de regresión en el caso en que X no es unidimensional.
3.2. Rectas de regresión
Buscamos la función lineal y = h(x) = a+ bx con la que se alcanza el mínimo en (3.1),
o sea, buscamos los valores (reales) a y b con los que se minimiza
L(a; b) = E[(Y � (a+ bX))2] . (3.2)
Desarrollando el cuadrado y teniendo en cuenta que la esperanza es un operador lineal, se
obtiene
L(a; b) = E[Y 2] + a2 + b2E[X2]� 2bE[XY ] + 2abE[X]� 2aE[Y ] . (3.3)
2
3.2 Rectas de regresión
Para obtener los valores a y b con los que se minimiza L(a; b) derivamos e igualamos a cero
las derivadas:
dL
da= 2a+ 2bE[X]� 2E[Y ] = 0 (3.4)
dL
db= 2bE[X2]� 2E[XY ] + 2aE[X] = 0 . (3.5)
La solución de este sistema de ecuaciones, denominadas ecuaciones normales, es la siguiente:
a = E[Y ]� E[X]Cov(X;Y )�2X
= �Y � �X�XY�2X
, (3.6)
b =E[XY ]� E[X]E[Y ]E[X2]� (E[X])2 =
Cov(X;Y )
�2X=�XY�2X
=�Y�X� . (3.7)
Por tanto, la función lineal y = h(x), con h(x) = a + bx, con la que se alcanza el mínimo
m��na;b L(a; b) = m��nhEh(Y � (a+ bX))2
ies
y = �Y ��XY�2X
�X +�XY�2X
x . (3.8)
A esta recta se la denomina recta de regresión de Y sobre X.
La recta de regresión de Y sobre X se puede expresar del siguiente modo utilizando el
coe�ciente de correlación:y � �Y�Y
= �x� �X�X
. (3.9)
Esta expresión es muy fácil de memorizar, y a partir de ella se obtiene (3.8) de un modo
inmediato.
De un modo similar se obtiene la recta de regresión de X sobre Y :
x = �X ��XY�2Y
�Y +�XY�2Y
y , (3.10)
que se puede expresar comox� �X�X
= �y � �Y�Y
. (3.11)
Téngase en cuenta que en la recta de regresión de Y sobre X la variable es x, e y
son los valores que toma la función h(x) (lineal), al contrario de lo que ocurre con la otra
recta. Para representar ambas rectas en el mismo grá�co hay que tener en cuenta este
hecho. Si las representamos en el plano (x; y), como es habitual, la recta de X sobre Y
se obtiene representando, para cada valor y en el eje de ordenadas, el punto (x; y) tal que
3
3. Regresión y correlación
x es la imagen de y por la correspondiente recta de regresión. A efectos prácticos, para
representar esta recta de X sobre Y en el plano (x; y), se despeja y en (3.10) y se representa
la función de x así obtenida (que es la función inversa para esa recta).
Las dos rectas de regresión intersecan en el punto (�X ; �Y ).
Ejemplo 1. Consideremos una v.a. con función de densidad
f(x; y) = 6y si 0 < y < x < 1 . (3.12)
Determina las dos rectas de regresión.
Solución: Calculamos los momentos. Las funciones de densidad marginales son
f1(x) = 3x2 si 0 < x < 1 y f2(y) = 6y(1� y) si 0 < y < 1 . (3.13)
Resolviendo las correspondientes integrales se obtiene E [X] = 34 y E
�X2�= 3
5 , y a partir
de aquí, V [X] = E�X2�� E [X]2 = 3
80 , y E [Y ] = 12 y E
�Y 2�= 3
10 , y a partir de aquí,
V [Y ] = 120 . Se tiene que
E [XY ] =
Z 1
0
Z x
0xyf(x; y)dydx =
2
5, (3.14)
y entonces la covarianza vale �XY = Cov (X;Y ) = E [XY ]� E [X]E [Y ] = 140 .
La recta de regresión de Y sobre X es y = 23x :
y = �Y ��XY�2X
�X +�XY�2X
x =1
2� 1=403=80
3
4+1=40
3=80x =
2
3x . (3.15)
La recta de regresión de X sobre Y es x = 1+y2 :
x = �X ��XY�2Y
�Y +�XY�2Y
y =3
4� 1=401=20
1
2+1=40
1=20y =
1
2+1
2y . (3.16)
Para representar la recta x = 12 +
12y, de X sobre Y , en el plano (x; y), despejamos y,
obteniendo y = 2x� 1.
Es inmediato comprobar que el punto de intersección de ambas rectas es
(x; y) =
�3
4;1
2
�= (E [X] ; E [Y ]) . (3.17)
�
4
3.3 El coe�ciente de correlación
A la pendiente �XY�2X
de la recta de regresión de Y sobre X se la denomina coe�ciente
de regresión de Y sobre X, y se denota por Y=X , y a la pendiente�XY�2Y
de la recta de
regresión de X sobre Y se la denomina coe�ciente de regresión de X sobre Y , y se denota
por X=Y .
Y=X =�XY�2X
=�Y�X� , y X=Y =
�XY�2Y
=�X�Y� . (3.18)
En el ejemplo anterior, el coe�ciente de regresión de Y sobre X es Y=X = 23 , y el
coe�ciente de regresión de X sobre Y es X=Y =12 .
También se puede obtener la �parábola de regresión� (no lo hacemos), o considerar
incluso un polinomio de grado mayor que 2.
3.3. El coe�ciente de correlación
Proposición 2. El coe�ciente de correlación
� =�12�1�2
=Cov(X;Y )pV [X]
pV [Y ]
, (3.19)
satisface las siguientes propiedades:
a) Se tiene que j�j � 1, esto es, �1 � � � 1, con igualdad si y solo si el soporte de
(X;Y ) está contenido en una recta del plano, o sea, si Y = a+ bX para algún a y b.
b) Se tiene que � (aX + b; cY + d) = � (X;Y ), con a; c > 0.
Demostración
a) Es inmediato a partir de la desigualdad de Cauchy-Schwartz.
b) Se tiene que
� (aX + b; cY + d) =Cov (aX + b; cY + d)
� (aX + b)� (cY + d)(3.20)
=E [(aX + b� E [aX + b]) (cY + d� E [cY + d])]r
Eh(aX + b� E [aX + b])2
irEh(cY + d� E [cY + d])2
i (3.21)
=acE [(X � E [X]) (Y � E [Y ])]r
a2Eh(X � E [X])2
irc2E
h(Y � E [Y ])2
i = � (X;Y ) . (3.22)
�
5
3. Regresión y correlación
Una consecuencia importante de este resultado es que el coe�ciente de correlación no
depende de las unidades de medida usadas, esto es, � (cX; dY ) = � (X;Y ). Por ejemplo, si
X es un peso, en Kg, e Y es una longitud, en metros, entonces para expresar el peso en
gramos y la longitud en cm se consideran las v.a. 1000X y 100Y , y se tiene que
� (1000X; 100Y ) = � (X;Y ) . (3.23)
El resultado � (aX + b; cY + d) = � (X;Y ) involucra aplicaciones lineales en general. Por
ejemplo, si X ó Y son mediciones de temperatura, entonces � no depende de las unidades
de medida, puesto que todas las escalas usadas habitualmente se relacionan linealmente: x
grados centígrados son 95x+ 32 grados Fahrenheit y x+ 273
016 grados Kelvin.
Las rectas de regresión de Y sobreX, y�EY�Y= �x�EX�X
, y deX sobre Y , x�EX�X= �y�EY�Y
,
coinciden solo cuando j�j = 1.
Si � = 0 las rectas son y = EY y x = EX, constantes. La representación grá�ca en el
plano (x; y) consiste en una recta horizontal y la otra vertical.
Otras formas de expresar la recta de regresión de Y sobre X, utilizando el coe�ciente
de correlación, son:
y = �Y + ��Y�X
(x� �X) = �Y � ��Y�X�X + �
�Y�Xx . (3.24)
Del mismo modo, la recta de regresión de X sobre Y se puede expresar como
x = �X + ��X�Y
(y � �Y ) = �X � ��X�Y�Y + �
�X�Yy . (3.25)
El coe�ciente de correlación � entre X e Y es una cantidad útil para �medir el ajuste�
de la recta de regresión.
Una medida del ajuste debe indicar hasta que punto se cumple el objetivo de aproximar
bien Y mediante h(X) = a + bX. Las cantidades a y b se han obtenido de modo que
minimizan la esperanza L(a; b) en (3.2). La medida que consideramos es precisamente ese
valor, minimo, de L(a; b) = E�(Y � (a+ bX))2
�, que calculamos a continuación como
función de los momentos.
6
3.3 El coe�ciente de correlación
Proposición 3. Sea (X;Y ) una v.a. bidimensional. Se tiene que
E�(Y � (a+ bX))2
�= (1� �2)�2Y , (3.26)
siendo y = a+ bx = �Y � � �Y�X �X + ��Y�Xx la recta de regresión de Y sobre X.
Demostración Se tiene que
L(a; b) = E�(Y � (a+ bX))2
�= E
"�Y �
��Y + �
�Y�X(X � �X)
��2#(3.27)
= E
"�(Y � �Y )�
���Y�X(X � �X)
��2#(3.28)
= E
"(Y � �Y )2 +
���Y�X(X � �X)
�2� 2 (Y � �Y )
���Y�X(X � �X)
�#
= V [Y ] +
���Y�X
�2V [X]� 2��Y
�XCov(X;Y ) (3.29)
= �2Y + �2�2Y � 2�
�Y�X��X�Y (3.30)
= �2Y + �2�2Y � 2�2�2Y = �2Y � �2�2Y =
�1� �2
��2Y . (3.31)
�
Si j�j = 1 se tiene que L(a; b) = (1 � 1)�2Y = 0, esto es, E�(Y � (a+ bX))2
�= 0,
y entonces Y = a + bX. Por tanto, como cabía esperar, en el caso j�j = 1 la recta de
regresión y = ax + b determina la relación funcional lineal establecida por la proposición
(2): Y = a+ bX con esos mismos a y b.
¿Por qué si E�(Y � (a+ bX))2
�= 0 entonces Y = a + bX?: la variable aleatoria
Z = (Y � (a+ bX))2 es no negativa, y entonces EZ � 0, con EZ = 0 si y solo si Z = 0, y
de aquí se obtiene el resultado. Para ser mas precisos, tendríamos que sustituir la condición
Z = 0 por P fZ = 0g = 1, pero ésto es irrelevante a efectos prácticos.
Si X e Y son incorreladas (por ejemplo, cuando son independientes), entonces se tiene
que L(a; b) = (1�0)�2Y = �2Y . Ésto corresponde al caso más desfavorable, en el que a+ bX
no tiene utilidad para aproximar Y .
El error cuadrático medio que se comete aproximando el valor de una observación de
Y por EY es E�(Y � EY )2
�= �2Y .
7
3. Regresión y correlación
El error cuadrático medio que se comete aproximando el valor de una observación de
Y por a+ bX, una vez observado X = x, es
E�(Y � (a+ bx))2=X = x
�= E
�(Y � (a+ bX))2=X = x
�. (3.32)
Promediando este error sobre todos los valores x, según la distribución de X, obtenemos
E�E�(Y � (a+ bX))2=X
��= E
�(Y � (a+ bX))2
�= (1� �2)�2Y , (3.33)
por la proposición 1. A esta cantidad se la denomina varianza residual.
Podemos medir la �bondad del ajuste�de Y mediante a+ bX a traves del cociente de
estos errores, que vale
E�(Y � (a+ bX))2
�E [(Y � EY )2] =
(1� �2)�2Y�2Y
= 1� �2 . (3.34)
Obsérvese que 0 � 1 � �2 � 1 , con 1 � �2 = 0 si j�j = 1 (dependencia funcional lineal) y
1� �2 = 1 si � = 0 (incorrelación).
Ejemplo 4. Calcula el coe�ciente de correlación y la varianza residual en el ejemplo 1.
Solución: Se obtiene � = 00577, y de aquí 1 � �2 = 00667. La varianza residual para la
recta de regresión de Y sobre X vale�1� �2
��2Y = 0
00334 . La varianza residual para la
recta de regresión de X sobre Y vale�1� �2
��2X = 0
00250 .
�
También se pueden considerar transformaciones sobre Y , como Z = log Y , con el �n de
mejorar el ajuste, si la bondad del ajuste de Z sobre X es mejor que la de Y sobre X.
3.4. Curvas de regresión
Resolvemos ahora el problema general de obtener la función h : R �! R, sin restric-
ciones, que minimiza E�(Y � h(X))2
�.
Se veri�ca que
Eh(Y � h(X))2
i= E
hEh(Y � h(X))2 =X
ii. (3.35)
8
3.4 Curvas de regresión
La variable aleatoria E[(Y � h(X))2=X] toma los valores
E[(Y � h(X))2=X = x] = E[(Y � h(x))2=X = x] . (3.36)
Por tanto, el problema se reduce a obtener, para cada x, un valor h(x) tal que esperanza
Eh(Y � h(x))2 =X = x
ies mínima.
Teniendo en cuenta que, para una v.a. Z, se tiene que E[(Z � c)2] se minimiza con
c = E [Z], obtenemos que
Eh(Y � h(x))2 =X = x
i(3.37)
se minimiza con h(x) = E [Y=X = x], que proporciona entonces la solución del problema
que hemos planteado: se tiene que�(Y � h(X))2
�se minimiza con h(X) = E [Y=X].
A la curva y = h(x) se la denomina curva de regresión de Y sobre X. Esta función
h(x) se suele denotar por m2(x). De este modo, la curva de regresión de Y sobre X es la
función
y = m2(x) (3.38)
con m2(x) = E[Y=X = x].
La curva de regresión de X sobre Y es la función h que minimiza E[(X � h(Y ))2].
Razonando del mismo modo que antes se obtiene que la curva de regresión de X sobre Y
es
x = m1(y) , (3.39)
con m1(y) = E[X=Y = y].
Una propiedad útil es la siguiente: si la curva de regresión es una recta entonces coincide
con la recta de regresión. El hecho de que la curva coincida con la recta de regresión permite
obtener la recta sin necesidad de calcular los momentos de (X;Y ).
Pueden darse todas las posibilidades: que ambas curvas sean rectas, que lo sea solo una
de ellas, o que ninguna curva sea una recta.
Ejemplo 5. Consideremos una variable aleatoria (X;Y ) continua con función de densidad
f (x; y) =1
2xsi 0 <
y
2< x < 1 .
9
3. Regresión y correlación
Determina las rectas y las curvas de regresión.
Solución: Comenzamos obteniendo las curvas, y si alguna es una función lineal
coincidirá con la recta de regresión, que ya no habrá que calcular. En la solución del
examen del 31-10-12 se calcularon para esta distribución las esperanzas condicionadas que
determinan las rectas de regresión: se tiene que E [Y=X = x] = x y E [X=Y = y] =
1�y=2� log(y=2) . Entonces, las curvas de regresión son:
y = x (Y sobre X), (3.40)
x =1� y=2� log (y=2) (X sobre Y ). (3.41)
Puesto que la curva de regresión de Y sobre X es una recta, y = x, entonces es también
la recta de regresión. Además, sirve para calcular algunos momentos, como explicamos a
continuación. Puesto que la recta de Y sobre X es y = �Y � �XY�2X�X +
�XY�2Xx , debe ser
�Y ��XY�2X
�X = 0 y�XY�2X
= 1 . (3.42)
Conociendo tres de los cinco momentos que intervienen en las dos ecuaciones, los otros dos
pueden ser obtenidos despejando. En este caso, en la solución del examen se calculan todos
los momentos de orden 1 y 2, por lo que no necesitamos las ecuaciones. Comprueba que
los valores allí calculados satisfacen estas ecuaciones. La recta de X sobre Y es
x = �X ��XY�2Y
�Y +�XY�2Y
y =1
2� 1=127=36
1
2+1=12
7=36y (3.43)
=2
7+3
7y . (3.44)
�
Ejemplo 6. Consideremos una v.a. con función de densidad
f(x; y) = 6y si 0 < y < x < 1 (3.45)
(igual que en el ejemplo 1). Determina las dos curvas de regresión.
Solución: Las funciones de densidad marginales son
f1(x) = 3x2 si 0 < x < 1 y f2(y) = 6y(1� y) si 0 < y < 1 , (3.46)
10
3.4 Curvas de regresión
y entonces las funciones de densidad condicionadas son:
- Para 0 < x < 1, f(y=x) =2y
x2si y 2 (0; x) . (3.47)
- Para 0 < y < 1, f(x=y) =1
1� y si x 2 (y; 1) , (3.48)
esto es, (X=Y = y) � U (y; 1).
Calculando la correspondiente integral se obtiene E [Y=X = x] = 23x, y entonces la
curva de regresión de Y sobre X es
y =2
3x , (3.49)
que es una recta, y coincide por tanto con la recta de regresión de Y sobre X. El hecho de
que la curva coincida con la recta de regresión permite obtener la recta sin necesidad de
calcular los momentos de (X;Y ), como se hizo en el ejemplo 1.
Se tiene que E [X=Y = y] = E [U (y; 1)] = y+12 , y entonces la curva de regresión de X
sobre Y es
x =1
2+1
2y , (3.50)
que es una recta, y coincide por tanto con la recta de regresión de X sobre Y , que ya se
calculó también en el ejemplo 1.
Aunque no se pide, explicamos como obtener algunos de los momentos de primer y
segundo orden, ya calculados en el ejemplo 1, aquí a partir de las rectas de regresión,
obtenidas de un modo indirecto. La recta de regresión de Y sobre X tiene la forma y =
�Y � �XY�2X�X +
�XY�2Xx , y entonces, puesto que y = 2
3x es dicha recta, se tiene que
�Y ��XY�2X
�X = 0 , y�XY�2X
=2
3. (3.51)
La recta de regresión de X sobre Y tiene la forma x = �X � �XY�2Y�Y +
�XY�2Yy , y entonces,
puesto que x = 12 +
12y es dicha recta, se tiene que
�X ��XY�2Y
�Y =1
2, y
�XY�2Y
=1
2. (3.52)
Después de calcular uno cualquiera de los cinco momentos involucrados (mejor �X ó �Y , que
son los que requieren menos cálculos), los otros cuatro momentos se obtienen resolviendo
el sistema formado por las cuatro ecuaciones en (3.51) y (3.52).
�
11
3. Regresión y correlación
Ejemplo 7. Consideremos dos v.a.i.i.d. X e Y con distribución Beta Be(2; 1). Sea
T = m��n fX;Y g y Z = m�ax fX;Y g . (3.53)
Calcula las rectas y las curvas de regresión para (T;Z).
Solución: La función de densidad de la Beta Be(2; 1) es f(x) = 2x si 0 < x < 1. La
función de densidad de (T;Z) es
g(t; z) = 2(2� 1) [F (z)� F (y)]2�2 f(t)f(z) (3.54)
= 8tz si 0 < t < z < 1 . (3.55)
Calculamos las curvas en primer lugar. Si alguna es una recta, entonces coincide con la recta
de regresión, que queda con ello ya obtenida. Las distribuciones marginales y condicionadas
son:
g1(t) = 4t(1� t2) si 0 < t < 1 . (3.56)
g2(z) = 4z3 si 0 < z < 1 . (3.57)
- Para 0 < t < 1, g(z=t) =2z
1� t2 si z 2 (t; 1) .
- Para 0 < z < 1, g(t=z) =2t
z2si t 2 (0; z) .
Las esperanzas condicionadas valen:
E [Z=T = t] =2
3
1� t31� t2 =
2
3
t2 + t+ 1
t+ 1, y (3.58)
E [T=Z = z] =2
3z . (3.59)
Por tanto, la curva de regresión de Z sobre T es
z =2
3
t2 + t+ 1
t+ 1, (3.60)
y la curva de regresión de T sobre Z es
t =2
3z , (3.61)
que es además la recta de regresión de T sobre Z.
12
3.5 Razón de correlación
Para calcular la otra recta de regresión debemos calcular los momentos �T , �Z , �TZ y
�2T . Podemos ahorrarnos algunas cuentas utilizando la recta de T sobre Z, ya calculada: la
recta de T sobre Z tiene la forma
t = �T ��TZ�2Z
�Z +�TZ�2Z
z , (3.62)
y puesto que esta recta es t =2
3z, se tiene que
�T ��TZ�2Z
�Z = 0 y�TZ�2Z
=2
3, (3.63)
y por tanto
�T =2
3�Z y �TZ =
2
3�2Z . (3.64)
Calculamos �Z , �2T y �2Z .
Para i = 1; 2 se obtiene E[Zi] = 4=(4 + i), y de aquí se obtiene �Z = 4=5 y �2Z = 2=75.
Por (3.64) se obtiene �TZ = 4=225 y �T = 8=15.
Calculamos E[T 2] para obtener �2T . Se obtiene E[T2] = 1=3 y de aquí, �2T = 11=225.
La recta de regresión de Z sobre T es
z = �Z ��TZ�2T
�T +�TZ�2T
t (3.65)
=20
33+12
33t . (3.66)
�
3.5. Razón de correlación
Hemos obtenido en el apartado 3.4 que la esperanza E[(Y � h(X))2] se minimiza con
h : R �! R dada por h(x) = E [Y=X = x].
Obsérvese que el mínimo de la esperanza en (3.37), que se obtiene con h(x) = E [Y=X = x],
es justamente la varianza condicionada V [Y=X = x]:
m��nhEh(Y � h(x))2 =X = x
i= E
h(Y � E [Y=X = x])2 =X = x
i= V [Y=X = x] . (3.67)
Ésto es similar a lo que ocurre con el valor mínimo de E[(Z � c)2], que es justamente la
varianza de Y :
m��ncEh(Y � c)2
i= E
h(Y � E [Y ])2
i= V [Y ] . (3.68)
13
3. Regresión y correlación
Se tiene que el valor mínimo de m��nhE�(Y � h(X))2
�(el análogo a la varianza residual
para la recta de regresión) es E [V [Y=X]]:
m��nhE�(Y � h(X))2
�= E
h(Y � E [Y=X])2
i(3.69)
= EhEh(Y � E [Y=X])2 =X
ii(3.70)
= E [V [Y=X]] , (3.71)
puesto que la v.a Eh(Y � E [Y=X])2 =X
itoma los valores
Eh(Y � E [Y=X])2 =X = x
i= E
h(Y � E [Y=X = x])2 =X = x
i= V [Y=X = x] . (3.72)
Podemos medir la �bondad del ajuste�de Y mediante E[Y=X] a traves de un cociente
de errores análogo al que se obtuvo en (3.34) para la recta de regresión, que vale
E�(Y � E[Y=X])2
�E [(Y � EY )2] =
E[V [Y=X]]
�2Y=�2Y � V [E[Y=X]]
�2Y(3.73)
= 1� V [E[Y=X]]�2Y
, (3.74)
teniendo en cuenta que
�2Y = V [Y ] = E [V [Y=X]] + V [E [Y=X]] . (3.75)
La comparación entre la bondad del ajuste para la recta, dada por 1 � �2, y para la
curva, dada por (3.74), lleva a considerar al cociente en (3.74), denotado por �2Y=X , como
el análogo para la curva de lo que es �2 para la recta. De hecho, cuando la curva es una
recta ambas cantidades coinciden. A esta cantidad
�2Y=X =V [E[Y=X]]
�2Y(3.76)
se la denomina razón de correlación de Y sobre X.
Se veri�ca que
0 � �2Y=X � 1, (3.77)
con �2Y=X = 0 si y solo si X e Y son independientes (y en este caso V [E [Y=X]] = 0), y con
�2Y=X = 1 si y solo si hay dependencia funcional (lineal o no) entre X e Y (y en este caso
E [V [Y=X]] = 0).
14
3.6 Planos de regresión
Se veri�ca que
0 � �2 � �2Y=X � 1 , (3.78)
con �2 = �2Y=X solamente en el caso de que la curva de regresión sea una recta, que coincide
entonces con la recta de regresión. Si �2Y=X = 0 se tiene que �2 = 0, lo que re�eja el hecho
de que la independencia implica la incorrelación, y si �2 = 1 se tiene que �2Y=X = 1, lo que
re�eja el hecho de que la dependencia funcional lineal implica, por supuesto, la dependencia
funcional.
La razón de correlación de X sobre Y es
�2X=Y =V [E[X=Y ]]
�2X, (3.79)
que no coincide en general con �2Y=X , a diferencia de lo que ocurre en el caso lineal, en el
que �(X;Y )2 = �(Y;X)2.
3.6. Planos de regresión
Estudiamos aquí la regresión lineal de Y sobre X en el caso de que X sea un vector
aleatorio.
Consideremos una v.a.�XY
�= (X1; : : : ; Xk; Y )
0, con X = (X1; : : : ; Xk)0. Buscamos la
función h : Rk �! R lineal con la que se alcanza el mínimo
m��nhEh(Y � h (X))2
i. (3.80)
Una tal función h lineal tiene la forma h (x1; : : : ; xk) = a+Pki=1 bixi , o, vectorialmente,
h (x) = a + bx, con x = (x1; : : : ; xk)0, y b = (b1; : : : ; bk). La función y = a + bx es la
ecuación de un (hiper)plano k-dimensional. Obsérvese que dhdbi= d
bibx = xi.
Buscamos entonces los valores a; b1; : : : ; bk que hacen mínima la esperanza
L (a;b) = Eh(Y � (a+ bX))2
i. (3.81)
Para ello, planteamos k+1 ecuaciones igualando a cero la derivada de L (a;b) respecto de
cada uno de sus argumentos. Se tiene en este caso que la derivada de la esperanza coincide
15
3. Regresión y correlación
con la esperanza de la derivada, lo que simpli�ca los cálculos. Calculamos las derivadas de
(y � (a+ bx))2:
d
da(y � (a+ bx))2 = 2 (y � (a+ bx))2�1 d
da(y � (a+ bx)) = 2 (y � (a+ bx)) , (3.82)
d
dbi(y � (a+ bx))2 = 2 (y � (a+ bx)) d
dbi(y � (a+ bx)) = 2 (y � (a+ bx))xi . (3.83)
Tomando esperanzas e igualando a cero obtenemos las ecuaciones
a+ b1E [X1] + � � �+ bkE [Xk] = E [Y ] (3.84)
aE [X1] + b1E�X21
�+ � � �+ bkE [XkX1] = E [X1Y ] (3.85)
... (3.86)
aE [Xk] + b1E [X1Xk] + � � �+ bkE�X2k
�= E [XkY ] (3.87)
Estas ecuaciones se pueden expresar matricialmente, de una forma compacta. Conside-
remos el vector aleatorio Z =�1X
�= (1; X1; : : : ; Xk)
0 y sea c = (a;b)= (a; b1; : : : ; bk). Es
inmediato comprobar que el sistema se expresa como
E�ZZ0c0
�= E [ZY ] . (3.88)
De�niendo la esperanza de una matriz de variables aleatorias como la matriz de las corres-
pondientes esperanzas, queda de�nida E [ZZ0]. Es inmediato comprobar que E [ZZ0c0] =
E [ZZ0] c0 , y por tanto E [ZY ] = E [ZZ0] c0. Despejando se obtiene c0 = E [ZZ0]�1E [ZY ],
y entonces
c = E�Z0Y
�E�ZZ0
��1 , (3.89)
que es entonces la solución del sistema.
El plano de regresión de Y sobre X es
y = a+ bx = cz = E�Z0Y
�E�ZZ0
��1z . (3.90)
En el siguiente ejemplo se realizan los cálculos para k = 1, obteniéndose la recta de regresión
ya estudiada en el apartado 3.2.
16
3.6 Planos de regresión
Ejemplo 8. Con k = 1, y llamandoX aX1, se tiene que Z = (1; X1)0 = (1; X)0. Realizando
los cálculos se obtiene
ZZ0 =
0B@ 1 X
X X2
1CA , E�ZZ0
�=
0B@ 1 E [X]
E [X] E�X2�1CA , (3.91)
��E �ZZ0��� = E �X2�� E [X]2 = �2X , y (3.92)
E�ZZ0
��1=
1
�2X
0B@ E�X2��E [X]
�E [X] 1
1CA . (3.93)
Además,
Z0Y = (Y;XY ) , E�Z0Y
�= (E [Y ] ; E [XY ]) , (3.94)
y entonces
c = E�Z0Y
�E�ZZ0
��1 (3.95)
=1
�2X
�E�X2�E [Y ]� E [X]E [XY ] ;�E [X]E [Y ] + E [XY ]
�(3.96)
=1
�2X
�E�X2�E [Y ]� E [X]E [XY ] ;�E [X]E [Y ] + E [XY ]
�. (3.97)
Simpli�cando, obtenemos
E�X2�E [Y ]� E [X]E [XY ]
�2X=
��2X + E [X]
2�E [Y ]� E [X]E [XY ]�2X
(3.98)
= E [Y ] +E [X]2E [Y ]� E [X]E [XY ]
�2X(3.99)
= E [Y ] +E [X] (E [X]E [Y ]� E [XY ])
�2X(3.100)
= E[Y ]� E[X]�XY�2X
, (3.101)
y 1�2X(�E [X]E [Y ] + E [XY ]) = �XY
�2X, y entonces
c =
��Y � �X
�XY�2X
;�XY�2X
�. (3.102)
Por tanto, el plano de regresión, en este caso una recta, es (con x = x y z = (1;x)0)
y = h (x) = a+ bx = cz = �Y � �X�XY�2X
+�XY�2X
x . (3.103)
�
17
3. Regresión y correlación
Por (3.88) y la linealidad de la esperanza, se tiene que
0 = E�ZZ0c0
�� E [ZY ] = E
�ZZ0c0 � ZY
�(3.104)
= E�Z�Z0c0 � Y
��= �E [(Y � cZ)Z] , (3.105)
siendo 0 un vector de ceros. Puesto que la primera componente del vector Z es 1, se
tiene que la primera componente del vector E [(Y � cZ)Z] es E [(Y � cZ)], que debe ser
entonces 0, por (3.104) y (3.105). Por tanto, E [Y ] = E [cZ] = E [a+ bX] = a + bE [X].
Este resultado permite obtener la primera componente, a, del vector c = E [Z0Y ]E [ZZ0]�1
sin necesidad de realizar los cálculos: se tiene que
a = E [Y ]� bE [X] . (3.106)
A las variables X1; : : : ; Xk se las denomina variables explicativas.
3.7. Plano de regresión de Y sobre (X1; X2). Coe�cientes de
correlación parciales y multiple.
Estudiamos aquí con mayor detalle el caso k = 2 del apartado anterior.
Consideremos una v.a. (X1; X2; Y ). Buscamos la función h : R2 �! R lineal,
h (x1; x2) = a+ b1x1 + b2x2 , (3.107)
con la que se alcanza el mínimo m��nhEh(Y � h (X1; X2))2
i.
La expresión y = a + b1x1 + b2x2 es la ecuación de un plano bidimensional (un plano
propiamente dicho).
Buscamos entonces los valores a; b1; b2 que hacen mínima la esperanza
L (a; b1; b2) = Eh(Y � (a+ b1X1 + b2X2))2
i. (3.108)
Particularizamos a este caso k = 2 la solución obtenida en el apartado anterior. Se
tiene que Z = (1; X1; X2)0 y c = (a; b1; b2). Denotamos por �1; �2; �Y las esperanzas de
X1; X2; Y , respectivamente, y por �21; �22; �
2Y las varianzas. Denotamos las covarianzas por
18
3.7 Plano de Y sobre (X1; X2). Correlación parcial y multiple.
�ij , con i; j = 1; 2; Y , y por �ij los coe�cientes de correlación. Se tiene que
ZZ0 =
0BBBB@1 X1 X2
X1 X21 X1X2
X2 X2X1 X22
1CCCCA , E�ZZ0
�=
0BBBB@1 E [X1] E [X2]
E [X1] E�X21
�E [X1X2]
E [X2] E [X2X1] E�X22
�1CCCCA ,
(3.109)
y el determinante vale jE [ZZ0]j =�1� �212
��21�
21 . La expresión de E [ZZ
0]�1 es aparatosa,
y no la presentamos. Presentamos directamente el vector c = (a; b1; b2) con el que se
minimiza (3.108). Por (3.106) se tiene que a = E [Y ] � bE [X] = �Y � b1�1 � b2�2. Los
valores de b1 y b2 son:
b1 =�1Y � �12�2Y1� �212
�Y�1
y b2 =�2Y � �12�1Y1� �212
�Y�2
. (3.110)
A estas cantidades b1 y b2 se las denomina coe�cientes de regresión parcial. A las cantidades
�1Y .2 =�1Y � �12�2Yp1� �212
q1� �22Y
=
p1� �212q1� �22Y
�1�Yb1 y (3.111)
�2Y .1 =�2Y � �12�1Yp1� �212
q1� �21Y
=
p1� �212q1� �21Y
�2�Yb2 (3.112)
se las denomina coe�cientes de correlación parcial.
Calculamos la varianza residual:
Eh(Y � (a+ b1X1 + b2X2))2
i= E
h((Y � �Y )� b1 (X1 � �1)� b2 (X2 � �2))2
i(3.113)
= �2Y + b21�21 + b
22�22 � 2b1�1Y � 2b2�2Y + 2b1b2�12 = �2Y
�1� �2Y .12
�, (3.114)
con
�2Y .12 =�21Y + �
22Y � 2�212�21Y �22Y1� �212
. (3.115)
A �Y .12 se le denomina coe�ciente de correlación múltiple.
Del mismo modo que la bondad del ajuste con la recta de regresión se mide mediante�1� �2
�, la bondad del ajuste con el plano de regresión se mide mediante
�1� �2Y .12
�.
Apuntes sobre variable aleatoria multidimensional
Víctor M. Ruiz Morcillo
19