Upload
edson-arturo-quispe-sanchez
View
224
Download
0
Embed Size (px)
Citation preview
8/8/2019 Regresn lineal simple
1/36
REGRESIN LINEAL SIMPLE
8/8/2019 Regresn lineal simple
2/36
Regresin: conjunto de tcnicas que son usadas paraestablecer una relacin entre una variable cuantitativallamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambiendeberian ser cuantitativas, sin embargo algunas deellas podrian ser cualitativas.
Modelo de regresin. Ecuacin que representa larelacin entre las variables. Para estimar la ecuacin delmodelo se debe tener una muestra de entrenamiento.
8/8/2019 Regresn lineal simple
3/36
Usos del modelo de regresin
a) Prediccinb) Descripcin
c) Controld) Seleccin de variables
8/8/2019 Regresn lineal simple
4/36
El modelo de Regresin Lineal simple
Considerando la muestra (xi, yi) para i=1,n
++= XY
iii eXY ++= Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianzaconstante 2.
Los errores y (ij=1,n) son independientes entre si.ie je
8/8/2019 Regresn lineal simple
5/36
: expresa la magnituddel cambio de y por
cada unidad de x
{
xE(y|x)
E(y|x)
X
E(y|x)=+x
= E(y|x)x
Constante
Parmetro de
intercepcin Es la pendienteParmetro de pendiente
8/8/2019 Regresn lineal simple
6/36
Estimacin de la lnea de regresin usando
Mnimos Cuadrados
Se debe Minimizar
( ),Q =
n
i
ie1
2
=
n
i
ii xy1
2)( =
Derivando se obtiene las ecuaciones normales,cuya solucion produce
= =
===
=n
i
n
i
ii
n
i
i
n
i
i
n
i
ii
xxn
yxyxn
1
2
1
2
111
)(
xy =
xx
xy
SS=
=
equivalentemente
8/8/2019 Regresn lineal simple
7/36
.
..
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
e1
e2
e3
e4
y = b0 + b1x
x
y E(y) = + x
(RRM)
(RRP)
8/8/2019 Regresn lineal simple
8/36
Interpretacin de los coeficientes de regresinestimados
La pendiente indica el cambio promedio en la variable derespuesta cuando la variable predictora aumenta en una unidad
adicional.
)
El intercepto indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
)
8/8/2019 Regresn lineal simple
9/36
Propiedades de los estimadores mnimos cuadrticos
de regresin
a) es un estimador insegado de . Es decir, E( )=
b) es un estimador insegado de . Es decir, E( )=
c) La varianza de es y la de es
)
)
)
)
)
Sxx
2 )
)1
(2
2
Sxx
x
n+
8/8/2019 Regresn lineal simple
10/36
Propiedades de los residuales
Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respectoa la lnea de regresin.
a) La suma de los residuales es 0. Es decir,
b)
c)
0
1
==
n
i
ie
01
==
n
i
iixe
01
==
n
i
iiye)
8/8/2019 Regresn lineal simple
11/36
Estimacin de la varianza del error
Un estimador insesgado de es:2
22
)(1
2
1
2
2
=
=
==
n
e
n
yy
s
n
i
i
n
i
ii
)
2
s es tambien llamado el cuadrado medio del error(CME)
8/8/2019 Regresn lineal simple
12/36
Descomposicin de la suma de cuadrados total
La desviacion de un valor observado con respecto ala media se puede escribir como:
)()()( yyyyyy iiii +=))
==
n
i
i yy
1
2)( =
n
i
ii yy
1
2)()
=
n
i
i yy
1
2)()
+
SCT = SCE + SCR
Se puede deducir que
=
=n
i
i xxSCR1
22)(
8/8/2019 Regresn lineal simple
13/36
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
Un modelo de regresin con mayor o igual a 75% se puedeconsiderar bastante aceptable.
Nota: El valor de es afectado por la presencia de valores
anormales.
SCTSCRR =2
2
R
2R
8/8/2019 Regresn lineal simple
14/36
Distribucin de los estimadores mnimos
cuadrticosPara efecto de hacer inferencia en regresin, se requiere asumir
que los errores , se distribuyen en forma normal e
independientemente con media 0 y varianza constante . En
consecuencia, tambin las s se distribuyen normalmente con
media y varianza .Se puede establecer que:
i
e2
'iy
ix+2
),(~
2
xxSN ))
1(,(~ 2
2
xxS
x
nN +
8/8/2019 Regresn lineal simple
15/36
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer lossiguientes resultados:
i) (Chi-Cuadrado no central con n-1 g.l)
ii) Equivalentemente
iii) (Chi-Cuadrado no central con 1 g.l)
Podemos mostrar que:
2
)1(2'~ n
SCT
2
)2(2~ n
SCE
2
)2(2
2
~)2(
n
sn
2
)1(2'~
SCR
xxxx SSESCRE
222
)
()( +==
8/8/2019 Regresn lineal simple
16/36
Inferencia en Regresion Lineal Simple
Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta
8/8/2019 Regresn lineal simple
17/36
8/8/2019 Regresn lineal simple
18/36
Intervalo de confianza para el intercepto Un intervalo de confianza del 100(1-)% para el intercepto de
la linea de regresin poblacional es de la forma:
)1,1(
2
)2/1,2(
2
)2/1,2(Sxxx
nst
Sxxx
nst nn +++
))
8/8/2019 Regresn lineal simple
19/36
Tres Posibles Poblaciones
11< 0< 0= 0= 0 > 0> 0AA BB CC
XXXXXX
YYYYYY
8/8/2019 Regresn lineal simple
20/36
Pruebas de hiptesis para la pendiente (asuminendo que su valor es * )
Caso I Caso II Caso III
Ho: =* Ho: =* Ho: =*
Ha: *
Prueba Estadstica
Regla de Decisin
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcalt(1- /2,n-2) si tcal>t(1-,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
)2(~*
= nt
Sxx
st
)
8/8/2019 Regresn lineal simple
21/36
El anlisis de varianza para regresin lineal
simpleEl anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=CMR=SCR/1
Cuadrado Medio del Error= CME=SCE/(n-2)
8/8/2019 Regresn lineal simple
22/36
Tabla de Anlisis de Varianza
________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F
________________________________________________________________Debido a
la Regresion 1 SCR CMR=SCR/1
Error n-2 SCE CME=SCE/(n-2)
Total n-1 SCT
________________________________________________________________
Se rechazara la hiptesis nula Ho:=0 si el P-value de laprueba de F es menor de 0.05
CME
CMR
8/8/2019 Regresn lineal simple
23/36
Intervalo de confianza para el valor medio de la
variable de respuesta e Intervalo de Prediccin
Queremos predecir el valor medio de las Y para un valor x0 de
la variable predictora x.
Como y se distribuyen normalmente, entonces tambin se
distribuye normalmente con media y varianza igual a:
00 )/( xxxYE +==
))(1()(2
02
0Sxxxx
nYVar +=
8/8/2019 Regresn lineal simple
24/36
Intervalo de confianza para el valor medio
Un intervalo de confianza del 100(1- )% para el valor medio
de las ys dado que x=x0 es de la forma:
intervalo de prediccin para un valor individual de Y dado x=x0
es de la forma
Sxx
xx
n
stx n
2
0)2,2/1(0
)(1
++
Sxx
xx
nstx n
2
0)2,2/1(0
)(11
+++
8/8/2019 Regresn lineal simple
25/36
El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
a)
b) La media condicional de Y dado X es ,
donde: y
c) La varianza condicional de las Y dado X, est dado por
Si entonces (perfecta relacin lineal).
yx
YXCov
),(=
11
xXYE +=)/(
x
y
= xy =
)1(222
/ = yxy
1= 02
/=xy
8/8/2019 Regresn lineal simple
26/36
Coeficiente de correlacin muestral
Considerando una muestra de n pares (xi,yi)
Notar que:
El cuadrado del coeficiente de correlacin es igual al coeficiente
de determinacin.
SxxSyySxyr =
Syy
Sxxr
)
=SCT
SCR
Syy
Sxxr ==
22 )
8/8/2019 Regresn lineal simple
27/36
Ejemplo de un modelo No lineal
8/8/2019 Regresn lineal simple
28/36
Los siguientes datos presentan el nmero promediode bacterias sobrevivientes dentro de un alimento
enlatado y los minutos de exposicin al calora
175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 828 9
17 10
16 11
11 12
12 12
12
3
4
5
6
7
89
10
11
12
NTotal
bacterias tiempo
Limitado a los primeros 100 casos.a.
ANOVAb
22268,813 1 22268,813 66,512 ,000a
3348,104 10 334,810
25616,917 11
Regresin
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrtica F Sig.
Variables predictoras: (Constante), tiempoa.
Variable dependiente: bacteriasb.
Resumen del modelo
,932a ,869 ,856 18,298
Modelo1
R R cuadradoR cuadradocorregida
Error tp. de laestimacin
Variables predictoras: (Constante), tiempoa.
Coeficientesa
142,197 11,262 12,627 ,000
-12,479 1,530 -,932 -8,155 ,000
(Constante)
tiempo
Modelo1
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: bacteriasa.
Ejemplo de un modelo No lineal
Anlisis de los residuos
8/8/2019 Regresn lineal simple
29/36
Prueba de la Normalidad Prueba de Homogenidad de Varianzas
Al tratar de chequear la normalidadde los errores por medio del grficode probabilidad normal de la figura
.Segn este grfico se observa queeste supuesto parece no cumplirsecomo lo
Ahora al chequear la homogeneidad devarianza grficamente por medio de lafigura (errores y tiempo), se observa que
este supuesto no se cumple debido alpatrn curvilneo que presenta el grfico.
Lo anterior nos permite concluir que el modelo lineal
no es adecuado para ajustar los datos. En este casose debe transformar la variable respuesta.
8/8/2019 Regresn lineal simple
30/36
Cmo transformarla?
En esta situacin es fcil conocer latransformacin ya que los datos representan el
crecimiento de las bacterias en el tiempo, parael cual se conoce que el nmero de bacterias enel tiempo t , , se modela como
donde n0es el nmero inicial de bacterias y .
Tomando logaritmo natural a ambos lados setiene
8/8/2019 Regresn lineal simple
31/36
Cmo se distribuye el error?
Es de observar que el modelo original (1)no tiene errores aditivos yaque se encuentra multiplicando. As un ajuste de (2), es apropiadosolamente si creemos que el modelo (1) es el adecuado. Latransformacin de nt(Y) en lnnt(Y) ha alterado la estructura del error demultiplicativo a aditivo. Si nosotros realmente creemos que los erroresson aditivos y que
nosotros no podramos tomar logaritmos y utilizar el mtodo de mnimos
cuadrado. Se tendra que usar mtodos de estimacin no lineal. Elmodelo (4) se dice que es intrnsicamente no lineal, mientras que elmodelo (1)es intrnsicamente lineal.
De lo anterior se concluye que para analizar los datos del ejemplo, se
debe transformar la variable como se muestra en la tabla:
8/8/2019 Regresn lineal simple
32/36
Diagrama de dispersin dellogaritmo del nmero de bacteriassobrevientes a travs del tiempo
Resumen del modelob
,991a
,982 ,980 ,12039
Modelo
1
R R cuadradoR cuadradocorregida
Error tp. de laestimacin
Variables predictoras: (Constante), tiempoa.
Variable dependiente: LnYb.
Coeficientesa
5,339 ,074 72,054 ,000
-,236 ,010 -,991 23,459 ,000
(Constan
tiempo
Model
1
B rror tp.
Coeficientes noestandarizados
Beta
oeficientestandariza
os
t Sig.
Variable dependiente: LnYa.
8/8/2019 Regresn lineal simple
33/36
Cmo interpretar el parmetro estimado ?
En general, un parmetro en un modelo sometido a tranformacinlogaritmica representa el porcentaje esperado de incremento (odecremento) de la variable dependiente para un incremento unitario
de la variable independiente. El porcentaje de cambio se calcula
obteniendo el antilogaritmo de y restandole 1.Explicacin (esconder)
De la expresin se tiene que el valor estimado de la respuesta
para un valor dado de es . Ahora el cambio porcentual esdado por
donde es el valor estimado de la respuesta para un tiempo
dado por decir , y es el valor de la respuesta cuando. As el porcentaje de cambio es:
8/8/2019 Regresn lineal simple
34/36
Regresin Cuadrtica
Un modelo cuadrtico es de la forma:
donde a, b y c son constantes a estimar. Usando la tcnica de
mnimos cuadrados se pueden obtener frmulas explcitas para
calcular a, b y c.
En SPSS para obtener la ecuacin del modelo cuadrtico,
hay que elegir la opcin Regresion/ curva en la ventana dedilogo de
+++=2
cXbXaY
8/8/2019 Regresn lineal simple
35/36
Ejemplo
Case Summariesa
1 4,0 21,0
2 3,4 12,0
3 3,5 25,2
4 3,1 10,4
5 2,9 30,9
6 1,9 6,8
7 4,1 19,6
8 3,2 14,5
9 3,8 25,0
10 3,6 19,1
10 10 10
1
2
3
4
5
6
7
8
910
NTotal
Tienda
ValorAgregado porhora-hombre
($)
Tamao de latienda ( miles
de piescuadrados)
Limitado a los primeros 100 casos.a.
Resumen del modelo y estimaciones de los parmetros
Variable dependiente: Valor Agregado por hora-hombre ($)
,883 26,438 2 7 ,001 -,120 ,387 -,009
EcuacinCuadrtico
R cuadrado F gl1 gl2 Sig.
Resumen del modelo
Constante b1 b2
Estimaciones de los parmetros
La variable independiente esTamao de la tienda ( miles de pies cuadrados).
Modelos No lineales que pueden ser
8/8/2019 Regresn lineal simple
36/36
Modelos No lineales que pueden ser
transformados en linealesLa segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a travs de transformaciones
tanto de la variable independiente como dependiente.
Nombre del modelo Ecuacin del Modelo Transformacin Modelo Linealizado
Exponencial Y=eX Z=Ln Y X=X Z=Ln +X
Logartmico Y= +Log X Y=Y W=Log X Y= +W
Doblemente Logartmico Y=X Z=Log Y W=Log X Z= Log +W
Hiperblico Y= +/X Y=Y W=1/X Y= +W
Inverso Y=1/( +X) Z=1/Y X=X Z= +X
Para predecir el valor de Y usando el modelo linealizado hay que aplicar la
inversa de la transformacin correspondiente al mismo.