Regresón lineal simple

8/8/2019 Regresn lineal simple

1/36

REGRESIN LINEAL SIMPLE


2/36

Regresin: conjunto de tcnicas que son usadas paraestablecer una relacin entre una variable cuantitativallamada variable dependiente y una o ms variables

independientes, llamadas predictoras. Estas tambiendeberian ser cuantitativas, sin embargo algunas deellas podrian ser cualitativas.

Modelo de regresin. Ecuacin que representa larelacin entre las variables. Para estimar la ecuacin delmodelo se debe tener una muestra de entrenamiento.


3/36

Usos del modelo de regresin

a) Prediccinb) Descripcin

c) Controld) Seleccin de variables


4/36

El modelo de Regresin Lineal simple

Considerando la muestra (xi, yi) para i=1,n

++= XY

iii eXY ++= Suposiciones del modelo:

La variable X es no aleatoria.

Los errores ei son variables aleatorias con media 0 y varianzaconstante 2.

Los errores y (ij=1,n) son independientes entre si.ie je


5/36

: expresa la magnituddel cambio de y por

cada unidad de x

{

xE(y|x)

E(y|x)

X

E(y|x)=+x

= E(y|x)x

Constante

Parmetro de

intercepcin Es la pendienteParmetro de pendiente


6/36

Estimacin de la lnea de regresin usando

Mnimos Cuadrados

Se debe Minimizar

( ),Q =

n

i

ie1

2

=

n

i

ii xy1

2)( =

Derivando se obtiene las ecuaciones normales,cuya solucion produce

= =

===

=n

i

n

i

ii

n

i

i

n

i

i

n

i

ii

xxn

yxyxn

1

2

1

2

111

)(

xy =

xx

xy

SS=

=

equivalentemente


7/36

.

..

.

y4

y1

y2

y3

x1 x2 x3 x4

}

}

{

{

e1

e2

e3

e4

y = b0 + b1x

x

y E(y) = + x

(RRM)

(RRP)


8/36

Interpretacin de los coeficientes de regresinestimados

La pendiente indica el cambio promedio en la variable derespuesta cuando la variable predictora aumenta en una unidad

adicional.

)

El intercepto indica el valor promedio de la variable de

respuesta cuando la variable predictora vale 0. Sin embargo

carece de interpretacin prctica si es irrazonable pensar que el

rango de valores de x incluye a cero.

)


9/36

Propiedades de los estimadores mnimos cuadrticos

de regresin

a) es un estimador insegado de . Es decir, E( )=

b) es un estimador insegado de . Es decir, E( )=

c) La varianza de es y la de es

)

)

)

)

)

Sxx

2 )

)1

(2

2

Sxx

x

n+


10/36

Propiedades de los residuales

Los residuales son las desviaciones de los valores

observados de la variables de respuesta con respectoa la lnea de regresin.

a) La suma de los residuales es 0. Es decir,

b)

c)

0

1

==

n

i

ie

01

==

n

i

iixe

01

==

n

i

iiye)


11/36

Estimacin de la varianza del error

Un estimador insesgado de es:2

22

)(1

2

1

2

2

=

=

==

n

e

n

yy

s

n

i

i

n

i

ii

)

2

s es tambien llamado el cuadrado medio del error(CME)


12/36

Descomposicin de la suma de cuadrados total

La desviacion de un valor observado con respecto ala media se puede escribir como:

)()()( yyyyyy iiii +=))

==

n

i

i yy

1

2)( =

n

i

ii yy

1

2)()

=

n

i

i yy

1

2)()

+

SCT = SCE + SCR

Se puede deducir que

=

=n

i

i xxSCR1

22)(


13/36

El Coeficiente de Determinacin

Es una medida de la bondad de ajuste del modelo

Un modelo de regresin con mayor o igual a 75% se puedeconsiderar bastante aceptable.

Nota: El valor de es afectado por la presencia de valores

anormales.

SCTSCRR =2

2

R

2R


14/36

Distribucin de los estimadores mnimos

cuadrticosPara efecto de hacer inferencia en regresin, se requiere asumir

que los errores , se distribuyen en forma normal e

independientemente con media 0 y varianza constante . En

consecuencia, tambin las s se distribuyen normalmente con

media y varianza .Se puede establecer que:

i

e2

'iy

ix+2

),(~

2

xxSN ))

1(,(~ 2

2

xxS

x

nN +


15/36

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por

lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer lossiguientes resultados:

i) (Chi-Cuadrado no central con n-1 g.l)

ii) Equivalentemente

iii) (Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

2

)1(2'~ n

SCT

2

)2(2~ n

SCE

2

)2(2

2

~)2(

n

sn

2

)1(2'~

SCR

xxxx SSESCRE

222

)

()( +==


16/36

Inferencia en Regresion Lineal Simple

Pruebas de hiptesis e intervalos de confianza acerca de los

coeficientes de regresin del modelo de regresin

poblacional.

Intervalos de confianza para un valor predicho y para el valor

medio de la variable de respuesta


17/36


18/36

Intervalo de confianza para el intercepto Un intervalo de confianza del 100(1-)% para el intercepto de

la linea de regresin poblacional es de la forma:

)1,1(

2

)2/1,2(

2

)2/1,2(Sxxx

nst

Sxxx

nst nn +++

))


19/36

Tres Posibles Poblaciones

11< 0< 0= 0= 0 > 0> 0AA BB CC

XXXXXX

YYYYYY


20/36

Pruebas de hiptesis para la pendiente (asuminendo que su valor es * )

Caso I Caso II Caso III

Ho: =* Ho: =* Ho: =*

Ha: *

Prueba Estadstica

Regla de Decisin

Rechazar Ho, Rechazar Ho Rechazar Ho

si tcalt(1- /2,n-2) si tcal>t(1-,n-2)

*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.

)2(~*

= nt

Sxx

st

)


21/36

El anlisis de varianza para regresin lineal

simpleEl anlisis de varianza para regresin consiste en descomponer

la variacin total de la variable de respuesta en varias partes

llamadas fuentes de variacin.

La divisin de la suma de cuadrados por sus grados de libertad

es llamada cuadrado medio.

As se tienen tres cuadrados medios.

Cuadrado Medio de Regresin=CMR=SCR/1

Cuadrado Medio del Error= CME=SCE/(n-2)


22/36

Tabla de Anlisis de Varianza

________________________________________________________________

Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F

________________________________________________________________Debido a

la Regresion 1 SCR CMR=SCR/1

Error n-2 SCE CME=SCE/(n-2)

Total n-1 SCT

________________________________________________________________

Se rechazara la hiptesis nula Ho:=0 si el P-value de laprueba de F es menor de 0.05

CME

CMR


23/36

Intervalo de confianza para el valor medio de la

variable de respuesta e Intervalo de Prediccin

Queremos predecir el valor medio de las Y para un valor x0 de

la variable predictora x.

Como y se distribuyen normalmente, entonces tambin se

distribuye normalmente con media y varianza igual a:

00 )/( xxxYE +==

))(1()(2

02

0Sxxxx

nYVar +=


24/36

Intervalo de confianza para el valor medio

Un intervalo de confianza del 100(1- )% para el valor medio

de las ys dado que x=x0 es de la forma:

intervalo de prediccin para un valor individual de Y dado x=x0

es de la forma

Sxx

xx

n

stx n

2

0)2,2/1(0

)(1

++

Sxx

xx

nstx n

2

0)2,2/1(0

)(11

+++


25/36

El Coeficiente de Correlacin

Mide el grado de asociacin lineal entre las variables X y Y y se

define como:

a)

b) La media condicional de Y dado X es ,

donde: y

c) La varianza condicional de las Y dado X, est dado por

Si entonces (perfecta relacin lineal).

yx

YXCov

),(=

11

xXYE +=)/(

x

y

= xy =

)1(222

/ = yxy

1= 02

/=xy


26/36

Coeficiente de correlacin muestral

Considerando una muestra de n pares (xi,yi)

Notar que:

El cuadrado del coeficiente de correlacin es igual al coeficiente

de determinacin.

SxxSyySxyr =

Syy

Sxxr

)

=SCT

SCR

Syy

Sxxr ==

22 )


27/36

Ejemplo de un modelo No lineal


28/36

Los siguientes datos presentan el nmero promediode bacterias sobrevivientes dentro de un alimento

enlatado y los minutos de exposicin al calora

175 1

108 2

95 3

82 4

71 5

50 6

49 7

31 828 9

17 10

16 11

11 12

12 12

12

3

4

5

6

7

89

10

11

12

NTotal

bacterias tiempo

Limitado a los primeros 100 casos.a.

ANOVAb

22268,813 1 22268,813 66,512 ,000a

3348,104 10 334,810

25616,917 11

Regresin

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrtica F Sig.

Variables predictoras: (Constante), tiempoa.

Variable dependiente: bacteriasb.

Resumen del modelo

,932a ,869 ,856 18,298

Modelo1

R R cuadradoR cuadradocorregida

Error tp. de laestimacin


Coeficientesa

142,197 11,262 12,627 ,000

-12,479 1,530 -,932 -8,155 ,000

(Constante)

tiempo

Modelo1

B Error tp.

Coeficientes no

estandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: bacteriasa.

Ejemplo de un modelo No lineal

Anlisis de los residuos


29/36

Prueba de la Normalidad Prueba de Homogenidad de Varianzas

Al tratar de chequear la normalidadde los errores por medio del grficode probabilidad normal de la figura

.Segn este grfico se observa queeste supuesto parece no cumplirsecomo lo

Ahora al chequear la homogeneidad devarianza grficamente por medio de lafigura (errores y tiempo), se observa que

este supuesto no se cumple debido alpatrn curvilneo que presenta el grfico.

Lo anterior nos permite concluir que el modelo lineal

no es adecuado para ajustar los datos. En este casose debe transformar la variable respuesta.


30/36

Cmo transformarla?

En esta situacin es fcil conocer latransformacin ya que los datos representan el

crecimiento de las bacterias en el tiempo, parael cual se conoce que el nmero de bacterias enel tiempo t , , se modela como

donde n0es el nmero inicial de bacterias y .

Tomando logaritmo natural a ambos lados setiene


31/36

Cmo se distribuye el error?

Es de observar que el modelo original (1)no tiene errores aditivos yaque se encuentra multiplicando. As un ajuste de (2), es apropiadosolamente si creemos que el modelo (1) es el adecuado. Latransformacin de nt(Y) en lnnt(Y) ha alterado la estructura del error demultiplicativo a aditivo. Si nosotros realmente creemos que los erroresson aditivos y que

nosotros no podramos tomar logaritmos y utilizar el mtodo de mnimos

cuadrado. Se tendra que usar mtodos de estimacin no lineal. Elmodelo (4) se dice que es intrnsicamente no lineal, mientras que elmodelo (1)es intrnsicamente lineal.

De lo anterior se concluye que para analizar los datos del ejemplo, se

debe transformar la variable como se muestra en la tabla:


32/36

Diagrama de dispersin dellogaritmo del nmero de bacteriassobrevientes a travs del tiempo

Resumen del modelob

,991a

,982 ,980 ,12039

Modelo

1

R R cuadradoR cuadradocorregida

Error tp. de laestimacin


Variable dependiente: LnYb.

Coeficientesa

5,339 ,074 72,054 ,000

-,236 ,010 -,991 23,459 ,000

(Constan

tiempo

Model

1

B rror tp.

Coeficientes noestandarizados

Beta

oeficientestandariza

os

t Sig.

Variable dependiente: LnYa.


33/36

Cmo interpretar el parmetro estimado ?

En general, un parmetro en un modelo sometido a tranformacinlogaritmica representa el porcentaje esperado de incremento (odecremento) de la variable dependiente para un incremento unitario

de la variable independiente. El porcentaje de cambio se calcula

obteniendo el antilogaritmo de y restandole 1.Explicacin (esconder)

De la expresin se tiene que el valor estimado de la respuesta

para un valor dado de es . Ahora el cambio porcentual esdado por

donde es el valor estimado de la respuesta para un tiempo

dado por decir , y es el valor de la respuesta cuando. As el porcentaje de cambio es:


34/36

Regresin Cuadrtica

Un modelo cuadrtico es de la forma:

donde a, b y c son constantes a estimar. Usando la tcnica de

mnimos cuadrados se pueden obtener frmulas explcitas para

calcular a, b y c.

En SPSS para obtener la ecuacin del modelo cuadrtico,

hay que elegir la opcin Regresion/ curva en la ventana dedilogo de

+++=2

cXbXaY


35/36

Ejemplo

Case Summariesa

1 4,0 21,0

2 3,4 12,0

3 3,5 25,2

4 3,1 10,4

5 2,9 30,9

6 1,9 6,8

7 4,1 19,6

8 3,2 14,5

9 3,8 25,0

10 3,6 19,1

10 10 10

1

2

3

4

5

6

7

8

910

NTotal

Tienda

ValorAgregado porhora-hombre

($)

Tamao de latienda ( miles

de piescuadrados)

Limitado a los primeros 100 casos.a.

Resumen del modelo y estimaciones de los parmetros

Variable dependiente: Valor Agregado por hora-hombre ($)

,883 26,438 2 7 ,001 -,120 ,387 -,009

EcuacinCuadrtico

R cuadrado F gl1 gl2 Sig.

Resumen del modelo

Constante b1 b2

Estimaciones de los parmetros

La variable independiente esTamao de la tienda ( miles de pies cuadrados).

Modelos No lineales que pueden ser


36/36

Modelos No lineales que pueden ser

transformados en linealesLa segunda alternativa para aumentar el R2 consiste en usar modelos no

lineales que pueden ser convertidos en lineales, a travs de transformaciones

tanto de la variable independiente como dependiente.

Nombre del modelo Ecuacin del Modelo Transformacin Modelo Linealizado

Exponencial Y=eX Z=Ln Y X=X Z=Ln +X

Logartmico Y= +Log X Y=Y W=Log X Y= +W

Doblemente Logartmico Y=X Z=Log Y W=Log X Z= Log +W

Hiperblico Y= +/X Y=Y W=1/X Y= +W

Inverso Y=1/( +X) Z=1/Y X=X Z= +X

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

inversa de la transformacin correspondiente al mismo.

Documents

Regresón lineal simple