Regresón lineal simple

Embed Size (px)

Citation preview

  • 8/8/2019 Regresn lineal simple

    1/36

    REGRESIN LINEAL SIMPLE

  • 8/8/2019 Regresn lineal simple

    2/36

    Regresin: conjunto de tcnicas que son usadas paraestablecer una relacin entre una variable cuantitativallamada variable dependiente y una o ms variables

    independientes, llamadas predictoras. Estas tambiendeberian ser cuantitativas, sin embargo algunas deellas podrian ser cualitativas.

    Modelo de regresin. Ecuacin que representa larelacin entre las variables. Para estimar la ecuacin delmodelo se debe tener una muestra de entrenamiento.

  • 8/8/2019 Regresn lineal simple

    3/36

    Usos del modelo de regresin

    a) Prediccinb) Descripcin

    c) Controld) Seleccin de variables

  • 8/8/2019 Regresn lineal simple

    4/36

    El modelo de Regresin Lineal simple

    Considerando la muestra (xi, yi) para i=1,n

    ++= XY

    iii eXY ++= Suposiciones del modelo:

    La variable X es no aleatoria.

    Los errores ei son variables aleatorias con media 0 y varianzaconstante 2.

    Los errores y (ij=1,n) son independientes entre si.ie je

  • 8/8/2019 Regresn lineal simple

    5/36

    : expresa la magnituddel cambio de y por

    cada unidad de x

    {

    xE(y|x)

    E(y|x)

    X

    E(y|x)=+x

    = E(y|x)x

    Constante

    Parmetro de

    intercepcin Es la pendienteParmetro de pendiente

  • 8/8/2019 Regresn lineal simple

    6/36

    Estimacin de la lnea de regresin usando

    Mnimos Cuadrados

    Se debe Minimizar

    ( ),Q =

    n

    i

    ie1

    2

    =

    n

    i

    ii xy1

    2)( =

    Derivando se obtiene las ecuaciones normales,cuya solucion produce

    = =

    ===

    =n

    i

    n

    i

    ii

    n

    i

    i

    n

    i

    i

    n

    i

    ii

    xxn

    yxyxn

    1

    2

    1

    2

    111

    )(

    xy =

    xx

    xy

    SS=

    =

    equivalentemente

  • 8/8/2019 Regresn lineal simple

    7/36

    .

    ..

    .

    y4

    y1

    y2

    y3

    x1 x2 x3 x4

    }

    }

    {

    {

    e1

    e2

    e3

    e4

    y = b0 + b1x

    x

    y E(y) = + x

    (RRM)

    (RRP)

  • 8/8/2019 Regresn lineal simple

    8/36

    Interpretacin de los coeficientes de regresinestimados

    La pendiente indica el cambio promedio en la variable derespuesta cuando la variable predictora aumenta en una unidad

    adicional.

    )

    El intercepto indica el valor promedio de la variable de

    respuesta cuando la variable predictora vale 0. Sin embargo

    carece de interpretacin prctica si es irrazonable pensar que el

    rango de valores de x incluye a cero.

    )

  • 8/8/2019 Regresn lineal simple

    9/36

    Propiedades de los estimadores mnimos cuadrticos

    de regresin

    a) es un estimador insegado de . Es decir, E( )=

    b) es un estimador insegado de . Es decir, E( )=

    c) La varianza de es y la de es

    )

    )

    )

    )

    )

    Sxx

    2 )

    )1

    (2

    2

    Sxx

    x

    n+

  • 8/8/2019 Regresn lineal simple

    10/36

    Propiedades de los residuales

    Los residuales son las desviaciones de los valores

    observados de la variables de respuesta con respectoa la lnea de regresin.

    a) La suma de los residuales es 0. Es decir,

    b)

    c)

    0

    1

    ==

    n

    i

    ie

    01

    ==

    n

    i

    iixe

    01

    ==

    n

    i

    iiye)

  • 8/8/2019 Regresn lineal simple

    11/36

    Estimacin de la varianza del error

    Un estimador insesgado de es:2

    22

    )(1

    2

    1

    2

    2

    =

    =

    ==

    n

    e

    n

    yy

    s

    n

    i

    i

    n

    i

    ii

    )

    2

    s es tambien llamado el cuadrado medio del error(CME)

  • 8/8/2019 Regresn lineal simple

    12/36

    Descomposicin de la suma de cuadrados total

    La desviacion de un valor observado con respecto ala media se puede escribir como:

    )()()( yyyyyy iiii +=))

    ==

    n

    i

    i yy

    1

    2)( =

    n

    i

    ii yy

    1

    2)()

    =

    n

    i

    i yy

    1

    2)()

    +

    SCT = SCE + SCR

    Se puede deducir que

    =

    =n

    i

    i xxSCR1

    22)(

  • 8/8/2019 Regresn lineal simple

    13/36

    El Coeficiente de Determinacin

    Es una medida de la bondad de ajuste del modelo

    Un modelo de regresin con mayor o igual a 75% se puedeconsiderar bastante aceptable.

    Nota: El valor de es afectado por la presencia de valores

    anormales.

    SCTSCRR =2

    2

    R

    2R

  • 8/8/2019 Regresn lineal simple

    14/36

    Distribucin de los estimadores mnimos

    cuadrticosPara efecto de hacer inferencia en regresin, se requiere asumir

    que los errores , se distribuyen en forma normal e

    independientemente con media 0 y varianza constante . En

    consecuencia, tambin las s se distribuyen normalmente con

    media y varianza .Se puede establecer que:

    i

    e2

    'iy

    ix+2

    ),(~

    2

    xxSN ))

    1(,(~ 2

    2

    xxS

    x

    nN +

  • 8/8/2019 Regresn lineal simple

    15/36

    Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por

    lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer lossiguientes resultados:

    i) (Chi-Cuadrado no central con n-1 g.l)

    ii) Equivalentemente

    iii) (Chi-Cuadrado no central con 1 g.l)

    Podemos mostrar que:

    2

    )1(2'~ n

    SCT

    2

    )2(2~ n

    SCE

    2

    )2(2

    2

    ~)2(

    n

    sn

    2

    )1(2'~

    SCR

    xxxx SSESCRE

    222

    )

    ()( +==

  • 8/8/2019 Regresn lineal simple

    16/36

    Inferencia en Regresion Lineal Simple

    Pruebas de hiptesis e intervalos de confianza acerca de los

    coeficientes de regresin del modelo de regresin

    poblacional.

    Intervalos de confianza para un valor predicho y para el valor

    medio de la variable de respuesta

  • 8/8/2019 Regresn lineal simple

    17/36

  • 8/8/2019 Regresn lineal simple

    18/36

    Intervalo de confianza para el intercepto Un intervalo de confianza del 100(1-)% para el intercepto de

    la linea de regresin poblacional es de la forma:

    )1,1(

    2

    )2/1,2(

    2

    )2/1,2(Sxxx

    nst

    Sxxx

    nst nn +++

    ))

  • 8/8/2019 Regresn lineal simple

    19/36

    Tres Posibles Poblaciones

    11< 0< 0= 0= 0 > 0> 0AA BB CC

    XXXXXX

    YYYYYY

  • 8/8/2019 Regresn lineal simple

    20/36

    Pruebas de hiptesis para la pendiente (asuminendo que su valor es * )

    Caso I Caso II Caso III

    Ho: =* Ho: =* Ho: =*

    Ha: *

    Prueba Estadstica

    Regla de Decisin

    Rechazar Ho, Rechazar Ho Rechazar Ho

    si tcalt(1- /2,n-2) si tcal>t(1-,n-2)

    *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.

    )2(~*

    = nt

    Sxx

    st

    )

  • 8/8/2019 Regresn lineal simple

    21/36

    El anlisis de varianza para regresin lineal

    simpleEl anlisis de varianza para regresin consiste en descomponer

    la variacin total de la variable de respuesta en varias partes

    llamadas fuentes de variacin.

    La divisin de la suma de cuadrados por sus grados de libertad

    es llamada cuadrado medio.

    As se tienen tres cuadrados medios.

    Cuadrado Medio de Regresin=CMR=SCR/1

    Cuadrado Medio del Error= CME=SCE/(n-2)

  • 8/8/2019 Regresn lineal simple

    22/36

    Tabla de Anlisis de Varianza

    ________________________________________________________________

    Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F

    ________________________________________________________________Debido a

    la Regresion 1 SCR CMR=SCR/1

    Error n-2 SCE CME=SCE/(n-2)

    Total n-1 SCT

    ________________________________________________________________

    Se rechazara la hiptesis nula Ho:=0 si el P-value de laprueba de F es menor de 0.05

    CME

    CMR

  • 8/8/2019 Regresn lineal simple

    23/36

    Intervalo de confianza para el valor medio de la

    variable de respuesta e Intervalo de Prediccin

    Queremos predecir el valor medio de las Y para un valor x0 de

    la variable predictora x.

    Como y se distribuyen normalmente, entonces tambin se

    distribuye normalmente con media y varianza igual a:

    00 )/( xxxYE +==

    ))(1()(2

    02

    0Sxxxx

    nYVar +=

  • 8/8/2019 Regresn lineal simple

    24/36

    Intervalo de confianza para el valor medio

    Un intervalo de confianza del 100(1- )% para el valor medio

    de las ys dado que x=x0 es de la forma:

    intervalo de prediccin para un valor individual de Y dado x=x0

    es de la forma

    Sxx

    xx

    n

    stx n

    2

    0)2,2/1(0

    )(1

    ++

    Sxx

    xx

    nstx n

    2

    0)2,2/1(0

    )(11

    +++

  • 8/8/2019 Regresn lineal simple

    25/36

    El Coeficiente de Correlacin

    Mide el grado de asociacin lineal entre las variables X y Y y se

    define como:

    a)

    b) La media condicional de Y dado X es ,

    donde: y

    c) La varianza condicional de las Y dado X, est dado por

    Si entonces (perfecta relacin lineal).

    yx

    YXCov

    ),(=

    11

    xXYE +=)/(

    x

    y

    = xy =

    )1(222

    / = yxy

    1= 02

    /=xy

  • 8/8/2019 Regresn lineal simple

    26/36

    Coeficiente de correlacin muestral

    Considerando una muestra de n pares (xi,yi)

    Notar que:

    El cuadrado del coeficiente de correlacin es igual al coeficiente

    de determinacin.

    SxxSyySxyr =

    Syy

    Sxxr

    )

    =SCT

    SCR

    Syy

    Sxxr ==

    22 )

  • 8/8/2019 Regresn lineal simple

    27/36

    Ejemplo de un modelo No lineal

  • 8/8/2019 Regresn lineal simple

    28/36

    Los siguientes datos presentan el nmero promediode bacterias sobrevivientes dentro de un alimento

    enlatado y los minutos de exposicin al calora

    175 1

    108 2

    95 3

    82 4

    71 5

    50 6

    49 7

    31 828 9

    17 10

    16 11

    11 12

    12 12

    12

    3

    4

    5

    6

    7

    89

    10

    11

    12

    NTotal

    bacterias tiempo

    Limitado a los primeros 100 casos.a.

    ANOVAb

    22268,813 1 22268,813 66,512 ,000a

    3348,104 10 334,810

    25616,917 11

    Regresin

    Residual

    Total

    Modelo1

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    Variables predictoras: (Constante), tiempoa.

    Variable dependiente: bacteriasb.

    Resumen del modelo

    ,932a ,869 ,856 18,298

    Modelo1

    R R cuadradoR cuadradocorregida

    Error tp. de laestimacin

    Variables predictoras: (Constante), tiempoa.

    Coeficientesa

    142,197 11,262 12,627 ,000

    -12,479 1,530 -,932 -8,155 ,000

    (Constante)

    tiempo

    Modelo1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientesestandarizad

    os

    t Sig.

    Variable dependiente: bacteriasa.

    Ejemplo de un modelo No lineal

    Anlisis de los residuos

  • 8/8/2019 Regresn lineal simple

    29/36

    Prueba de la Normalidad Prueba de Homogenidad de Varianzas

    Al tratar de chequear la normalidadde los errores por medio del grficode probabilidad normal de la figura

    .Segn este grfico se observa queeste supuesto parece no cumplirsecomo lo

    Ahora al chequear la homogeneidad devarianza grficamente por medio de lafigura (errores y tiempo), se observa que

    este supuesto no se cumple debido alpatrn curvilneo que presenta el grfico.

    Lo anterior nos permite concluir que el modelo lineal

    no es adecuado para ajustar los datos. En este casose debe transformar la variable respuesta.

  • 8/8/2019 Regresn lineal simple

    30/36

    Cmo transformarla?

    En esta situacin es fcil conocer latransformacin ya que los datos representan el

    crecimiento de las bacterias en el tiempo, parael cual se conoce que el nmero de bacterias enel tiempo t , , se modela como

    donde n0es el nmero inicial de bacterias y .

    Tomando logaritmo natural a ambos lados setiene

  • 8/8/2019 Regresn lineal simple

    31/36

    Cmo se distribuye el error?

    Es de observar que el modelo original (1)no tiene errores aditivos yaque se encuentra multiplicando. As un ajuste de (2), es apropiadosolamente si creemos que el modelo (1) es el adecuado. Latransformacin de nt(Y) en lnnt(Y) ha alterado la estructura del error demultiplicativo a aditivo. Si nosotros realmente creemos que los erroresson aditivos y que

    nosotros no podramos tomar logaritmos y utilizar el mtodo de mnimos

    cuadrado. Se tendra que usar mtodos de estimacin no lineal. Elmodelo (4) se dice que es intrnsicamente no lineal, mientras que elmodelo (1)es intrnsicamente lineal.

    De lo anterior se concluye que para analizar los datos del ejemplo, se

    debe transformar la variable como se muestra en la tabla:

  • 8/8/2019 Regresn lineal simple

    32/36

    Diagrama de dispersin dellogaritmo del nmero de bacteriassobrevientes a travs del tiempo

    Resumen del modelob

    ,991a

    ,982 ,980 ,12039

    Modelo

    1

    R R cuadradoR cuadradocorregida

    Error tp. de laestimacin

    Variables predictoras: (Constante), tiempoa.

    Variable dependiente: LnYb.

    Coeficientesa

    5,339 ,074 72,054 ,000

    -,236 ,010 -,991 23,459 ,000

    (Constan

    tiempo

    Model

    1

    B rror tp.

    Coeficientes noestandarizados

    Beta

    oeficientestandariza

    os

    t Sig.

    Variable dependiente: LnYa.

  • 8/8/2019 Regresn lineal simple

    33/36

    Cmo interpretar el parmetro estimado ?

    En general, un parmetro en un modelo sometido a tranformacinlogaritmica representa el porcentaje esperado de incremento (odecremento) de la variable dependiente para un incremento unitario

    de la variable independiente. El porcentaje de cambio se calcula

    obteniendo el antilogaritmo de y restandole 1.Explicacin (esconder)

    De la expresin se tiene que el valor estimado de la respuesta

    para un valor dado de es . Ahora el cambio porcentual esdado por

    donde es el valor estimado de la respuesta para un tiempo

    dado por decir , y es el valor de la respuesta cuando. As el porcentaje de cambio es:

  • 8/8/2019 Regresn lineal simple

    34/36

    Regresin Cuadrtica

    Un modelo cuadrtico es de la forma:

    donde a, b y c son constantes a estimar. Usando la tcnica de

    mnimos cuadrados se pueden obtener frmulas explcitas para

    calcular a, b y c.

    En SPSS para obtener la ecuacin del modelo cuadrtico,

    hay que elegir la opcin Regresion/ curva en la ventana dedilogo de

    +++=2

    cXbXaY

  • 8/8/2019 Regresn lineal simple

    35/36

    Ejemplo

    Case Summariesa

    1 4,0 21,0

    2 3,4 12,0

    3 3,5 25,2

    4 3,1 10,4

    5 2,9 30,9

    6 1,9 6,8

    7 4,1 19,6

    8 3,2 14,5

    9 3,8 25,0

    10 3,6 19,1

    10 10 10

    1

    2

    3

    4

    5

    6

    7

    8

    910

    NTotal

    Tienda

    ValorAgregado porhora-hombre

    ($)

    Tamao de latienda ( miles

    de piescuadrados)

    Limitado a los primeros 100 casos.a.

    Resumen del modelo y estimaciones de los parmetros

    Variable dependiente: Valor Agregado por hora-hombre ($)

    ,883 26,438 2 7 ,001 -,120 ,387 -,009

    EcuacinCuadrtico

    R cuadrado F gl1 gl2 Sig.

    Resumen del modelo

    Constante b1 b2

    Estimaciones de los parmetros

    La variable independiente esTamao de la tienda ( miles de pies cuadrados).

    Modelos No lineales que pueden ser

  • 8/8/2019 Regresn lineal simple

    36/36

    Modelos No lineales que pueden ser

    transformados en linealesLa segunda alternativa para aumentar el R2 consiste en usar modelos no

    lineales que pueden ser convertidos en lineales, a travs de transformaciones

    tanto de la variable independiente como dependiente.

    Nombre del modelo Ecuacin del Modelo Transformacin Modelo Linealizado

    Exponencial Y=eX Z=Ln Y X=X Z=Ln +X

    Logartmico Y= +Log X Y=Y W=Log X Y= +W

    Doblemente Logartmico Y=X Z=Log Y W=Log X Z= Log +W

    Hiperblico Y= +/X Y=Y W=1/X Y= +W

    Inverso Y=1/( +X) Z=1/Y X=X Z= +X

    Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

    inversa de la transformacin correspondiente al mismo.