Analisis de Regresion Lineal Simple Ing. Sistemas

Embed Size (px)

Citation preview

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    1/17

    ANALISIS DE REGRESION LINEAL SIMPLE

    El análisis de regresión consiste en emplear métodos que permitan determinar la

    mejor relación funcional entre dos variables concomitantes (o relacionadas). Es

    decir, involucra el estudio de la relación entre dos variables CU!"#""#$%. En

    general interesa&

    Estudiar la forma de la relación. Usando los datos propondremos un modelo

    para la relación ' a partir de ella será posible predecir el valor de una variable

    a partir de la otra.

    Estudiar la fuera de la asociación, a través de una medida de asociación

    denominada coeficiente de correlación.

    #nvestigar si eiste una asociación entre las dos variables probando la

    *ipótesis de independencia estad+stica.

    Tipos de relación

    eterminista&  Conocido el valor de -, el valor de queda perfectamente

    establecido. %on del tipo&

    ' / f ()

    %i se considera que la relación puede ser de tipo lineal, la formaliación vendr+adeterminada por una ecuación como la siguiente&

    0 1Y X β β = +

    Ejemplo& 0a relación eistente entre la temperatura en grados cent+grados (-) '

    grados 1a*ren*eit () es&

    ' / 2,3 4 56

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    2/17

    !o determinista& Conocido el valor de -, el valor de no queda perfectamente

    establecido. %on del tipo&

    ' / f () 4 e

    onde, e es una perturbación desconocida (variable aleatoria).

    ado que las relaciones en las ciencias sociales no son eactas se inclu'e el

    término de perturbación aleatoria

    0 1Y X β β ε = + +

    Ejemplo& %e tiene una muestra del volumen de producción (-) ' el costo total ()

    asociado a un producto en un grupo de empresas.

    Eiste relación pero no es eacta.

    CASOS

    %i1

    β 7 8 *a' relación lineal positiva.

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    3/17

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    4/17

    Empleando el método de los m+nimos cuadrados, es decir minimiando la suma de

    cuadrados de los errores, se determinan los valores de0

    β̂ '

    1β̂ 

    , as+&

    ( )2

    2

    0 1

    1 1

    n n

    i i i

    i i

    Q y xε β β = =

    = = − −∑ ∑

    ( ) ( )0 10

    ˆ ˆ2 1 0ˆ   i i

    QQ y x

    δ β β 

    δβ = = − − − =

    …………………………………………….

    (1)

    ( ) ( )0 11

    ˆ ˆ2 0ˆ   i i iQQ y x xδ  β β 

    δβ = = − − − =

    …………………………………………..

    (2)

     l sistema formado por las ecuaciones (2) ' (6) se les denomina ecuaciones

    normales. ;esolviendo las ecuaciones normales, se tiene&

    0 1ˆ ˆ y xβ β = −

    1 1

    1

    1   2   2

    2   1

    1

    ˆ

    n n

    i in

    i ii i

     xyi

    n x

    ini

    i

    i

     x y

     x y sn

     s x

     x n

    β 

    = =

    =

    ==

    −= =

      ÷

     −

    ∑ ∑∑

    ∑∑

    0uego la recta de regresión muestral es&

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    5/17

    0 1ˆ ˆŶ X β β = +

    El coeficiente de regresión (

    1β̂ 

    ) Está epresado en las mismas unidades demedida de la variable - e indica el n

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    6/17

    = >omogeneidad& El valor promedio del error es cero,

    ( )   0i E   ε    =

    = >omocedásticidad&  la variana de los errores es constante,

    ( )   2iV   ε σ =.0a

    dispersión de los datos debe ser constante para que los datos sean

    *omocedásticos.

    %i no se cumple, los datos son *eterocedásticos.

    = #ndependencia& 0as observaciones son independientes,

    ( )   0i j E   ε ε    =

     ? 0os datos deben ser independientes.

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    7/17

     ? Una observación no debe dar información sobre los

    demás.

    = !ormalidad& 0os errores siguen una distribución normal,

    iε ∼! (8, @).

    #!"E;$0A% E CA!1#!B

    En muc*os casos es de interés conocer entre que valores se encuentra el

    coeficiente de regresión de la población0

    β 

      y

    1β 

    para un cierto grado de

    confiana fijada, este procedimiento permite *allar los valores llamados l+mites de

    confiana, as+&

    2

    01

    2

    1ˆ  R xx

     xt sn s

    α β −

    ± +

    11

    2

    ˆ   R

     xx

     st 

     sα β 

    ±

    0a longitud del intervalo disminuirá si&

    •  umenta el tamao de la muestra.

    • isminu'e la variana residual.

    El error cadrado medio !

    2

     R s

    " es el estimado de

    2

     Rσ . %e calcula mediante la

    ecuación&

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    8/17

    2

    2 R

    SSE  s

    n=

    2 R SSE  s

    n=

    #ntervalo de Confiana para el valor medio

    ( )/ y x µ de todos los valores dado que

    - / -8está dado por&

    ( ) 2

    0

    01 ; 2

    2

     Rn

     xx

     x x y t s

    n sα 

    − −

    −± +

    #ntervalo de Confiana para el valor predic*o de dado que - / -8 es de la forma&

    ( ) 2

    0

    0 1 ; 22

    1ˆ   1

     Rn xx

     x x

     y t s n sα − −

    ± + +

    Contraste so#re la pendiente

    Es necesario evaluar que tan bien el modelo eplica la relación - e . :ara ello se

    plantea las siguientes *ipótesis&

    0 1: 0 H    β   =

    0 1: 0 H    β   ≠

     nálisis de variancia para probar la significancia de la regresión.

    $ente de %ariación Sma de Cadrados Grados de Li#ertad Cadrados Medios $

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    9/17

    ;egresión

     R xySS S β = 2 MSR   MSR

     MSE 

    Error o ;esidual

    1

    ˆ E yy xy

    SS S S  β = −n D 6

     MSE 

    "otal

    2

    2   1

    1

    n

    ini

     yy i

    i

     y

    S yn

    =

    =

      ÷  = −∑

    ∑n D 2

    El Coe&iciente de Correlación

    0lamado también coeficiente de correlación de :earson, se representa por r  ' esuna medida que representa el grado de asociación entre dos variables

    cuantitativas - e .

    %e calcula por&

     xy

     xx yy

     sr 

     s s=

    • 0a correlación var+a entre D2 ' 2

    = En la ma'or+a de los problemas, una correlación ma'or que 8.8 o menor que

    D8.8 es considerada bastante aceptable.

    • Una correlación que cae entre D8.5 ' 8.5 es considerada mu' baja.

    El Coe&iciente de Determinación

    Es una medida de la bondad de ajuste del modelo de regresión *allado.

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    10/17

    2   SSR RSST 

    =

    ónde&

    %%; representa la suma de cuadrados debido a la regresión '

    %%" representa la suma de cuadrados del total.

    El coeficiente de determinación es simplemente el cuadrado del coeficiente de

    correlación.

    El coeficiente de eterminación var+a entre 8 ' 2, aunque es bastante com

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    11/17

    PAR()OLA DE REGRESI*N

    En muc*os casos, es una función de segundo grado la que se ajusta lo suficiente

    a la situación real dada.

    0a epresión general de un polinomio de 6G grado es&

    2

    0 1 2 y x xβ β β = + +

    onde

    0 1 2,   yβ β β 

     son los parámetros.

    El problema consiste, por tanto, en determinar dichos parámetros para una

    distribución dada. Seuiremos para ello, similar al !ue hicimos en el caso del

    modelo de reresión lineal simple, utili"ando el procedimiento de a#uste de los

    m$nimos cuadrados, es decir, haciendo !ue la suma de los cuadrados de las

    des%iaciones con respecto a la cur%a de reresión sea m$nima:

    &onde, siuiendo la notación habitual, ' i son los %alores obser%ados de la

    %ariable dependiente, e los %alores estimados se(n el modelo; por tanto,

     podemos escribir & de la )orma:

    *ara encontrar los %alores de a, b '

    c !ue hacen m$nima la e+presión anterior, deberemos iualar las deri%adas

     parciales de & con respecto a dichos parámetros a cero ' resol%er el sistema

    resultante. as ecuaciones !ue )orman dicho sistema se conocen

    como ecuaciones normales de Gauss 

    -iual !ue en el caso de la reresión lineal simple.

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    12/17

    $+NCI*N E,PONENCIAL- POTENCIAL

    El problema de ajustar un modelo potencial, de la forma /-b ' uno eponencial

    /H

    -

     se reduce al de la función lineal, con solo tomar logaritmos.

    Modelo potencial.

    %i tomamos logaritmos en la epresión de la función potencial, obtendremos&

    0og / 0og 4b 0og-

    Como vemos es la ecuación de una recta& /a4b-, donde a*ora a / 0og. e

    modo que el problema es sencillo, basta con transformar en 0og' - en 0og- '

    ajustar una recta a los valores transformados. El parámetro b del modelo potencial

    coincide con el coeficiente de regresión de la recta ajustada a los datos

    transformados, ' lo obtenemos mediante el anti log(a).

    Modelo e/ponencial.

    "omando logaritmos en la epresión de la función eponencial, obtendremos&

    0og / 0og 4 - 0ogH

    "ambién se trata de la ecuación de una recta /a4b-, pero a*ora ajustándola a

    log ' a -I de modo que, para obtener el parámetro del modelo eponencial,

    basta con *acer anti log(a), ' el parámetro H se obtiene tomando anti log(b).

    REGRESI*N LINEAL M0LTIPLE

    En la regresión lineal m

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    13/17

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    14/17

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    15/17

    ˆˆ y xβ =

    Abtención de estimadores LCA

    enominando % a la suma de los cuadrados de los residuos,

    :ara aplicar el criterio de m+nimos cuadrados en el modelo de regresión lineal

    m

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    16/17

    o, con notación matricial,

    ˆ x x x yβ ′ ′=

     l sistema anterior se le denomina genéricamente sistema de ecuaciones

    normales del *iperplano. En notación matricial ampliada, el sistema de ecuaciones

    normales es el siguiente&

    ( )  1ˆ  x x x yβ 

      −′ ′=

    Interpretación de los coe&icientes

    El coeficiente

    ˆ  jβ 

     mide el efecto parcial del regresor i, manteniendo los otros

    regresores fijos.

    Ejemplo&Consideramos una muestra de personas como la que sigue a

    continuación&

  • 8/20/2019 Analisis de Regresion Lineal Simple Ing. Sistemas

    17/17

    En base a estos datos, vamos a construir un modelo para predecir el peso de una

    persona (). Esto equivale a estudiar la relación eistente entre este conjunto de

    variables 2, 6 ,J, M ' la variable peso ().

    En la práctica deberemos de elegir cuidadosamente qué variables vamos a

    considerar como eplicativas. lgunos criterios que deben de cumplir serán lossiguientes& N

    • "ener sentido numérico.

    • !o deberá de *aber variables repetidas o redundantes.

    • 0as variables introducidas en el modelo deberán de tener una cierta

     justificación teórica.

    • 0a relación entre variables eplicativas en el modelo ' casos debe de ser 

    como m+nimo de 2 a 28.

    • 0a relación de las variables eplicativas con la variable dependiente debe de

    ser lineal, es decir, proporcional.