15
ANALISIS DE REGRESIÓN LINEAL SIMPLE = () Dado un valor particular de “x”, la función matemática () indicara el valor correspondiente de “y”. MODELO DE REGRESIÓN = 0 + 1 + Donde: = − 0 1 , ó METODO DE MINIMOS CUADRADOS = 0 + 1 + = ∴∑ = − ( 0 + 1 ) =1 = ∑( 0 1 ) 2 =1 () 0 = −2 ∑( 0 1 ) =1 =0 () 1 = −2 ∑( 0 1 ) =1 =0 Derivando la fórmula para 0 : −2 ∑( 0 1 ) =1 =0 ∑( 0 1 ) =1 =0 0 1 =1 =1 =0

formulario regresion

Embed Size (px)

DESCRIPTION

Formulas para resolver ejercicios de regresión lineal múltiple

Citation preview

  • ANALISIS DE REGRESIN LINEAL SIMPLE

    = () Dado un valor particular de x, la funcin matemtica () indicara el valor correspondiente de y. MODELO DE REGRESIN

    = 0 + 1 + Donde: = 0 1 , METODO DE MINIMOS CUADRADOS

    = 0 + 1 +

    = = (0 + 1)

    =1

    = ( 0 1)2

    =1

    ()

    0= 2( 0 1)

    =1

    = 0

    ()

    1= 2( 0 1)

    =1

    = 0

    Derivando la frmula para 0:

    2( 0 1)

    =1

    = 0

    ( 0 1)

    =1

    = 0

    0 1

    =1

    =1

    = 0

  • 0

    =1

    1

    =1

    0 =

    1

    Donde:

    =

    =

    Derivando la frmula para 1:

    2( 0 1)

    =1

    = 0

    ( 0 1)

    =1

    = 0

    ( 0 12)

    =1

    = 0

    0

    =1

    1 2

    =1

    =1

    = 0

    Sustituyendo 0

    [

    1

    ]

    =1

    1 2

    =1

    =1

    = 0

    [( )( )

    1

    ( )2

    ] 1

    2 = 0

    ()( )

    + 1

    ( )2

    1

    2 = 0

    1 2 1

    ( )2

    =

    ()( )

    1 [2

    ()2

    ] =

    ()( )

    1 =

    ()( )

    2

    ()2

  • As podemos estimar la ecuacin de regresin:

    = 0 + 1

    2

    ()2

    =

    ()()

    =

    0 = 1

    1 =

    INFERENCIAS SOBRE EL MODELO

    2

    ( )2

    = = ( )

    2

    = =

    Pero como nos interesa la no explicada para estimar 2

    2 =( )

    2

    2=

    2

    INFERENCIAS A TRAVES DE INTERVALOS O PRUEBAS DE HIPOTESIS

    INTERVALO DE CONFIANZA PARA

    [/2,2 /2,2] = 1

    =0 00

    [0/2,20 0 0 + /2,20] = 1

    02 = 2 [

    1

    +

    2

    ]

    = 1

    Suma de cuadrados

    error

    Suma de cuadrados

    total

    Suma de cuadrados regresin

  • INTERVALO DE CONFIANZA PARA (RESPUESTA DE CAMBIO)

    [/2,2 /2,2] = 1

    =1 11

    [1/2,21 1 1 + /2,21] = 1

    12 =

    2

    PRUEBA DE HIPOTESIS ARA y

    =0 00

    =1 11

    0: 1 = 0 1: 1 0

    INTERVALO DE CONFIANZA PARA LA ECUACIN DE REGRESIN

    () = /

    = 2 [

    1

    +

    ()2

    ] = 2

    = ()

    [ ()/2,2 / + ()/2,2] = 1

    = 0 + 1

    a) INTERVALO PARA PRONOSTICO O PREDICCIN Este intervalo es para una observacin aislada en especfico.

    () = 2 [1 +

    1

    +

    ()2

    ]

    [ ()/2,2 / + ()/2,2] = 1

  • PRUEBA DE SIGNIFICANCIA DE REGRESIN

    = +

    .

    = 1 ANOVA

    Fuentes de variacin

    Grados de libertad

    Suma de cuadrados Cuadrado medio F

    Regresin k-1 1 ( 1)

    Error n-k = 1

    ( )

    Total corregida n-1

    2 ()

    2

    k es el nmero de parmetros que se estiman

    MSR y MSE son estimadores de varianza =

    ()= 2

    0: 1 = 0 1: 1 0

    =12

    22 =

    2

    2

    =

    Rechazar 0 cuando: > ,(1),() COEFICIENTE DE DETERMINACIN Y CORRELACIN Son medidas que nos ayudan a determinar qu tan bueno es el modelo.

    2 0 2 1 Nos indica que porcentaje de la variacin total queda explicada por x.

    2 =

    = 2 1 1

    Nos indica el grado de relacin lineal que hay entre las dos variables. Si se acerca a -1 o 1 hay un alto grado de relacin entre las dos variables.

    =

    ,(1),()

  • ESTANDARIZACIN DE RESIDUALES En ocasiones en el anlisis de residuales es conveniente hacer un anlisis de los residuales

    estandarizando, puesto que la desviacin estndar del error es y es estimada por , definiremos el residual estandarizado como sigue:

    =

    =

    PRUEBA DE CARENCIA DE AJUSTE La prueba consiste en dividir el error o suma de cuadrados error en los componentes siguientes: Suma de cuadrados error = suma de cuadrados del error puro + suma de cuadrados de carencia de ajuste.

    = + Para calcular SSPE es necesario tener observaciones repetidas de la respuesta y al menos para un nivel de x.

    11, 12, 13, 11 1

    21, 22, 23, 22 2

    1, 2 , 3,

    Existen m niveles distintos de x.

    = ( )2

    =1

    =1

    = = ( )2

    =1

    Para realizar la prueba construimos un ANOVA

    Fuentes de variacin

    Grados de libertad

    Suma de cuadrados Cuadrado medio F

    Regresin k-1 1

    Error aleatorio n-k 2

    Carencia de ajuste m-2

    Error puro n-m ( )2

    =1

    =1

    Total n-1 2

    ()2

  • m = es el nmero de niveles de x

    2 = ( )

    2

    =1

    1

    TRANSFORMACIONES Cuando el modelo de lnea recta no se ajusta tenemos que hacer transformaciones.

    Original = 01 y x

    Transformado log = log0 + log1

    a) Funcin exponencial

    = 01 = ln

    Funcin intrnseca lineal ln = ln0 + 1 Transformacin en y y no en x.

    b) Funcin de potencia

    = 01 = ln = log Transformacin en x y y

    log = log0 + 1 log = 0 + 12 = 2

    c) Funcin reciproca

    = 0 + 1 (1

    ) = (

    1

    ) Transformacin en x no en y

    d) Funcin hiperblica

    =

    0 + 1 =

    1

    =

    1

    = 0 + 12 = 2 = 0 + 1

    ANALISIS DE REGRESIN MULTIPLE Es cuando se tiene ms de una variable de regresin o variable independiente. Esto es, tenemos una variable dependiente o respuesta que est en funcin de varias variables independientes.

  • Por ejemplo: El nmero de artculos defectuosos depende:

    1. La velocidad de la maquina 2. La experiencia del operario 3. La calidad de la materia prima 4. El turno de trabajo

    El modelo de regresin lineal mltiple con k variables de regresin ser:

    1, 2, 3,, = 0 + 11 + 22 + 33 ++ Es la verdadera ecuacin de regresin mltiple.

    = 0 + 11 + 22 + 33 ++ + Estimacin de la ecuacin de regresin a travs de una muestra Suponga que el experimentador tiene k variables independientes y n observaciones, cada una de las cuales se puede expresar por la ecuacin:

    = 0 + 11 + 22 + 33 ++ +

    = 1, 2, 3, = 1, 2, 3,

    Donde n es el nmero de observaciones de la muestra y k es el nmero de variables, 11 es el valor de 1 en la primera observacin de la muestra, 12 es el valor de 2 en la primera observacin de la muestra. Planteamiento del problema:

    1) 1 = 0 + 111 + 212 + 313 ++ 1 + 1 2) 2 = 0 + 121 + 222 + 323 ++ 2 + 2

    3) 3 = 0 + 131 + 232 + 333 ++ 3 + 3

    20) = 0 + 11 + 22 + 33 ++ + El mtodo que utilizamos para resolver las ecuaciones es el mtodo de mnimos cuadrados que es minimizar la suma de los cuadrados de los errores.

    1 = 1 0 111 212 313 1

    2 = 2 0 121 222 323 2

    3 = 3 0 131 232 333 3 Hasta:

    = 0 11 22 33 ESTIMACIN DE LOS PARAMETROS POR MINIMOS CUADRADOS

  • El conocimiento de la teora matricial puede facilitar considerablemente las manipulaciones matemticas. Para expresar el modelo en regresin mltiple general en trminos de matrices:

    =

    (

    1234)

    =

    (

    1 11 121 21 221 31 32

    13 123 233 3

    1 1 2

    3 )

    (1) (( + 1))

    =

    (

    1234)

    =

    (

    1234)

    (1)1 (1)

    En trminos de matrices, el modelo de regresin lineal mltiple es:

    = +

    (1) [( + 1)] [(1)1 ](1) Donde: () = 0

    ()2 = 2

    Consecuentemente el vector aleatorio y tiene un valor esperado

    () = Y la matriz de varianza- covarianza de y

    ()2 = 2

    Las ecuaciones resultantes que es necesario resolver son:

    () =

    Donde denota el vector de coeficientes de regresin estimados.

    Los estimadores de mnimos cuadrados son: = ()1 La matriz () es:

  • () =

    [ 1 1 111 21 3112 22 3213 23 33

    1 1 2 3

    1 2 3

    ]

    [ 1 11 121 21 221 31 32

    13 123 233 3

    1 1 2

    3 ]

    () =

    [ 1 2

    1 12 1 2

    2 1 2 22

    3

    1 3 1

    2 3 2

    1 2

    3 2 ]

    La ecuacin de regresin para este problema es:

    = 0 + 11 + 22 + 33 + 44

    = ()1

    =

    [ 01234]

    Entonces:

    () =

    [ 1 2

    1 12 1 2

    2 1 2 22

    3 4

    1 3 1 4

    2 3 2 4

    3 1 3 2 3

    4 1 4 2 4

    3

    2 3 4

    3 4 42

    ]

  • =

    [ 1

    1

    2

    3

    4]

    = [012

    ] = ()1

    Entonces:

    () =

    [ 1 2

    1 12 1 2

    2 1 2 22

    ]

    =

    [

    1

    2]

    INFERENCIAS SOBRE EL MODELO

    Primeramente estimamos 2 la variacin aleatoria. Al igual que en el caso de la regresin lineal simple la estimacin de 2 est definida en trminos de la suma de cuadrados de los residuos (SSE):

    = ( )2 =

    2

    Un estimador insesgado de 2 esta dado por el cuadrado medio error (MSE):

    2 = =

    Esta ltima ecuacin se convierte en: =

    Por consiguiente otra manera de obtener 2 es : 2 =

    =

  • PRUEBA DE SIGNIFICANCIA DE LA REGRESIN Es una prueba para determinar si existe una relacin lineal entre la respuesta y y un subconjunto de las variables de regresin 1, 2, . Las hiptesis apropiadas son:

    0: 1 = 2 = = = 0 1: 0 "j"

    . El rechazo de 0 implica que a menos una de las variables de regresin 1, 2, tiene una contribucin significativa en el modelo. En la prueba de significancia la suma total de cuadrados se divide en la suma de cuadrados debida a la regresin y la suma de cuadrados debida al error digamos:

    = + Debe rechazarse 0 si el valor calculado del estadstico de prueba es mayor que ,1(). El procedimiento se puede resumir en la tabla de anlisis de varianza.

    Fuentes de variacin

    Grados de libertad

    SS MS

    Regresin k-1 ()2

    1

    Error n-k

    Total n-1 ()2

    = () Como:

    = Entonces:

    = ()2

    = [()

    ()2

    ]

    = () ()2

    = ( )2 = 2

    ()2

    =

    ()2

    1

    F.c. por la media

  • COEFICIENTE DE DETERMINACIN MULTIPLE Es una tcnica empleada para medir la adecuacin de un modelo de regresin. El coeficiente de determinacin mltiple est definida por:

    2 =

    0 2 1

    Un valor grande de 2 no necesariamente implica que el modelo de regresin sea bueno. La adicin de una variable al modelo siempre aumenta de 2, sin importar si la variable es o no estadsticamente significativa. Es as como los modelos tienen valores de 2 grandes pueden proporcionar predicciones pobres de nuevas observaciones. Coeficiente de correlacin mltiple 1 1 Es una medida de la oscilacin lineal existente entre y y 1, 2, . INFERENCIAS PARA LOS PARAMETROS DE REGRESIN Para poder hacer inferencias acerca de los parmetros de regresin primeramente debemos estimar

    la varianza de las esta se expresa en trminos de los elementos de la inversa de la matriz . La inversa de multiplicada por la constante 2 representa la matriz varianza-covarianza o matriz de covarianza (varianza conjunta de dos variables) de los coeficientes de regresin . Los elementos de la diagonal de 2()1 son las varianzas de 0, 1, mientras que los elementos que estn fuera de la diagonal de esta matriz son las covarianzas. MATRIZ DE COVARIANZA

    2() =

    [

    2(0) 2(0, 1)

    2(0, 1) 2(1)

    2(0, )

    2(1, )

    2(0, ) 2(1, )

    2() ]

    2() = 2()1 = ()1 INTERVALO DE CONFIANZA PARA

    [ 2 ,()2() () + 2 ,()2()] = 1

    Donde () es la raz cuadrada de los valores de la diagonal de la matriz de varianza-covarianza. *si ningn parmetro pasa por cero quiere decir que son variables importantes. PRUEBA DE HIPOTESIS SOBRE LOS COEFICIENTES INDIVIDUALES DE REGRESIN Son tiles para valorar cada variable de regresin en el modelo. A menudo se tiene inters en hacer pruebas de hiptesis sobre los coeficientes de regresin. Tales pruebas son tiles para determinar el valor potencial de cada una de las variables de regresin del modelo de regresin. Por ejemplo el modelo puede ser eficaz con la inclusin de variables adicionales, o quiz con la eliminacin de uno o mas regresores presentes en el modelo. La adicin de una variable al modelo siempre hace que SSR aumente y que la SSE es suficientemente grande como para justificar el uso de una variable mas en el modelo. Por otra parte

  • la adicin de una variable sin importancia puede aumentar MSE, lo que contribuye un indicador de que tal variable disminuye la calidad con la que el modelo ajusta a los datos. Las hiptesis para la prueba de significancia de cualquier coeficiente de regresin individual seran:

    1. 0: = 0 1: 0

    2. Se realiza la prueba con un nivel de significancia

    3. El estadstico de prueba para esta hiptesis es:

    =()

    Ntese que () es el error estndar del coeficiente de regresin el cual se obtiene de la matriz

    varianza-covarianza en la diagonal.

    4. Se rechaza la hiptesis nula si > 2 , < 2 ,

    5. Si no se rechaza la hiptesis 0: = 0, entonces esto indica que el regresor puede eliminarse del modelo.

    A esta prueba se le conoce como PRUEBA PARCIAL O MARGINAL. NTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Tambin puede obtenerse un intervalo de confianza para la respuesta promedio en un punto en particular por ejemplo: 1, 2, , en este punto se define el vector:

    =

    [ 112]

    = =

    La respuesta promedio en este punto es: ( ) = =

    la cual es estimada por:

    =

    2() = 2()

    2() =

    2()

    = [1 1 2 ][2()]

    [ 112]

    Son los valores para las xs para cada experimento para cada serie de valores.

  • [ 2 ,()() () + 2 ,()()] = 1

    INTERVALO DE CONFIANZA PARA PRONOSTICO O PREDICCIN Un modelo de regresin puede emplearse para predecir observaciones futuras de la variable respuesta y, correspondiente a valores particulares de las variables independientes, entonces una estimacin puntual de la observacin futura en el punto 1, 2, , es:

    =

    Un intervalo de pronstico o prediccin del 100(1) para esta observacin futura es:

    [ 2 ,()( ) + 2 ,()( )] = 1

    ( ) = 2[1 +

    ()1] = 2 + 2() = + 2()

    PRUEBA DE CARENCIA DE AJUSTE A continuacin se presenta una prueba para determinar bondad de ajuste del modelo de regresin. Las hiptesis que se desean probar son:

    0: () = 0 + 11 + 22 ++ 1: () 0 + 11 + 22 ++

    Se requiere tener observaciones repetidas de la respuesta y al menos para un nivel de 1, 2, , . Se rechaza la hiptesis si > ,()() Para realizar la prueba construimos una tabla de anlisis de varianza.

    Fuentes de variacin

    Grados de libertad

    SS MS

    Regresin p-1 ()2

    1

    Carencia de ajuste m-p

    Error puro n-m ( )2

    =1

    =1

    Error n-p

    Total n-1 ()2