Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 1

Análisis de

Regresión y Correlación


ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN

El término regresión fue introducido por Francis Galton. En un famoso

artículo Galton plantea que, a pesar de la presencia de una tendencia

en la que los padres de estatura alta tenían hijos altos y los padres de

estatura baja tenían hijos bajos, la estatura promedio de los niños

nacidos de padres de una estatura dada tendía a moverse o «regresar»

hacia la estatura promedio de población total. En otras palabras, la

estatura de los hijos inusualmente altos o de padres inusualmente bajos

tiende a moverse hacia la estatura promedio de la población. La ley de

regresón universal de Galton fue confirmada por su amigo Karl Pearson,

quien reunió más de registros de estaturas de miembros de grupos

familiares. Pearson encontró que la estatura promedio de los hijos de un

grupo de padres de estatura alta era menor que la estatura de sus

padres y la estatura promedio de los hijos de un grupo de padres de

estatura baja era mayor que estatura de sus padres, generándose un

fenómeno mediante el cual los hijos altos e hijos bajos «regresaban» en

forma similar hacia la estatura promedio de todos los hombres. En

palabras de Galton, se trataba de una «regresión hacia la mediocridad».


Muchas veces las decisiones gerenciales

se basan en la relación entre dos o más

variables

• Ejemplos:

• Después de revisar la relación entre los gastos de

publicidad y las ventas, un gerente de marketing

podría tratar de predecir las ventas para

determinado nivel de gastos de publicidad.

• Se quiere estimar el consumo de un bien en

función de los ingresos de la familia.

Introducción


• Después de revisar la relación entre la dosis de

fertilizante aplicado y el rendimiento de un cultivos

ventas, un agricultor podría tratar de predecir el

rendimiento del cultivo en qq/ha en función de la

cantidad de fertilizante a aplicar. Teniendo en

cuenta todos los gastos e ingresos esperados,

establecer el punto optimo de dosis de fertilizante a

utilizar.

• Un ingeniero en alimentos puede ver la relación

existente entre el tiempo y el número de bacterias

que se producen.

Ejemplos


En general uno desea conocer la relación

existente entre las variables y cuantificarla.

La representación gráfica es eficaz para

obtener una información intuitiva sobre la

relación entre variables.

Diagrama de Dispersión: Es un gráfico que

muestra la intensidad y el sentido de la

relación entre dos variables de interés.

Introducción


Los diagramas de dispersión no sólo muestran la

relación existente entre variables, sino también resaltan

las observaciones individuales que se desvían de la

relación general. Estas observaciones son conocidas

como outliers o valores inusitados, que son puntos de

los datos que aparecen separados del resto.

Diagrama de dispersión


• Análisis de Correlación: Un grupo de

técnicas estadísticas usadas para medir la

intensidad de la relación entre dos

variables

• Análisis de Regresión: Es un

procedimiento estadístico que estudia la

relación funcional entre variables. Con el

objeto de predecir una en función de la/s

otra/s.

Conceptos básicos


• Variable dependiente (Y): es la variable que se desea

predecir o estimar

• Variables independientes (Xi ). Son las variables que

proveen las bases para estimar.

• Regresión simple: interviene una sola variable

independiente

• Regresión múltiple: intervienen dos o más variables

independientes.

• Regresión lineal: la función es una combinación lineal

de los parámetros.

• Regresión no lineal: la función que relaciona los

parámetros no es una combinación lineal

Conceptos básicos


Coeficiente de correlación lineal

• Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones

· Varía entre -1.00 y 1.00.

· Valores de -1.00 o 1.00 indican correlación perfecta.

· Valor igual a 0.0 indica ausencia de correlación.

· Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa


Correlación Negativa Perfecta

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y


0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Positiva Perfecta


0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Ausencia de Correlación


0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Fuerte y Positiva


Coeficiente de correlación (r) Pearson

)(*)(

)(aCovarianci

YVarXVar

XYr

2222 )()()()(

))(()(

YYnXXn

YXXYnr


Test de hipótesis del coeficiente de correlación

1. Hipótesis: H0: la correlación en la población es 0. H1: la

correlación en la población no es 0.

2. Nivel de significación: = 0.05.

tr n

r

2

1 23. Estadística de la prueba: se distribuye

como un t de Student con n-2 grados de libertad.

4. Regla de decisión: Rechazamos H0 si, y solo si, el valor de

t calculado es mayor que el valor t teórico, o el valor p es

menor que el fijado . En caso contrario, se acepta H0.

5. Conclusión: Si rechazo H0 concluyo que hay evidencias de

correlación entre las variables. En caso contrario no


Modelo de Regresión

Un modelo de regresión, es una manera de

expresar dos ingredientes esenciales de una

relación estadística:

• Una tendencia de la variable dependiente Y

a variar conjuntamente con la variación de

la o las X de una manera sistemática

• Una dispersión de las observaciones

alrededor de la curva de relación

estadística


Modelo de Regresión

Estas dos características están implícitas en

un modelo de regresión, postulando que:

• En la población de observaciones

asociadas con el proceso que fue

muestreado, hay una distribución de

probabilidades de Y para cada nivel de X.

• Las medias de estas distribuciones varían

de manera sistemática al variar X.


Representación gráfica del modelo de

Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades

de Y para distintos valores de X


Análisis de Regresión

• Objetivo: determinar la ecuación de regresión

para predecir los valores de la variable

dependiente (Y) en base a la variable

independiente (X).

• Procedimiento: seleccionar una muestra a

partir de la población, listar pares de datos

para cada observación; dibujar un diagrama de

puntos para dar una imagen visual de la

relación; determinar la ecuación de regresión.


Proceso de estimación de la regresión lineal simple

Modelo de regresión

y= 0+ 1x+

Ecuación de regresión

E(y)= 0+ 1x

Parámetros desconocidos

0. 1

Datos de la muestrax y

x1 y1

x2 y2

. .

. .

. .

xn yn

b0 y b1

proporcionan estimados

0 y 1

Ecuación estimada de

regresión

y=b0+b1xEstadísticos de la muestra

b0.b1


Método de Mínimos Cuadrados

• Considera la desviación de yi con respecto a su valor esperado: yi – ( 0 + 1·xi)

• Se considera la suma de n desviaciones elevadas al cuadrado. Este criterio se denota como:

• Los estimadores de 0 y 1 son b0 y b1 que se obtienen minimizando las ecuaciones normales

n

i

ii XYQ1

2

10

2

10

10

iiii

ii

XbXbYX

XbbnY


Posibles modelos en la regresión lineal simple

xx

Ey

Sección A

Relación lineal positiva

Línea de regresión

La pendiente 1

es positiva

*

x

Ey

Sección B

Relación lineal negativa


La pendiente 1

es negativa*

Sección C

No hay relación

Ey


La pendiente 1

es 0

*

Ordenada al origen 0*


Estimación de la ecuación de

Regresión

• = b0 + b1xi, donde:

• es el valor estimado de y para distintos x.

• b0 es la intersección o el valor estimado de y

cuando x=0

• b1 es la pendiente de la línea, o el cambio promedio

de y para cada cambio en una unidad de x

• el principio de mínimos cuadrados es usado para

obtener b0 y b1 :

iy

iy

n

xb

n

yb

xxn

yxxynb

10

221)()(

))(()(


Interpretación gráfica de coeficientes de

regresión


Regresión Lineal simple en términos

matricialesYi= 0+ 1xi+ i donde i=1, .....,n

Y1= 0+ 1x1+ 1

.

.

Yn= 0+ 1xn+ n

En términos matriciales

Y=X +

1

0

i

n

i.

2

1

n

i

Y

Y

Y

Y.

2

1

n

i

X

X

X

X

1

..

1

1

2

1


Regresión Lineal simple en términos

matriciales

En términos matriciales encontrar el estimador de mínimos

cuadrados implica resolver:

b= (X´X)-1 X´Y

Para producir las estimaciones

Los residuales se obtienen

Xb

Y

Y

Y

Y

n

i

ˆ

.

ˆ

ˆ

ˆ 2

1

XbYYYe ˆ


• La prueba global es usada para investigar

si la combinación lineal de variables

independientes es significativa.

• Las hipótesis son :

H

H Al menos un coeficiente de regresión

es distinto de cero.

k

a

0 1 2 3 0: ...

:

Prueba de Hipótesis Global

La distribución estadística F es usada en esta prueba

,con k (número de variables independientes) y n-(k+1)

grados de libertad , donde n es el tamaño de muestra.


• La prueba “t” de Student es utilizada paradeterminar cual variable independiente tienecoeficientes de de regresión distinto de cero. Sonllamadas pruebas parciales.

• Las variables con coeficiente de regresión cero soneliminadas.

• La estadística “t” se utiliza en este caso con n -(k+1) grados de libertad.

Prueba de Hipótesis Parciales


Estimación de la variancia de los términos

del error ( 2)

Debe ser estimada por varios motivos

• Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

• Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

• La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma

que cuando se muestrea una sola población

• La variancia de cada observación Yi es 2, la misma que la de cada término del error



del error ( 2)

Dado que los Yi provienen de diferentes distribuciones de

probabilidades con medias diferentes que dependen del

nivel de X, la desviación de una observación Yi debe ser

calculada con respecto a su propia media estimada

Por tanto, las desviaciones son los residuales

iiie=YY -

n

i

n

i

ii

n

i

iie eXbbYYYSC1 1

22

110

2

1

)()ˆ(

Y la suma de cuadrados es:

iY




del error ( 2)La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2

)1()1(

2

1

kn

e

kn

SCCM i

n

iee


Análisis de Variancia en el análisis de

regresión

• El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

• La variación de los Yi se mide convencionalmente en términos de las desviaciones

• La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado

)YY(ii

2)YY(ii


Variación Total


Desarrollo formal de la partición

Consideremos la desviación

Podemos descomponerla en

T R E

(T): desviación total

(R): es la desviación del valor ajustado por laregresión con respecto a la media general

(E): es la desviación de la observación con respecto ala línea de regresión

)YY(ii

)YY()YY(YYiiii


Partición de la variación total


Desarrollo formal de la partición

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

SCtot SCreg SCer

(SCtot): Suma de cuadrados total

(SCreg): Suma de cuadrados de la regresión

(SCer): Suma de cuadrados del error

Dividiendo por los grados de libertad, (n-1), (k) y

(n-2), respectivamente cada suma de cuadrados, seobtienen los cuadrados medios del análisis de variancia.

222

)YY()YY(YYiiii


Coeficiente de Determinación

• Coeficiente de Determinación, R2 - es la proporción

de la variación total en la variable dependiente Y

que es explicada o contabilizada por la variación en

la variable independiente X.

· El coeficiente de determinación es cuadrado del

coeficiente de correlación, y varia entre 0 y 1.

Para calcular el R2 se utilizó la siguiente fórmula:

2

2

2

)(

)ˆ(

yy

yyR

o

c


• Linealidad.

• Independencia de los residuos.

• Homocedasticidad

• Normalidad

• No colinealidad.

Supuestos


• La relación entre las variables

independientes y dependientes es lineal.

• ¿Cómo se prueba?

• Diagrama de dispersión entre las

variables

Linealidad


Los diagramas de dispersión no sólo muestran la

relación existente entre variables, sino también resaltan

las observaciones individuales que se desvían de la

relación general. Estas observaciones son conocidas

como outliers o valores inusitados, que son puntos de

los datos que aparecen separados del resto.

Diagrama de dispersión


• Los residuos son una variable aleatoria.

• No deben estar autocorrelacionados. Es

común que ocurra en series temporales.

• ¿Cómo diagnosticar?

• Durbin Watson

• Varia entre 0 y 4 alrededor de 2 significa

independencia de los residuos.

Independencia de los Residuos

n

i

i

ii

n

i

e

ee

DW

1

2

2

1

2

)(


• Para cada valor de la variable independiente la

variación alrededor de la línea de regresión de

la variable dependiente es constante.


• Gráfico de dispersión entre las valores

pronosticados y los residuales (ambos

estandarizados)

Homocedasticidad


Análisis de residuos

valores pronosticados

residuos

estandarizados

Los residuos deberían estar:

• Distribuidos aleatoriamente alrededor del 0, es decir

que haya aproximadamente la misma cantidad de

valores positivos y negativos.

• Variar entre -3 y +3.

Esto indica que el modelo que se especifico es correcto


Análisis de residuos

valores pronosticados

residuos

estandarizados

Caso 1: Se requieren mas variables en el modelo.

Caso 2: La relación no es lineal entre las variables.

Caso 3: Hay heterocedasticidad.


• Residuo:

• Residuo tipificado:

• Los residuos deben seguir una distribución

Normal.

• ¿Cómo probarlo?

• Histograma de los residuos.

• Gráfico de probabilidad normal

Normalidad de los Residuos

YYe ii eez i

i


• Colinealidad lineal perfecta cuando una

variable se relaciona de forma perfectamente

lineal con otra.

• Colinealidad perfecta: no se pueden estimar los

parámetros.

• Colinealidad parcial: aumenta los residuos tipificados

y produce coeficientes de regresión inestables.


• FIV (Factores de Inflación de la Variancia)

No colinealidad


Regresión múltiple

• Para dos variables independientes, la forma

general de la ecuación de Regresión múltiple es:

• X1 y X2 son las variables independientes .

• a es la intercepción con Y cuando X1 y X2 son

iguales a cero .

• b1 es el porcentaje de cambio en Y por cada

unidad de cambio en X1 manteniendo X2

constante. La misma interpretación se aplica a b2.

• b1. y b2. son llamados coeficientes de Regresión

Parciales.

Y a b X b X' 1 1 2 2


Ecuación de regresión múltiple

Modelo de regresión

múltiple

y= 0+ 1x1+ 2x2+... + pxp +

E(y)= 0+ 1x1+ 2x2+... + pxp

Son parámetros desconocidos

0. 1 2... p

b0.b1 .b2....bp

proporcionan estimados

0. 1. 2..... . p

Ecuación estimada de

regresióny= b0.b1x1+b2x2+...

+bpxp

b0b1b2...bp son estadísticos de la

muestra

Proceso de estimación de la regresión múltiple

Datos de la muestrax1 x2 xp y

. . . .

. . . .

. . . .


Modelo general

• La Regresión Múltiple General con k variables

independientes esta dada por:

• El criterio de Mínimos cuadrados es utilizado para

estimar los parámetros de la ecuación.

• Calcular b1, b2, etc.es muy tedioso. Hay software que

puede utilizarse para resolver el algebra matricial que

se usa en la estimación de los parámetros

Y a b X b X b Xk k' ...1 1 2 2


Inferencia en el análisis de Regresión

• Estimación por intervalo de los parámetros

de la regresión, 0 y 1.

• En todo lo que sigue, asumiremos el

modelo de errores con distribución normal

• Yi = 0 + 1·Xi + i [1]

• donde 0 y 1 son parámetros, las Xi son

constantes conocidas y los i son errores

independientes con distribución N(0,1).


Inferencias acerca de 1 - Distribución por muestreo de b1

• La distribución por muestreo de b1 se refiere a los distintos valores de b1

que se obtendrían con muestras repetidas cuando los niveles de la

variable independiente X se mantienen constantes de muestra en

muestra.

• E(b1) = 1

necesitamos estimar (b1) mediante s(b1)

Por lo tanto

21

XX

YYXXb

i

ii

2

2

1

2

XXb

i

)1,0(1

11 Nb

b

2

1

11nt

bs

b1

2;2

11

11

2;2

nnt

bs

btP

112;2

11112;2

11 bstbbstbPnn

21

2

XX

CMbs

i

E


Inferencias acerca de 0 - Distribución por muestreo de b0

XbYb 10

.

• La distribución por muestreo de b0 se refiere a los distintos valores de b0



muestra.

• E(b0) = 0

necesitamos estimar (b0) mediante s(b0)

Por lo tanto

2

22

0

2 1

XX

X

nb

i

2

2

0

2 1

XX

X

nCMbs

i

E)1,0(0

00 Nb

b

2

0

00nt

bs

b1

2;2

10

00

2;2

nnt

bs

btP

102;2

10102;2

10 bstbbstbPnn


Estimación por intervalo de E(Yi) - Distribución por

muestreo de . iY

ii XbbY 10ˆ

• La distribución por muestreo de se refiere a los distintos valores de



muestra.

• E( ) = E(Yi)

necesitamos estimar ( ) mediante s( )

Por lo tanto

iY iY

2

2

22 1ˆ

XX

XX

nY

i

ii

iY

2

2

2 1ˆ

XX

XX

nCMYs

i

iEiiYiY

i

ii

Y

YEY

ˆ

ˆ

h

hh

Ys

YEY

ˆ

ˆ

1ˆ

ˆ

2;2

12;2

n

h

hh

nt

Ys

YEYtP

1ˆˆˆˆ2;

2112;

21 iniiini YstYYEYstYP

Documents

Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala