Análisis de regresión simple

Preview:

DESCRIPTION

Breve descripción de los conceptos básicos del análisis de regresión y de correlación lineal simple.

Citation preview

Análisis de Regresión y Correlación Lineal Simple.

Medidas de asociación entre variables cuantitativas

Guillermo BianchiHéctor Quintero

Coeficientes de correlación.

Los coeficientes de correlación miden la relación linealrelación lineal entre variables cuantitativas.

Coeficientes de correlación.

Método ParamétricoMétodo Paramétrico: Coeficiente de correlación producto momento de Pearson (ρ).

Método No ParamétricoMétodo No Paramétrico, Coeficiente de correlación de Spearman (ρs).

Coeficiente de correlación producto momento de Pearson

El coeficiente de correlación producto momento de Pearson, ρ , mide el grado de asociación linealasociación lineal que existe entre un par de variables X, Y cuya distribución cuya distribución conjunta es normal bivariadaconjunta es normal bivariada.

Coeficiente de correlación producto momento de Pearson

Se calcula a partir de la siguiente ecuación:

( ) ( ) ( )

( )( )∑ ∑

∑∑∑

−=

n

xx

n

yxyx

ri

i

iiii

2

2

Coeficiente de correlaciónρ ∈ [-1, 1]

0

0,25

0,5

0,75

1

0 0,25 0,5 0,75 1

0

2

4

6

0 0,2 0,4 0,6 0,8 1

0

2

4

6

0 0,2 0,4 0,6 0,8 1

r = -0.99

r = 0.99

r = 0.02

Prueba de hipótesis sobre ρ

Problema: determinar si ρ es diferente de cero.

Sistema de hipótesis:H0: ρ = 0.

H1: ρ ≠ 0.

Nivel de confianza 95% α=0,05.

Prueba de hipótesis sobre ρ

Regla de decisión:Si p_valor < α se rechaza H0.

Si p_valor ≥ α no se rechaza H0.

Coeficiente de correlación No paramétrico de Spearman ρs

El coeficiente de correlación NoParamétrico de Spearman, ρs , mide el grado de asociación linealasociación lineal que existe entre un par de variables X, Y cuantitativas, independientemente del independientemente del tipo de distribución conjunta que tipo de distribución conjunta que presenten.presenten.

Coeficiente de correlación No paramétrico de Spearman ρs

Se calcula a partir de los rangos o posiciones relativas de los valores, mediante la ecuación:

)1(

61

2

−−=

∑nn

di

i

Coeficiente de correlación No paramétrico de Spearman ρs

Su valor se encuentra entre -1, correlación negativa perfecta y +1, correlación positiva perfecta.

Valores cercanos a cero indican independencia entre variables.

Análisis de Regresión.

Es una técnica estadística con la que se pretende modelar la relación linealmodelar la relación lineal que existe entre dos o más variables con distribución normal.

Análisis de Regresión.

El regresión lineal simple permitirá estimar el mejor modelo lineal que permite predecir el comportamiento de una variable dependiente, Y , a partir de una variable independiente, X .

Modelo de regresión lineal simple

Modelo probabilístico lineal

donde: ee es el error aleatorio

1βes el la ordenada en el origen

es la pendiente

),0(~, 210 σββ NeexY ++=

Regresión lineal simple

0

2

4

6

0 2 4 6 8

β0

β1

Relación entre variables

( ) xxYE xY 10|| ββµ +==

Dicha relación viene dada por:

donde:

1βes el la ordenada en el origen

es la pendiente

Modelo de regresión lineal simple

Estimación de los coeficiente de regresión. Método mínimos cuadrados ordinarios

Suponga que se desea estimar el modelo para una muestra de n observaciones. El modelo de regresión puede expresarse como:

nnexY iii ,...,2,1,10 =++= ββ

Estimación de los coeficiente de regresión Método mínimos cuadrados ordinarios

El método busca los coeficientes que minimizan la suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de regresión.

( ) ( )2

110

1

2 ∑∑==

−−==n

iii

n

ii xyeL ββ

ii exY =+− )( 10 ββ

Método de mínimos cuadrados Los estimadores de los coeficientes de

regresión deben satisfacer:

( ) 021

101

10=−−−=

∂∂ ∑

=i

n

iii xxy

L βββ ββ

( ) 021

100

10=−−−=

∂∂ ∑

=

n

iii xy

L βββ ββ

Estimadores de mínimos cuadrados

xy 10ˆˆ ββ −=La ordenada en el origen

La pendientexx

xy2n

1iin

1i

2i

n

1ii

n

1iin

1iii

1 S

S

n

xx

n

yxyx

ˆ =

−=

∑=∑

=

∑=

∑=∑

Supuestos del análisis de regresión lineal simple

La relación entre las variables es lineal. Los errores son independientes y están

normalmente distribuidos. La varianza de los errores es

independiente de la magnitud de los valores de X.

Prueba de hipótesis sobre β1

Problema: determinar si β1 es diferente de un valor β1,0

Sistema de hipótesis:H0: β1 = β1,0

H1: β1 ≠ β1,0

Nivel de confianza 95% α=0,05.

Prueba de hipótesis sobre β1

Regla de decisión:Si p_valor < α se rechaza H0.

Si p_valor ≥ α no se rechaza H0.

Prueba de hipótesis sobre β0

Problema: determinar si β0 es diferente de cero.

Sistema de hipótesis:H0: β0 = 0.

H1: β0 ≠ 0.

Nivel de confianza 95% α=0,05.

Prueba de hipótesis sobre βo

Regla de decisión:Si p_valor < α se rechaza H0.

Si p_valor ≥ α no se rechaza H0.

Evaluación de los supuestos del análisis de regresión lineal simple

Gráficos de residuos. Curva de distribución normal para los

residuos. Residuos estandarizados, Studentizados

y distancia de Cook.

Análisis de residuos

Coeficiente de determinación R2

Permite conocer el porcentaje de varianza de la variable dependiente, Y, que se puede explicar a partir de la varianza de la variable independiente, X.

yyS

SSER −=12

Abusos comunes de la regresión lineal simple

Abusos comunes.Extrapolación.

Abusos comunes.Generalización.

Curva de calibración

Curva de calibración

y = 0,0151x + 0,0195

R2 = 0,9817

0

0,1

0,2

0,3

0,4

0 5 10 15 20 25

Concentración

Se

ñal

Recommended