ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL · ANÁLISIS DE REGRESIÓN Un ingeniero puede querer...

Preview:

Citation preview

ANÁLISIS DE REGRESIÓN Y

CORRELACIÓN LINEAL

Dos variables pueden estar relacionadas por: Modelo determinista

Modelo estadístico

Ejemplo: Relación de la altura con la edad en niños.

Niños de la misma edad no tendrán la misma altura.

Pero, a través de un modelo estadístico es posible concluir que la

altura aumenta con la edad.

Es más, podríamos predecir la altura de un niño de cierta edad y

asociarle un ERROR DE PREDICCIÓN que tiene en cuenta:

ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS .

TIPOS DE RELACIONES ENTRE

VARIABLES

Existe un componente aleatorio por lo que las

predicciones tienen asociado un error de

predicción.

Involucra el estudio la relación entre dos variables

CUANTITATIVAS.

Investiga si existe una asociación entre las dos variables

Estudia la forma de la relación. Se grafican los datos en

un diagrama de dispersión para elegir un modelo para la

relación.

A partir del modelo será posible predecir el valor de una

variable a partir de la otra. (modelo de regresión lineal)

Estudia la fuerza de la asociación, a través del

coeficiente de correlación de Pearson.

ANÁLISIS DE REGRESIÓN

Un ingeniero puede querer predecir la cantidad de óxido que se formaría en la superficie de un metal, calentado en un horno durante un tiempo especificado a 200°C.

El tiempo de un desgaste entre recubrimientos de una cubierta de una rueda de un auto, que tiene una composición y espesor de cuerda dados.

Tales predicciones requieren una fórmula que relacione la variable dependiente con una o más variables independientes.

Sólo consideraremos el caso en el que una variable dependiente se deba predecir en función de una sola variable independiente.

EJEMPLOS

HERRAMIENTAS

PARA RELACIONAR

DOS

VARIABLES

1. Diagrama de dispersión

2. Covarianza

3. Coeficiente de correlación de Pearson

,Cov x y E y y x x

cov( )

x y

xyr

MODELO DE REGRESIÓN LINEAL SIMPLE

No hay correlación Correlación positiva Correlación negativa

Predice el efecto de una variable explicativa Y sobre

otra variable predictiva X, ambas cuantitativas.

Diagramas de dispersión

Si a cada valor de x, le corresponden varios

valores de y

MEDIA CONDICIONAL

1 1 2 32 toma los valores y 5; y 7 ;y 12x

media condicional

Media condicional es la media aritmética de los valores

de y correspondientes al valor de X = x

2

5 7 12entonces y 8

3

xy

Se llama dependencia de correlación de Y respecto de X,

a la dependencia funcional de la media condicional respecto de x:

DEPENDENCIA DE CORRELACIÓN

( )xy f x Ecuación de regresión de Y en X

Función de

regresión de

Y en X

Análogamente se determina ( )yx g y

DIAGRAMA DE DISPERSIÓN

RECTA DE REGRESIÓN

Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables.

CÁLCULO DE LA RECTA DE

REGRESIÓN DE Y EN X

Consideramos el caso distintos valores de x de la variable X y

distintos valores de y de la variable Y, observados una vez

cada uno.

yxY bx a donde b

Se eligen las estimaciones de los parámetros a y b de

manera tal que los puntos del plano (los valores observados)

se encuentren lo más cerca posible a la recta de regresión.

Como no podemos hacer mínima cada desviación, haremos mínima su suma:

NOTACIÓN

:desviación, donde Y es una ordenada calculada por la ecuación

correspondiente al valor observado y

i i i

i

Y y

1

n

i i

i

Y y

Esta suma se puede hacer cero de muchas

maneras y los errores compensarse.

Elegiremos para minimizar

2

1

( , )n

i i

i

F a Y y

22

1 1

( , )n n

i i yx i i

i i

F a Y y x a y

MINIMIZAR

Resolviendo el sistema obtenemos

22

i i i i

yx

i i

n x y x y

n x x

i iy xa

n n

x yxy x aEcuación muestral de regresión de Y en X

Ecuación muestral de regresión de X en Y y xyx y c

1

1

1

2

1

2 . 00

2 00

n

yx i i i

i

i in

yx i i

i i i i i

FFx a y x

y an xFF

x a yx y a x xaa

22

1 1

( , )n n

i i yx i i

i i

F a Y y x a y

X: representa el tiempo de recalentamiento

Y: los espesores de óxido de cierta pieza

EJEMPLO

X

(min)

20 30 40 60 70 90 100 120 150 180

Y

(Ang)

3,5 7,4 7,1 15,6 11,1 14,9 23,5 27,1 22,1 32,9

18469i ix y 860ix 165,2iy

2 98800ix 0,17 1,76 0,17 1,76yx xa y x

CON GEOGEBRA

0,17 1,9xy x

CÓMO PREDECIR ?

Para predecir el espesor de óxido de hierro de

una pieza calentada durante 80 minutos:

0,17.80 1,9 15,5 Angstromxy

La pendiente b no mide la FUERZA de la asociación. Su valor

numérico depende de las unidades de medida de las dos variables.

Un cambio de unidades en una de ellas puede producir un cambio

drástico en el valor de la pendiente.

COEFICIENTE DE CORRELACIÓN DE

PEARSON

cov( )

x y

xyr

2 2

.

E y y x xr

E y y E x x

Mide la calidad del ajuste de la recta de regresión.

Dice cuánto se relacionan las dos variables X e Y

x

xy

y

rNotar que si σx=σy

xyr

Si la covarianza es

cero, las variables

son

independientes

VALORES POSIBLES DEL

COEFICIENTE DE CORRELACIÓN R