CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión

Preview:

Citation preview

CAPÍTULO 4

Introducción a la Estadística.Modelos de regresión

Distribuciones Bidimensionales

Se estudian 2 caracteres estadísticos de la población.

Por ejemplo: Las tallas y pesos de un grupo de personas.

Distribuciones Bidimensionales

¿Qué relación puede haber entre las tallas y los pesos de un grupo de personas?

NO ESTRICTAMENTE FUNCIONAL

Distribuciones Bidimensionales

Francis Galton (1822-1911)

Relación entre las estaturas de padres e hijos.

La estatura de los hijos “regresaba” a la media general.

De aquí el término REGRESIÓN.

Modelos de regresión PROBLEMA

Obtener un modelo matemático que relacione dos o más variables a partir de un número limitado de observaciones.

x x1 x2 … xn

y y1 y2 … yn

Nubes de puntos

-0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-4

-2

2

4

6

8

10

12

14

16

18

x

y

x y

x1 y1

x2 y2

… …

xn yn

Tipos de dependencia

Dependencia funcional exacta

Dependencia estadística o correlación

Independencia

Dependencia funcional Las variables x e y están

relacionadas mediante una fórmula.

A un valor de x le corresponde exactamente un valor de y.

Ejemplo: Altura desde la que cae un cuerpo y tiempo que tarda en llegar al suelo.

( )y f x

Dependencia funcional

-0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-4

-2

2

4

6

8

10

12

14

16

18

x

y

Dependencia funcional

-0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-4

-2

2

4

6

8

10

12

14

16

18

x

y

Dependencia EstadísticaCorrelación Los valores de x e y siguen

pautas similares, pero su relación no es exacta.

Ejemplos: Estatura y peso. Edad del marido y de la mujer. Nivel de lluvias y cosechas.

Dependencia Estadística Positiva Función de regresión: RECTA

-0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-4

-2

2

4

6

8

10

12

14

16

18

x

y

Dependencia Estadística Negativa Función de regresión: RECTA

-9 -8 -7 -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 7 8 9

-14

-12

-10

-8

-6

-4

-2

2

4

6

8

10

12

14

x

y

Dependencia Estadística Positiva Función de regresión: Parábola

-0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-4

-2

2

4

6

8

10

12

14

16

18

x

y

Independencia Las variables x e y no tienen

ninguna relación o pauta entre ellas.

Ejemplo: Estatura de los alumnos y calificación en Matemáticas.

Independencia

-8 -6 -4 -2 2 4 6 8 10

-14

-12

-10

-8

-6

-4

-2

2

4

6

8

10

12

14

x

y

Modelos de regresión Problemas Fundamentales:

1. Determinar la función de regresión: recta, parábola, exponencial, potencial, …

2. Medir el nivel de aproximación de dicha función a los puntos.

Parámetros marginales

Partimos de n observaciones efectuadas para las variables x e y.

Calculamos las medias y varianzas marginales.

x x1 x2 … xn

y y1 y2 … yn

Parámetros marginales

Medias:

Varianzas:

1 2 1 1...n n

i in i ix yx x x

x yn n n

2 22 2 2 21 1

n n

i ii ix y

x yS x S y

n n

Covarianza Nos indica si hay (o no)

dependencia lineal entre las variables x e y.

1 1

n n

i i i ii ixy

x x y y x yS x y

n n

Covarianza Si existe dependencia lineal

entre x e y.

Dependencia Directa:

Dependencia Inversa:

Si x e y son independientes.

0xyS

0xyS

0xyS

0xyS

Covarianza

Se expresa en las mismas unidades que las variables.

Ejemplo: x es el peso (en kg) y es la estatura (en cm)

Covarianza se expresa en kg por cm.

Covarianza

Un problema que presenta es que es una magnitud absoluta

No indica si el grado de dependencia entre las variables es elevado.

Sólo nos dice si existe dependencia (o no) y su tipo (directa o inversa)

Coeficiente de correlación lineal

Es una medida del grado de dependencia entre las variables x e y.

xy

x y

SrS S

Coeficiente de correlación lineal

No tiene unidad de medida. Es sólo un número.

Tiene el mismo signo que la covarianza (Sxy).

Porque las desviaciones típicas son positivas:

Sx>0 y Sy>0

xy

x y

SrS S

Coeficiente de correlación lineal

-1 r 1

Cuanto más se aproxime r a 1 o -1 mayor es la dependencia entre x e y.

En tal caso, una recta aproximará casi de forma perfecta la nube de puntos.

xy

x y

SrS S

Coeficiente de correlación lineal

-1 r 1

Si r es próximo a 0, no existirá dependencia lineal.

Aunque puede existir otro tipo de dependencia: polinómica, potencial, exponencial, etc.

xy

x y

SrS S

Función de regresión Función f que aproxime los datos

observados para las variables x e y.

Nube de puntos Tipo de función más adecuada para el ajuste.

( )y f x

Tipos de funciones de regresión

Lineal: f(x) = a + bx

Polinómica: f(x) = ao + a1x + … + anxn

Exponencial: f(x) = aebx

Potencial: f(x) = axb

Ajuste por mínimos cuadrados Se hace mínima la suma de los

cuadrados de las diferencias entre los valores observados (yi) y los valores teóricos f(xi):

2

1

( ( ))n

i ii

y f x

Ajuste por mínimos cuadrados

0.5 1 1.5 2 2.5 3 3.5 4 4.5

2

4

6

8

10

12

14

16

18

x

y

Regresiónexponencial

' ln

' ln

y y

a a

bxy ae

El problema se hace lineal tomando logaritmos: ln ln ln ln lnbx bxy ae a e a bx

' 'y a bx

ln lny a bx

'aa e

Regresiónlineal

y a bx

y a bx

La pendiente es:

La recta pasa por el centro de gravedad de la nube de puntos:

2

xy

x

Sb

S

( , )x y

a y bx

Error Típico o Error Estándar Mide la precisión (bondad) del

ajuste de una función de regresión:

2

1

( ( ))( )

n

i ii

y f xe f

n

Error Típico o Error Estándar Si tenemos varias funciones de ajuste,

se calcula el Error Típico de cada una, y el menor error será el que nos dará la mejor función de ajuste.

El número e(f) no es una medida absoluta de la bondad del ajuste, sino que es una medida para comparar entre varias funciones la mejor.

Regresiónpotencial

' ln

' ln

' ln

y y

a a

x x

by ax

El problema se hace lineal tomando logaritmos: ln ln ln ln ln lnb by ax a x a b x

' ' 'y a bx

ln ln lny a b x

'aa e

Regresiónparabólica

21 2( ) of x a a x a x

21 2

1 1 1

2 31 2

1 1 1 1

2 3 4 21 2

1 1 1 1

n n n

o i i ii i i

n n n n

o i i i i ii i i i

n n n n

o i i i i ii i i i

na a x a x y

a x a x a x x y

a x a x a x x y

Recommended