Regresión y correlación estadística aplicada

ÍNDICE.

Contenido pág.

Introducción………………………………………………………………...….i ÍNDICE. ....................................................................................................................................... 1

Contenido pág. ........... 1

Introducción………………………………………………………………...….i ................... 1

Objetivos. ..................................................................................................................................... 3

Objetivo General: ..................................................................................................................... 3

Objetivos Específicos: ............................................................................................................. 3

REGRESION Y CORRELACION ............................................................................................. 4

Capitulo I ................................................................................................................................. 4

“Definiciones” ......................................................................................................................... 4

DIAGRAMA DE DISPERSION: ....................................................................................... 4

REGRESION SIMPLE. ...................................................................................................... 5

CORRELACION SIMPLE. ................................................................................................ 6

Capitulo II ................................................................................................................................ 6

“Ecuación de Regresión Simple” ............................................................................................ 6

CAPITULO III ......................................................................................................................... 9

“Modelos de Ecuación Regresión Simple” ............................................................................. 9

Modelo de Línea Recta ........................................................................................................ 9

Modelo de Ecuación Cuadrática. ...................................................................................... 11

Caso Exponencial: Yc = abx ............................................................................................. 14

Caso Potencial o Polinomial: Yc = axb ............................................................................ 17

Desviación Estándar de Regresión. ................................................................................... 19

CAPITULO IV ...................................................................................................................... 19

“Coeficiente de Correlación” ................................................................................................ 19

Calculo del coeficiente de correlación r ............................................................................ 20

CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON ....................................................... 21

CORRELACIÓN DE RANGOS DE SPEARMAN. ........................................................ 23

1

CAPITULO V ........................................................................................................................ 28

“Pruebas de Regresión y Correlación” .................................................................................. 28

Prueba de hipótesis para la correlación de rangos de Spearman. ..................................... 34

CAPITULO VI ...................................................................................................................... 35

“Regresión Lineal Múltiple” ................................................................................................. 35

Desviación estándar de regresión múltiple ...................................................................... 37

Capitulo VII ........................................................................................................................... 41

“Ejercicios Resueltos” ........................................................................................................... 41

Ejercicio de diagrama de dispersión. ................................................................................ 41

Regresión con Mínimo Cuadrado. .................................................................................... 42

Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson. ..................................................................................................... 44

Ejercicio de coeficiente de correlación por el método de rangos de Spearman. .............. 47

Ejercicio de regresión múltiple. ........................................................................................ 48

Ejercicio de prueba de hipótesis. ....................................................................................... 53

CONCLUSIONES ................................................................................................................. 54

Bibliografía ............................................................................................................................ 58

2

Objetivos.

Objetivo General:• Conocer los elementos necesario para la realización de un análisis de regresión y

correlación.

Objetivos Específicos:• Mostrar los elemento teóricos necesario para establecer un análisis de regresión.

• Desarrollar las ecuaciones normales correspondiente al método de mínimos

cuadrados.

• Establecer la manera de en la que se elije el modelos de regresión a utilizable a partir

de la forma que tomen el conjunto de datos.

• Analizar las aplicaciones practicas del análisis de regresión.

• Aprender a reconocer el procedimiento para el trato de variables con n incógnitas.

• Conocer las principales diferencias entre el análisis de regresión y el análisis de

correlación.

• Aplicar la fórmula prueba de hipótesis tanto para regresión como correlación para la

toma de decisiones

3

REGRESION Y CORRELACION

REGRESION

• Definiciones: es el análisis que se utiliza para hacer predicciones.

• La regresión mide en forma funcional, a través de una ecuación, la posible relación

entre las variables con el objeto de predecir una de ellas en función de la(s) otra(s).

CORRELACION

• Definiciones: se dirige sobre todo a medir la intensidad o fuerza con que están

relacionadas linealmente las variables.

• Se utiliza para medir la intensidad de la asociación entre variables numéricas.

• Mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas.

Capitulo I

“Definiciones”

DIAGRAMA DE DISPERSION:

• Un diagrama de dispersión muestra la relación entre dos variables cuantitativas

medidas para los mismos individuos o grupo de individuos. Los valores de una

variable aparecen en el eje de las abscisas y los valores de la otra en el eje de las

ordenadas.

4

• Si una de las dos variables se pueden considerar una variable explicativa, sus valores

se sitúan siempre en eje de las abscisas en el diagrama de dispersión.

• La representación gráfica bidimensional en el análisis de regresión que implica una

variable dependiente y una variable independiente.

Para interpretar un diagrama de dispersión, se identifica primero sus aspectos generales.

El aspecto general debe revelar la dirección la forma y la fuerza de la relación entre las dos

variables.

Si la relación entre las dos variables tiene una dirección clara, decimos que existe una

asociación positiva (si valores altos de las dos variables tienden a ocurrir simultáneamente) o

una asociación negativa (si valores altos de una variable tienden a coincidir con valores bajos

de la otra)

Las relaciones lineales, cuando los puntos del diagrama de dispersión se sitúan

aproximadamente a lo largo de una recta, son una forma importante de relación entre dos

variables.

REGRESION SIMPLE.

La naturaleza de la relación puede tomar muchas formas, desde las sencillas hasta las

extremadamente complicadas. La más sencilla consiste en un línea, es decir, una relación

lineal.

Se establece que Y es una función de sólo una variable independiente. Se le

denomina también regresión bivariada, porque solo hay dos variables. Se represente por la

formula.

Y = f (X).

5

CORRELACION SIMPLE.

Es cuando se estudia el grado de asociación o dependencia entre dos variables. Se

mide por un coeficiente de correlación, representado por “r”.

Capitulo II

“Ecuación de Regresión Simple”

Es la ecuación de una relación entre dos variables; donde una depende de la otra.

Pudiendo tomar distintas formas. En fin, ecuación de regresión simple se refiere a aquella que

puede ser representada en dos dimensiones dentro del diagrama de dispersión.

La ecuación de regresión de muestra que representa el modelo de regresión de línea recta es:

Ŷi = bo + b1Xi

en la que Ŷi es el valor predicho de Y para las observaciones i.

Con el propósito de predecir valores de Y, esta ecuación requiere la determinación de dos

coeficientes: bo (la intersección Y) y b1 (la pendiente). Cuando ya se han obtenido bo y b1 , se

conoce la línea recta y puede ser graficada en el diagrama de dispersión.

El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que

mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la línea recta

para la cual las diferencias entre los valores reales (Yi ) y los valores que serian predichos a

partir de la línea ajustada de regresión (Ŷi) sean lo mas pequeñas posibles. Debido a que tales

diferencias serán positivas y negativas para las diferentes observaciones, minimizamos

matemáticamente la expresión

en la que Yi = valor real de Y para la observación i

Ŷi = valor predicho de Y para la observación i

6

Puesto que Ŷi =b0 +b1Xi , se trata de minimizar la expresión

Que tiene dos incógnitas, b0 y b1

Una técnica matemática utilizada para determinar los valores de b0 y b1 que mejor

se ajuste a los datos observados se conoce como métodos de mínimos cuadrados.

Cualquiera de los valores de b0 y b1 que sean diferentes a los determinados por el método de

mínimos cuadrados tendrían como resultados una suma mayor de las diferencias al cuadrado

del valor real de Y y su valor predicho.

Al utilizar el método de mínimos cuadrados obtendremos las siguientes dos

ecuaciones conocidas como ecuaciones normales

Debemos resolverlas de manera simultanea para obtener b0 y b1 . Ya que se tienen

dos ecuaciones con dos incógnitas, podemos resolverlas de la manera siguiente:

7

y

Examinando las ecuaciones, observamos que se tienen cinco cantidades que deben

calcularse con el fin de determinar b0 y b1 . Estas son, n, el tamaño de la muestra;

, la suma de los valores X; la suma de los valores cuadrados de X,

, la suma de los valores de Y; y , las suma de los productos cruzados de X y Y.

La deducción de las formulas normales mediante el método de mínimos cuadrados se

realiza de la misma manera para otras funciones de grados superiores, logarítmicas y

potencial; con la cualidad de que tiene que estar en dos dimensiones,(x,y); para tres

dimensiones requiere análisis adicional.

8

CAPITULO III

“Modelos de Ecuación Regresión Simple”

En el diagrama de dispersión se puede observar un vago indicio del tipo de relación

que existe entre las variables. La naturaleza de la relación puede tomar muchas formas, desde

las sencillas hasta la mas complejas. La relación mas sencilla consiste en una línea o relación

lineal. De acuerdo a la forma que tome dicho diagrama así será la función que se utilizará,

de tal forma que describa adecuadamente la relación entre las variables. Los siguientes son

algunos ejemplos:

Y = a + bx (ecuación lineal)

Y = a + bx + cx2 (ecuación cuadrática)

Y = abx (ecuación exponencial)

Y = axb (ecuación potencial o polinomial)

Modelo de Línea Recta

El modelo de línea recta puede presentarse como:

Yi = β0 + β1Xi + єi

En la que β0 = la intersección Y para la población

β1 = pendiente de la población

єi = error aleatorio en Y para la observación i.

9

En este modelo, la pendiente de la recta β1 representa el cambio esperado en Y por

unidad de cambio en X; es decir, representa la cantidad que cambia la variable Y (ya sea

positiva o negativamente), con respecto a una unidad de cambio particular en X. Por otro

lado, la intersección en el eje Y, β0 , representa el valor promedio de Y cuando X es igual a

cero. Además, el último componente del modelo, єi , representa el error aleatorio en Y por

cada observación i que se presenta.

El modelo matemático apropiado que se debe seleccionar está influenciado por la

distribución de los valores de X y Y en el diagrama de dispersión.

X 1 1.5 2 3 2.5 2.5 3.5 4 4.5 4.5 5 6 6.5 8 7.5Y 3 4 3 5 4 5 6 6 6.5 7 7 8 8 10 9

Al graficar en el diagrama de dispersión:

La forma que toma el diagrama de dispersión (nube de puntos sobre la gráfica),

sugiere que se puede aplicar una función lineal. En ese caso es posible utilizar el método de

mínimos cuadrados. hay otros métodos además de el métodos mínimos cuadrado; pero es el

10

matemáticamente más exacto. La interpretación de este método esta en el capitulo anterior.

(para el caso lineal)

Xi Yi XY X2

1.0 3 3 11.5 4 6 2.252.0 3 6 43.0 5 15 92.5 4 10 6.252.5 5 12.5 6.253.5 6 21 12.254.0 6 24 164.5 6.5 29.25 20.254.5 7 31.5 20.255.0 7 35 256.0 8 48 366.5 8 52 42.258.0 10 80 647.5 9 67.5 56.2562 91.52 440.75 321

91.5 = 15a + 62b

440.75 = 62a + 321b

Se tiene que b = 0.97 y a = 2.09.

La ecuación de regresión queda así: Y = 2.09 +0.97X; si deseáramos estimar

cualquier de Y basta con conocer el de x y viceversa. Si quisiéramos encontrar el valor en Y

de X = 7

tendremos: Y = 2.09 + 0.97(7); Y = 8.88. Valor que no aparece en la tabla de valores,

pero es la mejor estimación, si los datos siguen la tendencia lineal.

Modelo de Ecuación Cuadrática.

11

Existe también la regresión curvilínea, y dentro de esta se encuentra el caso

parabólico o función de segundo grado ( o cuadrática) que podemos resolverla también

con el método de mínimos cuadrados.

Calculemos la ecuación de regresión para la siguiente información: Las cantidades

pertenecen a la cantidad de una sustancia química en reacción después de “X” minutos.

Xi(minutos) 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0Yi(gramos) 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35

Graficamos:

Podemos observar que el diagrama toma forma de parábola, de aquí que ajustaremos

una función de segundo grado: Yc = a + bx + cx2 . Para encontrar la ecuaciones normales

mediante el método de mínimos cuadrados. Σ(Yi –Yc)2 debe ser un mínimo.

Entonces se tiene Σ(Yi – a – bx – cx2)2 si derivamos con respecto a “a” , “b” y “c” y

dichas derivadas las igualamos a cero se obtienen las siguientes ecuaciones normales.

12

Calcularemos los datos necesarios para encontrar el valor de las constantes:

Xi Yi XY X2Y X2 X3 X4

1 34 34.0 34.00 1.00 1.000 1.00001.2 32 38.4 46.08 1.44 1.728 2.07361.5 26 39.0 58.50 2.25 3.375 5.06252 18 36.0 72.00 4.00 8.000 16.0000

2.5 18 45.0 112.50 6.25 15.625 39.06252.7 12 32.4 87.48 7.29 19.683 53.14413.0 14 42.0 126.00 9.00 27.000 81.00003.2 12 38.4 122.88 10.24 32.768 104.85763.5 15 52.5 183.75 12.25 42.875 150.06254 13 52.0 208.00 16.00 64.000 256.0000

4.5 18 81.0 364.50 20.25 91.125 410.06255 16 80.0 400.00 25.00 125.000 625.0000

5.2 22 114.4 594.88 27.04 140.608 731.16165.5 26 143.0 786.50 30.25 166.375 915.06256 35 210.0 1260.00 36.00 216.000 1296.0000

50.8 311 1038.1 4457.07 208.26 955.162 4685.5494Sustituyendo en el sistema:

311 = 15a + 50.8b + 208.26c (1)

1038.1 = 50.8a + 208.26b + 955.162c (2)

4457.07 = 208.26a + 955.162b + 4685.55c (3)

Simultaneando para eliminar la constante a:

311 = 15a + 50.8b + 208.26c (-50.8)

1038.1 = 50.8 a + 208.26b + 955.162c (15)

- 15798.8 = - 762a – 2580.64b – 10579.608c

15571.5 = 762 a + 3123.90b +14327.430c

-227.3 = 543.26b + 3747.822c (4)

Resolviendo (1) y (3):

311 = 15a + 50.8b + 208.26c (-208.26)

4457.07 = 208.26 a + 955.162b + 4685.55c (15)

-64768.86 = -3123.9a - 10579.608b - 43372.2276c

66856.05 = 3123.9 a + 14327.430b + 70283.25c

2087.19 = 3747.822b + 26911.0224c (5)

13

Resolviendo (4) y (5):

-227.3 = 543.26b + 3747.822c (-3747.822)

2087.19 = 3747.822b + 26911.0224c (543.26)

851879.9406 = - 2036041.779b – 14046169.75c

1133886.839 = 2036041.779b + 14619682.02c

1985766.779 = 573512.28c

c = 1985766.779 ; c = 3.46 573512.28

Sustituyendo el valor c en (4): -227.3 = 543.26b + 3747.822(3.46);

-227.3 = 543.26b +12967.46412;

b = -13194.76412 ; b = - 24.29 543.26

Sustituyendo los valores de c y b en (1) tenemos311 = 15a + 50.8(-24.29) + 208.26(3.46) ;

311 = 15a – 1233.932 + 720.5796

a = 824.3524 ; a = 54.96 15Entonces se tiene que:

Yc = a + bx + cx2 ; Yc = 54.96 – 24.29x + 3.46x2; con esta ecuación se puede estimar (predecir) cualquier valor de X comprendido entre 1.0 y 6.0.

Caso Exponencial: Yc = abx

Es recomendado en el calculo de tasa de crecimiento, aunque es viable a cualquier

otra variable.

El siguiente cuadro contiene la información correspondiente al numero de palabras

“Y” que un grupo de secretarias puede llegar a escribir de acuerdo al numero “X” de

entrenamiento:

Xi 1 2 3 4 5 6 7 8

14

Yi 15 18 25 30 35 45 53 70

Siguiendo los valores nos damos cuenta que por cada unidad X hay un cambio mayor

que proporcional en Y, pero es engañoso y es preferible graficar.

Graficamos:

Esta información se ajusta a la función exponencial Yc = abx tenemos: aplicando

logaritmos tenemos: log Yc = log abx ; aplicando propiedades de los logaritmos tenemos:

log Yc = log a + x log b. debemos minimizar Σ( log Yi – log Yc )2 . Sustituyendo tenemos

que: Σ( log Yi – log a – x log b)2 ;

Si derivamos con respecto a “a” y “b” e igualamos a cero tenemos las siguientes

ecuaciones normales:

Realizaremos los calculo necesarios para despejar las a y b.

15

Xi Yi log Yi X log Yi X2

1 15 1.1760913 1.1760913 1

2 18 1.2552725 2.5105450 4

3 25 1.3979400 4.1938200 9

4 30 1.4771213 5.9084850 16

5 35 1.5440680 7.7203400 25

6 45 1.6532125 9.9192750 36

7 53 1.7242759 12.0699313 49

8 70 1.8450980 14.7607840 64

36 291 12.0730795 58.2592716 204

Sustituyendo los valores de la tabla en las ecuaciones (1) y (2):

12.0730795 = 8 log a + 36 log b (1)

58.2592716 = 36 log a + 204 log b (2)

Multiplicando por - 9 la ecuación (1) y por 2 la ecuación (2):

-108.6577155 = - 72 log a – 324 log b

116.5185432 = 72 log a + 408 log b

7.8608279 = 84 log b

log b = 7.8608279 = 0.093581284 84b = 1.240455773.

Sustituimos este valor en la ecuación (1):

12.0730795 = 8 log a + 36 log (1.240455773)

12.0730795 = 8 log a +3.368926246

log a = 8.704153254 = 1.088019157; a = 12.24670218. 8

Sustituyendo en Yc = abx ; Yc = (12.24670218)(1.240455773)x

16

Si necesitáramos X= 2; Yc = (12.24670218)(1.240455773)2 ; Yc = 18.84; no es

exactamente el valor de la tabla (18) pero es una buena aproximación considerando que

podremos estimar cualquier valor entre 1 y 8.

Caso Potencial o Polinomial: Yc = axb

A la función Yc = axb le aplicamos logaritmos y tenemos; log Yc = log a + b log x.

Como Σ ( log Yi – log Yc)2 debe se un mínimo. Al derivar con respecto a “a” y “b” tenemos:

Ahora ajustaremos una función potencial a un conjunto de datos, correspondientes al

consumo y al ingreso( en unidades monetarias constantes) de cierta comunidad.

Denominaremos X al ingreso y Y al consumo.

X 2.0 2.1 2.4 2.4 2.5 2.8 3Y 1.6 1.7 2.0 2.1 2.2 2.5 2.6

17

En el siguiente cuadro están contenidos las columnas con las cálculos necesarios para

la aplicación de las ecuación de regresión.

Xi Yi log X log Ylog X. log

Y(log X)2

2.0 1.6 0.301030 0.204120 0.061446 0.0906192.1 1.7 0.322219 0.230449 0.074255 0.1038252.4 2.0 0.380211 0.301030 0.114455 0.1445612.4 2.1 0.380211 0.322219 0.122511 0.1445612.5 2.2 0.397940 0.342423 0.136264 0.1583562.8 2.5 0.447158 0.397940 0.177942 0.1999503.0 2.6 0.477121 0.414973 0.197992 0.227645

2.705890 2.213154 0.884865 1.069517

Sustituyendo en las ecuaciones normales:

2.213154 = 7 log a + 2.705890 b

0.884865 = 2.705890 log a + 1.069519b

Resolviendo las ecuaciones mediante el método de eliminación por sustitución

llegamos a los siguientes valores:

18

b = 1.2472; log a = -0.166 ; a = 0.68234.

la ecuación de la regresión es Yc = 0.68234X1.2472

Podemos encontrar cualquier valor ente 2.0 y 3.0 inclusive.

Para X = 2 ; Yc mediante la formula seria 1.62, y en la tabla esta 1.6; hay una

diferencia de 0.02 que es la precisión que se pierde en el redondeo y es el riesgo que se corre

al estimar.

Para X = 3; Yc = 2.69; en cambio en la tabla (datos de origen) es 1.7. y de la misma

manera nos es posible calculara cualquier valor de X dentro del intervalo.

A pesar de que los diagramas de dispersión pueden ser especialmente útiles en la

determinación de la forma matemática de la relación, existen procedimiento estadísticos más

sofisticados a fin de determinar el modelo más adecuado para un conjunto de variables, y no

tener que deducir “a ojo” cual es el que mejor se adapta, ya que no siempre es obvio el

modelo a seguir. Tal como fue en el caso anterior, en el que la gráfica a simple vista describe

una relación lineal, y hasta podría confundirse con una relación exponencial. En fin, la

decisión se vuelve más difícil en un intervalo corto con pocas observaciones.

Desviación Estándar de Regresión.

La desviación estándar de regresión llamada también “error estándar de estimación”

se define como la desviación típica de las desviaciones de los valores de Yi con respecto a Yc

en formula queda así:

Un método simplificado para calcular el error estándar de regresión lo da la

siguiente formula.

CAPITULO IV

“Coeficiente de Correlación”

19

Coeficiente de correlación. Ya hemos dicho anteriormente, que la correlación mide

la intensidad o fuerza con que están relacionadas las variables y será medida por el

coeficiente ´´r´´ de correlación.

Tipos de correlación.

Según el número de variables que estudiamos, la correlación puede ser:

a) Correlación simple. Cuando de estudia el grado de asociación o dependencia entre

dos variables.

b) Correlación múltiple: cuando se estudia el grado de asociación que puede existir

entre tres o mas variables; una de ellas dependiente y el resto independiente.

c) Correlación parcial: En el caso de la correlación múltiple, es la cuantificaron del

grado de asociación neta entre dos variables, una vez eliminad estadísticamente la

influencia de las otras variables independientes.

Atendiendo la naturaleza de la función y según el tipo de ecuación y regresión, la

correlación puede ser rectilínea, parabólica exponencial potencial etc.

a) Correlación directa o positiva: cuando ocurren aumentos o disminuciones en una

variable ocurren también en la otra variable ya que su relación es directamente

proporcional. (Dependientes, independiente)

b) Correlación inversa o negativa: esta relación es inversamente proporcional entre

las variables (dependientes, independiente)

Calculo del coeficiente de correlación r

20

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza

de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por

Francis Galton), estudiaremos los siguientes métodos:

• Con el método producto - momento de Karl Pearson.

• Correlación de rangos de Spearman

CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON

Desarrollado por Karl Pearson a finales de siglo, y algunas veces se le llama el

coeficiente de correlación producto-momento de Pearson. Representado con una r, el

coeficiente de correlación puede asumir cualquier valor entre -1 y 1; es decir,

-1 ≤ r ≤ 1

Un valor de r = -1 indica una relación negativa perfecta entre X y Y, tal como se

observa en la figura (a). Todas las observaciones quedan en línea recta perfecta con una

pendiente negativa. Por tanto, X y Y se moverán en direcciones opuestas. La figura (b)

muestra una relación positiva perfecta entre X y Y con r = 1. Como se anotó anteriormente, en

toda relación entre dos variables existe la posibilidad de que exista alguna variación alrededor

de la recta de regresión. Esto se observa en las figuras (c) y (d), las cuales muestran

relaciones fuertes pero menos perfectas. En ambos casos el valor absoluto de r se aproxima a

1. Por el contrario, la figura (e) muestra muy poca o ninguna relación entre X y Y, y r se

aproxima a cero. En general, entre mayor sea el valor absoluto de r, más fuerte será la

relación entre X y Y.

21

0

1

2

3

4

0 1 2 3 4

Poca o ninguna relación; no se puede dibujar una recta de ajuste

r ≈ 0

(e)

0

1

2

3

4

5

0 1 2 3 4

Fuerte Relación Positiva

r está cerca de +1

Y = f(X)

(c)

0

1

2

3

4

5

0 1 2 3 4

Fuerte Relación Negativa

r está cerca de -1

Y = f(X)

(d)

0

0,5

1

1,5

2

2,5

0 0,5 1 1,5 2 2,5

Relación Negativa Perfecta

r = -1

Y = f(X)

(a)

0

1

2

3

4

5

0 1 2 3 4

Relación Positiva Perfecta

r = 1

Y = f(X)

(b)

Karl Pearson llegó a la siguiente formula abreviado par calcular el coeficiente ´´r´´ de

correlación.

Podemos observar en la formula que teniendo las columnas necesarias para calcular la

ecuación de regresión, y agregando nada más la columna de los cuadrados de la variable

dependiente Y, se tiene la información necesaria para calcular el valor r.

En el siguiente ejemplo calcularemos el coeficiente de correlación con el método

estudiado anteriormente.

Calcular el coeficiente de correlación para la siguiente información relativa a los

tiempos de calentamientos (X), en minutos y los espesores de oxido (Y) de cierta pieza,

medidos de Angstrom1.

1 Angstrom: medida de longitud del sistema métrico, equivale a 0.1 de milimicra. Una milimicra = 0.000000001 metro. O también Angstrom = 0.000000001

22

Xi 10 20 30 40 50 60 80 90

Yi 3.2 7.5 7.0 8.2 14.0 16.4 15.1 20

Solución:

En el siguiente cuadro aparecen todos los cálculos pertinentes para calcular el valor de r.

X Y

10 3.2 32 100 10.2420 7.5 150 400 56.2530 7.0 210 900 49.0040 8.02 328 1,600 67.2450 14.0 700 2,500 196.0060 16.4 984 3,600 268.9680 15.1 1,208 6,400 228.0190 20.0 1,800 8,100 400.0380 91.4 5,412 23,600 1,275.7

Cálculo de r por el método producto – momento:

= 0.94

CORRELACIÓN DE RANGOS DE SPEARMAN.

El método de Pearson requiere valores numéricos precisos y el supuesto de

normalidad en la distribución de tales valores. En muchos casos, tal medida numérica no

23

puede ser posible, y puede no existir confirmación para el supuesto de normalidad. En tales

casos, no puede utilizarse el método de Pearson

No obstante, se puede todavía clasificar sistemáticamente u ordenar las

observaciones. Esta clasificación ordinal permite medir los grados de correlación entre dos

variables utilizando el coeficiente de correlación de rangos de Spearman que es una

prueba no paramétrica que mide la asociación o interdependencia entre dos variables

continuas. Para calcular rs, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico rs viene dado por la expresión:

Donde: rs = Coeficiente de correlación ordinal o por rangos (llamado comúnmente

correlación por rangos de Spearman.

di = es la diferencia entre las clasificaciones para cada observación.

n = es el tamaño de la muestra.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de

correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas

respectivamente, 0 cero, significa no correlación pero no independencia. Entonces, entre más

se acerca el valor de rs a ± 1, más relación hay entre las variables expresadas en rangos.

Es importante aclarar que cuando dos o más observaciones están igualadas en orden,

a cada una se le asigna una media de los rangos.

Veamos primero un ejemplo donde no hay empates: El año pasado, Amco Tech, un

fabricante de microchips para computador en Estados Unidos, contrató a siete técnicos en

computación. A los técnicos se les practicó un examen diseñado para medir sus

conocimientos básicos. Después de un año de servicio, a su supervisor se le pidió clasificar el

24

desempeño laboral de cada técnico. Los puntajes del examen y las calificaciones del

desempeño para los siete empleados aparecen en la siguiente tabla:

Técnicos Puntaje en el examen Clasificación del desempeñoJ. Smith 82 4A. Jones 73 7D. Boone 60 6M. Lewis 80 3G. Clark 67 5A. Lincoln 94 1G. Washintong 89 2

Vale la pena observar que aunque el puntaje del examen es una medida cuantitativa

de los conocimientos de los técnicos, la clasificación del desempeño es simplemente una

medida ordenada por el supervisor para saber cuáles técnicos se estaban desempeñando

laboralmente bien. Por tanto, el jefe de operaciones decide utilizar la correlación de rangos de

Spearman para determinar si existe alguna relación entre los puntajes del examen y el

desempeño laboral. El director debe desarrollar primero la clasificación para los puntajes del

examen. Tales clasificaciones, junto con algunos cálculos necesarios aparecen en la tabla

siguiente:

Técnicos Puntaje en

el examen

Clasificación en la

prueba (X)

Clasificación por

el desempeño (Y)X – Y= di (X-Y)2 = di

2

J. Smith 82 3 4 -1 1A. Jones 73 5 7 -2 4D. Boone 60 7 6 1 1M. Lewis 80 4 3 1 1G. Clark 67 6 5 1 1A. Lincoln 94 1 1 0 0G. Washington 89 2 2 0 0

28 28 0 Σdi2 = 8

Cálculo de r por el método de rangos de Spearman:

25

Sustituyendo la formula:

Observaciones:

1. La suma de los rangos de ambas variables es siempre igual.

2. La suma de las diferencias entre los rangos es siempre cero.

3. El coeficiente de correlación r de Pearson de los rangos de las variables siempre es

igual al coeficiente de correlación rs de Spearman.

4. El coeficiente de correlación de r de Pearson calculado en las variables originales es

diferente del coeficiente rs de Spearman.

Comprobación de la observación 3:

Técnicos Clasificación en la

prueba (X)

Clasificación por

el desempeño (Y)XY X2 Y2

J. Smith 3 4 12 9 16A. Jones 5 7 35 25 49D. Boone 7 6 42 49 36M. Lewis 4 3 12 16 9G. Clark 6 5 30 36 25A. Lincoln 1 1 1 1 1G. Washintong 2 2 4 4 4

28 28 136 140 140

26

Veamos otro ejemplo. La siguiente información corresponde al número de semanas

de entrenamiento y el puesto (rango) que ha obtenido un grupo de corredores de seguros de la

PALIC de acuerdo al volumen de ventas que han realizado durante seis meses:

Vendedor Semanas de entrenamiento (X) Volumen de ventas expresadas en rango (Y)A. Villeda 5 10L. Flores 10 4M. Henríquez 10 6E. Escapini 30 1J. Pérez 25 3H. Bonilla 16 5S. Miranda 20 2A. Armas 8 8D. Jiménez 6 9G. Mira. 4 7

De acuerdo con estos resultados, ¿cree que vale la pena que los vendedores de la

compañía se preocupen por recibir entrenamiento para aumentar sus ventas?

Solución:

Un índice para contestar la pregunta puede ser el conocimiento del coeficiente de

correlación por rangos de Spearman, que nos puede decir el grado de relación existente entre

entrenamiento y volumen de ventas.

Para calcular el coeficiente por rangos tenemos que expresar las semanas de

entrenamiento en rangos, dando el rango 1 a quien tiene más entrenamiento. A continuación

se presentan, en el siguiente cuadro, los rangos correspondientes y el resto de columnas para

llevar a cabo el cálculo de rs.

VendedorEntrenamiento en

rango (X)

Volumen de ventas

en rango (Y)X – Y= di (X-Y)2 = di

2

A. Villeda 10.00 9.00 1.0 1.00L. Flores 4.00 5.50 -1.50 2.25M. Henríquez 6.00 5.50 0.50 0.25E. Escapini 1.00 1.00 0.00 0.00J. Pérez 3.00 2.00 1.00 1.00

27

H. Bonilla 5.00 4.00 1.00 1.00S. Miranda 2.00 3.00 -1.00 1.00A. Armas 8.00 7.00 1.00 1.00D. Jiménez 9.00 8.00 1.00 1.00G. Mira. 7.00 10.00 -3.00 9.00

55.00 55.00 0.00 17.50

Observemos que hay un empate en el quinto y sexto puesto (L. Flores y M. Henríquez); por

eso les asignamos a cada uno la medio de los rangos, o sea (5+6)/2 = 5.50.

De acuerdo a este resultado, vale la pena el entrenamiento para mejorar las ventas.

CAPITULO V

“Pruebas de Regresión y Correlación”

Prueba de hipótesis en la regresión lineal simple.

Una parte importante para evaluar la adecuación del modelo de regresión lineal simple

consiste en probar hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar

ciertos intervalos de confianza.

Para verificar si un modelo lineal, de la forma y = A + Bx, la variable independiente x afecta

la respuesta y, el parámetro B debe de ser diferente de cero. De otra forma se tendría y = A, y

no habría una contribución lineal de la variable x a la regresión.

El procedimiento para inferir la verificación consiste en comprobar el sistema de hipótesis.

28

La elaboración de la prueba se basa en los estimadores mínimos cuadráticos a y b de la recta

estimada Ŷ = a+ bx, y en sus propiedades.

Señalemos, sin demostración, las siguientes propiedades de b las cuales se generalizan a

todos los estimadores de los mínimos cuadrados.

Propiedades de b

• b es un estimador insesgado de B: E(b) = B.• Un estimador insesgado de la varianza de Y es:

• La varianza de b es:

• La desviación estándar de b es:

• B sigue una distribución normal con E(b) y Var(b).

• El estadístico sigue una ley de student con v = n – 2 grados de libertad.

(Al número de observaciones se le resta 2 debido a que se han estimado los

parámetros a y b de la recta de regresión).

Una vez encontrado el error estándar se utiliza la siguiente ecuación:

29

Prueba de hipótesis para correlación.

Esta prueba es equivalente a la prueba de hipótesis dada en la prueba de hipótesis de

regresión.

La manera de calcular el error estándar para este tipo de prueba es:

Una vez determinada la ecuación del error estándar para la correlación se aplica la

siguiente formula:

A continuación presentaremos un ejemplo que abarca la prueba de hipótesis tanto

para regresión como para correlación

Acciones del Banco Central de Reserva para frenar la inflación. Después de

aproximadamente seis años de expansión continuada, la economía salvadoreña comenzó a

presentar signos de presiones inflacionarias en el verano de 1988. Un articulo de La Prensa

Gráfica, describió los esfuerzos del Banco Central por calmar estos aires inflacionistas. Esto

debía hacerse restringiendo el suministro de dinero a través del aumento de la tasa de

descuento que la banca comercial debe pagar al Banco Central. En febrero de 1988, Carlos

Ernesto Euceda, vicepresidente del Banco Central de Reserva, dijo en una audiencia, que las

acciones referente a las tasas de descuento podrían predecirse sobre la base de la tasa de los

fondos estatales, la cual es el costo que los banco cobran entre ellos para los créditos de un

día para otro. Los controladores de la reserva argumentaron que la tasa de los fondos no

estaban sirviendo para predecir adecuadamente los cambios en la tasa de descuento, y que

este comportamiento deficiente dificultaba a los inversionistas intentar predecir qué nivel de

la tasa de interés permitiría el Banco Central.

30

A continuación se presentan los valores para la tasa de los fondos del Banco Central y

la tasa de descuento desde mediados de 1987 hasta mediados 1988. ¿Sustentan estos datos los

cargos de los controladores de la reserva?

Fecha Tasa de Fondos Estatales Tasa de Descuento (%)Junio de 1987 8.0 7.5Julio de 1987 7.5 7.5Agosto de 1987 7.0 7.0Septiembre de 1987 6.5 6.5Octubre de 1987 6.0 6.0Noviembre de 1987 6.0 5.5Diciembre de 1987 7.0 5.5Enero de 1989 6.0 5.5Febrero de 1988 7.0 5.5Marzo de 1988 7.5 5.5Abril de 1988 7.0 6.0Mayo de 1988 7.5 6.5Total: 83.0 74.5

Debido a que Carlos Euceda argumentó que la tasa de los fondos federales podría

explicar la conducta de la tasa de descuento, los fondos estatales se ven como variable

independiente.

La naturaleza de la relación entre la tasa de fondos estatales y la tasa de descuento es

analizable a través del análisis de regresión y correlación.

X = 83 Y = 74.5 YΣ Σ Σ 2 = 469.5

XY = 518.5 Σ = 6.21

XΣ 2 = 579 n = 12

SCx = XΣ 2 –( X)Σ 2/n = 4.916666667

SCy = YΣ 2 –( Y)Σ 2/n = 6.72917

SCxy = XY –( X) ( Y)/n =3.20833Σ Σ Σ

b1 = SCxy/ SCx

b1 = 0.6525

31

b0 = 1.6949

Por tanto la ecuación es:

El coeficiente de determinación es:

= 0.3111

r = 0.56

Los controladores de la reserva tienen razón en su critica de la tasa de los fondos

estatales como predictor de los cambios en la tasa de descuento. Solo el 31% de los cambios

en la tasa de descuento se explican mediante los cambios en la tasa de los fondos estatales.

Una medida de bondad de de ajuste que refleja la capacidad de la tasa de los fondos

estatales para predecir la tasa de descuentos es el error estándar de estimación.

El error estándar de estimación es:

= 4.63033

CME = SCE/(n-2)

= 4.63033/(12-2) = 0.463033

Se = 0.6808

Típicamente, el estimado de la tasa de descuento está en error en 0.68 de un punto

porcentual.

Una prueba de significancia del coeficiente de correlación sería muy útil en este

punto. Sea el nivel de confianza 95%. Con 10 grados de libertad el valor crítico de t es por

tanto ±2.228.

Las hipótesis son:

32

Regla de decisión: “no rechazar la Ho si t está entre ±2.228. De lo contrario

rechazar”.

= 0.56/0.2627 = 2.13

La hipótesis nula no debe rechazarse. A pesar del hallazgo muestral de una relación

positiva entre las tasas de fondos estatales y la tasa de descuento, no se puede rechazar la

hipótesis de que no hay correlación. El coeficiente de correlación muestral no es significativo

al nivel del 5%.

Una prueba de la significancia del coeficiente de regresión de b1= 0.6525424 nos es

útil, y sabio. La prueba se realizará al nivel del 99%. Con 10 grados de libertad, el valor

critico t es ±3.169.

Regla de decisión: “No rechazar si t está entre ±3.169. De lo contrario rechazar.”

En donde:

La hipótesis de que β1= 0 no debe rechazarse. El valor para b1 no es

significativamente diferente de cero al nivel del 1%. Hay muy poca confianza o nada de

confianza en la tasa de los fondos estatales como predictor de la tasa de descuento. Sería

33

imprudente de parte de los inversionistas confiar en los fondos estatales como indicador del

comportamiento de la tasa de descuento y de otras tasas de interés.

Prueba de hipótesis para la correlación de rangos de Spearman.

Con frecuencia se desea comprobar la hipótesis de que el coeficiente de correlación

poblacional. ρ es cero. Es decir, se desea determinar la probabilidad de que a pesar de los

hallazgos de la muestra que sugiere una relación entre el puntaje y la clasificación, en

realidad no existe tal relación y ρ= 0.

Para las muestras pequeñas (n<30). La distribución de rs no es normal, ni la prueba t

es apropiada. Para ello debemos utilizar la tabla que el anexo al final de este trabajo, es la

tabla de correlación de rangos de Spearman.

Si n>30, la distribución de rs se aproxima a la normalidad con una media igual a cero,

y con una desviación estándar de . El estadístico de prueba Z es:

34

CAPITULO VI

“Regresión Lineal Múltiple”

Anteriormente se analizo como una sola variable explicativa podría utilizarse para

predecir el valor de la variable dependiente. Se considera como mas poderoso podría

volverse el modelo si se utilizaran mas variables explicativas. Esto es precisamente lo que el

modelo de regresión lineal múltiple hace, permitiendo incorporar dos o más variables

independientes. El modelo de regresión múltiple con k variables independientes se expresa

como:

En donde (ß) son los coeficientes de regresión y (ε) es el termino de error aleatorio.

Se estima el modelo utilizando los datos muéstrales así:

35

En donde Ŷ es el valor estimado para la variable dependiente y bi son los

estimados para los coeficientes poblacionales (β) y bi se denominan coeficientes parciales

( o netos) de regresión y tienen la misma interpretación que en la regresión simple. Por

tanto, bi,, es la cantidad por la cual Y1 cambiara si X1 cambia en una unidad asumiendo que

todas las otras variables independientes se mantienen constantes.

Además de los supuestos establecidos en la regresión simple se establecen dos mas: el

primer supuesto requiere que el numero de observaciones n , exceda el numero de variables

independientes k, en por los menos 2, en la regresión múltiple hay k+1 parámetros por

estimar: los coeficientes para las variables independientes k más el intervalo del

intercepto. Por tanto los grados de libertad relacionados con el modelo son g.l= n – (K + 1).

Si se va a retener incluso un grado de libertad, n debe exceder a k en por lo menos 2, de

manera que n – (K + 1) es por lo menos 1.

El segundo supuesto involucra la relación entre las variables independientes requiere

que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si

X1= X2 + X3, o quizá X1 = 0.5 X2, entonces una relación lineal existiría entre dos o mas

variables independientes y surgiría un problema grave. Este problema es la

multicolinealidad. Y este existe si dos o más variables independientes están relacionadas

linealmente. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes

sean opuestos a lo que la lógica pueda dictar, mientras que incrementan bastamente el error

estándar de los coeficientes.

A los parámetros (βj), j= 0. 1,……, k, se les denomina coeficientes de regresión. A

los parámetros (βj), j= 0. 1, ……,k, a veces se les denomina coeficientes parciales de

regresión , debido a que describen el efecto parcial de una variable independiente cuando las

otras variables independientes del modelo se conservan constantes.

Los modelos de regresión lineal múltiple a menudo se utilizan como funciones de

aproximación. Esto es, se desconoce la verdadera relación funcional entre y y x1, x2,. . . . . ,

36

xK, pero sobre ciertos intervalos de valores de las variables independientes el modelo de

regresión lineal es una aproximación adecuada.

Desviación estándar de regresión múltiple

Se define como la desviación típica de las desviaciones de los valores de X1 con

respecto a los valores calculados Xic y se denota con el símbolo S1.23, donde el primer

subíndice indica la variable dependiente, y los subíndices secundarios indican las variables

independientes. Se calcula de una manera similar a la desviación estándar de la regresión

simple, o sea:

También existe un método abreviado para calcular este valor, sin calcular los

valores de

( X1 – X1c ) 2 :

La desviación estándar de regresión múltiple se usa como medida de la bondad de

las estimaciones basadas en la ecuación de regresión; entre menor sea el valor de S1.23 menor

es la dispersión de los valores de X1

Con respeto a los valores estimados X1c ; y por lo tanto, las estimaciones de la

variable dependiente serán más confiables ; es decir, más parecidas a los valores reales de X1.

Para calcular los estadísticos bo, b1, b2,…., br, basta con extender el procedimiento de

minimización de la suma de los cuadrados de los errores aleatorios

37

Las derivadas parciales de la SCE con respecto a cada uno de los estadísticos bj, j =

0,1,….r, igualadas a cero, originan un sistema de r + 1 ecuaciones con r + 1 incógnitas.

Cuando solo hay dos variables independientes, el sistema completo de ecuaciones

normales es como sigue:

Ahora se presenta un sistema de ecuaciones normales para r 2

De acuerdo con esta ecuación, todas las sumatorias, aun cuando no tengan subíndices,

se extienden a todas las observaciones desde i= 1, 2,.. n.

Ahora bien el problema se reduce a resolver el sistema de ecuaciones normales para b0, b1,

y b2 y obtener la recta de regresión:

Nota que par r = 3 variables independientes, se debe resolver un sistema de r + 1 = 4

ecuaciones con 4 incógnitas, y así sucesivamente para r= 4, r= 5, etc. Por ende, es necesario

aplicar algebra matricial para resolver los sistemas de ecuaciones normales resultante.

38

Ecuaciones normales

para una regresión múltiple con r

variables independientes.

Ejemplo:

Investigar si el salario mensual (Y) que devenga un trabajador, de una compañía

depende directamente del numero de años de educación formal que ha recibido (X1 ), y del

tiempo que lleva trabajando en la empresa (X2 ). Determinar una ecuación lineal de Y sobre

X1 y X2 para la siguiente muestra de 9 trabajadores (Y: en miles de dólares X1 y X2 : en años

).

Y 11.2 12.3 7.6 11.6 4.3 6.9 6.5 2.5 13.1X1 16 18 17 18 13 16 16 8 16X2 18 20 4 10 10 6 2 20 25

Solución:

Para darle solución a este ejercicio primero se hacen las sumatorias y las

multiplicaciones respectivas de la siguiente manera:

y X1 X2 X1 y X12 X1 X2 X2 y X2

2

11.2 16 18 179.2 256 288 201.6 32412.3 18 20 221.4 324 360 246 4007.6 17 4 129.2 289 68 30.4 1611.6 18 19 208.8 324 342 220.4 3614.3 13 10 55.9 169 130 43 1006.9 16 6 110.4 256 96 41.4 366.5 16 2 104 256 32 13 42.5 8 20 20 64 160 50 40013.1 16 25 209.60 256 400 327.5 62576 138 124 1238.5 2194 1876 1173.3 2266

Se harán las sustituciones de los valores encontrados en la ecuación de los mínimos

cuadrados para después llevarlas a la forma de la ecuación lineal estimada que se ha detallado

anteriormente como resultado el sistema de ecuaciones nos queda de la siguiente manera:

76 = 9 bo + 138 b1 + 124 b2

39

1238.5= 138 b0 + 2194 b1 +1876 b2

1173.5= 124 b0 + 1876 b1 +2266b2

Las solución a este sistema de ecuaciones mediante el método de simultáneo o de

eliminación arroja los siguientes resultados:

bo = - 11.0592, b1 = 1.0267 , b 2 = 0.2730

Por lo tanto, la ecuación de regresión viene dada por:

Ý = - 11.0592 + 1.0267 x1 + 0.2730 x2

Si X1 = X2 (un trabajador cuyos años de trabajo con la empresa coinciden con los

años de educación formal) la variable x1 es la que contribuye más a una respuesta salarial

40

Capitulo VII

“Ejercicios Resueltos”

Ejercicio de diagrama de dispersión.

Dado los siguientes datos para X y Y

X: 28, 54, 67, 37, 41, 69, 76.

Y: 14, 21, 36, 39, 18, 54, 52.

a. Haga un diagrama de dispersión para los datos:

b. ¿Qué sugieren los datos sobre una relación entre X y Y?

c. Hacer una recta para aproximar la línea de relación.

Sugieren una relación lineal positiva.

41

Regresión con Mínimo Cuadrado.

Un economista del Departamento de Recursos Humanos de Florida State está

preparando un estudio sobre el comportamiento del consumidor. Él recolectó los documentos

que aparecen en miles de dólares para determinar si existe una relación entre el ingreso del

consumidor y los niveles de consumo. Determine cuál es la variable dependiente.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2

a. Haga un diagrama de dispersión para los datos.

b. Calcule e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la

relación entre el consumo y el ingreso?, ¿Qué proporción de cada dólar adicional que

se gana se invierte en consumo?

c. ¿Qué consumo pronosticaría el modelo para alguien que gana US$27,500.00?

Solución:

42

a. Se determina que la variable dependiente es el consumo, debido a que las

personas consumiran dependiendo del nivel de ingreso que posean; elaborando

el diagrama de dispersión, se establece que posee un relación lineal positiva

b. Cálculo de la regresión.

Consumidor Ingresos (X) Consumo (Y) XY X2 Y2

1 24.3 16.2 393.66 590.49 262.442 12.5 8.5 106.25 156.25 72.253 31.2 15.0 468.00 973.44 225.004 28.0 17.0 476.00 784.00 289.005 35.1 24.2 849.42 1,232.01 585.646 10.5 11.2 117.60 110.25 125.447 23.2 15.0 348.00 538.24 225.008 10.0 7.1 71.00 100.00 50.419 8.5 3.5 29.75 72.25 12.2510 15.9 11.5 182.85 252.81 132.2511 14.7 10.7 157.29 216.09 114.4912 15.0 9.2 138.00 225.00 84.64Σ 228.9 149.1 3,337.82 5,250.83 2,178.81

43

Este modelo indica que si se mantiene constante el consumo, por cada aumento de

$1,000.00 en el ingreso, se pronostica que las personas aumentaran su consumo en $558.00

c. Pronostico para alguien que gana US$27,500.00

Se pronostica que si obtiene un ingreso de $27,500.00, invertirá en consumo

$15,346.77.

Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson.

La siguiente información corresponde a la temperatura (°F) y a la dilatación de un

determinado material:

Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1

44

a. Determinar la ecuación de regresión, usando como variable dependiente la que

usted estime conveniente.

b. Calcule la desviación estándar de regresión.

c. Calcule el coeficiente de correlación.

a. Se determina que la variable dependiente es la dilatación, debido a que

determinado material se dilatará dependiendo de la temperatura en que se

encuentre; entonces:

Temperatura (X) Dilatación (Y) XY X2 Y2

87 5.0 435.0 7,569.0 25.0050 2.2 110.0 2,500.0 4.8475 4.1 307.5 5,625.0 16.8190 5.4 486.0 8,100.0 29.1655 2.8 154.0 3,025.0 7.8454 3.0 162.0 2,916.0 9.0068 3.6 244.8 4,624.0 12.9685 4.9 416.5 7,225.0 24.0182 4.1 336.2 6,724.0 16.8180 4.2 336.0 6,400.0 17.6445 2.0 90.0 2,025.0 4.0058 2.7 156.6 3,364.0 7.2966 3.1 204.6 4,356.0 9.61895 47.1 3,439.2 64,453.0 184.97

Sustituyendo en las ecuaciones normales:

Igualando a en la primera ecuación.

45

Igualando b en la segunda ecuación.

Igualando las ecuaciones para encontrar b

Encontrando a:

Finalmente la ecuación de regresión queda así:

b. Desviación estándar de la regresión

Aplicando la formula abreviada:

c. Coeficiente de correlación

Aplicando el coeficiente de correlación de producto- momento:

46

Ejercicio de coeficiente de correlación por el método de rangos de Spearman.

La siguiente información corresponde a los costos y a las ventas, en miles de colones

de 12 tiendas:

Tiendas Costos (X) Ventas (Y)1 11 192 10 153 14 204 13 145 12 166 20 337 21 328 15 189 22 2910 18 2211 19 2312 16 20

Calcular el coeficiente de correlación por rangos.

Tienda

sCostos (X) Ventas (Y) Rango X Rango Y (X-Y)= di (X-Y)2=di

2

1 11 19 11 8 3 92 10 15 12 11 1 13 14 20 8 6.5 1.5 2.254 13 14 9 12 -3 95 12 16 10 10 0 06 20 33 3 1 2 47 21 32 2 2 0 08 15 18 7 9 -2 49 22 29 1 3 -2 410 18 22 5 5 0 011 19 23 4 4 0 012 16 20 6 6.5 -0.5 0.25

78 78 0 33.5

47

Cálculo de r por el método de rangos de Spearman:

Sustituyendo la formula:

Finalizando con el valor del coeficiente

Ejercicio de regresión múltiple.

Suponga que una compañía grande de productos de consumo desea medir la

efectividad de los diferentes medios de propaganda en la promoción de sus productos. En

especial, se van a estudiar dos tipos de medios de promoción: propaganda en radio y

televisión y propaganda en periódicos (incluyendo el costo de los cupones de descuento). Se

seleccionó una muestra de 22 ciudades cuya población es aproximadamente igual para

realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le asignó un

nivel de gastos específico para publicidad de radio y televisión y para publicidad en

periódicos. Se registraron las ventas del producto (en millones de dólares) durante el mes de

prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes resultados:

Ciudad

Ventas

(miles de

dólares)

Publicidad en

radio y televisión

(miles de dólares)

Publicidad en

periódicos (miles

de dólares) Ciudad

Ventas

(miles de

dólares)

Publicidad en radio

y televisión (miles

de dólares)

Publicidad en

periódicos

(miles de

dólares)

1 973 0 40 12 1,577 45 452 1,119 0 40 13 1,044 50 03 875 25 25 14 914 50 04 625 25 25 15 1,329 55 255 910 30 30 16 1,330 55 256 971 30 30 17 1,405 60 307 931 35 35 18 1,436 60 308 1,177 35 35 19 1,521 65 359 882 40 25 20 1,741 65 3510 982 40 25 21 1,866 70 40

48

11 1,628 45 45 22 1,717 70 40

Lleve a cabo un análisis de regresión lineal múltiple. Basándose en los resultados

obtenidos:

a. Establezca la ecuación de regresión múltiple.

b. Interprete el significado de las pendientes en este problema.

a. Calculo de la ecuación de regresión múltiple:

Establecemos las ventas (Y) como la variable dependiente y los gastos en publicidad

en radio y televisión (X1) y los gastos en periódicos (X2) como las variables

independientes a continuación se elabora una tabla con los datos necesarios para

establecer la ecuación de regresión múltiple:

Ciudad Y X1 X2 YX1 YX2 X1 X2 X1X2

1 973 0 40 0 38,920 0 1,600 02 1,119 0 40 0 44,760 0 1,600 03 875 25 25 21,875 21,875 625 625 6254 625 25 25 15,625 15,625 625 625 6255 910 30 30 27,300 27,300 900 900 9006 971 30 30 29,130 29,130 900 900 9007 931 35 35 32,585 32,585 1,225 1,225 1,2258 1,177 35 35 41,195 41,195 1,225 1,225 1,2259 882 40 25 35,380 22,050 1,600 625 1,00010 982 40 25 39,280 24,550 1,600 625 1,00011 1,628 45 45 73,260 73,260 2,025 2,025 2,02512 1,577 45 45 70,965 70,965 2,025 2,025 2,02513 1,044 50 0 52,200 0 2,500 0 014 914 50 0 45,700 0 2,500 0 015 1,329 55 25 73,095 33,225 3,025 625 1,37516 1,330 55 25 73,150 33,250 3,025 625 1,37517 1,405 60 30 84,300 42,150 3,600 900 1,80018 1,436 60 30 86,160 43,080 3,600 900 1,80019 1,521 65 35 98,865 53,235 4,225 1,225 2,27520 1,741 65 35 113,165 60,935 4,225 1,225 2,27521 1,866 70 40 130,620 74,640 4,900 1,600 2,80022 1,717 70 40 120,190 68,680 4,900 1,600 2,800

49

Σ 26,953 950 660 11264,040 851,410 49,250 22,700 28,050

Sustituyendo en las ecuaciones:

(1)

(2)

(3)

La solución a este sistema de ecuaciones mediante el método de eliminación por

sustitución arroja los siguientes resultados:

Igualando b0 en la ecuación 1:


Simultaneando:

50

(4)



Simultaneando:

(5)



Simultaneando:

51

Encontrando b1, sustituyendo b2 en la ecuación 4.

Encontrando b0, sustituyendo b1 y b2 en la ecuación 1.

Por lo tanto, la ecuación de regresión viene dada por:

b.

Este modelo indica que manteniendo constante los gastos de publicidad en periódicos,

por cada aumento de $1,000.00 en la publicidad en radio y televisión, se predice que las

ventas aumentaran en $ 13,092.90. Manteniendo los costos de publicidad en radio y

52

televisión constantes, por cada aumento de $1,000.00 en publicidad en periódico, se predice

que las ventas aumentaran en $ 16,797.20.

Ejercicio de prueba de hipótesis.

Los licenciados de estadística de la UES están realizando un estudio para analizar la relación

entre los ingresos de las personas y sus niveles de consumo. 11 consumidores reportaron las

siguientes cifras en miles de dólares. Al nivel de significancia del 5%, ¿El coeficiente de

correlación de rangos de Spearman sugiere alguna relación?

Ingresos 97 58 69 47 58 38 91 67 68 47 48Consum

o

55 63 54 37 45 38 71 52 53 37 37

Solución:

Se plantean las siguientes hipótesis.

La hipótesis nula implica que no existe relación, y la alternativa expresa la existencia de

relación.

En la siguiente tabla están contenidos los datos necesarios para la aplicación de la formula de

correlación por rangos de Spearman. Como los datos son 11 se establecen 11 rangos donde al

mayor “97” se le asigna 1 y al menor 11.

53

Ingreso Consumo Rango X Rango Y di di2

97 55 1 3 -2 458 63 6.5 2 4.5 20.2569 54 3 4 -1 147 37 9.5 10 -0.5 0.2558 45 6.5 7 -0.5 0.2538 38 11 8 3 991 71 2 1 1 167 52 5 6 -1 168 53 4 5 -1 147 37 9.5 10 -0.5 0.2548 37 8 10 -2 4

66 66 0 42

Se utiliza la formula siguiente

Ya que n<30 se utiliza la tabla del anexo al final de este trabajo. Cuando n = 11 y a = 0.05,

resulta un valor critico de 0.6091.

Interpretación: Dado que el valor calculado es mayor que el critico se rechaza la

hipótesis nula, implica que si existe relación entre ingreso y consumo.

CONCLUSIONES

• En relación a la regresión, surgen dificultades en relación a la elección al tipo de

modelo a elegir; es recomendable no realizar la elección del modelos de regresión a

simple vista, ya que incluso un cambio en la escala en el diagrama de dispersión

54

Zona de no rechazoa = 0.025a = 0.025

-0.6091 0.6091

0.8091

ocasiona un efecto visual que resulta engañoso. Para el caso, grupo de datos que se

puede adaptar a una distribución exponencial, si dicha tendencia es poco marcada,

podría suponerse que sigue una relación lineal o incluso potencial. Hay casos que

hasta la gráfica resulta de utilidad limitada debido a que la gráfica no muestra de

manera clara la tendencia que sigue. Cabe recordar que un error en el método

aplicado no proporcionar los resultado óptimos.

• La regresión es una técnica que ayuda a la predicción, pero no dice exactamente lo

que ocurrirá, dice lo que podría ocurrir, nos propicia elementos de juicio para decidir,

pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total. Se puede

estimar ventas por cierta cantidad, que será útil para establecer cuanto producir, mas

no son garantías suficientes de que se darán la estimaciones.

• Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina;

ningún método o técnica podrá librarnos de nuestras malas decisiones. Además de

que el proceso de obtención de los datos a utilizar como insumo para la predicción

podría ser subjetivo, y por ende no se lo suficientemente certero en los resultados.

• Sujetarse demasiado en las predicciones, no es fundamento para el desarrollo

creativo y decisiones novedosas, esto en el caso de las empresa, ya que no es base

suficiente como para decidir quien esta siendo mas novedoso en el tiempo. Es decir

que se ve limitado en el campo cualitativo.

• La regresión al considerar de manera funcional las variables en estudio vuelve más

objetiva la manera de generar los elementos (ecuación) para predecir valores dentro

del intervalo.

55

• Lo más importante para determinar el coeficiente de correlación dependerá de los

datos que se estén estudiando, ya que si lo que se estudia son datos cuantitativos, la

mejor forma de determinarlos sería por el método de momento-producto de Karl

Pearson; pero si los datos en estudio son cualitativos, no paramétricos, el mejor

método es el método de rangos de Spearman.

• Es posible realizar una aproximación del método de Spearman al método de Pearson,

una vez se le han asignado rangos a las observaciones, si no se realiza no será

adecuada la aproximación. Con esto es posible el tratamiento de datos cualitativos

con métodos cuantitativos.

• En la medida en que aumenta el numero de variables en la regresión múltiple, más

complicado y largos se vuelven las operaciones, siendo necesario incluso la

aplicación de matrices, métodos computarizados y no siempre se tiene programas

disponibles o para su utilización es necesaria especialización.

• Para comprobar si el modelo de regresión simple es el adecuado se puede aplicar

pruebas de hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar

ciertos intervalos de confianza. Esto es como una manera de encontrar posibles

errores en la elección del modelo aplicado, y volver lo más acertada posible la

regresión.

• El método matemáticamente más exacto para encontrar la función de la regresión es

el método de mínimos cuadrados.

56

Anexo I

Tabla de correlación de rangos de Spearman

57

Bibliografía

• Bonilla, Gildaberto, Estadística II métodos prácticos de inferencia estadística, 2da

edición, UCA editores, San Salvador, El Salvador 1992.

• Berenson, Mark L y Levine, M. David, Estadística básica en administración, sexta

edición, Prentice Hall Hispanoamericana S.A, México 1996

• Heldebrand, K. David y Ott. Lyman, Estadística aplicada a la administración y a la

economía, Pearson Prentice Hall, Tercera edición, México 1998.

• Hines , W. William y Montgomery, C.Douglas, Probabilidad y Estadística para

Ingeniería y Administración, CECSA, México 1987.

• Moore, S. David, Estadística Aplicada Básica, España 1995

• Salguero Hernández, José Alberto, Elementos de Probabilidad y Estadística, UCA

editores, San Salvador, El Salvador, 2002.

• Spiegel, Murray R, Teoría y Problemas de Probabilidad y Estadística Mc. Grawhill,

México 2004.

• Webster, L.Allen, Estadística Aplicada a los Negocios y la Economía, Tercera

Edición, Mc Grawhill, Colombia 2000

• www.wikipedia.org

• www.monografias.com

58

Engineering

Regresión y correlación estadística aplicada