Upload
deyvis-rios
View
445
Download
6
Embed Size (px)
Citation preview
ÍNDICE.
Contenido pág.
Introducción………………………………………………………………...….i ÍNDICE. ....................................................................................................................................... 1
Contenido pág. ........... 1
Introducción………………………………………………………………...….i ................... 1
Objetivos. ..................................................................................................................................... 3
Objetivo General: ..................................................................................................................... 3
Objetivos Específicos: ............................................................................................................. 3
REGRESION Y CORRELACION ............................................................................................. 4
Capitulo I ................................................................................................................................. 4
“Definiciones” ......................................................................................................................... 4
DIAGRAMA DE DISPERSION: ....................................................................................... 4
REGRESION SIMPLE. ...................................................................................................... 5
CORRELACION SIMPLE. ................................................................................................ 6
Capitulo II ................................................................................................................................ 6
“Ecuación de Regresión Simple” ............................................................................................ 6
CAPITULO III ......................................................................................................................... 9
“Modelos de Ecuación Regresión Simple” ............................................................................. 9
Modelo de Línea Recta ........................................................................................................ 9
Modelo de Ecuación Cuadrática. ...................................................................................... 11
Caso Exponencial: Yc = abx ............................................................................................. 14
Caso Potencial o Polinomial: Yc = axb ............................................................................ 17
Desviación Estándar de Regresión. ................................................................................... 19
CAPITULO IV ...................................................................................................................... 19
“Coeficiente de Correlación” ................................................................................................ 19
Calculo del coeficiente de correlación r ............................................................................ 20
CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON ....................................................... 21
CORRELACIÓN DE RANGOS DE SPEARMAN. ........................................................ 23
1
CAPITULO V ........................................................................................................................ 28
“Pruebas de Regresión y Correlación” .................................................................................. 28
Prueba de hipótesis para la correlación de rangos de Spearman. ..................................... 34
CAPITULO VI ...................................................................................................................... 35
“Regresión Lineal Múltiple” ................................................................................................. 35
Desviación estándar de regresión múltiple ...................................................................... 37
Capitulo VII ........................................................................................................................... 41
“Ejercicios Resueltos” ........................................................................................................... 41
Ejercicio de diagrama de dispersión. ................................................................................ 41
Regresión con Mínimo Cuadrado. .................................................................................... 42
Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson. ..................................................................................................... 44
Ejercicio de coeficiente de correlación por el método de rangos de Spearman. .............. 47
Ejercicio de regresión múltiple. ........................................................................................ 48
Ejercicio de prueba de hipótesis. ....................................................................................... 53
CONCLUSIONES ................................................................................................................. 54
Bibliografía ............................................................................................................................ 58
2
Objetivos.
Objetivo General:• Conocer los elementos necesario para la realización de un análisis de regresión y
correlación.
Objetivos Específicos:• Mostrar los elemento teóricos necesario para establecer un análisis de regresión.
• Desarrollar las ecuaciones normales correspondiente al método de mínimos
cuadrados.
• Establecer la manera de en la que se elije el modelos de regresión a utilizable a partir
de la forma que tomen el conjunto de datos.
• Analizar las aplicaciones practicas del análisis de regresión.
• Aprender a reconocer el procedimiento para el trato de variables con n incógnitas.
• Conocer las principales diferencias entre el análisis de regresión y el análisis de
correlación.
• Aplicar la fórmula prueba de hipótesis tanto para regresión como correlación para la
toma de decisiones
3
REGRESION Y CORRELACION
REGRESION
• Definiciones: es el análisis que se utiliza para hacer predicciones.
• La regresión mide en forma funcional, a través de una ecuación, la posible relación
entre las variables con el objeto de predecir una de ellas en función de la(s) otra(s).
CORRELACION
• Definiciones: se dirige sobre todo a medir la intensidad o fuerza con que están
relacionadas linealmente las variables.
• Se utiliza para medir la intensidad de la asociación entre variables numéricas.
• Mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas.
Capitulo I
“Definiciones”
DIAGRAMA DE DISPERSION:
• Un diagrama de dispersión muestra la relación entre dos variables cuantitativas
medidas para los mismos individuos o grupo de individuos. Los valores de una
variable aparecen en el eje de las abscisas y los valores de la otra en el eje de las
ordenadas.
4
• Si una de las dos variables se pueden considerar una variable explicativa, sus valores
se sitúan siempre en eje de las abscisas en el diagrama de dispersión.
• La representación gráfica bidimensional en el análisis de regresión que implica una
variable dependiente y una variable independiente.
Para interpretar un diagrama de dispersión, se identifica primero sus aspectos generales.
El aspecto general debe revelar la dirección la forma y la fuerza de la relación entre las dos
variables.
Si la relación entre las dos variables tiene una dirección clara, decimos que existe una
asociación positiva (si valores altos de las dos variables tienden a ocurrir simultáneamente) o
una asociación negativa (si valores altos de una variable tienden a coincidir con valores bajos
de la otra)
Las relaciones lineales, cuando los puntos del diagrama de dispersión se sitúan
aproximadamente a lo largo de una recta, son una forma importante de relación entre dos
variables.
REGRESION SIMPLE.
La naturaleza de la relación puede tomar muchas formas, desde las sencillas hasta las
extremadamente complicadas. La más sencilla consiste en un línea, es decir, una relación
lineal.
Se establece que Y es una función de sólo una variable independiente. Se le
denomina también regresión bivariada, porque solo hay dos variables. Se represente por la
formula.
Y = f (X).
5
CORRELACION SIMPLE.
Es cuando se estudia el grado de asociación o dependencia entre dos variables. Se
mide por un coeficiente de correlación, representado por “r”.
Capitulo II
“Ecuación de Regresión Simple”
Es la ecuación de una relación entre dos variables; donde una depende de la otra.
Pudiendo tomar distintas formas. En fin, ecuación de regresión simple se refiere a aquella que
puede ser representada en dos dimensiones dentro del diagrama de dispersión.
La ecuación de regresión de muestra que representa el modelo de regresión de línea recta es:
Ŷi = bo + b1Xi
en la que Ŷi es el valor predicho de Y para las observaciones i.
Con el propósito de predecir valores de Y, esta ecuación requiere la determinación de dos
coeficientes: bo (la intersección Y) y b1 (la pendiente). Cuando ya se han obtenido bo y b1 , se
conoce la línea recta y puede ser graficada en el diagrama de dispersión.
El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que
mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la línea recta
para la cual las diferencias entre los valores reales (Yi ) y los valores que serian predichos a
partir de la línea ajustada de regresión (Ŷi) sean lo mas pequeñas posibles. Debido a que tales
diferencias serán positivas y negativas para las diferentes observaciones, minimizamos
matemáticamente la expresión
en la que Yi = valor real de Y para la observación i
Ŷi = valor predicho de Y para la observación i
6
Puesto que Ŷi =b0 +b1Xi , se trata de minimizar la expresión
Que tiene dos incógnitas, b0 y b1
Una técnica matemática utilizada para determinar los valores de b0 y b1 que mejor
se ajuste a los datos observados se conoce como métodos de mínimos cuadrados.
Cualquiera de los valores de b0 y b1 que sean diferentes a los determinados por el método de
mínimos cuadrados tendrían como resultados una suma mayor de las diferencias al cuadrado
del valor real de Y y su valor predicho.
Al utilizar el método de mínimos cuadrados obtendremos las siguientes dos
ecuaciones conocidas como ecuaciones normales
Debemos resolverlas de manera simultanea para obtener b0 y b1 . Ya que se tienen
dos ecuaciones con dos incógnitas, podemos resolverlas de la manera siguiente:
7
y
Examinando las ecuaciones, observamos que se tienen cinco cantidades que deben
calcularse con el fin de determinar b0 y b1 . Estas son, n, el tamaño de la muestra;
, la suma de los valores X; la suma de los valores cuadrados de X,
, la suma de los valores de Y; y , las suma de los productos cruzados de X y Y.
La deducción de las formulas normales mediante el método de mínimos cuadrados se
realiza de la misma manera para otras funciones de grados superiores, logarítmicas y
potencial; con la cualidad de que tiene que estar en dos dimensiones,(x,y); para tres
dimensiones requiere análisis adicional.
8
CAPITULO III
“Modelos de Ecuación Regresión Simple”
En el diagrama de dispersión se puede observar un vago indicio del tipo de relación
que existe entre las variables. La naturaleza de la relación puede tomar muchas formas, desde
las sencillas hasta la mas complejas. La relación mas sencilla consiste en una línea o relación
lineal. De acuerdo a la forma que tome dicho diagrama así será la función que se utilizará,
de tal forma que describa adecuadamente la relación entre las variables. Los siguientes son
algunos ejemplos:
Y = a + bx (ecuación lineal)
Y = a + bx + cx2 (ecuación cuadrática)
Y = abx (ecuación exponencial)
Y = axb (ecuación potencial o polinomial)
Modelo de Línea Recta
El modelo de línea recta puede presentarse como:
Yi = β0 + β1Xi + єi
En la que β0 = la intersección Y para la población
β1 = pendiente de la población
єi = error aleatorio en Y para la observación i.
9
En este modelo, la pendiente de la recta β1 representa el cambio esperado en Y por
unidad de cambio en X; es decir, representa la cantidad que cambia la variable Y (ya sea
positiva o negativamente), con respecto a una unidad de cambio particular en X. Por otro
lado, la intersección en el eje Y, β0 , representa el valor promedio de Y cuando X es igual a
cero. Además, el último componente del modelo, єi , representa el error aleatorio en Y por
cada observación i que se presenta.
El modelo matemático apropiado que se debe seleccionar está influenciado por la
distribución de los valores de X y Y en el diagrama de dispersión.
X 1 1.5 2 3 2.5 2.5 3.5 4 4.5 4.5 5 6 6.5 8 7.5Y 3 4 3 5 4 5 6 6 6.5 7 7 8 8 10 9
Al graficar en el diagrama de dispersión:
La forma que toma el diagrama de dispersión (nube de puntos sobre la gráfica),
sugiere que se puede aplicar una función lineal. En ese caso es posible utilizar el método de
mínimos cuadrados. hay otros métodos además de el métodos mínimos cuadrado; pero es el
10
matemáticamente más exacto. La interpretación de este método esta en el capitulo anterior.
(para el caso lineal)
Xi Yi XY X2
1.0 3 3 11.5 4 6 2.252.0 3 6 43.0 5 15 92.5 4 10 6.252.5 5 12.5 6.253.5 6 21 12.254.0 6 24 164.5 6.5 29.25 20.254.5 7 31.5 20.255.0 7 35 256.0 8 48 366.5 8 52 42.258.0 10 80 647.5 9 67.5 56.2562 91.52 440.75 321
91.5 = 15a + 62b
440.75 = 62a + 321b
Se tiene que b = 0.97 y a = 2.09.
La ecuación de regresión queda así: Y = 2.09 +0.97X; si deseáramos estimar
cualquier de Y basta con conocer el de x y viceversa. Si quisiéramos encontrar el valor en Y
de X = 7
tendremos: Y = 2.09 + 0.97(7); Y = 8.88. Valor que no aparece en la tabla de valores,
pero es la mejor estimación, si los datos siguen la tendencia lineal.
Modelo de Ecuación Cuadrática.
11
Existe también la regresión curvilínea, y dentro de esta se encuentra el caso
parabólico o función de segundo grado ( o cuadrática) que podemos resolverla también
con el método de mínimos cuadrados.
Calculemos la ecuación de regresión para la siguiente información: Las cantidades
pertenecen a la cantidad de una sustancia química en reacción después de “X” minutos.
Xi(minutos) 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0Yi(gramos) 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35
Graficamos:
Podemos observar que el diagrama toma forma de parábola, de aquí que ajustaremos
una función de segundo grado: Yc = a + bx + cx2 . Para encontrar la ecuaciones normales
mediante el método de mínimos cuadrados. Σ(Yi –Yc)2 debe ser un mínimo.
Entonces se tiene Σ(Yi – a – bx – cx2)2 si derivamos con respecto a “a” , “b” y “c” y
dichas derivadas las igualamos a cero se obtienen las siguientes ecuaciones normales.
12
Calcularemos los datos necesarios para encontrar el valor de las constantes:
Xi Yi XY X2Y X2 X3 X4
1 34 34.0 34.00 1.00 1.000 1.00001.2 32 38.4 46.08 1.44 1.728 2.07361.5 26 39.0 58.50 2.25 3.375 5.06252 18 36.0 72.00 4.00 8.000 16.0000
2.5 18 45.0 112.50 6.25 15.625 39.06252.7 12 32.4 87.48 7.29 19.683 53.14413.0 14 42.0 126.00 9.00 27.000 81.00003.2 12 38.4 122.88 10.24 32.768 104.85763.5 15 52.5 183.75 12.25 42.875 150.06254 13 52.0 208.00 16.00 64.000 256.0000
4.5 18 81.0 364.50 20.25 91.125 410.06255 16 80.0 400.00 25.00 125.000 625.0000
5.2 22 114.4 594.88 27.04 140.608 731.16165.5 26 143.0 786.50 30.25 166.375 915.06256 35 210.0 1260.00 36.00 216.000 1296.0000
50.8 311 1038.1 4457.07 208.26 955.162 4685.5494Sustituyendo en el sistema:
311 = 15a + 50.8b + 208.26c (1)
1038.1 = 50.8a + 208.26b + 955.162c (2)
4457.07 = 208.26a + 955.162b + 4685.55c (3)
Simultaneando para eliminar la constante a:
311 = 15a + 50.8b + 208.26c (-50.8)
1038.1 = 50.8 a + 208.26b + 955.162c (15)
- 15798.8 = - 762a – 2580.64b – 10579.608c
15571.5 = 762 a + 3123.90b +14327.430c
-227.3 = 543.26b + 3747.822c (4)
Resolviendo (1) y (3):
311 = 15a + 50.8b + 208.26c (-208.26)
4457.07 = 208.26 a + 955.162b + 4685.55c (15)
-64768.86 = -3123.9a - 10579.608b - 43372.2276c
66856.05 = 3123.9 a + 14327.430b + 70283.25c
2087.19 = 3747.822b + 26911.0224c (5)
13
Resolviendo (4) y (5):
-227.3 = 543.26b + 3747.822c (-3747.822)
2087.19 = 3747.822b + 26911.0224c (543.26)
851879.9406 = - 2036041.779b – 14046169.75c
1133886.839 = 2036041.779b + 14619682.02c
1985766.779 = 573512.28c
c = 1985766.779 ; c = 3.46 573512.28
Sustituyendo el valor c en (4): -227.3 = 543.26b + 3747.822(3.46);
-227.3 = 543.26b +12967.46412;
b = -13194.76412 ; b = - 24.29 543.26
Sustituyendo los valores de c y b en (1) tenemos311 = 15a + 50.8(-24.29) + 208.26(3.46) ;
311 = 15a – 1233.932 + 720.5796
a = 824.3524 ; a = 54.96 15Entonces se tiene que:
Yc = a + bx + cx2 ; Yc = 54.96 – 24.29x + 3.46x2; con esta ecuación se puede estimar (predecir) cualquier valor de X comprendido entre 1.0 y 6.0.
Caso Exponencial: Yc = abx
Es recomendado en el calculo de tasa de crecimiento, aunque es viable a cualquier
otra variable.
El siguiente cuadro contiene la información correspondiente al numero de palabras
“Y” que un grupo de secretarias puede llegar a escribir de acuerdo al numero “X” de
entrenamiento:
Xi 1 2 3 4 5 6 7 8
14
Yi 15 18 25 30 35 45 53 70
Siguiendo los valores nos damos cuenta que por cada unidad X hay un cambio mayor
que proporcional en Y, pero es engañoso y es preferible graficar.
Graficamos:
Esta información se ajusta a la función exponencial Yc = abx tenemos: aplicando
logaritmos tenemos: log Yc = log abx ; aplicando propiedades de los logaritmos tenemos:
log Yc = log a + x log b. debemos minimizar Σ( log Yi – log Yc )2 . Sustituyendo tenemos
que: Σ( log Yi – log a – x log b)2 ;
Si derivamos con respecto a “a” y “b” e igualamos a cero tenemos las siguientes
ecuaciones normales:
Realizaremos los calculo necesarios para despejar las a y b.
15
Xi Yi log Yi X log Yi X2
1 15 1.1760913 1.1760913 1
2 18 1.2552725 2.5105450 4
3 25 1.3979400 4.1938200 9
4 30 1.4771213 5.9084850 16
5 35 1.5440680 7.7203400 25
6 45 1.6532125 9.9192750 36
7 53 1.7242759 12.0699313 49
8 70 1.8450980 14.7607840 64
36 291 12.0730795 58.2592716 204
Sustituyendo los valores de la tabla en las ecuaciones (1) y (2):
12.0730795 = 8 log a + 36 log b (1)
58.2592716 = 36 log a + 204 log b (2)
Multiplicando por - 9 la ecuación (1) y por 2 la ecuación (2):
-108.6577155 = - 72 log a – 324 log b
116.5185432 = 72 log a + 408 log b
7.8608279 = 84 log b
log b = 7.8608279 = 0.093581284 84b = 1.240455773.
Sustituimos este valor en la ecuación (1):
12.0730795 = 8 log a + 36 log (1.240455773)
12.0730795 = 8 log a +3.368926246
log a = 8.704153254 = 1.088019157; a = 12.24670218. 8
Sustituyendo en Yc = abx ; Yc = (12.24670218)(1.240455773)x
16
Si necesitáramos X= 2; Yc = (12.24670218)(1.240455773)2 ; Yc = 18.84; no es
exactamente el valor de la tabla (18) pero es una buena aproximación considerando que
podremos estimar cualquier valor entre 1 y 8.
Caso Potencial o Polinomial: Yc = axb
A la función Yc = axb le aplicamos logaritmos y tenemos; log Yc = log a + b log x.
Como Σ ( log Yi – log Yc)2 debe se un mínimo. Al derivar con respecto a “a” y “b” tenemos:
Ahora ajustaremos una función potencial a un conjunto de datos, correspondientes al
consumo y al ingreso( en unidades monetarias constantes) de cierta comunidad.
Denominaremos X al ingreso y Y al consumo.
X 2.0 2.1 2.4 2.4 2.5 2.8 3Y 1.6 1.7 2.0 2.1 2.2 2.5 2.6
17
En el siguiente cuadro están contenidos las columnas con las cálculos necesarios para
la aplicación de las ecuación de regresión.
Xi Yi log X log Ylog X. log
Y(log X)2
2.0 1.6 0.301030 0.204120 0.061446 0.0906192.1 1.7 0.322219 0.230449 0.074255 0.1038252.4 2.0 0.380211 0.301030 0.114455 0.1445612.4 2.1 0.380211 0.322219 0.122511 0.1445612.5 2.2 0.397940 0.342423 0.136264 0.1583562.8 2.5 0.447158 0.397940 0.177942 0.1999503.0 2.6 0.477121 0.414973 0.197992 0.227645
2.705890 2.213154 0.884865 1.069517
Sustituyendo en las ecuaciones normales:
2.213154 = 7 log a + 2.705890 b
0.884865 = 2.705890 log a + 1.069519b
Resolviendo las ecuaciones mediante el método de eliminación por sustitución
llegamos a los siguientes valores:
18
b = 1.2472; log a = -0.166 ; a = 0.68234.
la ecuación de la regresión es Yc = 0.68234X1.2472
Podemos encontrar cualquier valor ente 2.0 y 3.0 inclusive.
Para X = 2 ; Yc mediante la formula seria 1.62, y en la tabla esta 1.6; hay una
diferencia de 0.02 que es la precisión que se pierde en el redondeo y es el riesgo que se corre
al estimar.
Para X = 3; Yc = 2.69; en cambio en la tabla (datos de origen) es 1.7. y de la misma
manera nos es posible calculara cualquier valor de X dentro del intervalo.
A pesar de que los diagramas de dispersión pueden ser especialmente útiles en la
determinación de la forma matemática de la relación, existen procedimiento estadísticos más
sofisticados a fin de determinar el modelo más adecuado para un conjunto de variables, y no
tener que deducir “a ojo” cual es el que mejor se adapta, ya que no siempre es obvio el
modelo a seguir. Tal como fue en el caso anterior, en el que la gráfica a simple vista describe
una relación lineal, y hasta podría confundirse con una relación exponencial. En fin, la
decisión se vuelve más difícil en un intervalo corto con pocas observaciones.
Desviación Estándar de Regresión.
La desviación estándar de regresión llamada también “error estándar de estimación”
se define como la desviación típica de las desviaciones de los valores de Yi con respecto a Yc
en formula queda así:
Un método simplificado para calcular el error estándar de regresión lo da la
siguiente formula.
CAPITULO IV
“Coeficiente de Correlación”
19
Coeficiente de correlación. Ya hemos dicho anteriormente, que la correlación mide
la intensidad o fuerza con que están relacionadas las variables y será medida por el
coeficiente ´´r´´ de correlación.
Tipos de correlación.
Según el número de variables que estudiamos, la correlación puede ser:
a) Correlación simple. Cuando de estudia el grado de asociación o dependencia entre
dos variables.
b) Correlación múltiple: cuando se estudia el grado de asociación que puede existir
entre tres o mas variables; una de ellas dependiente y el resto independiente.
c) Correlación parcial: En el caso de la correlación múltiple, es la cuantificaron del
grado de asociación neta entre dos variables, una vez eliminad estadísticamente la
influencia de las otras variables independientes.
Atendiendo la naturaleza de la función y según el tipo de ecuación y regresión, la
correlación puede ser rectilínea, parabólica exponencial potencial etc.
a) Correlación directa o positiva: cuando ocurren aumentos o disminuciones en una
variable ocurren también en la otra variable ya que su relación es directamente
proporcional. (Dependientes, independiente)
b) Correlación inversa o negativa: esta relación es inversamente proporcional entre
las variables (dependientes, independiente)
Calculo del coeficiente de correlación r
20
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza
de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por
Francis Galton), estudiaremos los siguientes métodos:
• Con el método producto - momento de Karl Pearson.
• Correlación de rangos de Spearman
CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON
Desarrollado por Karl Pearson a finales de siglo, y algunas veces se le llama el
coeficiente de correlación producto-momento de Pearson. Representado con una r, el
coeficiente de correlación puede asumir cualquier valor entre -1 y 1; es decir,
-1 ≤ r ≤ 1
Un valor de r = -1 indica una relación negativa perfecta entre X y Y, tal como se
observa en la figura (a). Todas las observaciones quedan en línea recta perfecta con una
pendiente negativa. Por tanto, X y Y se moverán en direcciones opuestas. La figura (b)
muestra una relación positiva perfecta entre X y Y con r = 1. Como se anotó anteriormente, en
toda relación entre dos variables existe la posibilidad de que exista alguna variación alrededor
de la recta de regresión. Esto se observa en las figuras (c) y (d), las cuales muestran
relaciones fuertes pero menos perfectas. En ambos casos el valor absoluto de r se aproxima a
1. Por el contrario, la figura (e) muestra muy poca o ninguna relación entre X y Y, y r se
aproxima a cero. En general, entre mayor sea el valor absoluto de r, más fuerte será la
relación entre X y Y.
21
0
1
2
3
4
0 1 2 3 4
Poca o ninguna relación; no se puede dibujar una recta de ajuste
r ≈ 0
(e)
0
1
2
3
4
5
0 1 2 3 4
Fuerte Relación Positiva
r está cerca de +1
Y = f(X)
(c)
0
1
2
3
4
5
0 1 2 3 4
Fuerte Relación Negativa
r está cerca de -1
Y = f(X)
(d)
0
0,5
1
1,5
2
2,5
0 0,5 1 1,5 2 2,5
Relación Negativa Perfecta
r = -1
Y = f(X)
(a)
0
1
2
3
4
5
0 1 2 3 4
Relación Positiva Perfecta
r = 1
Y = f(X)
(b)
Karl Pearson llegó a la siguiente formula abreviado par calcular el coeficiente ´´r´´ de
correlación.
Podemos observar en la formula que teniendo las columnas necesarias para calcular la
ecuación de regresión, y agregando nada más la columna de los cuadrados de la variable
dependiente Y, se tiene la información necesaria para calcular el valor r.
En el siguiente ejemplo calcularemos el coeficiente de correlación con el método
estudiado anteriormente.
Calcular el coeficiente de correlación para la siguiente información relativa a los
tiempos de calentamientos (X), en minutos y los espesores de oxido (Y) de cierta pieza,
medidos de Angstrom1.
1 Angstrom: medida de longitud del sistema métrico, equivale a 0.1 de milimicra. Una milimicra = 0.000000001 metro. O también Angstrom = 0.000000001
22
Xi 10 20 30 40 50 60 80 90
Yi 3.2 7.5 7.0 8.2 14.0 16.4 15.1 20
Solución:
En el siguiente cuadro aparecen todos los cálculos pertinentes para calcular el valor de r.
X Y
10 3.2 32 100 10.2420 7.5 150 400 56.2530 7.0 210 900 49.0040 8.02 328 1,600 67.2450 14.0 700 2,500 196.0060 16.4 984 3,600 268.9680 15.1 1,208 6,400 228.0190 20.0 1,800 8,100 400.0380 91.4 5,412 23,600 1,275.7
Cálculo de r por el método producto – momento:
= 0.94
CORRELACIÓN DE RANGOS DE SPEARMAN.
El método de Pearson requiere valores numéricos precisos y el supuesto de
normalidad en la distribución de tales valores. En muchos casos, tal medida numérica no
23
puede ser posible, y puede no existir confirmación para el supuesto de normalidad. En tales
casos, no puede utilizarse el método de Pearson
No obstante, se puede todavía clasificar sistemáticamente u ordenar las
observaciones. Esta clasificación ordinal permite medir los grados de correlación entre dos
variables utilizando el coeficiente de correlación de rangos de Spearman que es una
prueba no paramétrica que mide la asociación o interdependencia entre dos variables
continuas. Para calcular rs, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico rs viene dado por la expresión:
Donde: rs = Coeficiente de correlación ordinal o por rangos (llamado comúnmente
correlación por rangos de Spearman.
di = es la diferencia entre las clasificaciones para cada observación.
n = es el tamaño de la muestra.
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no independencia. Entonces, entre más
se acerca el valor de rs a ± 1, más relación hay entre las variables expresadas en rangos.
Es importante aclarar que cuando dos o más observaciones están igualadas en orden,
a cada una se le asigna una media de los rangos.
Veamos primero un ejemplo donde no hay empates: El año pasado, Amco Tech, un
fabricante de microchips para computador en Estados Unidos, contrató a siete técnicos en
computación. A los técnicos se les practicó un examen diseñado para medir sus
conocimientos básicos. Después de un año de servicio, a su supervisor se le pidió clasificar el
24
desempeño laboral de cada técnico. Los puntajes del examen y las calificaciones del
desempeño para los siete empleados aparecen en la siguiente tabla:
Técnicos Puntaje en el examen Clasificación del desempeñoJ. Smith 82 4A. Jones 73 7D. Boone 60 6M. Lewis 80 3G. Clark 67 5A. Lincoln 94 1G. Washintong 89 2
Vale la pena observar que aunque el puntaje del examen es una medida cuantitativa
de los conocimientos de los técnicos, la clasificación del desempeño es simplemente una
medida ordenada por el supervisor para saber cuáles técnicos se estaban desempeñando
laboralmente bien. Por tanto, el jefe de operaciones decide utilizar la correlación de rangos de
Spearman para determinar si existe alguna relación entre los puntajes del examen y el
desempeño laboral. El director debe desarrollar primero la clasificación para los puntajes del
examen. Tales clasificaciones, junto con algunos cálculos necesarios aparecen en la tabla
siguiente:
Técnicos Puntaje en
el examen
Clasificación en la
prueba (X)
Clasificación por
el desempeño (Y)X – Y= di (X-Y)2 = di
2
J. Smith 82 3 4 -1 1A. Jones 73 5 7 -2 4D. Boone 60 7 6 1 1M. Lewis 80 4 3 1 1G. Clark 67 6 5 1 1A. Lincoln 94 1 1 0 0G. Washington 89 2 2 0 0
28 28 0 Σdi2 = 8
Cálculo de r por el método de rangos de Spearman:
25
Sustituyendo la formula:
Observaciones:
1. La suma de los rangos de ambas variables es siempre igual.
2. La suma de las diferencias entre los rangos es siempre cero.
3. El coeficiente de correlación r de Pearson de los rangos de las variables siempre es
igual al coeficiente de correlación rs de Spearman.
4. El coeficiente de correlación de r de Pearson calculado en las variables originales es
diferente del coeficiente rs de Spearman.
Comprobación de la observación 3:
Técnicos Clasificación en la
prueba (X)
Clasificación por
el desempeño (Y)XY X2 Y2
J. Smith 3 4 12 9 16A. Jones 5 7 35 25 49D. Boone 7 6 42 49 36M. Lewis 4 3 12 16 9G. Clark 6 5 30 36 25A. Lincoln 1 1 1 1 1G. Washintong 2 2 4 4 4
28 28 136 140 140
26
Veamos otro ejemplo. La siguiente información corresponde al número de semanas
de entrenamiento y el puesto (rango) que ha obtenido un grupo de corredores de seguros de la
PALIC de acuerdo al volumen de ventas que han realizado durante seis meses:
Vendedor Semanas de entrenamiento (X) Volumen de ventas expresadas en rango (Y)A. Villeda 5 10L. Flores 10 4M. Henríquez 10 6E. Escapini 30 1J. Pérez 25 3H. Bonilla 16 5S. Miranda 20 2A. Armas 8 8D. Jiménez 6 9G. Mira. 4 7
De acuerdo con estos resultados, ¿cree que vale la pena que los vendedores de la
compañía se preocupen por recibir entrenamiento para aumentar sus ventas?
Solución:
Un índice para contestar la pregunta puede ser el conocimiento del coeficiente de
correlación por rangos de Spearman, que nos puede decir el grado de relación existente entre
entrenamiento y volumen de ventas.
Para calcular el coeficiente por rangos tenemos que expresar las semanas de
entrenamiento en rangos, dando el rango 1 a quien tiene más entrenamiento. A continuación
se presentan, en el siguiente cuadro, los rangos correspondientes y el resto de columnas para
llevar a cabo el cálculo de rs.
VendedorEntrenamiento en
rango (X)
Volumen de ventas
en rango (Y)X – Y= di (X-Y)2 = di
2
A. Villeda 10.00 9.00 1.0 1.00L. Flores 4.00 5.50 -1.50 2.25M. Henríquez 6.00 5.50 0.50 0.25E. Escapini 1.00 1.00 0.00 0.00J. Pérez 3.00 2.00 1.00 1.00
27
H. Bonilla 5.00 4.00 1.00 1.00S. Miranda 2.00 3.00 -1.00 1.00A. Armas 8.00 7.00 1.00 1.00D. Jiménez 9.00 8.00 1.00 1.00G. Mira. 7.00 10.00 -3.00 9.00
55.00 55.00 0.00 17.50
Observemos que hay un empate en el quinto y sexto puesto (L. Flores y M. Henríquez); por
eso les asignamos a cada uno la medio de los rangos, o sea (5+6)/2 = 5.50.
De acuerdo a este resultado, vale la pena el entrenamiento para mejorar las ventas.
CAPITULO V
“Pruebas de Regresión y Correlación”
Prueba de hipótesis en la regresión lineal simple.
Una parte importante para evaluar la adecuación del modelo de regresión lineal simple
consiste en probar hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar
ciertos intervalos de confianza.
Para verificar si un modelo lineal, de la forma y = A + Bx, la variable independiente x afecta
la respuesta y, el parámetro B debe de ser diferente de cero. De otra forma se tendría y = A, y
no habría una contribución lineal de la variable x a la regresión.
El procedimiento para inferir la verificación consiste en comprobar el sistema de hipótesis.
28
La elaboración de la prueba se basa en los estimadores mínimos cuadráticos a y b de la recta
estimada Ŷ = a+ bx, y en sus propiedades.
Señalemos, sin demostración, las siguientes propiedades de b las cuales se generalizan a
todos los estimadores de los mínimos cuadrados.
Propiedades de b
• b es un estimador insesgado de B: E(b) = B.• Un estimador insesgado de la varianza de Y es:
• La varianza de b es:
• La desviación estándar de b es:
• B sigue una distribución normal con E(b) y Var(b).
• El estadístico sigue una ley de student con v = n – 2 grados de libertad.
(Al número de observaciones se le resta 2 debido a que se han estimado los
parámetros a y b de la recta de regresión).
Una vez encontrado el error estándar se utiliza la siguiente ecuación:
29
Prueba de hipótesis para correlación.
Esta prueba es equivalente a la prueba de hipótesis dada en la prueba de hipótesis de
regresión.
La manera de calcular el error estándar para este tipo de prueba es:
Una vez determinada la ecuación del error estándar para la correlación se aplica la
siguiente formula:
A continuación presentaremos un ejemplo que abarca la prueba de hipótesis tanto
para regresión como para correlación
Acciones del Banco Central de Reserva para frenar la inflación. Después de
aproximadamente seis años de expansión continuada, la economía salvadoreña comenzó a
presentar signos de presiones inflacionarias en el verano de 1988. Un articulo de La Prensa
Gráfica, describió los esfuerzos del Banco Central por calmar estos aires inflacionistas. Esto
debía hacerse restringiendo el suministro de dinero a través del aumento de la tasa de
descuento que la banca comercial debe pagar al Banco Central. En febrero de 1988, Carlos
Ernesto Euceda, vicepresidente del Banco Central de Reserva, dijo en una audiencia, que las
acciones referente a las tasas de descuento podrían predecirse sobre la base de la tasa de los
fondos estatales, la cual es el costo que los banco cobran entre ellos para los créditos de un
día para otro. Los controladores de la reserva argumentaron que la tasa de los fondos no
estaban sirviendo para predecir adecuadamente los cambios en la tasa de descuento, y que
este comportamiento deficiente dificultaba a los inversionistas intentar predecir qué nivel de
la tasa de interés permitiría el Banco Central.
30
A continuación se presentan los valores para la tasa de los fondos del Banco Central y
la tasa de descuento desde mediados de 1987 hasta mediados 1988. ¿Sustentan estos datos los
cargos de los controladores de la reserva?
Fecha Tasa de Fondos Estatales Tasa de Descuento (%)Junio de 1987 8.0 7.5Julio de 1987 7.5 7.5Agosto de 1987 7.0 7.0Septiembre de 1987 6.5 6.5Octubre de 1987 6.0 6.0Noviembre de 1987 6.0 5.5Diciembre de 1987 7.0 5.5Enero de 1989 6.0 5.5Febrero de 1988 7.0 5.5Marzo de 1988 7.5 5.5Abril de 1988 7.0 6.0Mayo de 1988 7.5 6.5Total: 83.0 74.5
Debido a que Carlos Euceda argumentó que la tasa de los fondos federales podría
explicar la conducta de la tasa de descuento, los fondos estatales se ven como variable
independiente.
La naturaleza de la relación entre la tasa de fondos estatales y la tasa de descuento es
analizable a través del análisis de regresión y correlación.
X = 83 Y = 74.5 YΣ Σ Σ 2 = 469.5
XY = 518.5 Σ = 6.21
XΣ 2 = 579 n = 12
SCx = XΣ 2 –( X)Σ 2/n = 4.916666667
SCy = YΣ 2 –( Y)Σ 2/n = 6.72917
SCxy = XY –( X) ( Y)/n =3.20833Σ Σ Σ
b1 = SCxy/ SCx
b1 = 0.6525
31
b0 = 1.6949
Por tanto la ecuación es:
El coeficiente de determinación es:
= 0.3111
r = 0.56
Los controladores de la reserva tienen razón en su critica de la tasa de los fondos
estatales como predictor de los cambios en la tasa de descuento. Solo el 31% de los cambios
en la tasa de descuento se explican mediante los cambios en la tasa de los fondos estatales.
Una medida de bondad de de ajuste que refleja la capacidad de la tasa de los fondos
estatales para predecir la tasa de descuentos es el error estándar de estimación.
El error estándar de estimación es:
= 4.63033
CME = SCE/(n-2)
= 4.63033/(12-2) = 0.463033
Se = 0.6808
Típicamente, el estimado de la tasa de descuento está en error en 0.68 de un punto
porcentual.
Una prueba de significancia del coeficiente de correlación sería muy útil en este
punto. Sea el nivel de confianza 95%. Con 10 grados de libertad el valor crítico de t es por
tanto ±2.228.
Las hipótesis son:
32
Regla de decisión: “no rechazar la Ho si t está entre ±2.228. De lo contrario
rechazar”.
= 0.56/0.2627 = 2.13
La hipótesis nula no debe rechazarse. A pesar del hallazgo muestral de una relación
positiva entre las tasas de fondos estatales y la tasa de descuento, no se puede rechazar la
hipótesis de que no hay correlación. El coeficiente de correlación muestral no es significativo
al nivel del 5%.
Una prueba de la significancia del coeficiente de regresión de b1= 0.6525424 nos es
útil, y sabio. La prueba se realizará al nivel del 99%. Con 10 grados de libertad, el valor
critico t es ±3.169.
Regla de decisión: “No rechazar si t está entre ±3.169. De lo contrario rechazar.”
En donde:
La hipótesis de que β1= 0 no debe rechazarse. El valor para b1 no es
significativamente diferente de cero al nivel del 1%. Hay muy poca confianza o nada de
confianza en la tasa de los fondos estatales como predictor de la tasa de descuento. Sería
33
imprudente de parte de los inversionistas confiar en los fondos estatales como indicador del
comportamiento de la tasa de descuento y de otras tasas de interés.
Prueba de hipótesis para la correlación de rangos de Spearman.
Con frecuencia se desea comprobar la hipótesis de que el coeficiente de correlación
poblacional. ρ es cero. Es decir, se desea determinar la probabilidad de que a pesar de los
hallazgos de la muestra que sugiere una relación entre el puntaje y la clasificación, en
realidad no existe tal relación y ρ= 0.
Para las muestras pequeñas (n<30). La distribución de rs no es normal, ni la prueba t
es apropiada. Para ello debemos utilizar la tabla que el anexo al final de este trabajo, es la
tabla de correlación de rangos de Spearman.
Si n>30, la distribución de rs se aproxima a la normalidad con una media igual a cero,
y con una desviación estándar de . El estadístico de prueba Z es:
34
CAPITULO VI
“Regresión Lineal Múltiple”
Anteriormente se analizo como una sola variable explicativa podría utilizarse para
predecir el valor de la variable dependiente. Se considera como mas poderoso podría
volverse el modelo si se utilizaran mas variables explicativas. Esto es precisamente lo que el
modelo de regresión lineal múltiple hace, permitiendo incorporar dos o más variables
independientes. El modelo de regresión múltiple con k variables independientes se expresa
como:
En donde (ß) son los coeficientes de regresión y (ε) es el termino de error aleatorio.
Se estima el modelo utilizando los datos muéstrales así:
35
En donde Ŷ es el valor estimado para la variable dependiente y bi son los
estimados para los coeficientes poblacionales (β) y bi se denominan coeficientes parciales
( o netos) de regresión y tienen la misma interpretación que en la regresión simple. Por
tanto, bi,, es la cantidad por la cual Y1 cambiara si X1 cambia en una unidad asumiendo que
todas las otras variables independientes se mantienen constantes.
Además de los supuestos establecidos en la regresión simple se establecen dos mas: el
primer supuesto requiere que el numero de observaciones n , exceda el numero de variables
independientes k, en por los menos 2, en la regresión múltiple hay k+1 parámetros por
estimar: los coeficientes para las variables independientes k más el intervalo del
intercepto. Por tanto los grados de libertad relacionados con el modelo son g.l= n – (K + 1).
Si se va a retener incluso un grado de libertad, n debe exceder a k en por lo menos 2, de
manera que n – (K + 1) es por lo menos 1.
El segundo supuesto involucra la relación entre las variables independientes requiere
que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si
X1= X2 + X3, o quizá X1 = 0.5 X2, entonces una relación lineal existiría entre dos o mas
variables independientes y surgiría un problema grave. Este problema es la
multicolinealidad. Y este existe si dos o más variables independientes están relacionadas
linealmente. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes
sean opuestos a lo que la lógica pueda dictar, mientras que incrementan bastamente el error
estándar de los coeficientes.
A los parámetros (βj), j= 0. 1,……, k, se les denomina coeficientes de regresión. A
los parámetros (βj), j= 0. 1, ……,k, a veces se les denomina coeficientes parciales de
regresión , debido a que describen el efecto parcial de una variable independiente cuando las
otras variables independientes del modelo se conservan constantes.
Los modelos de regresión lineal múltiple a menudo se utilizan como funciones de
aproximación. Esto es, se desconoce la verdadera relación funcional entre y y x1, x2,. . . . . ,
36
xK, pero sobre ciertos intervalos de valores de las variables independientes el modelo de
regresión lineal es una aproximación adecuada.
Desviación estándar de regresión múltiple
Se define como la desviación típica de las desviaciones de los valores de X1 con
respecto a los valores calculados Xic y se denota con el símbolo S1.23, donde el primer
subíndice indica la variable dependiente, y los subíndices secundarios indican las variables
independientes. Se calcula de una manera similar a la desviación estándar de la regresión
simple, o sea:
También existe un método abreviado para calcular este valor, sin calcular los
valores de
( X1 – X1c ) 2 :
La desviación estándar de regresión múltiple se usa como medida de la bondad de
las estimaciones basadas en la ecuación de regresión; entre menor sea el valor de S1.23 menor
es la dispersión de los valores de X1
Con respeto a los valores estimados X1c ; y por lo tanto, las estimaciones de la
variable dependiente serán más confiables ; es decir, más parecidas a los valores reales de X1.
Para calcular los estadísticos bo, b1, b2,…., br, basta con extender el procedimiento de
minimización de la suma de los cuadrados de los errores aleatorios
37
Las derivadas parciales de la SCE con respecto a cada uno de los estadísticos bj, j =
0,1,….r, igualadas a cero, originan un sistema de r + 1 ecuaciones con r + 1 incógnitas.
Cuando solo hay dos variables independientes, el sistema completo de ecuaciones
normales es como sigue:
Ahora se presenta un sistema de ecuaciones normales para r 2
De acuerdo con esta ecuación, todas las sumatorias, aun cuando no tengan subíndices,
se extienden a todas las observaciones desde i= 1, 2,.. n.
Ahora bien el problema se reduce a resolver el sistema de ecuaciones normales para b0, b1,
y b2 y obtener la recta de regresión:
Nota que par r = 3 variables independientes, se debe resolver un sistema de r + 1 = 4
ecuaciones con 4 incógnitas, y así sucesivamente para r= 4, r= 5, etc. Por ende, es necesario
aplicar algebra matricial para resolver los sistemas de ecuaciones normales resultante.
38
Ecuaciones normales
para una regresión múltiple con r
variables independientes.
Ejemplo:
Investigar si el salario mensual (Y) que devenga un trabajador, de una compañía
depende directamente del numero de años de educación formal que ha recibido (X1 ), y del
tiempo que lleva trabajando en la empresa (X2 ). Determinar una ecuación lineal de Y sobre
X1 y X2 para la siguiente muestra de 9 trabajadores (Y: en miles de dólares X1 y X2 : en años
).
Y 11.2 12.3 7.6 11.6 4.3 6.9 6.5 2.5 13.1X1 16 18 17 18 13 16 16 8 16X2 18 20 4 10 10 6 2 20 25
Solución:
Para darle solución a este ejercicio primero se hacen las sumatorias y las
multiplicaciones respectivas de la siguiente manera:
y X1 X2 X1 y X12 X1 X2 X2 y X2
2
11.2 16 18 179.2 256 288 201.6 32412.3 18 20 221.4 324 360 246 4007.6 17 4 129.2 289 68 30.4 1611.6 18 19 208.8 324 342 220.4 3614.3 13 10 55.9 169 130 43 1006.9 16 6 110.4 256 96 41.4 366.5 16 2 104 256 32 13 42.5 8 20 20 64 160 50 40013.1 16 25 209.60 256 400 327.5 62576 138 124 1238.5 2194 1876 1173.3 2266
Se harán las sustituciones de los valores encontrados en la ecuación de los mínimos
cuadrados para después llevarlas a la forma de la ecuación lineal estimada que se ha detallado
anteriormente como resultado el sistema de ecuaciones nos queda de la siguiente manera:
76 = 9 bo + 138 b1 + 124 b2
39
1238.5= 138 b0 + 2194 b1 +1876 b2
1173.5= 124 b0 + 1876 b1 +2266b2
Las solución a este sistema de ecuaciones mediante el método de simultáneo o de
eliminación arroja los siguientes resultados:
bo = - 11.0592, b1 = 1.0267 , b 2 = 0.2730
Por lo tanto, la ecuación de regresión viene dada por:
Ý = - 11.0592 + 1.0267 x1 + 0.2730 x2
Si X1 = X2 (un trabajador cuyos años de trabajo con la empresa coinciden con los
años de educación formal) la variable x1 es la que contribuye más a una respuesta salarial
40
Capitulo VII
“Ejercicios Resueltos”
Ejercicio de diagrama de dispersión.
Dado los siguientes datos para X y Y
X: 28, 54, 67, 37, 41, 69, 76.
Y: 14, 21, 36, 39, 18, 54, 52.
a. Haga un diagrama de dispersión para los datos:
b. ¿Qué sugieren los datos sobre una relación entre X y Y?
c. Hacer una recta para aproximar la línea de relación.
Sugieren una relación lineal positiva.
41
Regresión con Mínimo Cuadrado.
Un economista del Departamento de Recursos Humanos de Florida State está
preparando un estudio sobre el comportamiento del consumidor. Él recolectó los documentos
que aparecen en miles de dólares para determinar si existe una relación entre el ingreso del
consumidor y los niveles de consumo. Determine cuál es la variable dependiente.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2
a. Haga un diagrama de dispersión para los datos.
b. Calcule e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la
relación entre el consumo y el ingreso?, ¿Qué proporción de cada dólar adicional que
se gana se invierte en consumo?
c. ¿Qué consumo pronosticaría el modelo para alguien que gana US$27,500.00?
Solución:
42
a. Se determina que la variable dependiente es el consumo, debido a que las
personas consumiran dependiendo del nivel de ingreso que posean; elaborando
el diagrama de dispersión, se establece que posee un relación lineal positiva
b. Cálculo de la regresión.
Consumidor Ingresos (X) Consumo (Y) XY X2 Y2
1 24.3 16.2 393.66 590.49 262.442 12.5 8.5 106.25 156.25 72.253 31.2 15.0 468.00 973.44 225.004 28.0 17.0 476.00 784.00 289.005 35.1 24.2 849.42 1,232.01 585.646 10.5 11.2 117.60 110.25 125.447 23.2 15.0 348.00 538.24 225.008 10.0 7.1 71.00 100.00 50.419 8.5 3.5 29.75 72.25 12.2510 15.9 11.5 182.85 252.81 132.2511 14.7 10.7 157.29 216.09 114.4912 15.0 9.2 138.00 225.00 84.64Σ 228.9 149.1 3,337.82 5,250.83 2,178.81
43
Este modelo indica que si se mantiene constante el consumo, por cada aumento de
$1,000.00 en el ingreso, se pronostica que las personas aumentaran su consumo en $558.00
c. Pronostico para alguien que gana US$27,500.00
Se pronostica que si obtiene un ingreso de $27,500.00, invertirá en consumo
$15,346.77.
Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson.
La siguiente información corresponde a la temperatura (°F) y a la dilatación de un
determinado material:
Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1
44
a. Determinar la ecuación de regresión, usando como variable dependiente la que
usted estime conveniente.
b. Calcule la desviación estándar de regresión.
c. Calcule el coeficiente de correlación.
a. Se determina que la variable dependiente es la dilatación, debido a que
determinado material se dilatará dependiendo de la temperatura en que se
encuentre; entonces:
Temperatura (X) Dilatación (Y) XY X2 Y2
87 5.0 435.0 7,569.0 25.0050 2.2 110.0 2,500.0 4.8475 4.1 307.5 5,625.0 16.8190 5.4 486.0 8,100.0 29.1655 2.8 154.0 3,025.0 7.8454 3.0 162.0 2,916.0 9.0068 3.6 244.8 4,624.0 12.9685 4.9 416.5 7,225.0 24.0182 4.1 336.2 6,724.0 16.8180 4.2 336.0 6,400.0 17.6445 2.0 90.0 2,025.0 4.0058 2.7 156.6 3,364.0 7.2966 3.1 204.6 4,356.0 9.61895 47.1 3,439.2 64,453.0 184.97
Sustituyendo en las ecuaciones normales:
Igualando a en la primera ecuación.
45
Igualando b en la segunda ecuación.
Igualando las ecuaciones para encontrar b
Encontrando a:
Finalmente la ecuación de regresión queda así:
b. Desviación estándar de la regresión
Aplicando la formula abreviada:
c. Coeficiente de correlación
Aplicando el coeficiente de correlación de producto- momento:
46
Ejercicio de coeficiente de correlación por el método de rangos de Spearman.
La siguiente información corresponde a los costos y a las ventas, en miles de colones
de 12 tiendas:
Tiendas Costos (X) Ventas (Y)1 11 192 10 153 14 204 13 145 12 166 20 337 21 328 15 189 22 2910 18 2211 19 2312 16 20
Calcular el coeficiente de correlación por rangos.
Tienda
sCostos (X) Ventas (Y) Rango X Rango Y (X-Y)= di (X-Y)2=di
2
1 11 19 11 8 3 92 10 15 12 11 1 13 14 20 8 6.5 1.5 2.254 13 14 9 12 -3 95 12 16 10 10 0 06 20 33 3 1 2 47 21 32 2 2 0 08 15 18 7 9 -2 49 22 29 1 3 -2 410 18 22 5 5 0 011 19 23 4 4 0 012 16 20 6 6.5 -0.5 0.25
78 78 0 33.5
47
Cálculo de r por el método de rangos de Spearman:
Sustituyendo la formula:
Finalizando con el valor del coeficiente
Ejercicio de regresión múltiple.
Suponga que una compañía grande de productos de consumo desea medir la
efectividad de los diferentes medios de propaganda en la promoción de sus productos. En
especial, se van a estudiar dos tipos de medios de promoción: propaganda en radio y
televisión y propaganda en periódicos (incluyendo el costo de los cupones de descuento). Se
seleccionó una muestra de 22 ciudades cuya población es aproximadamente igual para
realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le asignó un
nivel de gastos específico para publicidad de radio y televisión y para publicidad en
periódicos. Se registraron las ventas del producto (en millones de dólares) durante el mes de
prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes resultados:
Ciudad
Ventas
(miles de
dólares)
Publicidad en
radio y televisión
(miles de dólares)
Publicidad en
periódicos (miles
de dólares) Ciudad
Ventas
(miles de
dólares)
Publicidad en radio
y televisión (miles
de dólares)
Publicidad en
periódicos
(miles de
dólares)
1 973 0 40 12 1,577 45 452 1,119 0 40 13 1,044 50 03 875 25 25 14 914 50 04 625 25 25 15 1,329 55 255 910 30 30 16 1,330 55 256 971 30 30 17 1,405 60 307 931 35 35 18 1,436 60 308 1,177 35 35 19 1,521 65 359 882 40 25 20 1,741 65 3510 982 40 25 21 1,866 70 40
48
11 1,628 45 45 22 1,717 70 40
Lleve a cabo un análisis de regresión lineal múltiple. Basándose en los resultados
obtenidos:
a. Establezca la ecuación de regresión múltiple.
b. Interprete el significado de las pendientes en este problema.
a. Calculo de la ecuación de regresión múltiple:
Establecemos las ventas (Y) como la variable dependiente y los gastos en publicidad
en radio y televisión (X1) y los gastos en periódicos (X2) como las variables
independientes a continuación se elabora una tabla con los datos necesarios para
establecer la ecuación de regresión múltiple:
Ciudad Y X1 X2 YX1 YX2 X1 X2 X1X2
1 973 0 40 0 38,920 0 1,600 02 1,119 0 40 0 44,760 0 1,600 03 875 25 25 21,875 21,875 625 625 6254 625 25 25 15,625 15,625 625 625 6255 910 30 30 27,300 27,300 900 900 9006 971 30 30 29,130 29,130 900 900 9007 931 35 35 32,585 32,585 1,225 1,225 1,2258 1,177 35 35 41,195 41,195 1,225 1,225 1,2259 882 40 25 35,380 22,050 1,600 625 1,00010 982 40 25 39,280 24,550 1,600 625 1,00011 1,628 45 45 73,260 73,260 2,025 2,025 2,02512 1,577 45 45 70,965 70,965 2,025 2,025 2,02513 1,044 50 0 52,200 0 2,500 0 014 914 50 0 45,700 0 2,500 0 015 1,329 55 25 73,095 33,225 3,025 625 1,37516 1,330 55 25 73,150 33,250 3,025 625 1,37517 1,405 60 30 84,300 42,150 3,600 900 1,80018 1,436 60 30 86,160 43,080 3,600 900 1,80019 1,521 65 35 98,865 53,235 4,225 1,225 2,27520 1,741 65 35 113,165 60,935 4,225 1,225 2,27521 1,866 70 40 130,620 74,640 4,900 1,600 2,80022 1,717 70 40 120,190 68,680 4,900 1,600 2,800
49
Σ 26,953 950 660 11264,040 851,410 49,250 22,700 28,050
Sustituyendo en las ecuaciones:
(1)
(2)
(3)
La solución a este sistema de ecuaciones mediante el método de eliminación por
sustitución arroja los siguientes resultados:
Igualando b0 en la ecuación 1:
Igualando b0 en la ecuación 2:
Simultaneando:
50
(4)
Igualando b0 en la ecuación 1:
Igualando b0 en la ecuación 3:
Simultaneando:
(5)
Igualando b1 en la ecuación 4:
Igualando b1 en la ecuación 5:
Simultaneando:
51
Encontrando b1, sustituyendo b2 en la ecuación 4.
Encontrando b0, sustituyendo b1 y b2 en la ecuación 1.
Por lo tanto, la ecuación de regresión viene dada por:
b.
Este modelo indica que manteniendo constante los gastos de publicidad en periódicos,
por cada aumento de $1,000.00 en la publicidad en radio y televisión, se predice que las
ventas aumentaran en $ 13,092.90. Manteniendo los costos de publicidad en radio y
52
televisión constantes, por cada aumento de $1,000.00 en publicidad en periódico, se predice
que las ventas aumentaran en $ 16,797.20.
Ejercicio de prueba de hipótesis.
Los licenciados de estadística de la UES están realizando un estudio para analizar la relación
entre los ingresos de las personas y sus niveles de consumo. 11 consumidores reportaron las
siguientes cifras en miles de dólares. Al nivel de significancia del 5%, ¿El coeficiente de
correlación de rangos de Spearman sugiere alguna relación?
Ingresos 97 58 69 47 58 38 91 67 68 47 48Consum
o
55 63 54 37 45 38 71 52 53 37 37
Solución:
Se plantean las siguientes hipótesis.
La hipótesis nula implica que no existe relación, y la alternativa expresa la existencia de
relación.
En la siguiente tabla están contenidos los datos necesarios para la aplicación de la formula de
correlación por rangos de Spearman. Como los datos son 11 se establecen 11 rangos donde al
mayor “97” se le asigna 1 y al menor 11.
53
Ingreso Consumo Rango X Rango Y di di2
97 55 1 3 -2 458 63 6.5 2 4.5 20.2569 54 3 4 -1 147 37 9.5 10 -0.5 0.2558 45 6.5 7 -0.5 0.2538 38 11 8 3 991 71 2 1 1 167 52 5 6 -1 168 53 4 5 -1 147 37 9.5 10 -0.5 0.2548 37 8 10 -2 4
66 66 0 42
Se utiliza la formula siguiente
Ya que n<30 se utiliza la tabla del anexo al final de este trabajo. Cuando n = 11 y a = 0.05,
resulta un valor critico de 0.6091.
Interpretación: Dado que el valor calculado es mayor que el critico se rechaza la
hipótesis nula, implica que si existe relación entre ingreso y consumo.
CONCLUSIONES
• En relación a la regresión, surgen dificultades en relación a la elección al tipo de
modelo a elegir; es recomendable no realizar la elección del modelos de regresión a
simple vista, ya que incluso un cambio en la escala en el diagrama de dispersión
54
Zona de no rechazoa = 0.025a = 0.025
-0.6091 0.6091
0.8091
ocasiona un efecto visual que resulta engañoso. Para el caso, grupo de datos que se
puede adaptar a una distribución exponencial, si dicha tendencia es poco marcada,
podría suponerse que sigue una relación lineal o incluso potencial. Hay casos que
hasta la gráfica resulta de utilidad limitada debido a que la gráfica no muestra de
manera clara la tendencia que sigue. Cabe recordar que un error en el método
aplicado no proporcionar los resultado óptimos.
• La regresión es una técnica que ayuda a la predicción, pero no dice exactamente lo
que ocurrirá, dice lo que podría ocurrir, nos propicia elementos de juicio para decidir,
pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total. Se puede
estimar ventas por cierta cantidad, que será útil para establecer cuanto producir, mas
no son garantías suficientes de que se darán la estimaciones.
• Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina;
ningún método o técnica podrá librarnos de nuestras malas decisiones. Además de
que el proceso de obtención de los datos a utilizar como insumo para la predicción
podría ser subjetivo, y por ende no se lo suficientemente certero en los resultados.
• Sujetarse demasiado en las predicciones, no es fundamento para el desarrollo
creativo y decisiones novedosas, esto en el caso de las empresa, ya que no es base
suficiente como para decidir quien esta siendo mas novedoso en el tiempo. Es decir
que se ve limitado en el campo cualitativo.
• La regresión al considerar de manera funcional las variables en estudio vuelve más
objetiva la manera de generar los elementos (ecuación) para predecir valores dentro
del intervalo.
55
• Lo más importante para determinar el coeficiente de correlación dependerá de los
datos que se estén estudiando, ya que si lo que se estudia son datos cuantitativos, la
mejor forma de determinarlos sería por el método de momento-producto de Karl
Pearson; pero si los datos en estudio son cualitativos, no paramétricos, el mejor
método es el método de rangos de Spearman.
• Es posible realizar una aproximación del método de Spearman al método de Pearson,
una vez se le han asignado rangos a las observaciones, si no se realiza no será
adecuada la aproximación. Con esto es posible el tratamiento de datos cualitativos
con métodos cuantitativos.
• En la medida en que aumenta el numero de variables en la regresión múltiple, más
complicado y largos se vuelven las operaciones, siendo necesario incluso la
aplicación de matrices, métodos computarizados y no siempre se tiene programas
disponibles o para su utilización es necesaria especialización.
• Para comprobar si el modelo de regresión simple es el adecuado se puede aplicar
pruebas de hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar
ciertos intervalos de confianza. Esto es como una manera de encontrar posibles
errores en la elección del modelo aplicado, y volver lo más acertada posible la
regresión.
• El método matemáticamente más exacto para encontrar la función de la regresión es
el método de mínimos cuadrados.
56
Anexo I
Tabla de correlación de rangos de Spearman
57
Bibliografía
• Bonilla, Gildaberto, Estadística II métodos prácticos de inferencia estadística, 2da
edición, UCA editores, San Salvador, El Salvador 1992.
• Berenson, Mark L y Levine, M. David, Estadística básica en administración, sexta
edición, Prentice Hall Hispanoamericana S.A, México 1996
• Heldebrand, K. David y Ott. Lyman, Estadística aplicada a la administración y a la
economía, Pearson Prentice Hall, Tercera edición, México 1998.
• Hines , W. William y Montgomery, C.Douglas, Probabilidad y Estadística para
Ingeniería y Administración, CECSA, México 1987.
• Moore, S. David, Estadística Aplicada Básica, España 1995
• Salguero Hernández, José Alberto, Elementos de Probabilidad y Estadística, UCA
editores, San Salvador, El Salvador, 2002.
• Spiegel, Murray R, Teoría y Problemas de Probabilidad y Estadística Mc. Grawhill,
México 2004.
• Webster, L.Allen, Estadística Aplicada a los Negocios y la Economía, Tercera
Edición, Mc Grawhill, Colombia 2000
• www.wikipedia.org
• www.monografias.com
58