10
Regresión Lineal Simple con SPSS José Andrey Zamora Araya Universidad Nacional Heredia Costa Rica [email protected] Eduardo Aguilar Fernández Universidad Nacional Heredia Costa Rica [email protected] RESUMEN Mediante un taller se pretende ejemplificar la técnica de regresión lineal para el análisis de datos como una herramienta básica utilizada en las ciencias exactas y naturales. Con ayuda de un programa estadístico como el SPSS, se trabajará en problemas donde se requiera para su resolución la aplicación de la técnica de regresión lineal verificando para ello el cumplimiento de supuestos y la manera de analizar los datos arrojados por el programa enfatizando en su debida interpretación. Palabras claves Estadística, Regresión Lineal, Análisis de datos y SPSS 1. OBJETIVOS DEL TALLLER Al finalizar el taller se espera que los participantes sean capaces de Manipular los comandos básicos del SPPS -15 para la captura y análisis de datos Realizar un análisis de regresión simple utilizando los comandos correspondientes del SPSS Verificar los supuestos subyacentes en el análisis de regresión lineal simple. Interpretar las salidas que el programa SPSS arroja cuando se realiza un análisis de regresión lineal Tomar la (as) decisión (es) respecto al problema (s) planteado (s) en el análisis de regresión lineal 2. METODOLOGÍA Se realiza una presentación teórica acerca del análisis de regresión lineal sus principales usos, características, ventajas, limitaciones y los supuestos subyacentes para poder realizar el análisis. Posteriormente, se ambienta a los y las participantes del taller en el manejo de los comandos básicos del SPSS, los principales menús, como definir variables, tipos de escalas, etc. Seguidamente, se presenta una situación donde se requiera la utilización del análisis de regresión lineal y para ello se dispondrá de una base de datos para poder realizar los cálculos respectivos en el computador. Con ayuda de los comandos del SPSS, se indicaran los procedimientos a seguir para el chequeo de supuestos, cálculos de coeficientes, pruebas de hipótesis e interpretación de los resultados. Análisis de regresión lineal mediante SPSS Muchas de las investigaciones se dedican a estudiar variables de manera tal que pueda determinarse la existencia de cierta relación entre ellas con el fin de realizar a cabo explicaciones más precisas sobre la naturaleza de cierto fenómeno. Por ejemplo, un agrónomo podría estar interesado determinar si la producción de una cosecha específica puede estar estrechamente relacionada con la temperatura, tipo de suelo, el clima y el tipo de abono aplicado.

Regresion Lineal Simple Con Spss

Embed Size (px)

Citation preview

Page 1: Regresion Lineal Simple Con Spss

Regresión Lineal Simple con SPSS

José Andrey Zamora Araya Universidad Nacional

Heredia Costa Rica

[email protected]

Eduardo Aguilar Fernández Universidad Nacional

Heredia Costa Rica

[email protected]

RESUMEN

Mediante un taller se pretende ejemplificar la técnica de regresión lineal para el análisis de datos como una herramienta básica utilizada en las ciencias exactas y naturales. Con ayuda de un programa estadístico como el SPSS, se trabajará en problemas donde se requiera para su resolución la aplicación de la técnica de regresión lineal verificando para ello el cumplimiento de supuestos y la manera de analizar los datos arrojados por el programa enfatizando en su debida interpretación.

Palabras claves Estadística, Regresión Lineal, Análisis de datos y SPSS

1. OBJETIVOS DEL TALLLER

Al finalizar el taller se espera que los participantes sean capaces de

• Manipular los comandos básicos del SPPS -15 para la captura y análisis de datos

• Realizar un análisis de regresión simple utilizando los comandos correspondientes del SPSS

• Verificar los supuestos subyacentes en el análisis de regresión lineal simple.

• Interpretar las salidas que el programa SPSS arroja cuando se realiza un análisis de regresión lineal

• Tomar la (as) decisión (es) respecto al problema (s) planteado (s) en el análisis de regresión lineal

2. METODOLOGÍA Se realiza una presentación teórica acerca del análisis de regresión lineal sus principales usos, características, ventajas, limitaciones y los supuestos subyacentes para poder realizar el análisis. Posteriormente, se ambienta a los y las participantes del taller en el manejo de los comandos básicos del SPSS, los principales menús, como definir variables, tipos de escalas, etc. Seguidamente, se presenta una situación donde se requiera la utilización del análisis de regresión lineal y para ello se dispondrá de una base de datos para poder realizar los cálculos respectivos en el computador. Con ayuda de los comandos del SPSS, se indicaran los procedimientos a seguir para el chequeo de supuestos, cálculos de coeficientes, pruebas de hipótesis e interpretación de los resultados.

Análisis de regresión lineal mediante SPSS

Muchas de las investigaciones se dedican a estudiar variables de manera tal que pueda determinarse la existencia de cierta relación entre ellas con el fin de realizar a cabo explicaciones más precisas sobre la naturaleza de cierto fenómeno. Por ejemplo, un agrónomo podría estar interesado determinar si la producción de una cosecha específica puede estar estrechamente relacionada con la temperatura, tipo de suelo, el clima y el tipo de abono aplicado.

Page 2: Regresion Lineal Simple Con Spss

Por otro lado, investigadores en salud podrían estar interesados en determinar si el desarrollo de una enfermedad coronaria del corazón puede estar asociada, y en que grado, a la edad, nivel de catecolamina, nivel de colesterol, anormalidad en el electrocardiograma, fumado y estado de hipertensión. De esta manera pueden elaborarse una serie de ejemplos en los que puede identificarse la dependencia de una variable; la cual es conocida como variable dependiente, explicada, predicha, regresada, entre otras, con respecto a una o más variables que se denominan independientes, explicativas, predictoras, regresadas. Para el tratamiento de estos ejemplos existe en Estadística el procedimiento conocido como análisis de regresión, el cual se encarga de investigar la relación de dos o más variables de manera determinista. De tal manera que si se estudia la dependencia de una variable con respecto a otra variable, dicho estudio es conocido como análisis de regresión simple; mientras que si el estudio muestra la relación de una variable con respecto a un conjunto de dos o más variables el análisis se conoce como análisis de regresión múltiple Ejemplo 1 Supongamos la existencia de dos variables x, y de manera que se obtienen 10 observaciones durante un proceso de investigación. Los resultados obtenidos se muestran a continuación.

n 1 2 3 4 5 6 7 8 9 10 x 12 14 19 21 28 35 49 54 56 63 y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10,0 10,2 10,0

Para realizar el análisis, construimos inicialmente un diagrama de dispersión para los datos observados, de manera que cada par de observaciones son presentadas como un punto de la forma (x, y) dentro de un plano coordenado de dos dimensiones. La figura siguiente nos muestra la distribución de los valores hipotéticos de y correspondientes al conjunto de valores dados o fijos de x.

Figura 1: Gráfica de dispersión para los datos del ejemplo 1 Como se puede observar en la gráfica, pareciera existir una relación directa de la variable y con respecto a la variable x en el sentido de que conforme x aumenta, la variable y también aumenta.

El modelo de regresión lineal simple El análisis de regresión trata del estudio de la dependencia de una variable respecto a una o más variables con el objetivo de predecir o estimar la media poblacional de la primera en términos de los valores conocidos de las otras. Así, dentro de las relaciones matemáticas que se establecen entre dos variables se tiene la lineal, de tal forma que para dos variables x, y se

puede establecer la relación 0 1y a a x= + , que gráficamente determina una línea recta de pendiente 1a y de intersección 0a .

Figura 2. Puntos correspondientes a las observaciones del modelo de regresión lineal

xaay 10 +=

Page 3: Regresion Lineal Simple Con Spss

La relación anterior indica que y es una función lineal de x de tal manera que para un valor x fijo el valor real esperado de y es 0 1a a x+ .

Sin embargo, en una relación como la observada en la tabla anterior la variable y según x fijo difiere de su valor esperado en una cantidad aleatoria. Por lo anterior, es posible indicar que para cualquier valor fijo x, el valor de la variable dependiente y puede obtenerse a través del modelo

0 1y a a x ε= + + donde ε es una variable aleatoria que se supone normalmente distribuida (es decir ( ) 0E ε = y 2

( )V ε σ= ). Dicho

valor ε se conoce como término de error o error aleatorio del modelo e indica la desviación del valor ˆiy observado respecto a su valor

real iy esperado según el modelo.

Figura 3. Error relativo para la observación i.

Estimación de parámetros del modelo

Como ya se ha mencionado, la función 0 1y a a x= + expresa que el valor esperado de la distribución de y dado x está relacionado

funcionalmente con x. La ecuación anterior se conoce como función de regresión poblacional. Sin embargo, en la práctica los valores

0 1,a a no son conocidos por el investigador, por lo que deben ser estimados a partir de los datos muestrales y definir así la recta de

regresión estimada o la función de regresión muestral. La recta de regresión estimada debe ser aquella que permita obtener un buen ajuste de los puntos observados dentro de la investigación. En este sentido, una recta que proporciona un buen ajuste a los datos es aquella en la que la distancia vertical (desviación) entre el punto de la recta y el punto observado es la menor posible para cada par de puntos. Este principio se denomina mínimos cuadrados. La suma de los cuadrados de estas desviaciones se denomina bondad de ajuste. Por tanto, la recta de mejor ajuste es la que proporciona la más pequeña suma posible de desviaciones al cuadrado.

Si la función de regresión poblacional viene dada por 0 1y a a x= + , ésta es posible estimarla a partir de la función de regresión muestral

representada por 0 1ˆ ˆy a a x= + . De esta forma, dado el punto ( ),i ix y y la recta 0 1ˆ ˆy a a x= + la distancia entre dicho punto y la recta

viene dada por ( )0 1ˆ ˆi iy a a x− + . Según el principio mínimos cuadrados, la bondad de ajuste viene dado por ( ) 2

0 11

ˆ ˆn

i ii

y a a x=

− + ∑ de

tal manera que los valores de 0 1ˆ ˆ,a a minimizan dicha suma.

Por tanto, siendo 0 1ˆ ˆy a a x= + la función de regresión estimada, la estimación de mínimos cuadrados de los coeficientes de dicha recta

es

( )( )

( )1 1 11

1 222

1 1 1

ˆ

n n nn

i i i ii i ii

n n n

i ii i i

i in x y x yx x y y

a

x x n x xi

= = ==

= = =

−− −

= = −

∑ ∑ ∑∑

∑ ∑ ∑

11 1

0 1

ˆˆ ˆ

n n

i ii i

y a xa y a x

n= =

−= = −∑ ∑

xaay 10 +=

Page 4: Regresion Lineal Simple Con Spss

Consideremos los datos del ejemplo 1 para estimar los parámetros de la función de regresión.

n 1 2 3 4 5 6 7 8 9 10 x 12 14 19 21 28 35 49 54 56 63 y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10,0 10,2 10,0

Solución

n x y x2 y2 xy

1 12 6,2 144 38,4 74,4

2 14 7,3 196 53,3 102,2

3 19 8,9 361 79,2 169,1

4 21 8,1 441 65,6 170,1

5 28 9,2 784 84,6 257,6

6 35 8,1 1225 65,6 283,5

7 49 9,6 2401 92,2 470,4

8 54 10,0 2916 100,0 540,0

9 56 10,2 3136 104,0 571,2

10 63 10,0 3969 100,0 630,0

Suma 351 87,6 15573 783 3268,5 Aplicando las fórmulas dadas se obtienen los siguientes resultados.

1 2

10 3268, 5 351 87, 6 1937, 4ˆ 0, 05955

10 15573 351 32529a

⋅ − ⋅= = =

⋅ − 0

87, 6 0, 05955 351ˆ 6, 669

10a

− ⋅= =

Las función de regresión muestral viene dada por 6, 669 0, 05955y x= + .

Modelo de regresión lineal: Supuestos del modelo Como dentro de los objetivos del análisis de regresión están realizar inferencias sobre los verdaderos parámetros de la recta de regresión así

como determinar qué tan cerca se encuentra cada ˆiy de la verdadera iy es necesario conocer la manera en como se generan las ix y las

iε , ya que mientras no se especifique estos detalles no existe forma alguna de realizar las inferencias antes planteadas. Por tanto, para

lograr una interpretación válida de los valores estimados de la regresión el modelo gaussiano (el Modelo Clásico de Regresión Lineal desarrollado en 1821) plantea los siguientes supuestos.

1. El modelo de regresión es lineal en los parámetros.

2. Los valores de x son fijos en muestreo repetido

3. El valor medio del erroriε es igual a cero, esto es ( )/ 0i iE xε = .

4. Homocedasticidad o igual varianza: Dado un valor ix , la varianza de iε es la misma para todas las observaciones.

5. No existe autocorrelación entre las desviaciones iε , esto es que dos valores cualesquiera de x, ix , jx ,

i ≠ j, la correlación

entre iε y jε es cero.

6. La covariancia entre iε y ix es cero.

7. El número de observaciones n debe ser mayor que el número de parámetros a estimar.

8. Variabilidad en los valores de x. Dada una muestra cualquiera, no todos los valores de x son iguales.

Page 5: Regresion Lineal Simple Con Spss

9. El modelo de regresión está correctamente especificado.

10. No existe multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las variables explicativas.

Como el objetivo de este trabajo es realizar un estudio de las propiedades del Modelo Clásico de Regresión Lineal, no se tratarán a fondo cada uno de los supuestos anteriores y por ende la forma de proceder si alguno de los mismos no se cumple. El estudio pretende hacer referencias a las propiedades numéricas del modelo y no profundiza sobre las propiedades estadísticas del mismo. Sin embargo, vale la pena resaltar que la realización de una investigación debe estar orientada por el análisis de los supuestos mencionados ya que la validez de las estimaciones y de todas las conclusiones que se realizan dependerá de la correcta manipulación de los datos recolectados. El coeficiente de determinación El coeficiente de determinación es valor denotado por

2R y definido por

21 1

suma decuadrados delos residuos SSER

sumadecuadradostotal SST= − = −

donde 2

12

1

n

ini

ii

y

SST yn

=

==

−∑

∑ y 20 1

1 1 1

ˆ ˆn n n

i i i ii i i

SSE y a y a x y= = =

= −−∑ ∑ ∑

Dicho valor se interpreta como el porcentaje de la variabilidad de la variable dependiente que es explicado por el modelo de regresión que se está estimando. El significado de este coeficiente hace que entre más alto sea su valor, mejor se puede considerar el modelo obtenido para explicar la variabilidad de y. Sin embargo, debe ponerse mucha atención sobre el contexto y origen de los datos que se analizan, pues para un investigador de una determinada área (sociología, psicología por ejemplo) el coeficiente de determinación cercano al 50 % puede significar un gran logro dentro de su análisis. Por tanto, la determinación del mejor modelo no debe ajustarse solamente a sus propiedades numéricas sino que también debe ser valorado en función del fenómeno (variable) que pretende ser explicado.

El coeficiente de correlación muestral El coeficiente de correlación muestral r es una medida que permite determinar que tan fuerte es el grado de relación que presentan dos variables. Asimismo indica el tipo de relación existente, directa o inversa. Dada dos variables x, y, un conjunto de n observaciones, el coeficiente de correlación muestral r viene dado por

( )( )

( ) ( )1

2 2

1 1

n

i ii

n n

i ii i

x x y y

r

x x y y

=

= =

− −=

− −⋅

∑ ∑

Según su definición el coeficiente de correlación oscila entre –1 y 1. Por tanto, un valor de r cercano a –1 indica la existencia de una relación fuerte entre las variables pero en forma inversa, esto es, que conforme una variable aumenta, la otra disminuye. Por otro lado, un valor de r cercano 1 muestra una relación fuerte entre las variables. En este caso, la relación se dice directa, es decir, conforme una variable aumenta, la otra también lo hace.

Un valor de r cercano a cero indica la posibilidad de que no existe relación entre las variables o que por lo menos la relación no es lineal.

Page 6: Regresion Lineal Simple Con Spss

r cercano a cero, sin aparente relación r cercano a 1

r cercano a –1

Figura 4. Diagrama de dispersión para distintos valores de r

Análisis de regresión en el SPSS Primero cree su archivo de datos e introduzca los valores respectivos de las variables en estudio. Seguidamente del menú Analizar, escoja Regresión y luego seleccione Lineal.

Page 7: Regresion Lineal Simple Con Spss

La siguiente ventana muestra el cuadro de diálogo Regresión Lineal. Seguidamente identifique la variable dependiente y la independiente y trasládelas a los cuadros respectivos.

Aceptando las especificaciones, el visor de resultados ofrece la siguiente información.

Tabla 1. Resumen del modelo

Modelo R R cuadrado R cuadrado corregida

Error típ. de la estimación

1 ,859(a) ,739 ,706 ,71458

a Variables predictoras: (Constante), x La primera información que aparece corresponde al resumen del modelo y en ella se muestran el coeficiente de correlación R y el

coeficiente de determinación 2

R . El valor R = 0,859 indica que existe una relación lineal directa y relativamente fuerte entre las variables. Como bien sabemos, hasta este momento sólo podemos hablar de relación y de grado de relación y no podemos afirmar causalidad.

El valor 2

0, 739R = nos indica que el 73,9% de la variabilidad de la variable y es explicada por el modelo de regresión que se está estimando. Recordemos que

21

sumadecuadrados delos residuosR

suma decuadradostotal= −

La expresión 2

R corregida es una corrección a la baja de 2

R basada en el número de casos y de variables independientes que participan en el estudio.

( )22

21

1

p RR egida R

n pcorr

−=

− −−

donde p designa el número de variables independientes.

Cuando el número de casos es pequeño y el número de variables independientes aumenta 2

R corregida es considerado un buen estimador

del valor poblacional. En este ejemplo, como sólo participa una variable independiente el valor 2

R y 2

R corregida son relativamente similares.

Page 8: Regresion Lineal Simple Con Spss

Tabla 2. ANOVA (b)

Modelo Suma de

cuadrados gl Media

cuadrática F Sig. Regresión 11,539 1 11,539 22,598 ,001(a) Residual 4,085 8 ,511

1

Total 15,624 9

a. Variables predictoras: (Constante), x b. Variable dependiente: y

La tabla del Anova presenta información sobre la existencia o no de relación significativa entre la variable dependiente y la independiente. La prueba F permite evaluar la hipótesis nula de que el valor R poblacional es cero (R = 0), equivalente a decir que la pendiente de la recta de regresión es igual a cero. El nivel de significancia Sig. = 001 indica que no existen evidencias significativas, al nivel del 5%, para afirmar que R = 0, o de la misma manera que la pendiente de la recta de regresión es 0 y, en consecuencia, puede asumirse que las variables en estudio están linealmente relacionadas.

Tabla 3. Coeficientes(a)

Modelo Coeficientes no estandarizados

Coeficientes estandarizados t Sig.

B Error típ. Beta B Error típ. 1 (Constante) 6,669 ,494 13,489 ,000 x ,060 ,013 ,859 4,754 ,001

a Variable dependiente: y La tabla anterior muestra los coeficientes de la recta de regresión. La columna de coeficientes no estandarizados presenta los coeficientes de regresión que definen la recta de regresión en puntuaciones directas. En dicha tabla se observa la constante de regresión y el coeficiente

no estandarizado correspondiente a x que representa la pendiente de la recta de regresión ( 1a ). Recordemos que 1a expresa el cambio

medio que experimenta la variable dependiente (y) por cada unidad de cambio de la variable independiente (x). En este sentido, por cada unidad que varíe x, la variable y varía en aproximadamente 0,060 unidades. Como bien se ilustró anteriormente, la ecuación de regresión estimada se expresa como 6, 669 0, 05955y x= + . Los coeficientes estandarizados que se muestran en la tabla, son aquellos que definen la ecuación de regresión una vez estandarizadas las variables originales. En regresión simple, sólo aparece el coeficiente estandarizado correspondiente a x (única variable independiente en el modelo) y éste coincide con el coeficiente de correlación de Pearson. Por otro lado, los estadísticos t y su nivel crítico sig. permiten evaluar la hipótesis nula de que los coeficientes de regresión de la población son iguales a cero. Según la tabla 3, los datos muestrales indican que no existen evidencias significativas, al nivel del 5%, para afirmar que los coeficientes de regresión de la población son iguales a cero. Vale la pena resaltar que estos coeficientes se obtienen

0

0

0a

a

at

S= y

1

1

1a

a

at

S=

donde

( )0

2

2

1

1a e n

ii

xS S

n x x=

+=−∑

y

( )1

2

1

ea n

ii

SS

x x=

=

−∑

Como en el análisis de regresión simple sólo se trabaja con una variable independiente, el cuadrado del valor del estadístico t es equivalente

al valor del estadístico F de la tabla del ANOVA (Tabla 2). No olvidemos que en regresión simple 2

t F= . Retomando el resultado de los estadísticos t, no existen evidencias significativas para afirmar que la pendiente de regresión poblacional es igual a cero, por lo que se puede afirmar que las variables estudiadas (x, y) presentan una relación lineal significativa.

Page 9: Regresion Lineal Simple Con Spss

Es importante señalar que la significancia o no que presente la constante de regresión pierde relevancia en la determinación de la relación que puedan presentar las variables del estudio ya que, este coeficiente no proporciona información sobre ello; sin embargo, debe ponerse

mucha atención si su valor es cero pues esto puede provocar que el coeficiente 2

R del modelo sea negativo. (Regresión por el origen).

3. BIBLIOGRAFÍA (REFERENCIAS)

Devore, Jay (1998). Probabilidad y Estadística para Ingeniería y Ciencias. Cuarta Edición. International Thomson Editores. México, D.F.

Ferrán, M 2001. SPSS para Windows análisis estadístico. McGraw -Hill Interamericana de España S.A. Madrid. Gujarati, D 2004. Econometría. McGraw - Hill /Interamericana Editores S.A. México, DF. Pardo, A y Ruiz, M 2002. SPSS 11 Guía para el análisis de datos. McGraw - Hill Interamericana de España S.A. México, DF. Susan, j y Arnold, J 2004. Probabilidad y estadística con aplicaciones para ingeniería y ciencias computacionales. McGraw - Hill /Interamericana Editores S.A. México, DF.

Page 10: Regresion Lineal Simple Con Spss