Upload
others
View
15
Download
0
Embed Size (px)
Citation preview
GRADO TURISMOTEMA 3: ANÁLISIS DE DATOS
TURÍSTICOS BIDIMENSIONALES
Prof. Rosario Martínez Verdú
TEMA 3: ANÁLISIS DE DATOS TURÍSTICOS BIDIMENSIONALES
1. Distribuciones bidimensionales de frecuencias y diagrama de dispersión.
2. Covariación y correlación.3. Regresión lineal.4. Análisis de la Bondad del Ajuste y
predicción.
1.- Distribuciones bidimensionales de frecuencias y diagrama de dispersión
TIPOS DE DISTRIBUCIONES BIDIMENSIONALES CONJUNTAS:
• Distribuciones con frecuencias conjuntas no unitarias
Familia X nº miembros
Y nº coches
1 1 02 3 13 1 14 5 25 5 26 3 27 1 08 3 09 5 110 1 1
Objetivo: Analizar dos variables simultáneamente o conjuntamente a partir de la ordenación de los datos en tablas de doble entrada o de contingencia.
a) Obtener la distribución conjunta de frecuencias de (X,Y).
b) Obtener las distribuciones marginales.
c) ¿Son X e Y independientes?d) Obtener la distribución de
frecuencias del nº de miembros de las familias sin automóvil.
e) Obtener la distribución de frecuencias del nº de coches de las familias de 3 miembros.
•Distribuciones con frecuencias conjuntas unitariasSe dispone de información para 2009 sobre las N=17 Comunidades Autónomas sobre las siguientes variables:•X: Nº de Pernoctaciones, en miles.•Y: Gasto total de los turistas, en millones de euros.
CCAA
X Nº
pernoctaciones
Y Gasto total
turistasAndalucía 40916 7337,7Aragón 4417 365,9Asturias 2996 212,6Baleares 48676 8790,7Canarias 50132 9082,3Cantabria 2500 323,2Castilla-La Mancha 3495 216,9Castilla y León 7178 680,7Cataluña 45484 9643,0Comunidad Valenciana 23950 4101,8Extremadura 2065 118,5Galicia 8196 682,8Madrid 18561 5226,9Murcia 2715 775,1Navarra 1363 143,0País Vasco 4184 498,0Rioja 899 43,3
Fuente: Encuesta de ocupación hotelera 2009, INE y Encuesta de Gasto Turístico (Egatur) 2009, IET.
•Distribuciones con frecuencias conjuntas unitariasSe dispone de información para 2009 de las N=17 Comunidades Autónomas sobre las siguientes variables:•X: Nº de Pernoctaciones, en miles.•Y: Gasto total de los turistas, en millones de euros.
CCAA
X Nº
pernoctaciones
Y Gasto total
turistasAndalucía 40916 7337,7Aragón 4417 365,9Asturias 2996 212,6Baleares 48676 8790,7Canarias 50132 9082,3Cantabria 2500 323,2Castilla-La Mancha 3495 216,9Castilla y León 7178 680,7Cataluña 45484 9643,0Comunidad Valenciana 23950 4101,8Extremadura 2065 118,5Galicia 8196 682,8Madrid 18561 5226,9Murcia 2715 775,1Navarra 1363 143,0País Vasco 4184 498,0Rioja 899 43,3
Fuente: Encuesta de ocupación hotelera 2009, INE y Encuesta de Gasto Turístico (Egatur) 2009, IET.
2.- COVARIACIÓN Y CORRELACIÓNObjetivo: definir unas medidas estadísticas (covarianza y coeficiente de correlación lineal) que pongan de manifiesto la existencia o no de relación de tipo lineal entre dos variables. Para ello nos basamos en 2 características importantes de la distribución conjunta de (X,Y):
2X XY
2XY Y
S SMatriz de Varianzas-Covarianzas:
S S⎛ ⎞⎜ ⎟⎝ ⎠
XVector de Medias:
Y⎛ ⎞⎜ ⎟⎝ ⎠
XY i i1Covarianza: S = (X -X) (Y -Y)N∑
SXY sirve para medir la variación conjunta entre X e Y. Más que su valor, interesa analizar su signo.
SXY>0 las variables varían en el mismo sentido
SXY<0 las variables varían en sentido contrario
SXY=0 no hay variación conjunta (incorrelación)
Coeficiente de correlación lineal rXYEstá basado en la covarianza y mide el grado o intensidad de la relación lineal entre dos variables como también determina el sentido de dicha relación. Interesa interpretar tanto su valor como su signo. Se define como:
XYXY XY
X Y
Sr = -1 r 1S S
≤ ≤ Signo rXY = signo de SXY
Interpretación del valor y del signo de rXY
Resultados de cálculo de las Medidas con Caest Indicadores Y X
Media 2837.788 15748.647 Varianzas y covarianza 12704865.039324983247.522 63324218.433Desv.Típica 3564.388 18027.292 C.Correlación 0.985
Con la CaEst se pueden calcular todas estas medidas:
Ejemplo anterior:X: Nº de Pernoctaciones Y: Gasto total de los turistas
SXYrXY
XVector de Medias:
Y⎛ ⎞⎜ ⎟⎝ ⎠
2X XY
2XY Y
Matriz deVarianzas-Covarianzas:
S S
S S⎛ ⎞⎜ ⎟⎝ ⎠
Si rXY=0, ¿son las variables independientes?No necesariamente, lo único que se puede concluir es que no hay relación lineal entre las variables, pero las variables pueden tener otro tipo de relación. XYr = 0
Correlaciones Espúreas o sin sentidoA veces es posible encontrar un coeficiente de correlación alto entre dos variables que no tienen relación justificada por ninguna teoría. Es lo que se llama correlación espúrea o sin sentido. Un ejemplo: Neyman en 1952 analizó la relación entre la tasa de nacimientos de niños y niñas y la población de cigüeñas en varias regiones, y encontró un alto coeficiente de correlación entre estas variables.Correlación indirecta
A veces dos variables X e Y presentan un coeficiente de correlación lineal alto entre ellas, pero esta relación es aparente o indirecta ya que ambas variables están en realidad relacionadas con una tercera variable Z. Para medir la verdadera relación entre X e Y se puede calcular el COEFICIENTE DE CORRELACIÓN PARCIAL.
X
YZ
COEFICIENTE DE CORRELACIÓN PARCIALEs un coeficiente de correlación lineal entre X e Y en el que se elimina la influencia que ejerce una tercera variable Z sobre ambas variables.
CCAAX
nº de reclusos
Y nº de
Bibliotecas
Z Población
2009Andalucía 17495 869 8302923Aragón 2644 374 1345473Asturias 1547 159 1085289
Baleares 1937 184 1095426Canarias 3198 208 2103992Cantabria 724 71 589235Castilla-La Mancha 7021 453 2081313Castilla y León 2227 609 2563521Cataluña 10531 830 7475420Comunidad Valenciana 8240 624 5094675Extremadura 1408 501 1102410Galicia 4904 550 2796089Madrid 10515 513 6386932Murcia 967 129 1446520Navarra 250 131 630578País Vasco 1472 323 2172175Rioja 405 51 321702
Fuente: INE y Ministerio del Interior.
XYr = 0,816EJEMPLO
¿Es real esta alta correlación positiva entre X e Y o hay una tercera variable Z (Población 2009) que es la responsable? Calculamos el coeficiente de correlación parcial entre X e Y:
( )( )p XY XZ YZXY 2 2
XZ YZ
r -r rr =1-r 1-r
XZr = 0,945
YZr = 0,849
( )( )2 2
0,816 - 0,945 0,849= =0,0791-0,945 1-0,849
×
Si se elimina la influencia de la variable población (Z), casi no hay relación lineal entre el nº de reclusos (X) y el nº de bibliotecas (Y).
3.- REGRESIÓN LINEAL
Vamos a suponer que entre las variables X e Y existe una relación de causa-efecto. Es decir, una variable (la X) es la causa y la otra (la Y) es el efecto. Variaciones en X (la causa) van a provocar variaciones en Y (el efecto).Ejemplo: Para un conjunto de hogares, las variables Ingresos y Gasto en Turismo, ¿cuál sería X (la causa) y cuál sería Y (el efecto)?Regresión Y/X (de Y respecto a X): Es una función matemática que nos va a explicar los valores de la Y a partir de los valores de la X: Y= f(X)• X será la variable independiente o explicativa.•Y será la variable dependiente o explicada.
Utilidades de la regresión:• Medir el efecto que una variación (aumento o disminución) de X provoca en Y.• Hacer predicciones para la variable Y a partir de valores de X.
Regresión no lineal
Y
X
Y
X
Y
X
Regresión Parabólica:* 2Y = a + bX + cX
Regresión Exponencial:* XY = a b
El diagrama de dispersión nos ayuda a determinar el tipo derelación existente entre 2 variables:
Regresión Lineal:*Y = a + bX
EJEMPLOS DE MODELOS DE REGRESIÓN
Es la que veremos
Modelo de Regresión Y/X (de Y respecto a X): funciónmatemática que nos va a explicar los valores de la Y a partir delos valores de la X: Y= f(X)
PROBLEMAS DEL MODELO DE REGRESIÓN:
-1º Elegir una función matemática que relacione ambas variables.
Elegimos una función lineal (una recta) por
-2º ¿Cuál es la recta que mejor se ajusta a los puntos del diagrama de dispersión?
Ecuación de una recta: Y* = a + b XEn definitiva, determinar los valores de los coeficientes a y b de la recta deregresión.
SencillezMás se usa
El método minimocuadrático permite determinar los valores de los coeficientesa y b de la recta de regresión:
XY2X
Sb = a = Y - b XS
¿Interpretación de los coeficientes a y b de la recta de regresión? lo veremoscon un ejemplo.
MODELO DE REGRESIÓN LINEAL
•EJEMPLO:
Diagrama de dispersión
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 500 1000 1500 2000 2500 3000 3500 4000
Ingresos mensuales (X)G
asto
anu
al e
n Tu
rism
o (Y
)
Hogar
Ingresos mensuales
en € (X)
Gasto anual en
Turismo en € (Y)
1 1880 6502 2300 9003 3700 19004 2760 12005 3400 16006 2900 13007 1320 2508 1500 4009 2520 1100
10 3100 1400
•EJEMPLO :Diagrama de dispersión
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 500 1000 1500 2000 2500 3000 3500 4000
Ingresos mensuales (X)
Gas
to a
nual
en
Turis
mo
(Y)
Diagrama de dispersión. Recta de regresión Y/X
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 500 1000 1500 2000 2500 3000 3500 4000
Ingresos mensuales (X)
Gas
to a
nual
en
Turis
mo
(Y)
Hogar
Ingresos mensuales
en € (X)
Gasto anual en
Turismo en € (Y)
1 1880 6502 2300 9003 3700 19004 2760 12005 3400 16006 2900 13007 1320 2508 1500 4009 2520 1100
10 3100 1400
X = 2538Vector de Medias:
Y = 1070⎛ ⎞⎜ ⎟⎝ ⎠
2X XY
2XY Y
Matriz de Varianzas-Covarianzas:
S =564036 S =372940S =372940 S =247600⎛ ⎞⎜ ⎟⎝ ⎠
X = 2538Vector de Medias:
Y = 1070⎛ ⎞⎜ ⎟⎝ ⎠
2X XY
2XY Y
Matriz de Varianzas-Covarianzas:
S =564036 S =372940S =372940 S =247600⎛ ⎞⎜ ⎟⎝ ⎠
XY2X
S 372940b = = = 0,661S 564036
a = Y - b X = 1070 - 0,661 2538 = -607,618×
El Modelo de Regresión lineal de Y/X es:
Y* = -607,618 + 0,661 X
Diagrama de dispersión. Recta de regresión Y/X
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 500 1000 1500 2000 2500 3000 3500 4000
Ingresos mensuales (X)
Gas
to a
nual
en
Turis
mo
(Y)•¿Qué es el coeficiente a?
Si X=0⇒ Y* = -607,618¿Tiene sentido económico?
•¿Qué es el coeficiente b?
La pendiente de la recta¿Qué significa?
Aparte de X y de Y, se crean dos nuevas variables:• Y* : La Y teórica o explicada. Son los valores estimados de Y que nosproporciona el modelo de regresión lineal. La parte de los valores de Y quepodemos explicar a partir de los valores de X.
Y* = a + b X = -607,618 + 0,661 X
• e : La variable error o residuo. Son los errores que se cometen al ajustar larecta de regresión. Lo que no explica el modelo de regresión.
e = Y – Y*
Hogar
Ingresos mensuales
en € (X)
Gasto anual en
Turismo en € (Y)
Y* teórica Y*=a+bX
error e=Y-Y*
1 1880 650 635.1 14.92 2300 900 912.7 -12.73 3700 1900 1838.1 61.94 2760 1200 1216.7 -16.75 3400 1600 1639.8 -39.86 2900 1300 1309.3 -9.37 1320 250 264.9 -14.98 1500 400 383.9 16.19 2520 1100 1058.1 41.910 3100 1400 1441.5 -41.5
Σ suma 10700 10700 0
4.- ANÁLISIS DE LA BONDAD DEL AJUSTE Y PREDICCIÓNY observada Y* teórica e error
MediaVarianza
Y *Y = Y e = 02YS *
2Y
S 2eS
Varianza explicada
Varianza residual
*2 2 2Y eY
S = S + SRelación entre las 3 varianzas:
Coeficiente de determinación: *2
2 2Y2Y
SR = 0 R 1
S≤ ≤
• R2 es la parte de la varianza de Y que explica el modelo de regresión.• 1- R2 es la parte de la varianza de Y que no explica el modelo, que se debe alos errores que se cometen.
22 2XY
XY2 2X Y
SR = = rS S
Propiedad de la regresión lineal:
Resultados de la CaEst 1.5:
Indicadores Y XMedia 1070 2538 Varianzas y covarianza 247600 564036 372940 Desv.Típica 497.594 751.023
REGRESIÓN
C.Correlación 0.998 C.Determinación 0.996 Varianza Explicada 246609.6 Varianza Residual 990.4 Coeficiente a -607.618 Coeficiente b 0.661
RECTA Y*= -607.618 + 0.661X
Regresión lineal del Ejemplo de la diapositiva 4A partir de la información de 2009 para las N=17 Comunidades Autónomas sobrelas siguientes variables:•Nº de Pernoctaciones, en miles.•Gasto total de los turistas, en millones de euros.Se ha calculado, con ayuda de la CaEst (ver diaposotiva 8), las siguientescaracterísticas de la distribución bidimensional de ambas variables:
15749Vector de Medias:
2838⎛ ⎞⎜ ⎟⎝ ⎠
324983248 6332391863323918 12704865
⎛ ⎞⎜ ⎟⎝ ⎠
Matriz de
Varianzas-Covarianzas:
a) Si se desea realizar una regresión lineal de una variable en función de la otra, suponiendouna relación de causa-efecto, ¿qué variable tendría más sentido que fuera la dependiente(la Y) y qué variable la independiente (la X)? Sol: Y: Gasto Turistas X: Pernoctaciones
b) Obtén los coeficientes de la recta de regresión minimocuadrática de Y respecto a X einterpreta el valor de la pendiente. Sol: Y*= -233,1 + 0,195 X
c) Calcula e interpreta una medida de la bondad del ajuste efectuado. Sol: R2= 0,97
d) ¿Qué porcentaje de la variación de la variable Y no puede explicarse a partir del modelode regresión ajustado? Sol: 3%
e) Si para el siguiente año una CCAA piensa que el nº de pernoctaciones, en miles, será de25000, ¿cuál sería el correspondiente gasto total de los turistas? ¿Es fiable este resultado?Sol: 4641,9 millones de €. Fiabilidad del 97% ceteris paribus
Más información sobre este tema en:
- PARRA, E; CALERO, F.J.: Estadística para Turismo. Ed. McGraw-Hill, Madrid, 2007.Capítulo 7.
- ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabilidad”, Ed.Thomson, segunda impresión 2006. Capítulos 3 y 4.
- MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: Elementos básicos de EstadísticaEconómica y Empresarial. Ed. Prentice Hall, Madrid, 1997. Capítulos 5 y 6.
- RONQUILLO, A: Estadística Aplicada al Sector Turístico, Ed Ramón Areces,Madrid, 1997. Capítulo 6.
- http://www.uv.es/ceaces/descriptiva/simplem.htmhttp://www.uv.es/ceaces/base/regresion/simple.htm
- http://webpersonal.uma.es/de/J_SANCHEZ/Capitulo3.PDF