14
Solución tarea p2p Módulo 2 y 4 1 Estadística para investigadores Solución Tareas P2P Purificación Galindo Purificación Vicente Departamento de Estadística Universidad de Salamanca

Estadística para investigadores - Diariumdiarium.usal.es/mooc/files/2013/12/SOLUCION_TAREAS_P2P_ESTADIS… · Solución tarea p2p Módulo 2 y 4 1 Estadística para investigadores

Embed Size (px)

Citation preview

Solución tarea p2p Módulo 2 y 4 1

Estadística para investigadores

Solución Tareas P2P

Purificación Galindo

Purificación Vicente

Departamento de Estadística

Universidad de Salamanca

Solución tarea p2p Módulo 2 y 4 2

Solución tarea p2p Módulo 2

Tomamos datos de la siguiente publicación:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el monóxido de carbono emitido al fumar.

Partimos de estos datos y nos planteamos el siguiente objetivo:

OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo que nos permita estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables Alquitrán, Nicotina y Peso del cigarrillo.

Solución tarea p2p Módulo 2 y 4 3

TAREAS

La primera tarea consistirá en cubrir el primer objetivo. Hacer un estudio descriptivo de las variables que intervienen en el estudio.

Tarea 1.- Comience por hacer un estudio descriptivo de los datos ayudado de las siguientes salidas de ordenador

a. Genere un breve informe estadístico (tómese el espacio que necesite pero sea breve), en el

que señale

1) el tamaño muestral

2) cuál es la variable con mayor variabilidad

3) cuál de las medias es más representativa de los datos 4) cuál de las medias es más estable.

b. Analice los percentiles. Escriba un breve informe con los resultados más relevantes entre

los que al menos debe estar la Mediana y el Recorrido Intercuartílico (debe calcularlo a partir de la

tabla) para todas y cada una de las variables. En el informe compare, además, los resultados obtenidos con la Media y su dispersión y la Mediana y su dispersión.

c. Analice los Box Plot (diagramas de caja) que se adjuntan y saque las conclusiones más

relevantes. Debe escribir, al menos, sobre la posible asimetría y la existencia, o no, de outliers.

Solución tarea p2p Módulo 2 y 4 4

SOLUCIÓN

Parte A)

1) Tamaño Muestral: 25 (Se analizan 25 cigarrillos)

2) ¿Cuál es la Variable con mayor variabilidad?

De la tabla de Estadísticos descriptivos que nos proporcionan, podemos afirmar lo siguiente:

Si se analiza la desviación típica: Alquitrán (5.88)

Solución tarea p2p Módulo 2 y 4 5

Teniendo en cuenta que las variables están expresadas en distintas unidades, sería más apropiado trabajar con los Coeficientes de Variación (CV)

CVAlquitrán= 49.67%

CVNicotina= 40.43%

CVPeso= 9.04%

CVMonoxido= 37.83%

El resultado es análogo, por tanto: Variable con mayor variabilidad: ALQUITRÁN

3) ¿Cuál de las medias es la más representativa de los datos?

Para saber cuál es la más representativa debo evaluar de nuevo la dispersión. Aquella con menor dispersión es la más representativa. Por tanto, la variable cuya media es más representativa es la variable Peso.

4) ¿Cuál de las medias es la más estable?

La media más estable es la que tenga un error estándar(ES) (o error típico) más pequeño ya que el ES sirve para evaluar la variabilidad de la media en el muestreo.

Por tanto, sin más que mirar la tabla de Estadísticos descriptivos, podemos afirmar que la variable más estable es el Peso del cigarrillo (ES=0.017).

Parte B

Mediana y el Recorrido Intercuartílico (RI) para cada una de las variables

Mediana Monóxido: P50= 13.00

RI Monoxido: = P75-P25 = 15.65-9.75=5.90

Mediana Alquitrán: P50= 12.40

RI Alquitrán: = P75-P25 = 15.15-7.90=7.25

Mediana Nicotina: P50= 0.90

RI Nicotina: = P75-P25 = 1.03-0.68=0.35

Mediana Peso: P50= 0.96

RI Peso: = P75-P25 = 1.02-0.92=0.10

Solución tarea p2p Módulo 2 y 4 6

Los valores se han aproximado a dos cifras decimales

Si comparamos los resultados obtenidos con la Media y el Coeficiente de Variación (CV) y la Mediana y el Recorrido Intercuartílico (RI), vemos que la Media más representativa de los datos es la Media del Peso ya que su CV es el más bajo 9.04

Si comparamos las medianas y sus RI, la mediana más representativa es también la mediana del Peso ya que su RI es el menor (0.10)

PARTE C

Para todas las variables se detectan outliers, es decir valores discordantes con el patrón general, ya que todas las cajas tienen puntos fuera de sus bigotes.

Todas las variables presentan distribución ligeramente asimétrica, constatada porque la línea que representa el P50 (Mediana) no está exactamente en el centro de la caja y además los bigotes no tienen la misma longitud. Los bigotes más similares son los de la variable Nicotina.

La altura de las respectivas cajas pone de manifiesto, gráficamente, lo que ya habíamos visto analíticamente y es que el Recorrido Intercuartílico más pequeño es el correspondiente al peso.

Una visión rápida del gráfico podría llevar a la interpretación de que el RI de la Nicotina es menor, pero fijándonos en la escala del gráfico que es diferente en Peso y Nicotina, vemos que la afirmación anterior se verifica.

Solución tarea p2p Módulo 2 y 4 7

Solución Tarea p2p Módulo 4

Solución tarea p2p Módulo 2 y 4 8

Solución tarea p2p Módulo 4

Tomamos datos de la siguiente publicación:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el monóxido de carbono emitido al fumar.

Partimos de estos datos y nos planteamos el siguiente objetivo:

Solución tarea p2p Módulo 2 y 4 9

OBJETIVO: Encontrar un modelo que nos permita estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables Alquitrán, Nicotina y Peso del cigarrillo.

Tarea. La realización de esta tarea irá en un documento aparte que tendrás que subir en el apartado "Fichero opcional" que se encuentra al final de la actividad p2p. Este documento tendrá 3 partes:

PARTE 1. Comience con una inspección gráfica de las nubes de puntos. Genere un breve informe (tómese el espacio que necesite, pero sea breve) sobre a) la relación entre el Monóxido de Carbono y cada una de las variables explicativas, a partir de las correspondientes nubes de puntos que se adjuntan. b) díganos, a partir de la inspección visual de las nubes, cuál de las variables parece más relacionada con el Monóxido y c) si la relación parece similar para los dos tipos de tabaco, Rubio y Negro.

Solución tarea p2p Módulo 2 y 4 10

Parte 2. Búsqueda de modelos que nos permitan estimar la cantidad de MONÓXIDO de CARBONO, a partir de las variables Alquitrán, Nicotina y Peso del cigarrillo.

a. Realice un breve informe sobre los modelos y su representatividad, a la vista de los resultados que se adjuntan: Interprete el coeficiente de determinación R2 y el coeficiente de regresión, en cada modelo y díganos cuál le parece más adecuado y porqué.

Ilustración 1. Nota: En el original de esta tarea había una errata en los valores de los coeficientes R2. Aquí ya aparecen corregidos. En cualquier caso esa errata no afectaba los

resultados.

Si en vez de tres modelos simples ajustásemos un solo modelo con las tres variables, fíjese lo que pasa.

b. Díganos brevemente qué ha cambiado con respecto a la situación del apartado anterior, a la vista de las nuevas significaciones, y a qué cree que se debe.

Solución tarea p2p Módulo 2 y 4 11

SOLUCIÓN

INFORME PARTE 1. Inspección gráfica de las nubes de puntos.

a) Estudio de la relación entre el Monóxido de Carbono y cada una de las variables explicativas, a partir de las correspondientes nubes de puntos que se adjuntan.

En el primer y segundo diagrama de dispersión observamos que hay una clara tendencia lineal, por lo tanto puede pensarse que las dos variables implicadas (Monóxido y Alquitrán en el primer caso y Monóxido y Nicotina en el segundo), están relacionadas. Además de las gráficas se deduce que la relación, en ambos casos es directa; es decir, cuando el Alquitrán aumenta, el Monóxido aumenta y cuando la Nicotina aumenta, el Monóxido aumenta.

En el caso de Alquitrán y el Monóxido, la nube de puntos (diagrama de dispersión) pone de manifiesto que hay un dato (de tabaco rubio) que no sigue la tendencia general y que puede modificar la pendiente de la recta. Obsérvese que el punto verde que aparece claramente alejado del resto de los puntos de la nube, pero en la dirección de la recta, no afecta a la pendiente.

En el tercer gráfico (nube de puntos) observamos que no hay una relación tan clara entre las variables Monóxido-Peso. No obstante la decisión de si Monóxido y Peso tiene una relación significativa estadísticamente, la tomaremos después de estudiar el modelo, su correspondiente coeficiente de determinación R2 y el p-valor, cosa que haremos en los apartados siguientes

b) ¿Cuál de las variables parece más relacionada con el monóxido?

Alquitrán y Nicotina parecen tener, desde el análisis de los gráficos, una relación muy similar con Monóxido; no obstante se espera un valor ligeramente más alto entre Monóxido y Nicotina dado que en el Alquitrán aparece un dato discordante que va a modificar la pendiente y hará bajar el ajuste (como puede comprobarse en el apartado 2). Sin duda, la menos relacionada con el Monóxido es el Peso.

c) ¿La relación parece similar para los dos tipos de tabaco, Rubio y Negro?

La tendencia es similar para tabaco rubio y para tabaco negro, aunque en el tabaco negro, los valores son más altos, tanto para el Monóxido como para el Alquitrán, la Nicotina y el Peso.

Solución tarea p2p Módulo 2 y 4 12

INFORME PARTE 2.

a) Breve informe sobre los modelos y su representatividad.

La relación entre el Monóxido y las tres variables (Alquitrán, Nicotina y Peso) es estadísticamente significativa ya que el p-valor es <0.05 en todos los casos.

a.1 Breve informe sobre los modelos

La relación es directa en todos los casos ya que los coeficientes de regresión de los tres modelos son positivos: 0.73 para el Alquitrán, 12.40 para la Nicotina y 25.06 para el Peso.

Teniendo en cuenta que el coeficiente de regresión indica lo que cabe esperar que cambie la variable respuesta (en media) por incremento unitario en la variable independiente, podemos afirmar que: El incremento medio esperado, más alto, en el Monóxido (por incremento unitario en las respectivas variables) es debido al Peso (coeficiente de regresión= 25.06), el siguiente incremento es debido la Nicotina (coeficiente de regresión= 12.40) y el más pequeño es el debido al Alquitrán (coeficiente de regresión= 0.73)

a.2 Bondad de ajuste

El coeficiente de determinación evalúa la bondad de ajuste del modelo, ese valor está acotado entre 0 y 1. Cuanto más se aproxime a 1 mayor bondad de ajuste del modelo y mayor poder explicativo.

De entre todos los modelos, el de mejor ajuste es el que relaciona Monóxido y Nicotina ya que es el que tiene un coeficiente de determinación más alto (R2= 0.86). El siguiente modelo con mejor ajuste es el que relaciona Monóxido y Alquitrán ya que es el que tiene el siguiente coeficiente de determinación más alto (R2= 0.82).

El modelo con peor ajuste es el que relaciona Monóxido y Peso (R2= 0.22).

INFORME PARTE 3.

a) Díganos brevemente qué ha cambiado con respecto a la situación del apartado anterior, a la vista de las nuevas significaciones

Los resultados aparentemente son contradictorios con los del apartado anterior, ya que en los modelos bivariantes, en los que se relacionaba el Monóxido con cada una de las variables explicativas, se probó que existía relación significativa (p<0.05) en todos los casos, incluso con el Peso que, de la inspección visual de la nube de puntos, parecía que no.

En este análisis, sólo aparece como significativa la relación entre Monóxido y Nicotina y las demás parecen como no significativas. En realidad lo que traducen estos resultados es que una vez considerado el aporte de la variable Alquitrán, los aportes de las otras dos, no son significativos.

Solución tarea p2p Módulo 2 y 4 13

b) A qué cree que se debe.

Este fenómeno es muy frecuente que ocurra cuando las variables explicativas están fuertemente relacionadas. Se conoce con el nombre de colinealidad. La discrepancia entre los resultados se debe a que Alquitrán, Nicotina y Peso están muy relacionadas.

El diagnóstico de la colinealidad y sus implicaciones en el Análisis de Datos, se tratarán en el curso siguiente, de nivel intermedio.

Solución tarea p2p Módulo 2 y 4 14