5
TAREA PLANTEAMIENTO Y OBJETIVO: Tomamos datos de la siguiente publicación: "Using Cigarette Data for an Introduction to Multiple Regression", by Lauren Mcintyre in Volume 2, Number 1, of the Journal of Statistics Education. La primera parte del objetivo lo cubriremos con esta tarea p2p, y la segunda parte, lo cubriremos en la segunda tarea p2p al finalizar el módulo 4. Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el monóxido de carbono emitido al fumar. Partimos de estos datos y nos planteamos el siguiente objetivo: (3 PARTES) PARTE 1: Genere un breve informe estadístico descriptivo, a partir de la salida de ordenador que se adjunta (tómese el espacio que necesite pero sea breve), en el que señale: 1) el tamaño muestral, 2) cuál es la variable con mayor variabilidad, 3) cuál de las medias es más representativa de los datos y 4) cuál de las medias es más estable.

Actividad p2p Modulo 2

Embed Size (px)

DESCRIPTION

Respuestas a ejercicio del modulo 2 MOOC estadistica

Citation preview

Page 1: Actividad p2p Modulo 2

TAREA

PLANTEAMIENTO Y OBJETIVO:

Tomamos datos de la siguiente publicación:

"Using Cigarette Data for an Introduction to Multiple Regression", by Lauren Mcintyre in

Volume 2, Number 1, of the Journal of Statistics Education.

La primera parte del objetivo lo cubriremos con esta tarea p2p, y la segunda parte, lo

cubriremos en la segunda tarea p2p al finalizar el módulo 4.

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido

de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el

monóxido de carbono emitido al fumar. Partimos de estos datos y nos planteamos el

siguiente objetivo:  

(3 PARTES)

PARTE 1:

Genere un breve informe estadístico descriptivo, a partir de la salida de ordenador que se

adjunta (tómese el espacio que necesite pero sea breve), en el que señale:

1) el tamaño muestral,

2) cuál es la variable con mayor variabilidad,

3) cuál de las medias es más representativa de los datos y

4) cuál de las medias es más estable.

RESPUESTAS

1. Muestra: 25

2. El Alquitrán es la variable que presenta una desviación típica más dispersa

Page 2: Actividad p2p Modulo 2

3. Todas las medias son representativas de sus distribuciones porque tienen indicadas medidas de dispersión.

4. La variable con media más estable es el peso: por tener un error estándar menor que las demás variables, su media está más cerca de la verdadera media de la población.

PARTE 2.

Analice los percentiles a partir de la tabla correspondiente que aparece debajo . Escriba un breve

informe con los resultados más relevantes entre los que al menos debe estar la Mediana y el

Recorrido intercuartílico (debe calcularlo a partir de la tabla) para todas y cada una de las

variables. En el informe compare, además, los resultados obtenidos con la Media y su dispersión y

la Mediana y su dispersión.

RESPUESTAS

 Tabla 1. Cálculo de la Mediana y el Recorrido intercuartílico

N MEDIANA p50 p75 (Q3) p25(Q1) Recorrido (Q3-Q1)MONÓXIDO 25

13,0000

15,6500

9,7500 5,9000

ALQUITRAN 25 12,4000

15,1500

7,9000 7,2500

NICOTINA 25 0,90000

1,03000

0,68000 0,35000

PESO 25 0,957300

1,016850

0,920550 0,0963

Para el cálculo de la Mediana y el recorrido intercuartil de cada variable se tomaron de la tabla de percentiles los valores p50 para la mediana y la diferencia de los valores p75 y p25 para el recorrido; los resultados se resaltan en la tabla 1. El Alquitrán es el que muestra un mayor recorrido RI seguido del monóxido y la nicotina en menor grado, en tanto que el peso muestra un RI muy pequeño. Dados los datos de las tablas, estos RI permiten sustraer del análiis de la dispersión el sesgo introducido por los valores extremos que se evidencian en las tres primeras variables descritas.

Page 3: Actividad p2p Modulo 2

Para comparar los resultados de la Mediana con la Media, y sus respectivas medidas de dispersión, construimos la Tabla 2

Tabla 2. Medidas de tendencia central y de dispersión del estudio de

MEDIANA p50 Recorrido (Q3-Q1) MEDIA DS EE

MONÓXIDO 13,0000 5,9000 12,5280

4,7397

0,9479

ALQUITRAN 12,4000 7,2500 11,8160

5,8763

1,1753

NICOTINA 0,90000 0,35000 0,87600

0,35420

0,07084

PESO 0,957300 0,0963 0,9703

0,0877

0,0175

A pesar de los valores extremos en las observaciones correspondientes a las 3 primeras variables, los cuales se corrigen con el análisis de la Mediana y su RI, se destaca que en todas ellas la Media es menor a la Mediana, indicando que estos valores discordantes no han logrado sesgar de manera importante la distribución aunque sí existe un sesgo negativo asociado a la mayor cantidad de cigarrillos de tipo Rubio en la muestra (64% del total de la muestra), ya que a diferencia de los negros, estos rubios contienen menores cantidades de alquitrán, nicotina y menores valores de monóxido; el peso no muestra diferencia significativas en las medidas, lo cual sugiere que se trata de una variable irrelevante para el propósito del estudio. Por la explicación anterior, la diferencia entre rubios y negros como explicación de la dispersión, considero que los dos valores outliers, los demás valores extremos (por debajo de p25 y por encima de p75) no afectan el análisis si se utiliza la media y la desviación típica para analizar de manera conjunta estos dos tipos diferentes de cigarrillos, en cambio el rango intercuartílico introduce un sesgo porque cuando saca del análisis un número importante de valores más bajos (Rubios) y altos (negros), cambia las proporciones en la muestra entre estos dos tipos de cigarrillo; obsérvese que cuando están todos los elementos la razón entre cigarrillos negros y rubios es de 0,56 y cuando se toma el RI está queda en 0,3, modificando sustancialmente el análisis objeto del estudio al perder representatividad los cigarrillos negros, los cuales están asociados a valores mayores de nicotina, alquitrán y monóxido.

PARTE 3.

Analice los Box plot (diagramas de caja) que se adjuntan y saque las conclusiones más relevantes.

Debe escribir, al menos, sobre la posible asimetría y la existencia, o no, de outliers

 

Page 4: Actividad p2p Modulo 2

RESPUESTAS

Las distribuciones muestran asimetrías con trayectos mayores desde la mediana a la base (p25) en las variables Monóxido, Alquitrán y Nicotina, y cajas más grandes para el Monóxido y el Alquitrán, indicando el mayor grado de dispersión de estas respecto a las demás. Las asimetrías mantienen la misma tendencia en los bigotes a pesar de excluir los valores outliers, reflejando la influencia descrita del mayor número de cigarrillos rubios en la muestra total. El peso del cigarrillo muestra una mediana que se acerca a su base, con menor variabilidad (caja pequeña), y la variabilidad de los bigotes es contraria a la observada en las otras variables.