77
Estadística descriptiva. Carlos Gabriel Contreras Msc Estadístico UCLA

Estadística descriptiva

Embed Size (px)

DESCRIPTION

Carlos Gabriel ContrerasEstadística descriptiva

Citation preview

Page 1: Estadística descriptiva

Estadística descriptiva.

Carlos Gabriel Contreras Msc Estadístico UCLA

Page 2: Estadística descriptiva

Principios.

•Determinar la naturaleza de la información.

•Conocer la distribución de los datos.•Los datos que no han sido procesados ni

ordenados se conocen como datos brutos.•A los números individuales utilizados para

describir datos se les llama medidas descriptivas.

Page 3: Estadística descriptiva

Arreglo ordenado.

•Es el primer paso para organizar datos.•Es una lista de valores de un grupo en

orden de magnitud, de menor a mayor.•Esto permite detectar con rapidez los

valores de las mediciones mas pequeñas.•Sí se hace uso de un computador, no se

requiere un arreglo ordenado ya que los datos se pueden pedir puntualmente.

Page 4: Estadística descriptiva

Datos agrupados y distribuciones de frecuencias.

•Estrategia de agrupación de datos.•Cuando se tiene un dato agrupado, se puede

resumir.•Para agrupar un conjunto de observaciones se

debe seleccionar un conjunto de intervalos contiguas que no se traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalos normalmente se identifican como intervalos de clase.

Page 5: Estadística descriptiva

Intervalos de clase.

•¿Cuántos intervalos se deben incluir?

•Pocos intervalos generan perdida de observaciones.

•Muchos intervalos no permiten cumplir con el objetivo de resumir información.

•Empíricamente se ha dicho que se recomienda hacer intervalos de clase de 6 a 15.

Page 6: Estadística descriptiva

Formula de Sturges.

k = 1 + 3.322 (log10n)

K: números de intervalos de clase.n: número de valores en el conjunto de datos en observación.

La respuesta que se obtiene con esta regla no es definitiva, de hecho constituye solo una guía.

Page 7: Estadística descriptiva

Amplitud del intervalo de clase.•Los intervalos de clase deben tener la

misma amplitud.•Siendo w la amplitud del intervalo, k el

numero de intervalos de clase y R el rango (diferencia entre la observación mínima y la observación máxima)

w= R/k

Page 8: Estadística descriptiva

Frecuencia absoluta.

•Numero de observaciones que caen dentro de un intervalo de clases.

Page 9: Estadística descriptiva

Frecuencia relativa.

•Proporción de las observaciones que caen dentro de un intervalo de clase.

•Se obtiene dividiendo el numero de valores en un intervalo de clase particular, entre el número total de valores.

Page 10: Estadística descriptiva

Frecuencias acumuladas y relativas acumuladas.

• Para determinar la frecuencia de valores que caen dentro de dos o mas intervalos de clase, se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes.

• Análogamente, Sí se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos o mas intervalos de clase, entonces se suman las frecuencias relativas para facilitar la obtención de información acerca de las frecuencias.

Page 11: Estadística descriptiva

Ejemplo.

•Base de datos de distribución de cáncer de mama y variables asociadas a los tumores de mama.

•Descripción de la variable edad en términos de frecuencias haciendo uso de StatGraphics.

Page 12: Estadística descriptiva
Page 13: Estadística descriptiva

Generalidades.

•En términos generales la variable edad es una variable numérica.

•Por lo que es necesario hacer la descripción en términos cuantitativos y unidimensionales.

Page 14: Estadística descriptiva
Page 15: Estadística descriptiva
Page 16: Estadística descriptiva
Page 17: Estadística descriptiva
Page 18: Estadística descriptiva

Aplicación de Sturges

•k = 1 + 3.322 (log10n)

•k = 1 + 3.322 (log1066)

•k = 1 + 3.322 (1,81)

•7.82.

Page 19: Estadística descriptiva

Amplitud del intervalo de clase.

•w= R/k

•w= 66/7.82

•W= 8.43

Page 20: Estadística descriptiva

Estimación de rangos.•Valor mínimo (22) y valor máximo (88)

• 22-29 (1)• 30-38 (2)• 39-47 (3)• 48-56 (4)• 57-65 (5)• 66-74 (6)• 75-84 (7)

• Mas de 85 (8)

Page 21: Estadística descriptiva
Page 22: Estadística descriptiva
Page 23: Estadística descriptiva
Page 24: Estadística descriptiva
Page 25: Estadística descriptiva
Page 26: Estadística descriptiva
Page 27: Estadística descriptiva
Page 28: Estadística descriptiva
Page 29: Estadística descriptiva
Page 30: Estadística descriptiva

Grafico de barras.

•Variables cualitativas.

•Eje X intervalos de clase.

•Eje Y frecuencia absoluta o relativa.

•Las barras son separadas.

•Otra alternativa grafica es el grafico de pastel.

Page 31: Estadística descriptiva
Page 32: Estadística descriptiva
Page 33: Estadística descriptiva
Page 34: Estadística descriptiva
Page 35: Estadística descriptiva
Page 36: Estadística descriptiva
Page 37: Estadística descriptiva
Page 38: Estadística descriptiva
Page 39: Estadística descriptiva
Page 40: Estadística descriptiva
Page 41: Estadística descriptiva

El histograma.

•Es una manera de ver gráficamente una distribución de frecuencias relativas o absolutas de una variable cuantitativa.

•Los valores de la variable respectiva se ponen en el eje horizontal y las frecuencias o frecuencias relativas en el eje vertical.

•Las celdas en el grafico son conjuntas.

Page 42: Estadística descriptiva

Ejemplo 2.

•Aun cuando para fines descriptivos, la variable edad se paso a una escala ordinal para poder resumir adecuadamente los datos, la naturaleza de la variable es cuantitativa, por ello se pude analizar haciendo uso de un histograma.

•A continuación se describirá gráficamente la variable tiempo de muerte de la base de datos de cáncer de mama.

Page 43: Estadística descriptiva
Page 44: Estadística descriptiva
Page 45: Estadística descriptiva
Page 46: Estadística descriptiva
Page 47: Estadística descriptiva

Despliegues de tallos y hojas.• Representación de datos cuantitativos.• Proporciona información sobre el rango del

conjunto de datos, muestra la ubicación de la mayor concentración de observaciones, revela la presencia o ausencia de simetría.

• Cada observación se divide en dos, el tallo y las hojas.

• El tallo, se forma con uno o mas dígitos iníciales de la medición, y las hojas se forman con uno o mas de los dígitos restantes.

• El tallo se ordena de mayor a menor.

Page 48: Estadística descriptiva
Page 49: Estadística descriptiva

Medidas de tendencia central.

•Hay otras formas para resumir los datos.•Aveces se requiere condensar los datos

haciendo uso de alguna medida descriptiva.

•Las medidas descriptivas pueden calcularse para las muestras o para las poblaciones de datos.

•Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística.

•Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.

Page 50: Estadística descriptiva

Medidas de tendencia central.

•Las medidas de tendencia central es un valor del conjunto de datos, se considera como la representación del todo.

•Las medidas de tendencia central conllevan información respecto al valor promedio de un conjunto de valores.

•Las tres medidas son: media, mediana y moda.

Page 51: Estadística descriptiva

La media aritmética.

•Comúnmente conocida como promedio.

•Se obtiene sumando todos los valores en una población o muestra y dividiendo entre el numero de valores sumados.

•Es aritmética porque se obtiene por dichos procedimientos matemáticos, además se usa para distinguirse de otros tipos de media.

Page 52: Estadística descriptiva

Formula general de la media.

•m= Sx/N _:...........•x= Sx/n

Page 53: Estadística descriptiva

Propiedades de la media.• Es única, es decir, para un grupo de datos existe solo

una media.

• Simplicidad: el calculo y comprensión son sencillos.

• La media es afectada por cada valor de la muestra o la población.

• La media es susceptible a valores extremos.

• Solo es útil para describir datos intervalares y de razón

Page 54: Estadística descriptiva

La mediana.•Divide al conjunto de datos en dos 50 y 50•Sí el numero de valores es impar, la mediana

es el valor medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.

•En caso que el numero sea par, no existe un valor medio único, sino que existen dos valores medios, en este caso, la mediana corresponde a la media de estos valores centrales cuando todos los valores son arreglados en orden de magnitud.

Page 55: Estadística descriptiva

Propiedades de la mediana.

• Es única al igual que la media.

• Simplicidad: es fácil de calcular.

• Los valores extremos no tienen efectos importantes sobre la mediana, lo que Sí ocurre con la media.

• Se puede utilizar para describir datos ordinales intervalares y de razón.

Page 56: Estadística descriptiva

Moda.• La moda de un conjunto de valores es el valor

que ocurre con mayor frecuencia.

• Sí todos los valores son diferentes, no hay moda.

• Un conjunto de valores puede tener mas de una moda (distribución bi-modal)

• La moda se puede utilizar para describir datos cualitativos y variables medidas a nivel nominal, ordinal, intervalar y de razón.

Page 57: Estadística descriptiva

Ejemplo 3.•Siguiendo con la variable tiempo de muerte

para la base de datos de cáncer de mama.

•Se estimaran los estadísticos de tendencia central.

•Sí el dato es nominal: solo la moda es útil.•Sí el dato es ordinal: moda y mediana.•Sí los datos son en intervalo o razón: media,

mediana y moda son útiles.

Page 58: Estadística descriptiva
Page 59: Estadística descriptiva
Page 60: Estadística descriptiva
Page 61: Estadística descriptiva
Page 62: Estadística descriptiva
Page 63: Estadística descriptiva

Medidas de dispersión.

•Se refiere a la variedad de las observaciones de una muestra o población.

•Variabilidad total de un conjunto de datos.•Sí todos los datos son iguales no hay

dispersión.•La magnitud de la dispersión es pequeña

cuando los datos tienden a ser parecidos entre Sí.

•Dos muestras pueden tener medias iguales pero dispersiones distintas.

Page 64: Estadística descriptiva

El rango o intervalo de variación.•Es la diferencia entre el valor máximo y el

valor mínimo.

•La utilidad del rango es limitada.

•Es una medida pobre de dispersión ya que solo toma dos valores.

•Su principal ventaja es la simplicidad del calculo.

Page 65: Estadística descriptiva

La varianza• Cuando los valores de un conjunto de

observaciones se encuentran ubicados cerca de su media, la dispersión es menor que cuando están esparcidos.

• La magnitud de esta distancia se mide con la varianza.

• Se resta la media de cada uno de los valores individuales, las diferencias se elevan al cuadrado y después se suman entre Sí.

• Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide por el tamaño de la muestra menos 1.

Page 66: Estadística descriptiva

La varianza de la muestra.

•S2=Sn(x-X)/n-1

Page 67: Estadística descriptiva

Varianza poblacional.

•s2= S (X-m)/N

Page 68: Estadística descriptiva

Desviación estándar.

•La varianza es una medida de dispersión al cuadrado, por lo que no expresa del todo la dispersión de los datos originales.

•Se utiliza la desviación estándar que en ultimas es la dispersión original del dato.

•Es la raíz cuadrada de la varianza.

Page 69: Estadística descriptiva

Ejemplo 4

•Interpretar las siguientes desviaciones estandar.

•30•0.22•23•33•13

Page 70: Estadística descriptiva

Coeficiente de variación.

•Se utiliza cuando se quiere comparar la dispersión de dos conjuntos de datos

•La comparación de las dos desviaciones estándar puede dar un resultado equivocado.

C.V. = s/media (100)

Page 71: Estadística descriptiva

Ejemplo 5

•Hay dos muestras de varones con estos datos:

Muestra 1 Muestra 2

Edad. 25 años. 11 años

Peso promedio 145 libras 80 libras

Desviación E. 10 libras 10 libras

• ¿Cuál de los dos grupos tiene mayor variabilidad.

Page 72: Estadística descriptiva

Ejemplo 5

•C.V. = 10/145 (100)= 6.9

•C.V. =10/80 (100)=12.5

C.V. = s/media (100)

Page 73: Estadística descriptiva

Percentiles y cuartiles.• Parámetros de localización.

• Cado un conjunto de n observaciones x1, x2. x3 ….xn, el p-esimo percentil P es el valor de X, tal que p por ciento o menos de las observaciones son menores que P y (100-p) por ciento o menos de las observaciones son mayores que P.

• Sí una persona queda en percentil 22 quiere decir que supero al 22% de la población y fue superada por el 78%

Page 74: Estadística descriptiva

Percentiles y cuartiles.

•Los sub-índices en los percentiles indican su ubicación, por ejemplo P22 es el percentil 22.

•P50 por definición es la mediana.

•P25 es el primer cuartil y se expresa como Q1.

•P50 es el segundo cuartil y se conoce como Q2.

•P75 es el tercer cuartil y se conoce como Q3

Page 75: Estadística descriptiva

Ejemplo 6

•A un grupo de niños se les hizo la prueba de coeficiente intelectual, quedando en los siguientes percentiles, interprételos.

•P33

•P99

•P39

•p13

Page 76: Estadística descriptiva

IQR o rango intercuartilico.

•Es la diferencia entre cuartil 3 y cuartil 1.

•IQR: Q3-Q1

Page 77: Estadística descriptiva

Grafico de cajas.