Trabajo estadistica descriptiva ejemplo

IIISSSPPPSSS NNN°°° 666000000555

MMMaaattteeerrriiiaaa ::: EEEssstttaaadddíííssstttiiicccaaa yyy PPPrrrooobbbaaabbbiiillliiidddaaaddd

CCCaaarrrrrreeerrraaa::: PPPrrrooofffeeesssooorrraaadddooo eeennn MMMaaattteeemmmááátttiiicccaaa

TTTRRRAAABBBAAAJJJOOO PPPRRRAAACCCTTTIIICCCOOO EEEVVVAAALLLUUUAAATTTIIIVVVOOO

AAALLLUUUMMMNNNAAASSS::: JJJUUUDDDIIITTTHHH EEESSSPPPIIINNNOOOSSSAAA,,, VVVAAALLLEEERRRIIIAAA MMMAAARRRCCCIIIAAALLL

Definiciones

Población: totalidad de las unidades elementales bajo estudio, pueden ser humanas o no.

Muestra: es un subconjunto de la población, la muestra debe ser representativa de la población.

ESTADISTICA

DESCRIPTIVA

FORMAS VARIABILIDAD TENDENCIA

CENTRAL

C

INDICADORES

INFERENCIA

POBLACION

MUESTRA

DATOS SIN

AGRUPAR

DATOS

AGRUPADOS

El siguiente cuadro representa los datos de un muestreo realizado en el año 2000, en la zona del

departamento de los Andes, respecto a la concentración en microgramos por litro de agua de boro.

600 1800 3700 7300

800 1800 4300 8400

800 2100 5200 8600

800 2100 5400 8600

900 2200 5600 9000

1000 2300 5600 9500

1080 2350 6000 9600

1700 3200 6200 10000

1700 3300 7000 11000

1800 3500 7100 11000

Clasificación ordenada

Ordenar los datos de manera ascendente o descendente, nos permite identificar los valores mayor y

menor rápidamente, nos permite dividir, podemos ver si algunos valores se repiten más de una vez en

el arreglo.

600 1800 5300 8200

800 1800 5400 8400

800 2100 5600 9600

800 4000 5600 10000

900 4100 5600 15000

1000 4200 6000 18000

1080 4350 6200 18300

1700 4500 6500 20000

1700 5000 8000 24500

1800 5100 8100 28000

Cuadro de distribución de frecuencia

Cuando tenemos un gran número de datos es conveniente acomodar los datos en agrupamientos de

clase. Esta forma de acomodar los datos en forma tabular se denomina una distribución de frecuencia,

que es una tabla resumen en la que los datos se disponen en agrupamientos o categorías

convenientemente establecidas.

Selección del numero de clases

El número de clases depende principalmente del numero de observaciones en los datos. En

general, se recomienda que la distribución de frecuencia tenga al menos cinco agrupamientos

clases pero no más de quince, ya que se corre el riesgo de obtener poca información.

Numero de datos: n= 40

Amplitud:

A= Xmax – Xmin = 28000 – 600

A = 27400

Cantidad de clase(K)

Para determinar el número de clase , utilizaremos la Regla de Sturges, que nos dara una

aproximación de la cantidad de clase que puedo usar.

K= 1+3,32 . log n

K = 1+ 3,32 . log 40 = 6,31 Tomo K =7

Amplitud de clase (h) :

= 3914,2 ≈ 4000

Limites: se debe tener en cuenta que el primer dato y el último estén contenidos.

Punto medio ( X I ) : es el punto a la mitad de los limites de cada clase y es representativo de los datos

de esa clase.

k xj-1 xj

xi fi F ˂ F ˂ hi H ˂ H ˂ xi . fi xi

2. fi

1 0 - 4000 2000 13 13 40 32,5 32,5 100 26000 52000000

2 4000 – 8000 6000 15 28 27 37,5 70 70 90000 540000000

3 8000 –12000 10000 6 34 12 15 85 52,5 60000 600000000

4 12000 – 16000 14000 1 35 6 2,5 87,5 45 14000 196000000

5 16000 – 20000 18000 2 36 5 5 92,5 30 36000 648000000

6 20000 – 24000 22000 1 37 3 2,5 95 22,5 22000 484000000

7 24000 – 28000 26000 2 40 2 5 100 12,5 52000 1352000000

40 100 300000

3872000000

xj-1 : límite inferior

xj : límite superior

xi : es el punto a la mitad de los limites de cada clase y es representativo de los datos de esa clase.

fi : la frecuencia absoluta sin acomodar, es la frecuencia con que se presentan los valores en cada clase

de un conjunto de datos.

F ˃: frecuencia acumulada menos que, comienzo tomando n y voy restando los valores de fi .

F : frecuencia,

INDICADORES

Indicadores de tendencia central: la mayoría de los datos muestran una tendencia a agruparse

alrededor de cierto punto central, por lo tanto dada cualquier serie de datos particular, es posible

seleccionar algún valor o promedio típico para describir toda la serie de datos.

Existen 5 tipos de promedios usados con datos agrupados

Media aritmética ( ẋ): nos permite calcular un promedio que toma en cuenta la importancia de cada

valor con respecto al total. Se calcula sumando todas las observaciones de una serie de datos y luego

dividiendo el total entre el numero de elementos involucrados (denominado n).

X=

X= = 7500

Mediana (Me): es un valor del conjunto de datos que mide la observación central del conjunto, este

elemento que esta mas al centro del conjunto de números. La mitad de los elementos están por arriba

de este punto y la otra mitad esta por debajo.

Xj-1 = 4000

Me=Xj-1+ n/2-Fj-1* h Fj-1 = 13

fj fj = 15

Me = 4000 + 20 – 13 * 4000 = 5866

15

Moda : la moda es el valor que mas se repite en el conjunto de datos, es parecida a la mediana solo que

no se calcula mediante procesos aritméticos.

Mo=Xj-1 + ∆1 *h = 4000 + 2 * 4000 = 4615

∆1+∆2 13

∆1=fj – fj-1 = 15-13 = 2

∆2=fj - fj+1 = 15-6= 11

Xj-1: limite inferior de la clase modal

Fj: frecuencia absoluta de la clase modal

fj-1: es la frecuencia absoluta inmediatamente inferior a la en clase modal.

Fj+1: es la frecuencia absoluta inmediatamente posterior a la clase modal.

h : amplitud de la clase.

Rango medio: es el promedio de las observaciones menores y mayores de una serie de datos. Es

usado como una medición de resumen, puesto que puede proporcionar una medición adecuada

rápida y simple para caracterizar una serie de datos.

Rm= xmin-xmax = 28000 – 600 = 13700

2 2

Eje medio: es el promedio del primer y tercer cuartiles de una serie de datos

Em= Q1+Q3 = 3077 + 9333 = 7800

2 2

Para calcular el eje medio es necesario calcular los cuartiles que son medidas de

posicionamiento, dividen a los conjuntos de datos en 4 partes iguales-:

Q1: separa al 25% que abarca a los valores más pequeños del 75% restante constituido por los

que son mayores.

Q2: es la mediana el 50% de los valores son menores que la mediana y el 50% son mayores.

Q3 : separa al 25% de los datos mayores del 75% restante constituido por los que son menores.

Para calcular los cuartiles debemos primero encontrar el posicionamiento para

Qk=xj-1+

Q1= xj-1+ = 0 +( 10 – 0)/ 13 * 4000 = 3077

Q3= xj-1+ = 8000+ = 9333

Percentil:

Pk= xj-1+

P10= xj-1+ = 0 + (0,4 – 0)/ 13 * 4000 = 123,08

P90= xj-1+ = 16000 +( 36 – 35)/ 2 *4000 = 18000

Indicadores de variabilidad ( dispersión)

Rango: es la diferencia entre la mayor y la menor observación en una serie de datos. Mide la

propagación total en la serie de datos . Debido a que solo mide dos valores, el rango tiene

muchas posibilidades de cambiar drásticamente de una muestra a la siguiente.

R= xmin-xmax = 27200

Varianza y desvio estandar

Varianza y desvio estandar: medida de variación que toma en cuenta como se distribuyen y

agrupan las observaciones al igual que el desvio estándar. Evalúan la forma en que los valores

fluctúan alrededor de la media. La varianza no puede ser un numero negativo.

La varianza y el desvio estándar miden la dispersión promedio alrededor de la media es decir

como las observaciones mayores fluctúan por encima de esta y como las observaciones menores

se distribuyen por debajo de esta.

Varianza:

S2

x= = 3872000000 – 2250000000 = 1622000000

Desvío

ST= = 40274,06

Coeficiente de variación: es una medición relativa de variación, se expresa como un porcentaje.

Mide la dispersión en los datos relativa a la media.

Cv= *100% = 40274,06 / 7500 * 100 = 53,70

Indicadores de formas: los indicadores de forma indican la manera que se distribuyen los datos

esto puede ser Simétrica o sesgada, para describir la forma es necesario comparar la media y la

mediana :

Formas

Simetría 7500 ˃ 5866 As ( + )

Asimetria de Bowley :

( Q3 – Q2) – (Q2 – Q1) = (9333- 5866 ) – ( 5866- 3077) =3467 - 2789 ˃0

( Q3 – Q2) + (Q2 – Q1) (9333- 5866 ) + ( 5866- 3077) 3467 + 2789

Asimetria de Pearson

Ap = 3 ( 7500 – 5866) = 0,12 ˃0 As (+)

40274,6

Curtosis = ½ ( Q3 – Q1 ) = ½ ( 9333 - 3077 ) = 0,175

P90 - P10 18000 – 123,08

Análisis de los cinco números

xmin Q1 Q2 Q3 xmax

Grafica de caja y sesgo

xmin Q1 Q2 Q3 xmax

Grafico de barra

0

5

10

15

20

25

30

35

40

0 - 4000 4000 – 8000 8000 –12000 12000 – 16000 16000 – 20000 20000 – 24000 24000 – 28000

Education

Trabajo estadistica descriptiva ejemplo