Upload
judith-espinoza
View
112
Download
3
Embed Size (px)
Citation preview
IIISSSPPPSSS NNN°°° 666000000555
MMMaaattteeerrriiiaaa ::: EEEssstttaaadddíííssstttiiicccaaa yyy PPPrrrooobbbaaabbbiiillliiidddaaaddd
CCCaaarrrrrreeerrraaa::: PPPrrrooofffeeesssooorrraaadddooo eeennn MMMaaattteeemmmááátttiiicccaaa
TTTRRRAAABBBAAAJJJOOO PPPRRRAAACCCTTTIIICCCOOO EEEVVVAAALLLUUUAAATTTIIIVVVOOO
AAALLLUUUMMMNNNAAASSS::: JJJUUUDDDIIITTTHHH EEESSSPPPIIINNNOOOSSSAAA,,, VVVAAALLLEEERRRIIIAAA MMMAAARRRCCCIIIAAALLL
Definiciones
Población: totalidad de las unidades elementales bajo estudio, pueden ser humanas o no.
Muestra: es un subconjunto de la población, la muestra debe ser representativa de la población.
ESTADISTICA
DESCRIPTIVA
FORMAS VARIABILIDAD TENDENCIA
CENTRAL
C
INDICADORES
INFERENCIA
POBLACION
MUESTRA
DATOS SIN
AGRUPAR
DATOS
AGRUPADOS
El siguiente cuadro representa los datos de un muestreo realizado en el año 2000, en la zona del
departamento de los Andes, respecto a la concentración en microgramos por litro de agua de boro.
600 1800 3700 7300
800 1800 4300 8400
800 2100 5200 8600
800 2100 5400 8600
900 2200 5600 9000
1000 2300 5600 9500
1080 2350 6000 9600
1700 3200 6200 10000
1700 3300 7000 11000
1800 3500 7100 11000
Clasificación ordenada
Ordenar los datos de manera ascendente o descendente, nos permite identificar los valores mayor y
menor rápidamente, nos permite dividir, podemos ver si algunos valores se repiten más de una vez en
el arreglo.
600 1800 5300 8200
800 1800 5400 8400
800 2100 5600 9600
800 4000 5600 10000
900 4100 5600 15000
1000 4200 6000 18000
1080 4350 6200 18300
1700 4500 6500 20000
1700 5000 8000 24500
1800 5100 8100 28000
Cuadro de distribución de frecuencia
Cuando tenemos un gran número de datos es conveniente acomodar los datos en agrupamientos de
clase. Esta forma de acomodar los datos en forma tabular se denomina una distribución de frecuencia,
que es una tabla resumen en la que los datos se disponen en agrupamientos o categorías
convenientemente establecidas.
Selección del numero de clases
El número de clases depende principalmente del numero de observaciones en los datos. En
general, se recomienda que la distribución de frecuencia tenga al menos cinco agrupamientos
clases pero no más de quince, ya que se corre el riesgo de obtener poca información.
Numero de datos: n= 40
Amplitud:
A= Xmax – Xmin = 28000 – 600
A = 27400
Cantidad de clase(K)
Para determinar el número de clase , utilizaremos la Regla de Sturges, que nos dara una
aproximación de la cantidad de clase que puedo usar.
K= 1+3,32 . log n
K = 1+ 3,32 . log 40 = 6,31 Tomo K =7
Amplitud de clase (h) :
= 3914,2 ≈ 4000
Limites: se debe tener en cuenta que el primer dato y el último estén contenidos.
Punto medio ( X I ) : es el punto a la mitad de los limites de cada clase y es representativo de los datos
de esa clase.
k xj-1 xj
xi fi F ˂ F ˂ hi H ˂ H ˂ xi . fi xi
2. fi
1 0 - 4000 2000 13 13 40 32,5 32,5 100 26000 52000000
2 4000 – 8000 6000 15 28 27 37,5 70 70 90000 540000000
3 8000 –12000 10000 6 34 12 15 85 52,5 60000 600000000
4 12000 – 16000 14000 1 35 6 2,5 87,5 45 14000 196000000
5 16000 – 20000 18000 2 36 5 5 92,5 30 36000 648000000
6 20000 – 24000 22000 1 37 3 2,5 95 22,5 22000 484000000
7 24000 – 28000 26000 2 40 2 5 100 12,5 52000 1352000000
40 100 300000
3872000000
xj-1 : límite inferior
xj : límite superior
xi : es el punto a la mitad de los limites de cada clase y es representativo de los datos de esa clase.
fi : la frecuencia absoluta sin acomodar, es la frecuencia con que se presentan los valores en cada clase
de un conjunto de datos.
F ˃: frecuencia acumulada menos que, comienzo tomando n y voy restando los valores de fi .
F : frecuencia,
INDICADORES
Indicadores de tendencia central: la mayoría de los datos muestran una tendencia a agruparse
alrededor de cierto punto central, por lo tanto dada cualquier serie de datos particular, es posible
seleccionar algún valor o promedio típico para describir toda la serie de datos.
Existen 5 tipos de promedios usados con datos agrupados
Media aritmética ( ẋ): nos permite calcular un promedio que toma en cuenta la importancia de cada
valor con respecto al total. Se calcula sumando todas las observaciones de una serie de datos y luego
dividiendo el total entre el numero de elementos involucrados (denominado n).
X=
X= = 7500
Mediana (Me): es un valor del conjunto de datos que mide la observación central del conjunto, este
elemento que esta mas al centro del conjunto de números. La mitad de los elementos están por arriba
de este punto y la otra mitad esta por debajo.
Xj-1 = 4000
Me=Xj-1+ n/2-Fj-1* h Fj-1 = 13
fj fj = 15
Me = 4000 + 20 – 13 * 4000 = 5866
15
Moda : la moda es el valor que mas se repite en el conjunto de datos, es parecida a la mediana solo que
no se calcula mediante procesos aritméticos.
Mo=Xj-1 + ∆1 *h = 4000 + 2 * 4000 = 4615
∆1+∆2 13
∆1=fj – fj-1 = 15-13 = 2
∆2=fj - fj+1 = 15-6= 11
Xj-1: limite inferior de la clase modal
Fj: frecuencia absoluta de la clase modal
fj-1: es la frecuencia absoluta inmediatamente inferior a la en clase modal.
Fj+1: es la frecuencia absoluta inmediatamente posterior a la clase modal.
h : amplitud de la clase.
Rango medio: es el promedio de las observaciones menores y mayores de una serie de datos. Es
usado como una medición de resumen, puesto que puede proporcionar una medición adecuada
rápida y simple para caracterizar una serie de datos.
Rm= xmin-xmax = 28000 – 600 = 13700
2 2
Eje medio: es el promedio del primer y tercer cuartiles de una serie de datos
Em= Q1+Q3 = 3077 + 9333 = 7800
2 2
Para calcular el eje medio es necesario calcular los cuartiles que son medidas de
posicionamiento, dividen a los conjuntos de datos en 4 partes iguales-:
Q1: separa al 25% que abarca a los valores más pequeños del 75% restante constituido por los
que son mayores.
Q2: es la mediana el 50% de los valores son menores que la mediana y el 50% son mayores.
Q3 : separa al 25% de los datos mayores del 75% restante constituido por los que son menores.
Para calcular los cuartiles debemos primero encontrar el posicionamiento para
Qk=xj-1+
Q1= xj-1+ = 0 +( 10 – 0)/ 13 * 4000 = 3077
Q3= xj-1+ = 8000+ = 9333
Percentil:
Pk= xj-1+
P10= xj-1+ = 0 + (0,4 – 0)/ 13 * 4000 = 123,08
P90= xj-1+ = 16000 +( 36 – 35)/ 2 *4000 = 18000
Indicadores de variabilidad ( dispersión)
Rango: es la diferencia entre la mayor y la menor observación en una serie de datos. Mide la
propagación total en la serie de datos . Debido a que solo mide dos valores, el rango tiene
muchas posibilidades de cambiar drásticamente de una muestra a la siguiente.
R= xmin-xmax = 27200
Varianza y desvio estandar
Varianza y desvio estandar: medida de variación que toma en cuenta como se distribuyen y
agrupan las observaciones al igual que el desvio estándar. Evalúan la forma en que los valores
fluctúan alrededor de la media. La varianza no puede ser un numero negativo.
La varianza y el desvio estándar miden la dispersión promedio alrededor de la media es decir
como las observaciones mayores fluctúan por encima de esta y como las observaciones menores
se distribuyen por debajo de esta.
Varianza:
S2
x= = 3872000000 – 2250000000 = 1622000000
Desvío
ST= = 40274,06
Coeficiente de variación: es una medición relativa de variación, se expresa como un porcentaje.
Mide la dispersión en los datos relativa a la media.
Cv= *100% = 40274,06 / 7500 * 100 = 53,70
Indicadores de formas: los indicadores de forma indican la manera que se distribuyen los datos
esto puede ser Simétrica o sesgada, para describir la forma es necesario comparar la media y la
mediana :
Formas
Simetría 7500 ˃ 5866 As ( + )
Asimetria de Bowley :
( Q3 – Q2) – (Q2 – Q1) = (9333- 5866 ) – ( 5866- 3077) =3467 - 2789 ˃0
( Q3 – Q2) + (Q2 – Q1) (9333- 5866 ) + ( 5866- 3077) 3467 + 2789
Asimetria de Pearson
Ap = 3 ( 7500 – 5866) = 0,12 ˃0 As (+)
40274,6
Curtosis = ½ ( Q3 – Q1 ) = ½ ( 9333 - 3077 ) = 0,175
P90 - P10 18000 – 123,08
Análisis de los cinco números
xmin Q1 Q2 Q3 xmax
Grafica de caja y sesgo
xmin Q1 Q2 Q3 xmax
Grafico de barra
0
5
10
15
20
25
30
35
40
0 - 4000 4000 – 8000 8000 –12000 12000 – 16000 16000 – 20000 20000 – 24000 24000 – 28000