Datos agrupados. medidas descriptivas

Medidas descriptivas para datos agrupados por clases

en una distribución de frecuencia cuando hay pérdida de información

Es muy común encontrar publicaciones de tablas de distribución de frecuencia sin

los datos originales, sobre todo cuando son un gran número de medidas. Cuando no

se calculan las medidas de tendencia central con los datos originales o no se publican

y las necesitamos para analizar los datos, podemos tomar el punto medio del

intervalo como el valor aproximado de todos los datos que pertenecen a un intervalo

dado; para calcular las medidas de tendencia central y de dispersión de forma

aproximada.

Ejemplo: La siguiente tabla muestra una distribución de frecuencia de la edad de

los pacientes con diabetes de cierto hospital, (las frecuencias relativas no se muestran

en la tabla). Los datos originales no fueron publicados. Calcular: la media, mediana,

moda, varianza, desviación típica y el percentil 25 (P25).

Clases edad (años)

mi fi Fa

[0 - 5) 2,5 3 3

[5-10) 7,5 5 8

[10-15) 12,5 6 14

[15 -20) 17,5 6 20

[20 - 25) 22,5 4 24

[25 - 30) 27,5 7 31

[30 - 35) 32,5 2 33

Total 33

Para este ejemplo se considera entonces que en la primera clase hay 3 pacientes

diabéticos con una edad estimada de 2 años y medio, en la segunda clase hay 5

pacientes, todos con una edad estimada de 7 años y medio: en la última clase hay 2

pacientes, ambos con una edad estimada de 32 años y medio.

Este es un caso donde existe pérdida de información y por lo tanto para el cálculo

de las medidas descriptivas se utiliza el punto medio del intervalo como el valor de

todos los datos que pertenecen a él. Las fórmulas a usar se muestran a continuación:

Media �̅� =∑ 𝑚𝑖×𝑓𝑖

𝑛

Mediana: la mediana está en el primer intervalo que acumule una frecuencia (Fa)

mayor o igual a:

n/2 si n es par

(n+1)/2 si n es impar

donde n es la cantidad total de datos.

Una vez ubicada esta clase medianal ”j” el valor de la mediana se calcula con las

siguientes fórmulas:

para n par para n impar

Moda: la moda está en la clase que tenga el mayor valor de frecuencia absoluta fi.

Una vez que se ubica la clase modal (i), la moda se calcula usando la siguiente

fórmula:

Mo =𝐿𝐼𝑖+𝐿𝑆𝑖

2

mi: punto medio del intervalo de clase

fi: frecuencia absoluta de la clase

n: número de datos

LIj: límite inferior de la clase medianal (j)

Faj-1: Frecuencia acumulada de la clase anterior a la clase medianal (j-1)

fj: frecuencia absoluta de la clase medianal (j)

n: cantidad de datos

Md = 𝐿𝐼𝑗 + (

𝑛 + 12 − 𝐹𝑎𝑗−1

𝑓𝑗) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 Md = 𝐿𝐼𝑗 + (

𝑛2 − 𝐹𝑎𝑗−1

𝑓𝑗) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

LIi: límite inferior de la clase modal i

LSi: límite superior de la clase modal i

Varianza

Percentil: para hallar un percentil en particular Ph, primero hallamos la posición i

que ocupa para un grupo de datos de tamaño n usando una regla de tres, así

decimos:

100% n

h% i

luego ubicamos la clase k que contiene por primera vez esta frecuencia acumulada

“i” (en la columna Fa) y aplicamos la siguiente ecuación:

donde,

Ph: percentil h

h: porcentaje de datos por debajo del Ph

k: clase a la que pertenece el Ph

LIh: límite inferior de la clase del Ph

Fak-1: frecuencia acumulada de la clase anterior del Ph

Aplicando las fórmulas para el ejemplo anterior:

Media

�̅� =∑ 𝑚𝑖×𝑓𝑖

𝑛

= (2,5 ∗ 3) + (7,5 ∗ 5) + (12,5 ∗ 6) + (17,5 ∗ 6) + (22,5 ∗ 4) + (27,5 ∗ 7) + (32,5 ∗ 2)

33

=572,5

33= 17,3

𝑖 =ℎ ∗ 𝑛

100

𝑃ℎ = 𝐿𝐼𝑘 + (

ℎ ∗ 𝑛100

− 𝐹𝑎𝑘−1

𝑓𝑘) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

𝑆2 =∑(𝑚𝑖 − �̅�)2 ∗ 𝑓𝑖

𝑛

Mediana

Hay 33 datos, por lo tanto, n es impar, la mediana está en el primer intervalo de clase

que acumule una frecuencia (Fa) mayor o igual a:

(n+1)/2 = (33+1)/2 = 34/2 = 17

La clase que primero acumula 17 datos es la cuarta clase, que tiene una Fa de 20, allí

está el dato número 17. Esta clase en la fórmula será la clase j donde j=4.

En este caso, la mediana coincide con el punto medio del intervalo m4.

Moda: la clase con mayor frecuencia absoluta es la clase 6 con una frecuencia de 7

datos. En la fórmula i=6

Varianza

𝑆2 =∑(𝑚𝑖 − �̅�)2 ∗ 𝑓𝑖

𝑛

= (2,5 − 17,3)2 + (7,5 − 17,3)2 + (12,5 − 17,3)2 + (17,5 − 17,3)2 + (22,5 − 17,3)2 + (27,5 − 17,3)2 + (32,5 − 17,3)2

33

=225 + 100 + 25 + 0 + 25 + 100 + 225

33=

700

33= 21,2 𝑎ñ𝑜𝑠2

Md = 𝐿𝐼𝑗 + (

𝑛 + 12 − 𝐹𝑎𝑗−1

𝑓𝑗) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Md = 15 + (

33 + 12 − 14

6) ∗ 5 = 15 + 2,5 = 17,5

Mo =𝐿𝐼𝑖 + 𝐿𝑆𝑖

2 Mo =

25 + 30

2= 27,5

Desviación típica: 𝑺 = √𝑺𝟐 = √𝟐𝟏, 𝟐𝟏 = 𝟒, 𝟔 años

Percentil 25 (P25): es un valor de edad por debajo del cual está el 25% de los

pacientes, para calcularlo primero ubicamos la posición “i” del percentil 25 (h)

dentro del grupo de datos ordenados:

i = (h*n)/100 i = (25*33)/100 = 8,25 ≈ 9

luego ubicamos luego ubicamos la clase k que contiene por primera vez esta

frecuencia acumulada “i” (en la columna Fa). Vemos que la clase 3 tiene una

Fa=14, allí se encuentra el dato número 9 (i=9), entonces k=3

finalmente, para estimar el P25 aplicamos la siguiente ecuación:

𝑃25 = 𝐿𝐼3 + (

25 ∗ 33100 − 𝐹𝑎2

𝑓3) ∗ 5 = 10 +

8,25 − 8

6= 10 + 0,042 = 10,042 ≈ 10

El 25% de los pacientes tiene una edad menor a 10 años.

𝑃ℎ = 𝐿𝐼𝑘 + (

ℎ ∗ 𝑛100 − 𝐹𝑎𝑘−1

𝑓𝑘) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Data & Analytics

Datos agrupados. medidas descriptivas