Análisis descriptivo y presentación
de datos de una sola variable
Universidad de San Carlos de Guatemala Facultad de Ingeniería Curso de Estadística Catedrático. MA ING Marco Vinicio Monzón
MA ING Marco Vinicio Monzon
Presentación Gráfica
de datos
MA ING Marco Vinicio Monzon
Diagramas de pastel: Los diagramas de pastel (diagramas de pay) muestran la cantidad de datos que pertenecen a cada categoría como una parte proporcional de un círculo.
2.1 Gráficas, diagramas de Pareto
y diagramas de tallo y hojas.
Datos cualitativos:
Para la representación de datos cualitativos utilizamos gráficas de
Pastel y de barras para resumir los datos cualitativos, de atributo
o categóricos
Gráficas de Barras: Las gráficas de barras muestran la cantidad
de datos que pertenecen a cada categoría como áreas rectangulares
de tamaño proporcional.
MA ING Marco Vinicio Monzon
Ejemplo # 1
En la tabla siguiente se muestra el número de casos de cada tipo de operación realizada
en el Hospital General, el año pasado.
Operaciones realizadas en el Hospital General el año pasado
Tipo de operación Número de casos
Torácica 20
Huesos y articulaciones 45
Ojos, oídos, nariz y garganta 58
General 98
Abdominal 115
Urológicas 74
Proctológicas 65
Neurocirugía 23
Total 498
MA ING Marco Vinicio Monzon
Diagrama de Pastel
Operaciones realizadas en el Hospital
General el año pasado
Abdominal
22%
General
20%
Urológica
s
15%
Proctológicas
13%
Neurocirugía
5%
,Ojos, oídos
nariz y
garganta
12%
Huesos y
articulaciones
9%
Torácica
4%
MA ING Marco Vinicio Monzon
Gráfica de barras
Operaciones realizadas en el Hospital General el año pasado
020406080
100120140
Torácic
a
Ojo
s, oíd
os,
nariz
y
garganta
Ab
dom
inal
Proctoló
gic
as
Tipo de operación
Nú
mero
de c
aso
s
Series1
MA ING Marco Vinicio Monzon
Datos Cuantitativos Una razón fundamental para elaborar una gráfica de
datos cuantitativos es mostrar su distribución.
Distribución: Patrón de variabilidad mostrado por los datos de una variable.
La distribución muestra la frecuencia de cada valor de la variable.
Gráfica de puntos: Presenta los datos de una muestra mediante
la representación de cada porción
de datos con un punto ubicado a lo largo de una escala.
Esta escala puede ser vertical u horizontal.
La frecuencia de los valores está representada a lo largo
de la otra escala.
MA ING Marco Vinicio Monzon
2.2 Distribuciones de frecuencia e
histogramas
Los listados de grandes conjuntos de datos no presentan una imagen valiosa. Algunas veces se desea condensar los datos en una forma más manejable. Esto puede lograrse con ayuda de una distribución de frecuencias.
Distribución de frecuencias
Listado, a menudo expresado en forma de diagrama, que asocia
cada valor de una variable con su frecuencia.
Hay dos tipos: agrupadas y no agrupadas.
MA ING Marco Vinicio Monzon
Distribución de datos no
agrupados
3 2 2 3 2 4 4 1 2 2
4 3 2 0 2 2 1 3 3 1
La frecuencia f es el número de veces que aparece el valor x en la muestra.
La tabla anterior es una distribución de frecuencias no agrupadas.
“No agrupadas” porque cada valor de x en la distribución permanece solo.
Distribución de frecuencias no agrupadas
x f
0 1
1 3
2 8
3 5
4 3
MA ING Marco Vinicio Monzon
Distribución de frecuencias de
datos agrupados
Cuando un gran conjunto de datos tiene
muchos valores x distintos, en lugar de unos
cuantos valores repetidos, es posible agrupar
los valores en un conjunto de clases y
elaborar una distribución de frecuencias
agrupadas.
MA ING Marco Vinicio Monzon
Ejemplo de datos Agrupados
A fin de ilustrar este procedimiento para agrupar (o clasificar), se considerará una muestra de 50 calificaciones del examen
final del curso de estadística elemental del último semestre. En
la siguiente tabla se presentan las 50 calificaciones.
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 68 97 70 64 70 70
58 78 89 44 55 85 82 83 72 77
72 86 50 94 92 80 91 75 76 78
MA ING Marco Vinicio Monzon
K = amplitud K = 1 + 3.32 log50 = 6.64
R = rango R = 98- 39 = 59
I = intervalo I = 59/6.64 = 8.89 = 9
Límite aparente Límite real f F
39 – 47 38.5 – 47.5 3 3
48 – 56 47.5 – 56.5 2 5
57 – 65 56.5 – 65.5 6 11
66 – 74 65.5 – 74.5 13 24
75 – 83 74.5 – 83.5 11 35
84 – 92 83.5 – 92.5 10 45
93 – 101 92.5 – 101.5 5 50
MA ING Marco Vinicio Monzon
Marca de Clase Algunas veces denominada punto medio de clase, es el valor numérico
que está exactamente a la mitad de ésta y se encuentra al sumar los límites de clase y dividirlo entre 2. En la siguiente tabla se muestra una
columna adicional para la marca de clase, x.
Límite aparente Límite real f F M
39 – 47 38.5 – 47.5 3 3 43
48 – 56 47.5 – 56.5 2 5 52
57 – 65 56.5 – 65.5 6 11 61
66 – 74 65.5 – 74.5 13 24 70
75 – 83 74.5 – 83.5 11 35 79
84 – 92 83.5 – 92.5 10 45 88
93 – 101 92.5 – 101.5 5 50 97
MA ING Marco Vinicio Monzon
Histograma Gráfica de barras que representa una distribución de frecuencias de
una variable cuantitativa.
Un histograma está integrado por los siguientes componentes:
1. Un título, que identifica la población o la muestra de interés.
2. Una escala vertical, que identifica las frecuencias que hay en las diversas clases.
3. Una escala horizontal, que identifica la variable x. los valores de los límites de clase o de las marcad de clase deben identificarse a lo largo del eje x. debe utilizarse el método de identificación con el que se presente mejor la variable.
50 calificaciones del examen final de estadística
elemental
0
2
4
6
8
10
12
14
1
calificación
frec
uenc
ia
43 52 7061 79 88 97
MA ING Marco Vinicio Monzon
Tipos de Histogramas
0
1
2
3
4
5
6
1
Simétrico: Ambos lados de la
Distribución son idénticos.
Uniforme: cada valor aparece
con igual frecuencia.
MA ING Marco Vinicio Monzon
Sesgado: una cola es más larga que la otra.
La dirección
del sesgo es del lado de la cola más larga.
En forma de J: no hay cola de
la clase con la
frecuencia más alta.
MA ING Marco Vinicio Monzon
La frecuencia relativa
Es una medida proporcional de la frecuencia de un evento. Se encuentra al dividir la frecuencia de clase entre el número total de observaciones. La
frecuencia relativa puede expresarse como una fracción común, en forma decimal, o como un porcentaje.
Las frecuencias relativas son especialmente útiles cuando se comparan las distribuciones de frecuencias de dos conjuntos de datos de tamaños diferentes.
f fr F%
3 3/50 6%
2 2/50 4%
6 6/50 12%
13 13/50 26%
11 11/50 22%
10 10/50 20%
5 5/50 10%
MA ING Marco Vinicio Monzon
Estadística descriptiva
numérica
MA ING Marco Vinicio Monzon
2.3 Medidas de tendencia
central
Son valores numéricos que localizan, de alguna manera, el centro de un conjunto de datos. El término promedio a menudo
es asociado con todas las medidas de tendencia central.
Media aritmética:
Es el valor obtenido sumando las observaciones y dividiendo esta suma por el número
de observaciones
que hay en el grupo. Solamente puede utilizarse con variables cuantitativas.
Fórmula:
X= ∑ x
n
MA ING Marco Vinicio Monzon
Ejemplo de media aritmética
Alumno Nota Procedimiento
Luís Fernando Molina 6.0 Se suman las notas 6.0+5.4+3.1+7.0+6.1=27.7
Maria Fernanda Castillo 5.4 Luego el total se divide por la cantidad de alumnos:
27.7/5=5.53
Cristina Monzón 3.1 La media aritmética en este problema seria 5.53
Álvaro Godoy 7.0
José Manuel Cofiño 6.1
Notas de 5 alumnos en una prueba
MA ING Marco Vinicio Monzon
Mediana Es el valor de la variable que deja el mismo número de datos antes y después
que él.
Se representa con una “x” y se lee como “x tilde” o “mediana muestral”
Procedimiento para encontrar la mediana
Paso # 1: ordene los datos.
Paso # 2: determine la profundidad o posición de la mediana.
Paso # 3: determine el valor de la mediana
Fórmula: n + 1
2
Ejemplo:
Encuentre la mediana del conjunto de datos {6, 3, 8, 5, 3}
3, 3, 5, 6 y 8
5+ 1 = 3
2
La media es el tercer número desde cualquier extremo en los datos
ordenados en este caso 5.
MA ING Marco Vinicio Monzon
Moda
Es el valor que cuenta con una mayor frecuencia en una distribución de datos.
Ejemplo:
Encontrar la moda de {12, 9, 8, 8, 7, 5, 5, 5, 4, 2}
2, 4, 5, 5, 5, 7, 8, 8, 9, 12
El número que más se repite es 5, por lo tanto la respuesta
seria 5
MA ING Marco Vinicio Monzon
Rango Medio
Es el número que está exactamente a la mitad del camino entre el dato con menor valor min. y el dato con mayor valor Máx. Se encuentra
promediando los valores mínimo y máximo
Fórmula: Rango medio = Mín + Máx
2
Encuentre el rango medio de { 3, 3, 5, 6, 8}, Mín = 3 y Máx = 8
3 + 8 = 5.5
2
R//El rango medio seria 5.5
MA ING Marco Vinicio Monzon
2.4 Medidas de dispersión
Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Es la diferencia entre el valor mínimo y el valor máximo en un grupo de números.
Procedimiento:
•Ordenamos los números según su tamaño.
•Restamos el valor mínimo del valor máximo.
Ejemplo:
Encuentre el rango de la muestra {3, 3, 5, 6, 8}
Máx. - Mín. = 8 - 3 = 5
Rango
MA ING Marco Vinicio Monzon
Desviación con respecto a la
media Es la media de las diferencias en valor absoluto de los valores a la media.
Es la diferencia entre el calor de x y la media
Cada valor individual x se desvía de la media por una cantidad igual a (x- x). Esta desviación (x - x) es cero x es igual a la media. La desviación (x-x) es positiva se x es mayor que x y negativa si es menor que x.
Fórmula:
DESVIACIÓN CON RESPECTO A LA MEDIA= ∑ x - X
n
Ejemplo:
Considere la muestra {6, 3, 8, 5, 3}
Se encuentra que la media es 5
Luego cada desviación, se encuentra retando 5 de cada valor x
Datos x 6 3 8 5 3
Desviación X - x 1 - 2 3 0 - 2
MA ING Marco Vinicio Monzon
Varianza Muestral
Es la media de las desviaciones al cuadrado, calculada usando como divisor a n - 1.
Fórmula:
Varianza muestral = suma de (desviaciones) 2
número - 1
MA ING Marco Vinicio Monzon
Desviación estándar muestral Es una medida de dispersión para variables de razón y de intervalo. Es una
medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la
variable.
Fórmula:
S = suma de (desviaciones) 2
número - 1
Limite
aparente
F M M- x (M-x)2 F(M-x)2
10-17 11 13.5 -10.8 116.64 1283.04
18-25 17 21.5 -2.8 7.84 133.28
26-33 6 29.5 5.2 27.04 162.4
34-41 2 37.5 13.2 174.24 348.48
42-49 2 45.5 21.2 449.44 898.88
50-57 1 53.5 29.2 852.64 852.64
58-65 1 61.5 37.2 1383.84 1383.84
5,062.56
= 5,062.56 = 39
11.39
Respuesta
MA ING Marco Vinicio Monzon
2.5 Media y desviación estándar
de distribuciones de frecuencias
Promedio más conocido. Se representa por X (x barra o media muestral) la media se encuentra sumando todos los valores de la variable x, y dividiendo entre el número de estos valores n (tamaño de la muestra).
Para encontrar la media de una distribución de frecuencias se utiliza la siguiente fórmula:
Media muestral= x barra= suma de x/ número de
x
X= ∑x/n
Ejemplo:
Un conjunto de datos consta de 5 valores: 6, 3, 8,6 y 4.
Encuentre la media
= 6+3+8+6+4/5= 27/5= 5.4
Media:
MA ING Marco Vinicio Monzon
Mediana
Valor de los datos que ocupa la posición
central cuando los datos se ordenan según
su tamaño, se representa por x (x tilde o
mediana muestral)
Ejemplo:
Encuentre la mediana del conjunto de datos: 6,3, 8, 5, 3
Paso1: los datos ordenados de manera creciente, son 3, 3, 5, 6 y 8
Paso2. Profundidad de la mediana
d(x)= n+1/2= 5+1/2= 3 (la tercera posición)
paso3. Es decir la mediana es el tercer numero desde cualquier extremo en
los ordenados, es decir 5.
MA ING Marco Vinicio Monzon
Moda
Es el valor de x que ocurre más frecuentemente.
Ejemplo:
Encuentre la moda del siguiente conjunto (5, 6, 6, 7, 2, 3)
La moda es 6
MA ING Marco Vinicio Monzon
Rango: Es la diferencia en valor entre los datos de
mayor valor (máx.) y de menor valor (min.)
Ejemplo:
Encuentre el rango de la muestra 3, 3, 5, 6, 8
Max-min= 8-3= 5
Varianza muestral: S2, es la media de las desviaciones al cuadrado, calculada usando
como divisor a n-1.
Varianza muestral= suma de (desviaciones)2/ número -1
S2 = ∑ (X-X)2/ n-1
MA ING Marco Vinicio Monzon
Desviación Estándar S, es la raíz cuadrada positiva de la varianza.
S=√s2
S= √∑ (x-x )2
n-1
CV= Coeficiente de variación
S x100
x
MA ING Marco Vinicio Monzon
2.6 Medidas de posición
Se usan para describir la posición que tiene el valor de un dato específico en relación con el resto de los datos.
Medidas de posición
Cuartiles Deciles Percentiles
MA ING Marco Vinicio Monzon
Son los valores de la variable que dividen en
cuartos a los datos ordenados, cada conjunto de
datos posee 3 cuartiles.
25% 25% 25% 25%
Cuartiles
Q1 Q2 Q3
Formula: Qn= Qn\4
MA ING Marco Vinicio Monzon
Ejemplo
Galones de gasolina que consumen los
taxistas al día 4, 8, 8, 9, 10, 12, 15
Qn= 1(7)/4= Q1= 1.75= 2
Q1=8
El 25% consume menos de 8 galones y el
75% consume más de 8 galones
MA ING Marco Vinicio Monzon
Percentiles
Son los valores de la variable que dividen a un conjunto de datos ordenados en 100
subconjuntos iguales, cada conjunto de datos tiene 99 percentiles.
Pn= Pn/100
Ejemplo:
Pn= Pn/100= 60*7/100= 4.2=5
P60= 10
El 60 consume menos de 10 galones y el 40% consume más de 10 galones
MA ING Marco Vinicio Monzon
Deciles
Son los valores de la variable que dividen a
un conjunto de datos ordenados en 10
subconjuntos iguales, cada conjunto de datos
tiene 9 deciles.
Dn: Dn/10
Dn= Dn/10 4*7/10= 2.8=3
Dn=8
El 40% consume menos de 8 galones y el
60% consume más de 8 galones.
MA ING Marco Vinicio Monzon