Upload
dinhanh
View
224
Download
0
Embed Size (px)
Citation preview
1 Versión: 23 de septiembre de 2013
Estadística descriptiva
La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un co-lectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto oseguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personasinfectadas durante un brote epidérmico o el color preferido de los alumnos de una clase.La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger,clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicasa partir de estos datos (Inferencia Estadística).Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplode un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un númerolimitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas paratodos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes(muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusionespara todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la InferenciaEstadística, que será considerada en los el Temas 3, 4, 5 y 6.
El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva.
1.1 Conceptos fundamentales
CONCEPTOS FUNDAMENTALES
Individuo o elemento: cada una de las personas u objetos que se desea estudiar.
Población: conjunto de individuoso elementos observados al realizarun experimento que cumplen ciertaspropiedades comunes.
Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempode vida, etc. En el ejemplo anterior, son todos los pacientes hipertensosdel mismo medio.
Muestra: una parte de la población.
Tamaño de la muestra: el númerode los elementos de la muestra.
En el ejemplo anterior, es el conjunto de pacientes hipertensos a losque se les aplica la droga. Generalmente es difícil obtener medidas detoda la población (medir la estatura de todos los españoles) o imposible(estudiando el caudal de un río tendríamos que medir los caudales detodos los años pasados y futuros). Se mide una parte de la población (unamuestra) y se trata de inferir estos resultados sobre toda la poblaciónahorrando tiempo y dinero.
Variable estadística es una propiedad característica de la población que estamos interesados en estudiar.
Hay dos tipos de variables cualitativas y cuantitativas.
1
1. Estadística descriptiva 2
Variable cualitativa: mide características que no toman valores numéricos. Por ejemplo, la profesión delpadre, color del pelo, nombre de una persona, asignatura preferida, etc. Se agrupan por modalidades,por ejemplo, la variable sexo presenta dos modalidades: femenino y masculino.
Variable cuantitativa: se puede medir y expresar mediante cantidades numéricas. A su vez se clasifican en:
Cuantitativa discreta: sólo admite valores aislados. Se habla de elementos o datos. Por ejemplo, elnúmero de hijas de una familia, el número de obreros en una fábrica, talla del pantalón, etc.
Cuantitativa continua: puede admitir cualquier valor dentro de un intervalo. Se clasifican en intervaloso clases. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg,. . . ), la altura de un objeto (1.64 m, 1.65 m,1.66 m,. . . ), temperaturas registradas en un observatorio o la presión sanguínea de enfermos, es decirpermiten que siempre exista un valor entre dos variables.
1.2 Tablas estadísticas
Una vez obtenidos los datos de la muestra o población, éstos se suelen ordenar y clasificar en la llamadas tablasestadísticas. Vamos a ilustrar con el siguiente ejemplo la necesidad de crear este tipo de tablas.
Ejemplo 1.1 Una tabla no estadística
Supongamos que tenemos una muestra de 500 alumnos varones de una Universidad, en los que se desea estudiarel grupo sanguíneo (variable cualitativa), el número de hermanos excluido él mismo (variable cuantitativadiscreta) y el peso (variable cuantitativa continua). Los datos de la muestra están recogidos en la Tabla 1.1.Es evidente que, a partir de la Tabla 5.1 no se puede deducir fácilmente la información global sobre el colectivoestudiado: ¿cuál es el grupo sanguíneo más frecuente?, ¿cómo de frecuente es?, etc.
Tabla 1.1Grupo sanguíneo, número de hermanos y peso de 500 alumnos varones de una Universidad
(Ejemplo de tabla no estadística)
Alumno no Grupo sanguíneo Número de hermanos Peso (Kg.)
1 A 0 70.502
2 B 3 67.231
. . . . . . . . . . . .
500 AB 2 71.676
La manera de construir la tablas estadísticas varía según sea el carácter de la variable a estudiar: cualitativa,cuantitativa discreta o cuantitativa continua. A continuación veamos ejemplos de cada caso.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 3
1.2.1 Variable cualitativa
Ejemplo 1.2 Tabla para analizar una variable cualitativa
Usando los datos del Ejemplo 1.1 y de la Tabla 1.1 podemos construir una tabla estadística, conocida comotabla de frecuencias (se define más adelante con carácter general). La Tabla 1.2 muestra la distribución defrecuencias del grupo sanguíneo (variable cualitativa).
Se observa que las frecuencias relativas se introducen para hacer comparables dos o más tablas de datos delmismo tipo basados en tamaños de muestra diferentes. Por ejemplo, si en otra Universidad se encuentra lafrecuencia absoluta n′3 = 40 de entre el número total de estudiantes N ′ = 937, no es posible determinar apartir de n3 = 25 y n′3 = 40 en cuál de los dos muestras es más frecuente el grupo sanguíneo AB, pues lasfrecuencias absolutas están basadas en diferentes valores de N . Sin embargo, las frecuencias relativas (f3 = 0.05y f ′3 = 40/937 = 0.043) sí permiten efectuar tal comparación y concluir que el grupo sanguíneo AB es un pocomás frecuente en el primer caso.
Tabla 1.2Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad
(variable cualitativa)
Grupo sanguíneo Frecuencia absoluta (ni) Frecuencia relativa(fi =
niN
)Porcentaje (Pi = 100fi)
A 150 150500 = 0.30 30%
B 75 75500 = 0.15 15%
AB 25 25500 = 0.05 5%
0 250 250500 = 0.50 50%
Total 500 1 100%
Con carácter general una tabla para analizar una variable cualitativa es la que muestra la Tabla 1.3.
Tabla 1.3Distribución de frecuencias: variable cualitativa
Clase Fr. absoluta (ni) Fr. relativa (fi) % Fr. abs. acumulada (Ni) Fr. relativa acumulada (Fi)
C1 n1 f1 100f1 N1 F1
C2 n2 f2 100f2 N2 F2
......
......
......
CK nK fK 100fK NK = N FK = 1
Total N 1 100% . . . . . .
En la a la Tabla 1.3 se han añadido las distribuciones de frecuencias absolutas acumuladas, Ni, y frecuenciasrelativas acumuladas, Fi (véase el Ejemplo 1.3). La información que proporcionan la distribución de frecuencias
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 4
relativas puede obtenerse a partir de la distribución de frecuencias relativas acumuladas y recíprocamente.Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer una relaciónde orden entre los valores de la variable.
Ejemplo 1.3
Dentro de los procesos industriales de gran importancia para el Ingeniero Químico, están los procesos detratamiento de aguas. Un laboratorio determinó la dureza del agua de 10 muestras obteniendo los resultados:
Muestra Dureza1 Agua blanda2 Agua blanda3 Agua dura4 Agua muy dura5 Agua muy dura6 Agua extremadamente dura7 Agua blanda8 Agua blanda9 Agua dura10 Agua muy dura
La tabla de distribución de frecuencias para la variable C =«Dureza del agua» se muestra en la siguiente tabla:
Dureza del agua (Ci) ni fi Ni Fi
Agua blanda 4 0.4 4 0. 4Agua dura 2 0.2 6 0.6Agua muy dura 3 0.3 9 0.9Agua extremadamente dura 1 0.1 10 1Total 10 1 - - - - - -
1.2.2 Variable cuantitativa discreta
Criterios similares sirven para el caso cuantitativo discreto como muestra el ejemplo siguiente.
Ejemplo 1.4 Tabla para analizar una variable cuantitativa discreta
En la Tabla 1.4 se representan distribuciones de frecuencias para analizar el número de hermanos (variablecuantitativa discreta). Se observa que las clases son ahora valores numéricos, pues los datos lo son.
Las clases se han ordenado de menor a mayor para mayor claridad de la tabla.
Por otra parte, en la Tabla 1.4 se observa que las últimas variables tienen frecuencias muy bajas, lo que sesuele hacen en estos casos es agrupar en la última clase las clases originales 7, 8, . . . (por tener frecuencias muybajas) para no hacer la tabla muy extensa sin necesidad. El resultado puede observarse en la Tabla 1.5.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 5
Tabla 1.4Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad (variable cuantitativa discreta)
no hermanos Fr. absoluta (ni) Fr. relativa (fi =niN
) % (Pi = 100fi) Fr. absoluta acumulada (Ni)
0 72 72500 = 0.144 14.4% 72
1 155 155500 = 0.31 31% 227
2 97 97500 = 0.194 19.4% 324
3 81 81500 = 0.162 16.2% 405
4 30 30500 = 0.06 6% 435
5 27 27500 = 0.054 5.4% 462
6 20 20500 = 0.04 4% 482
7 10 10500 = 0.02 2% 492
8 4 4500 = 0.008 0.8% 496
9 2 2500 = 0.004 0.4% 498
10 1 1500 = 0.002 0.2% 499
11 1 1500 = 0.002 0.2% 500
Total 500 1 100% - - -
Tabla 1.5Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500alumnos varones de una Universidad (variable cuantitativa discreta) con las últimas frecuencias
agrupadas, por tener valores muy bajos
no hermanos Fr. absoluta (ni) Fr. relativa (fi =niN
) Porcentaje (%) Fr. absoluta acumulada (Ni)
0 72 72500 = 0.144 14.4% 72
1 155 155500 = 0.31 31% 227
2 97 97500 = 0.194 19.4% 324
3 81 81500 = 0.162 16.2% 405
4 30 30500 = 0.06 6% 435
5 27 27500 = 0.054 5.4% 462
6 20 20500 = 0.04 4% 482
≥ 7 18 18500 = 0.036 3.6% 500
Total 500 1 100% - - -
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 6
Con carácter general una tabla para analizar una variable cuantitativa discreta es la que muestra la Tabla 1.6.
Tabla 1.6Distribución de frecuencias: variable cuantitativa discreta
Valor Fr. absoluta Fr. relativa Porcentaje (%) Abs. acumulada Rel. acumulada % acumulado
(xi) (ni) (fi =niN
) (pi) Ni =
i∑j=1
nj Fi =
i∑j=1
fj Pi =
i∑j=1
pj
x1 n1 f1 100f1 N1 = n1 F1 = f1 P1 = p1
x2 n2 f2 100f2 N2 = n1 + n2 F2 = f1 + f2 P2 = p1 + p2
. . . . . . . . . . . . . . . . . . . . .
xK nK fK 100fK NK = N FK = 1 PK = 100 %
Total N 1 100% - - - - - - - - -
1.2.3 Variable cuantitativa continua
Ejemplo 1.5 Tabla para analizar una variable cuantitativa continua
En el caso cuantitativo continuo, aún valiendo los criterios anteriores, se presenta la dificultad de de laformación de las clases. Al considerar el peso de los 500 alumnos (con una precisión en gramos), es prácticamenteimposible que dos individuos tengan el mismo peso, con lo que la tabla de valores contaría con miles de valorescon con frecuencias 0 y 1. Por ejemplo, entre 60 y 61 Kg hay 1000 valores posibles (tanto como gramos).
Para evitar esto, los datos deben agruparse en clases llamadas intervalos de clases: [L0, L1), [L1, L2), . . . ,[LK−1, LK), siendo Li−1 y Li límite inferior del intervalo de clase y límite superior respectivamente. Ladiferencia entre ambos, se llama amplitud de la clase:
a = Li − Li−1 . (1.1)
Por ejemplo, si se decide agrupar a los alumnos de 5 en 5 Kg, la presentación de los datos será como en laTabla 1.7. Se observa que
Los intervalos primero (x < 45) y el último (x ≥ 90) no constan de los límites ni tienen igual longitudque los demás. Esto se hace para simplificar la presentación de los datos, igual que se hizo en el últimointervalo de la Tabla 1.5. Se dice que son unos intervalos de «cajón de sastre».
Para facilitar la interpretación de los datos, los cálculos y las representaciones gráficas es convenienteque todos los intervalos de clase tengan la misma longitud.
Las clases no deben solaparse ni presentar huecos entre ellas (para evitar que un individuo pueda perte-necer a dos clases diferentes o que no haya clase en que clasificarlo).
En general, el número de clases a tomar es a decidir por el experimentador. Como norma general elnúmero de intervalos ha de estar entre 5 (menos es prácticamente no dar información) y 20 (más, esoscurecer la información global). Una regla muy utilizada es hacer K =
√N .
Para ciertos fines, que se verán después, conviene definir un valor que actuará como representante decada clase, valor llamado marca de clase:
ci =Li−1 + Li
2. (1.2)
Para las clases extremas a las que les faltan uno de los límites, se les asigna una longitud ficticia. Así, laprimera marca es c1 = (40 + 45)/2 = 42.5
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 7
Tabla 1.7Distribución del peso (x) en Kg de una muestra de 500 alumnos varones de una Universidad
(variable cuantitativa continua)
Intervalo de clase ni fi % Fr. absoluta acumulada (Ni) Marca de clase (ci)
x < 45 1 0.002 0.2% 1 42.5
45 ≤ x < 50 3 0.006 0.6% 4 47.5
50 ≤ x < 55 12 0.024 2.4% 16 52.5
55 ≤ x < 60 75 0.150 15% 91 57.5
60 ≤ x < 65 103 0.206 20.6% 194 62.5
65 ≤ x < 70 155 0.310 31.0% 349 67.5
70 ≤ x < 75 101 0.202 20.2% 450 72.5
75 ≤ x < 80 29 0.058 5.8% 479 77.5
80 ≤ x < 85 11 0.022 2.2% 490 82.5
85 ≤ x < 90 8 0.016 1.6% 498 87.5
x ≥ 90 2 0.004 0.4% 500 92.5
Total 500 1 100% - - - - - -
En general una tabla para analizar una variable cuantitativa continua es la que muestra la Tabla 1.8, quetambién podría contener las frecuencias acumuladas.
Tabla 1.8Distribución de frecuencias: variable cuantitativa continua
Intervalo de clase Frecuencia absoluta (ni) Frecuencia relativa (fi) % Marca de clase
[L0, L1) n1 f1 100f1 c1
[L1, L2) n2 f2 100f2 c2
......
......
...
[LK−1, LK) nK fK 100fK cK
Total N 1 100% - - -
A continuación formalizamos las definiciones de frecuencias usadas en los ejemplos que nos han permitidoclasificar y describir los datos.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 8
DISTRIBUCIÓN DE FRECUENCIAS
N Es el número total de datos (tamaño de la muestra).
C y C1,C2, . . .CK Es la variable a analizar y las K clases de esta variable.
Frecuencia absoluta (ni):
Se verifica queK∑i=1
ni = N
Es el número de elementos que pertenecen a la clase i de unavariable.Como hay varias (tantas como clases), se le adjudica un subíndice ique alude al número de la clase que se trate. Por ejemplo, n3 = 25significa que el número de individuos, de entre N , que pertenecena la tercera clase es de 25.Por otra parte, la suma total de todas las frecuencias absolutasdebe dar el total de la muestra estudiada, N .
Frecuencia relativa (fi): fi =niN
Se verifica queK∑i=1
fi = 1
Es el cociente entre la frecuencia absoluta, ni, de la clase i y elnúmero total de datos, N .Se introducen con el objetivo de hacer comparables dos o mástablas de datos del mismo tipo basadas en tamaños de muestradistintos.La suma de las frecuencias relativas es igual a 1.
Porcentaje relativo (pi): pi = 100fi Es frecuencia relativa a 100 individuos de la clase i, es decir es untanto por ciento (%). Se observa que la frecuencia relativa es untanto por uno.
Frecuencia absoluta acumulada (Ni):
Ni =
i∑j=1
nj
Es la suma de las frecuencias absolutas de todas las clases inferioresa la que estamos calculando. Así, N1 = n1, N2 = n1 + n2,N3 = n1 +n2 +n3, . . . y NK = n1 +n2 + · · ·+nK = N , es decirla última frecuencia absoluta acumulada deberá ser igual a N .
Frecuencia relativa acumulada (Fi):
Fi =Ni
N=
i∑j=1
niN
=
i∑j=1
fj
Es el cociente entre la frecuencia absoluta acumulada y el númerototal de individuos.
Porcentaje relativo acumulado (Pi):
Pi =
i∑j=1
pj
Es la suma de los porcentajes relativos de todas las clases inferio-res a la que estamos calculando. Así, P1 = p1, P2 = p1 + p2,P3 = p1 + p2 + p3, . . . y PK = p1 + p2 + · · ·+ pK = 100, es decirel último porcentaje relativo acumulado deberá ser igual a 100.
1.3 Representaciones gráficas
Los gráficos facilitan la lectura e interpretación de los datos. Los gráficos pueden ser de varios tipos, pero todosestán basados en el principio general de que la figura construida para cada clase deber tener un áreaproporcional a la frecuencia de esta clase: al lector lo que «le entra» por los ojos es el área de la figura.Los tipos de gráficos que se deben elegir dependen en general de la naturaleza de la variable estudiada.
1.3.1 Variable cualitativa
Diagrama de barras o rectángulos
Este tipo de diagramas se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintasclases y en el otro los valores de las frecuencias, absolutas o relativas. Sobre cada clase se levantan barras orectángulos de la misma base y altura igual a la frecuencia. Según se sitúen las clases sobre el eje de abscisas ode ordenadas, se tendría diagrama de rectángulos verticales u horizontales.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 9
Figura 1.1Diagrama de barras (rectángulos verticales) de las
frecuencias absolutas de la Tabla 1.2
0
50
100
150
200
250
300
A B AB 0
Figura 1.2Diagrama de barras (rectángulos horizontales) de
las frecuencias absolutas de la Tabla 1.2
0 50 100 150 200 250 300
A
B
AB
0
Diagrama de sectores
El gráfico consiste en dibujar una circunferencia de radio arbitrario y dividir su círculo en sectores. A cada clasese le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase.Como en los 360◦ de la circunferencia han de estar incluidos los N individuos de la muestra, a una clase defrecuencia absoluta ni se le asigna un sector del ángulo αi definido por:
αi =niN× 360◦ = fi × 360◦
siendo fi la correspondiente frecuencia relativa.
Ejemplo 1.6 Diagrama de sectores para una variable cualitativa
En la Figura 1.3, construida en basa a la Tabla 1.9, a la clase «tumores» le corresponde un ángulo
α = 0.1966× 360◦ = 70◦46′33.6′′
Tabla 1.9Mortalidad por grupos de causas (España 1979)
Causa Porcentaje (%)Aparato circulatorio 46.07Tumores 19.66Aparato respiratorio 8.59Externa 5.53Aparato digestivo 5.46Mal definida 4.18Resto 10.51Total 100
Figura 1.3Diagrama de sectores para la Tabla 1.9
Aparato circulatorio
Tumores
Aparato respiratorio
Externa
Aparato diges5vo
Mal definida
Resto
Ejemplo 1.7 Diagrama de barras y de sectores para una variable cualitativa
La Tabla 1.10 contiene datos de la distribución de 150 personas de 25 y 45 años de edad, según su estado civil.Y las Figuras 1.4 y 1.5 muestran el diagrama de barras y se sectores, respectivamente.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 10
Tabla 1.10Distribución de frecuencias de 150 personas de 25 a 45 años, según su estado civil
Estado Soltero Casado Viudo Divorciado No declarado TotalFr. absoluta 20 78 15 26 11 150
Figura 1.4Diagrama de barras para la Tabla 1.10
0
10
20
30
40
50
60
70
80
90
Soltero Casado Viudo Divorciado No declarado
Figura 1.5Diagrama de sectores para la Tabla 1.10
Soltero
Casado
Viudo
Divorciado
No declarado
Pictograma
En este tipo de gráfico cada variable se representa por una figura no geométrica, por ejemplo un automóvil, unedificio, una herramienta de trabajo,etc. Las figuras habrán de tener un área proporcional a la frecuencia de lasclases y esto puede lograrse por dos caminos.En los pictogramas de repetición se asigna un valor a una figura base, y esta se repite tantas veces comoconvenga a la frecuencias de las clase.En los pictogramas de ampliación, a cada clase se le asigna una única figura-motivo con un área proporcional ala frecuencia de aquella. En este último caso, si dos clases tienen frecuencias una doble de la otra, la figura-motivodebe tener un área doble de la otra.
Tabla 1.11Producción de vinos en Andalucía durante un año
Provincia Porcentaje (%)a
Huelva 21.97Sevilla 4.39Cádiz 32.96Málaga 27.47Granada 7.69Almería 3.29Jaén 2.19Total 100
aLos datos son inventados
Figura 1.6Pictograma para la Tabla 1.11
0
5
10
15
20
25
30
35
Huelva Sevilla Cádiz Málaga Granada Almería Jaén
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 11
1.3.2 Variable cuantitativa discreta
Diagrama de barras o rectángulos
Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el diagrama de barras o rectángulos.Se construye de la misma forma que para las variables cualitativas pero ahora sobre el eje de abscisas se sitúanlos valores de la variable. Es decir, una vez colocados los valores de la variable en el eje de abscisas, se levantansobre ellos unos segmentos (barras) de altura igual a la frecuencia correspondiente.Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todas las barras será N o 1. LaFigura 1.7 representa el diagrama de barras para la Tabla 1.5. Nótese que las clases extremas, que no tienen iguallongitud que las demás, conviene dibujarlas con igual anchura. Tal sucede con la barra «≥ 7» de la Figura 1.7.
Polígono de frecuencias simples
Se trazan unos ejes cartesianos: a cada clase se le asigna un punto en el plano, con una abscisa que es el valordel dato, y una ordenada que es su frecuencia. La serie de puntos así obtenida se conecta mediante segmentosrectos, obteniendo una poligonal.De nuevo, los polígonos pueden ser de frecuencias absolutas o de frecuencias relativas. El polígono de frecuenciases especialmente útil para ver cómo evolucionan las frecuencias conforme aumenta el valor de datos. Por ello noes aplicable a los datos cualitativos no ordinales (el grupo sanguíneo A no tiene por qué ir por delante de B,etc).
Figura 1.7Diagrama de barras de frecuencias absolutas de
la Tabla 1.5
0
20
40
60
80
100
120
140
160
180
0 1 2 3 4 5 6 >=7
Figura 1.8Polígono de frecuencias absolutas para las fre-
cuencias absolutas de la Tabla 1.5
0
20
40
60
80
100
120
140
160
180
0 1 2 3 4 5 6 >=7
Diagrama de frecuencias acumuladas
Cuando la variable estadística es discreta se puede representar el diagrama de frecuencias acumuladas o escalo-nado. Pueden ser las frecuencias acumuladas absolutas, relativas o porcentajes acumulados.En la Figura 1.9 se representan las frecuencias absolutas acumuladas de correspondientes a la Tabla 1.5.
Figura 1.9Diagrama de frecuencias absolutas acumuladas de
la Tabla 1.5
0
100
200
300
400
500
600
0 1 2 3 4 5 6 >=7
Figura 1.10Polígono de frecuencias absolutas acumuladas de
la Tabla 1.5
0
100
200
300
400
500
600
0 1 2 3 4 5 6 7 8
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 12
Polígono de frecuencias acumuladas
El gráfico formado por los puntos cuyas abscisas son los valores de la variable y sus ordenadas la frecuenciaacumulada, unidos por segmentos, es el polígono de frecuencias acumuladas.La Figura 1.10 muestra el polígono de frecuencias absolutas acumuladas correspondientes a la Tabla 1.5.
1.3.3 Variable cuantitativa continua
Histograma
Cuando la variable estadística es cuantitativa continua, se utiliza el histograma, cuya representación está fun-damentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada clase.El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicandode este modo que existe continuidad en los valores de las variables. Un histograma es, por tanto, un gráficode variable continua dividida en intervalos de los que se eleva un rectángulo con área proporcional a sufrecuencia. Obsérvese que lo que es proporcional es el área, no la altura, lo que permite intervalos de diferenteamplitud. Una vez más resulta irrelevante trabajar con frecuencias absolutas o relativas.Si se trata de intervalos de la misma amplitud, la altura de cada uno de los rectángulos se toma igual a lafrecuencia correspondiente.
Si se trata de intervalos de amplitudes diferentes, co-mo en el la Tabla 1.12 del Ejemplo 1.8, la altura decada rectángulo hi conocida como densidad de fre-cuencia del intervalo [Li−1, Li), es igual a la frecuen-cia absoluta ni dividida por la amplitud del intervalocorrespondiente, ai, es decir
hi =niai
donde ai viene dada por (1.1).
En la Figura 1.12 se representa histograma de fre-cuencias absolutas de la Tabla 1.12.
El área del rectángulo correspondiente a la clasei-ésima es:
Figura 1.11Histograma de frecuencias absolutas de la Tabla 1.12
0 3 5 7 9 100
4
5
8
13
17
si = hiai =niaiai = ni
y la suma de las áreas de todos los rectángulos es:
S =
K∑i=1
ni = N
Es claro que si se toman frecuencias relativas, la suma de las áreas es igual a 1.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 13
Por otra parte se observa que, las clases ex-tremas, como las de la Tabla 1.7, conviene di-bujarlas con igual anchura. En la Figura 1.12se representa histograma de frecuencias abso-lutas de la Tabla 1.7.
Figura 1.12Histograma de frecuencias absolutas de la Tabla 1.7
0
20
40
60
80
100
120
140
160
180
40-‐45 45-‐50 50-‐55 55-‐60 60-‐65 65-‐70 70-‐75 75-‐80 80-‐85 85-‐90 90-‐95
Polígono de frecuencias simples
A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de línea consistenen unir los puntos medios de todos los intervalos contiguos mediante una recta, construyendo así un polígonode frecuencias, como muestra la Figura 1.13 del Ejemplo 1.8.
Ejemplo 1.8 Una variable cuantitativa continua con intervalos de amplitudes diferentes
La Tabla 1.12 contiene datos de la distribución de notas de 98 alumnos. Se observa que los intervalos de clasetienen longitudes diferentes.
Tabla 1.12Distribución de frecuencias de notas de 98 alum-
nos en una clase
Notas ni fi % hi marca
[0, 3) 24 0.24 24 % 8 1.5
[3, 5) 34 0.35 35 % 17 4
[5, 7) 26 0.27 27 % 13 6
[7, 9) 10 0.10 10 % 5 8
[9, 10) 4 0.04 4 % 4 9.5
Total 98 1 100 % - - - - - -
Figura 1.13Polígono de frecuencias absotutas enmarcado en
el histograma para la Tabla 1.12
0 3 5 7 9 100
4
5
8
13
17
Polígono de frecuencias acumuladas
El polígono de frecuencias acumuladas se utiliza para representar distribuciones de frecuencias (relativas oabsolutas) acumuladas.En el eje OX se representan los extremos de las clases. Se asigna la ordenada cero al extremo inferior del primerintervalo, es decir L0 = 0 y a cada extremo derecho de las clases se le asigna como ordenada la frecuenciaacumulada (absoluta, relativa o porcentual). La poligonal que une dichos puntos es el polígono de frecuenciasacumuladas (véase el Ejemplo 1.9).El hecho de tomar ahora la poligonal de los extremos a la derecha de los rectángulos es que, suponiendouniformemente distribuido el número de individuos en cada clase, dicha poligonal debería reflejar al final decada intervalo el total de individuos en él contenido.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 14
Ejemplo 1.9
En la figura de la derecha se muestran el histogramay el polígono de frecuencias absolutas acumuladaspara los datos de la tabla siguiente:
Peso (Kg.) Fr. absoluta (ni) Fr. acumulada Ni
[20,40) 12 12
[40, 60) 49 61
[60, 80) 32 93
[80, 100) 9 102
Total 102 - - -20 40 60 80 100
12
61
93
102
1.4 Medidas estadísticas
Agrupar los datos en tablas de frecuencias es un primer paso en el análisis estadístico de los mismos. Además,es conveniente resumir dichos datos en un solo número, que describa de una manera sencilla su comportamientoy sus características. Se trata de calcular las llamadas medidas estadísticas que pretenden «resumir» lainformación de la muestra para poder tener así un mejor conocimiento de la población.
Las medidas estadísticas suelen dividirse en medidas de posición o de tendencia central y medidas dedispersión. Parece claro que el cálculo de estas medidas requiere la posibilidad de efectuar operaciones con losvalores que toma la variable. Por este motivo, en lo que resta del tema tratamos sólo con variables cuantitativas.
1.4.1 Medidas de posición o de tendencia central
Consideraremos aquí las más utilizadas: la media aritmética y la mediana. Hay otras medidas de tendenciacentral, por ejemplo la moda, la media geométrica, la media cuadrática, la media armónica etc. que se utilizanen algunos procesos de carácter más específico y se escapan del objetivo de este tema.
Media aritmética
Media aritmética: caso discretoSea X una variable estadística cuantitativa que toma valores x1, x2, . . . , xK con frecuencias absolutas n1, n2,. . . , nK y N el tamaño de la muestra. Se define la media aritmética x como el valor:
x =x1n1 + x2n2 + · · ·+ xKnK
N=
1
N
K∑i=1
xini (1.3)
Ejemplo 1.10La media aritmética de la variable «nota» distribuida en intervalos de clase de la Tabla 1.12 es:
x =1.5× 24 + 4× 34 + 6× 26 + 8× 10 + 9.5× 4
98= 4.55
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 15
Siempre que se hace un cálculo, surge la pregunta ¿cuántas cifras decimales deben darse en la respuesta final? Noexisten normas estrictas para ello. Utilizaremos la convención de que, al calcular medias, el resultado se expresarácon hasta una o dos cifras decimales más que los datos. Para calcular las frecuencias relativas usaremos al menos4 cifras decimales, ya que con menos cifras se generarían errores considerables en los porcentajes. La últimacifra decimal se hallará mejor por redondeo que por truncamiento.
Advertencia:Al hacer una serie de cálculos no hay que redondear los resultados hasta que se finalicen todos los cálculos, delo contrario, se acumularían los errores de redondeo.
Ejemplo 1.11
La siguiente tabla de frecuencias muestra las calificaciones de 20 alumnos de Matemáticas:
Nota (xi) Fr. absoluta (ni) Fr. absoluta acumulada Ni
2 3 34 6 95 5 146 3 178 1 1810 2 20
Total 20 - - -
La nota media es
x =2× 3 + 4× 6 + 5× 5 + 6× 3 + 8× 1 + 10× 2
20=
101
20= 5.05
La media: caso continuoCuando la variable X es cuantitativa continua y está distribuida en intervalos de clase, la media aritmética secalcula considerando las marcas de clase ci y las frecuencias absolutas ni, i = 1, 2 . . . ,K de cada clase:
x =c1n1 + c2n2 + · · ·+ cKnK
N=
1
N
K∑i=1
cini (1.4)
Mediana
La mediana de los datos ordenados de menor a mayor es el valor (perteneciente o no a la muestra) que dejaa su izquierda el mismo número de valores que a su derecha (50% a su izquierda y 50% a su derecha), es decirdivide la muestra en dos partes iguales.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 16
Cálculo de la mediana: pocos datos
Sean X = (x1, x2, . . . , xN ), N datos a analizar.
Si N es impar, la mediana es el valor que ocupa la posición (N + 1)/2:
Me = xN+12
Si N es par, la mediana es la media aritmética de los dos valores centrales:
Me =xN/2 + xN/2+1
2
Ejemplo 1.12
Sea X = (3, 6, 7, 8, 9) una variable ordenada que toma un número impar de valores: N = 5 (impar). La medianaMe = 7 es el valor que ocupa la posición central (deja 3 datos antes y 3 datos después de ella):
Me = x 5+12
= x3 = 7.
Ejemplo 1.13
Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56) una variable ordenada que toma un número imparde valores: N = 15 (impar). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que
Me = x 15+12
= x8 = 23.
Luego la mediana Me = 23 deja 7 datos antes y 7 datos después de ella.
Ejemplo 1.14
Sea X = (3, 6, 7, 8, 9, 10) una variable ordenada que toma un número par de valores: N = 6 (par). La medianaMe la media aritmética que los dos valores centrales:
Me =xN
2+ xN
2 +1
2=x 6
2+ x 6
2+1
2=x3 + x4
2=
7 + 8
2= 7.5
que deja 2 valores por debajo y 2 valores por encima de ella.
Ejemplo 1.15
Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56) una variable ordenada que toma un número par devalores: N = 14 (par). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que
Me =xN
2+ xN
2 +1
2=x 14
2+ x 14
2 +1
2=x7 + x8
2=
21 + 23
2=
44
2= 22
Luego la mediana Me = 22 deja 7 datos antes y 7 datos después de ella.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 17
Cuando los datos están agrupados en forma de tabla de frecuencias, el cálculo de la mediana se facilita conla anotación de las frecuencias acumuladas. Se pueden usar frecuencias absolutas, relativas o porcentajes acu-mulados. Aquí, vamos usar los porcentajes acumulados, ya que el mismo procedimiento nos va a servir para elcálculo de los percentiles (véase la Sección 1.4.2).
Cálculo de la mediana: caso discreto
1. Construir la tabla de porcentajes acumulados Pi.
2. Ubicar el porcentaje 50 % tal que Pi−1 ≤ 50 % < Pi.
Si Pi−1 < 50 %, es decir no coincide con Pi−1, entonces
Me = xi
Si Pi−1 = 50 %, entonces
Me =xi−1 + xi
2
donde: xi = valor de X correspondiente a Pi; xi−1 = valor de la variable X correspondiente a Pi−1.
Ejemplo 1.16
Vamos a calcular la media de los datos de tabla de distribución de calificaciones del Ejemplo 1.11. Construimosla tabla de porcentajes acumulados.
Nota (xi) Fr. absoluta (ni) Fr. relativa % % acumulado2 3 0.15 15 154 6 0.30 30 455 5 0.25 25 706 3 0.15 15 858 1 0.05 5 9010 2 0.10 10 100
Total 20 1 100 - - -
Tenemos que
P2 = 45 % < 50 % < P3 = 70 %,
de donde
Me = x3 = 5.
Esto significa que la mitad de la clase ha obtenidoun 5 o menos, y la otra mitad un 5 o más.
2 4 5 6 8 10
15
45
70
85
90
100
50
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 18
Ejemplo 1.17
Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de calificacionesen una clase:
Nota (xi) 1 2 3 4 5 6 7 8 9Fr. absoluta (ni) 2 2 4 5 6 9 4 4 2Fr. relativa 0.0526 0.0526 0.1053 0.1316 0.1579 0.2368 0.1053 0.1053 0.0526% 5.26 5.26 10.53 13.16 15.79 23.68 10.53 10.53 5.26% acumulado 5.26 10.53 21.05 34.21 50 73.68 84.21 94.74 100
Tenemos que
50 % = P5 = 50 % < P6 = 73.68 %,
es decir 50 % = P5, de donde la mediana es
Me =x5 + x6
2=
5 + 6
2= 5.5,
lo que significa que la mitad de la clase ha obtenidoun 5.5 o menos y la otra mitad un 5.5 o más.
1 2 3 4 5 6 7 8 9
5.26
10.53
21.05
34.21
50
73.68
84.21
94.74
100
Me
Cálculo de la mediana: caso continuo
1. Construir la tabla de porcentajes acumuladosPi .
2. Ubicar el 50 % tal que
Pi−1 ≤ 50 % < Pi
3. Si Li−1 y Li son los límites inferior y supe-rior del intervalo correspondientes a Pi−1 y Pi
respectivamente, entonces la mediana Me es laabscisa del punto situado en la recta que in-terpola los valores (Li−1, Pi−1) y (Li, Pi), cuyaordenada es igual 50 %.
Pi
Pi−1
50%
MeLi−1
Li
Se recuerda que la recta que interpola los valores (Li−1, Pi−1) y (Li, Pi) viene dada por:
y = Pi−1 +Pi − Pi−1
Li − Li−1(x− Li−1). (1.5)
Luego, Me = x para y = 50, despejando la x de la ecuación (1.5), obtenemos:
Me = Li−1 +50− Pi−1
Pi − Pi−1(Li − Li−1). (1.6)
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 19
Ejemplo 1.18
Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de peso (en Kg.)de 102 personas en una clase:
Peso (Kg.) Fr. absoluta (ni) Fr. relativa (fi) % % Acumulados[20, 40) = [L0, L1) 12 0.1176 11.76 % 11.76 %
[40, 60) = [L1, L2) 49 0.4803 48.03 % 59.80 %
[60, 80) = [L2, L3) 32 0.3137 31.37 % 91.18 %
[80, 100) = [L3, L4) 9 0.088 8.8 % 100 %
Total 102 1 100% - - -
Tenemos 50 ∈ [11.76, 59.80] = [P1, P2] y L1 = 40,L2 = 60.
Por tanto, aplicando la fórmula (1.6) deducimos
Me = 40 +50− 11.76
59.80− 11.76(60− 40) ≈ 55.92.
20 40 60 80 100
11.76
59.8
91.18
100
50
Me
1.4.2 Percentiles
Existen medidas basadas en el orden de las observaciones. Hemos visto que la mediana es el valor que hace queel 50 % de los datos sean anteriores a ella y el otro 50 % posteriores. Cuando la muestra ordenada se divideen 100 partes iguales se obtienes los percentiles, denotados por p1, p2, . . . p99. El percentil p50 coincide con lamediana.
Percentil i es aquel valor pi que deja a su izquierda el i% y el resto por encima de los valores de la muestraordenada de menor a mayor.
Por ejemplo, el percentil 57 es el que hace que el 57 % de los datos son anteriores a él y el 43 % son posteriores. Lospercentiles son muy utilizados para describir los casos «raros» de las poblaciones. Así, afirmar que el precentil10 del peso de los niños varones recién nacidos es 2700 gramos significa que sólo un 10% de ellos tienen un pesoinferior a 2700 gramos.
Cálculo de percentilesPara calcular el percentil p`, se procede de modo análogo al cálculo e la mediana. Basta sustituir el 50 % porp`. Observemos que, en el caso de las distribuciones de variables continuas, el prercentil p` se calcula usandola fórmula:
p` = Li−1 +p` − Pi−1
Pi − Pi−1(Li − Li−1) (1.7)
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 20
Ejemplo 1.19 Datos agrupados en una tabla de frecuencias: caso continuo
Para los datos del Ejemplo 1.18 vamos a calcular el percentil 70, p70, es decir el valor del peso por debajo delcual se encuentra el 70% de los alumnos.
Tenemos que 70 ∈ [P2, P3] = [59.80, 91.18] y L2 = 60, L3 = 80. Por tanto, aplicando la fórmula (1.7),obtenemos
p70 = 60 +70− 59.80
91.18− 59.80(80− 60) ≈ 53.50
El percentil 70 es 53.5 significa que el 70 % de los alumnos tienen peso por debajo de 53.5 kilos y los demáspor encima.
Ejemplo 1.20
Para los datos del Ejemplo 1.18 vamos a responder a las siguientes preguntas:
a) ¿Qué porcentaje de alumnos tienen un peso menor que 60?
b) Suponiendo que los datos se distribuyen de modo homogéneo en cada intervalo, determinar el porcentajede alumnos que tienen un peso menor que 65.
Solución:
a): De la tabla del Ejemplo 1.18, se deduce fácilmente que el porcentaje de alumnos que tienen peso menorque 60 es 59.8 %
b): Se trata de determinar el porcentaje de alum-nos cuyo peso es menor que 65. Se observa que65 ∈ [60, 80). Tenemos L2 = 60 y L3 = 80 yP2 = 59.80 y P3 = 91.18 los porcentajes acumula-dos correspondientes.El porcentaje buscado es la ordenada, y, de la rectaque interpola los valores (L2, P2) y (L3, P3) corres-pondiente a la abscisa x = 65.
Usando la fórmula (1.5), se tiene trivialmente que
y = P2 +P3 − Pi−2
L3 − L2(x− L2), de donde
20 40 60 80
11.76
59.8
91.18
100
P2
P3
L2
L3
y = 59.80 +91.18− 59.80
80− 60(65− 60) ≈ 67.64
Luego el 67.64 % de alumnos tiene un peso menor que 65, es decir el valor 65 es el precentil 67.64.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 21
1.4.3 Medidas de dispersión: varianza y desviación típica
La media representa el centro de la distribución, pero ¿hasta qué punto representa a cada individuo? Seríaingenuo creer que todas las observaciones se sitúan en de la media. Las medidas de dispersión expresan elgrado de desviación de los datos respecto de las medidas de tendencia central, es decir la situación relativa delos datos, proximidad o alejamiento entre ellos.
Ejemplo 1.21
Las calificaciones obtenidas en los tres exámenes parciales de una asignatura por un alumno han sido 5, 6 y7 y por otro alumno 9, 7 y 2, la distribución de puntuaciones presenta en ambos casos, una media aritméticaigual a 6. En primer caso, las calificaciones son valores de gran proximidad y en el segundo esta separación esnotablemente mayor.
Desviación de una variable X = (x1, x2, . . . , xK) respecto de una característica de tendencia central C (porejemplo, la media aritmética, mediana, etc. ) es la cantidad
DC = xi − C o también DC = |xi − C|
Según sea la característica de tendencia central C, se tienen distintos índices de dispersión (desviación de lamedia, desviación de la mediana, . . . ).
Ejemplo 1.22
Se ha preguntado a los 5 últimos pacientes que han entrado en la consulta, por el número de parejas que hantenido en los últimos 48 meses. Sus respuestas están recogidas en la tabla que sigue:
Paciente Número de parejas (xi) Desviación de la media (xi − x) |xi − x2|
1 1 +3 = 4 - 1 9
2 3 +1 = 4 - 3 1
3 4 0 = 4 - 4 0
4 5 -1 = 4 - 5 1
5 7 -3 = 4 - 7 9
Total 20 0 20
La media es x = 20/5 = 4. El promedio de las desviaciones de las medias al cuadrado es s2 = 20/5 = 4,cálculo conocido por el nombre de la varianza. Para eliminar el cuadrado se hace la raíz cuadrada, de dondese obtiene la desviación típica es de 2 parejas. Este valor representa, pues, la distancia o desvío (de la media)típico en todas las observaciones. Por esta razón recibe el nombre de desviación típica.
La varianza se denota s2 (a veces, en algunas calculadoras se denota también como σ2n), se define como la
media aritmética de los cuadrados de las desviaciones a la media
s2 =1
N
K∑i=1
(xi − x)2ni
Es claro que si la varianza es nula, todos los valores de la variable coinciden con la media (dispersión es nula):
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 22
s2 = 0 ⇔ 1
N
K∑i=1
(xi − x)2ni = 0 ⇔ xi − x = 0 ⇔ xi = x ∀ i = 1, . . . ,K.
Por otro lado, cuanto más alejadas estén las observaciones de la media, mayor será la varianza.
PROPIEDAD DE LA VARIANZA
s2 =1
N
K∑i=1
(xi − x)2ni =1
N
K∑i=1
x2ini − x2
La varianza es la diferencia entre la media de los cuadradosy el cuadrado de la media (Teorema de König). Se puedesimplificar el cálculo de la varianza usando la esta propiedad.
La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en lainferencia estadística. Su principal inconveniente es que viene expresada en unidades que son el cuadrado de lasunidades de las observaciones originales (cm2 si x se mide en cm).
La desviación típica es la raíz cuadrada positiva de la varianza
s = +√s2 =
√√√√ 1
N
K∑i=1
(xi − x)2ni
PROPIEDAD DE LA DESVIACIÓN TÍPICA
s =
√√√√ 1
N
K∑i=1
(xi − x)2ni =
√√√√ 1
N
K∑i=1
x2ini − x2
Se obtiene usando el Teorema de König. Esta propiedadpuede permitir simplificar el cálculo de la desviación típica.
Ejemplo 1.23Consideramos los datos de la tabla del Ejemplo 1.11 que tienen la media aritmética x = 5.05.
Nota (xi) Fr. absoluta (ni) (xi − x̄)2 (xi − x̄)2ni x2i x2ini
2 3 9.3025 27.9075 4 124 6 1.1025 6.6150 16 965 5 0.0025 0.0125 25 1256 3 0.9025 2.7075 36 1088 1 8.7025 8.7025 64 6410 2 24.5025 49.0050 100 200
Total 20 94.95 605
Usando la definición tenemos la varianza y la desviación típica
s2 =1
N
6∑i=1
(xi − x)2ni =94.95
20= 4.7475 y s = +
√s2 = 2.1788.
Por otro lado, usando el Teorema de de König, los cálculos se simplifican:
s2 =1
N
6∑i=1
x2ini − x2 =605
20− (5.05)2 = 4.7475
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva 23
Coeficiente de variación de Pearson
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la mismaunidad, se introduce un número independiente de las unidades de mediada de las variables.
El coeficiente de variación de Pearson es:
CV =s
x, si x 6= 0.
Este coeficiente es un número abstracto, ya que es cociente de dos cantidades de una misma magnitud, y repre-senta la desviación típica medida en unidades de la media aritmética. Se acostumbra expresar este coeficienteen tantos por ciento, caso en el que su valor está dado por
V =s
x× 100
Se observa que cuanto menor sea CV mayor es la precisión del método. Cuanto mayor sea el coeficiente devariación menor será la representatividad de la medida.
Ejemplo 1.24
Los alumnos de un grupo de primer curso han sido calificados en matemáticas de 0 a 50 y en Física de 0 a 10:
Matemáticas FísicaCalificaciones No de alumnos Calificaciones No alumnos
15 3 2 1225 5 3 935 8 5 1240 14 6 545 16 7 447 5 9 449 3 10 8
Total 54 Total 54
¿ Cuál de las dos distribuciones es más homogénea con respecto a la nota media. ?
La media de calificaciones en Matemáticas es de 39.11 y la desviación típica es de 8.65, luego el coeficiente devariación de Pearson es:
CV1 =8.65
39.11= 0.221
y expresado en porcentajes es:
V1 = 0.221× 100 = 21.1 %.
La calificación media de Física es 5.27 y la desviación típica es 2.80, luego el coeficiente de variación de Pearsones:
CV2 =2.80
5.27= 0.531
y expresado en porcentajes es:
V2 = 0.531× 100 = 53.1 %.
Tenemos V1 < V2, por tanto hay mayor homogeneidad en las calificaciones de Matemáticas.
Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla
Bibliografía
[1] E. Cobo, P. Muñoz, J.A. González, Bioestadística para no estadísticos, Madrid, Elsevier España, 2007.
[2] A. Martín Andrés, J.D. Luna del Castillo, Bioestadística para las Ciencias de la Salud, Ediciones Norma-Capitel, Madrid, 2004.
24
Índice de Tema 1
1. Estadística descriptiva 11.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Medidas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.1. Medidas de posición o de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.2. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.4.3. Medidas de dispersión: varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 21
Bibliografía 23
25