25
1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un co- lectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto o seguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personas infectadas durante un brote epidérmico o el color preferido de los alumnos de una clase. La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger, clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicas a partir de estos datos (Inferencia Estadística). Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplo de un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un número limitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas para todos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes (muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusiones para todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la Inferencia Estadística, que será considerada en los el Temas 3, 4, 5 y 6. El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva. 1.1 Conceptos fundamentales CONCEPTOS FUNDAMENTALES Individuo o elemento: cada una de las personas u objetos que se desea estudiar. Población: conjunto de individuos o elementos observados al realizar un experimento que cumplen ciertas propiedades comunes. Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempo de vida, etc. En el ejemplo anterior, son todos los pacientes hipertensos del mismo medio. Muestra: una parte de la población. Tamaño de la muestra: el número de los elementos de la muestra. En el ejemplo anterior, es el conjunto de pacientes hipertensos a los que se les aplica la droga. Generalmente es difícil obtener medidas de toda la población (medir la estatura de todos los españoles) o imposible (estudiando el caudal de un río tendríamos que medir los caudales de todos los años pasados y futuros). Se mide una parte de la población (una muestra) y se trata de inferir estos resultados sobre toda la población ahorrando tiempo y dinero. Variable estadística es una propiedad característica de la población que estamos interesados en estudiar. Hay dos tipos de variables cualitativas y cuantitativas. 1

Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

  • Upload
    dinhanh

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1 Versión: 23 de septiembre de 2013

Estadística descriptiva

La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un co-lectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto oseguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personasinfectadas durante un brote epidérmico o el color preferido de los alumnos de una clase.La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger,clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicasa partir de estos datos (Inferencia Estadística).Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplode un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un númerolimitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas paratodos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes(muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusionespara todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la InferenciaEstadística, que será considerada en los el Temas 3, 4, 5 y 6.

El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva.

1.1 Conceptos fundamentales

CONCEPTOS FUNDAMENTALES

Individuo o elemento: cada una de las personas u objetos que se desea estudiar.

Población: conjunto de individuoso elementos observados al realizarun experimento que cumplen ciertaspropiedades comunes.

Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempode vida, etc. En el ejemplo anterior, son todos los pacientes hipertensosdel mismo medio.

Muestra: una parte de la población.

Tamaño de la muestra: el númerode los elementos de la muestra.

En el ejemplo anterior, es el conjunto de pacientes hipertensos a losque se les aplica la droga. Generalmente es difícil obtener medidas detoda la población (medir la estatura de todos los españoles) o imposible(estudiando el caudal de un río tendríamos que medir los caudales detodos los años pasados y futuros). Se mide una parte de la población (unamuestra) y se trata de inferir estos resultados sobre toda la poblaciónahorrando tiempo y dinero.

Variable estadística es una propiedad característica de la población que estamos interesados en estudiar.

Hay dos tipos de variables cualitativas y cuantitativas.

1

Page 2: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 2

Variable cualitativa: mide características que no toman valores numéricos. Por ejemplo, la profesión delpadre, color del pelo, nombre de una persona, asignatura preferida, etc. Se agrupan por modalidades,por ejemplo, la variable sexo presenta dos modalidades: femenino y masculino.

Variable cuantitativa: se puede medir y expresar mediante cantidades numéricas. A su vez se clasifican en:

Cuantitativa discreta: sólo admite valores aislados. Se habla de elementos o datos. Por ejemplo, elnúmero de hijas de una familia, el número de obreros en una fábrica, talla del pantalón, etc.

Cuantitativa continua: puede admitir cualquier valor dentro de un intervalo. Se clasifican en intervaloso clases. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg,. . . ), la altura de un objeto (1.64 m, 1.65 m,1.66 m,. . . ), temperaturas registradas en un observatorio o la presión sanguínea de enfermos, es decirpermiten que siempre exista un valor entre dos variables.

1.2 Tablas estadísticas

Una vez obtenidos los datos de la muestra o población, éstos se suelen ordenar y clasificar en la llamadas tablasestadísticas. Vamos a ilustrar con el siguiente ejemplo la necesidad de crear este tipo de tablas.

Ejemplo 1.1 Una tabla no estadística

Supongamos que tenemos una muestra de 500 alumnos varones de una Universidad, en los que se desea estudiarel grupo sanguíneo (variable cualitativa), el número de hermanos excluido él mismo (variable cuantitativadiscreta) y el peso (variable cuantitativa continua). Los datos de la muestra están recogidos en la Tabla 1.1.Es evidente que, a partir de la Tabla 5.1 no se puede deducir fácilmente la información global sobre el colectivoestudiado: ¿cuál es el grupo sanguíneo más frecuente?, ¿cómo de frecuente es?, etc.

Tabla 1.1Grupo sanguíneo, número de hermanos y peso de 500 alumnos varones de una Universidad

(Ejemplo de tabla no estadística)

Alumno no Grupo sanguíneo Número de hermanos Peso (Kg.)

1 A 0 70.502

2 B 3 67.231

. . . . . . . . . . . .

500 AB 2 71.676

La manera de construir la tablas estadísticas varía según sea el carácter de la variable a estudiar: cualitativa,cuantitativa discreta o cuantitativa continua. A continuación veamos ejemplos de cada caso.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 3: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 3

1.2.1 Variable cualitativa

Ejemplo 1.2 Tabla para analizar una variable cualitativa

Usando los datos del Ejemplo 1.1 y de la Tabla 1.1 podemos construir una tabla estadística, conocida comotabla de frecuencias (se define más adelante con carácter general). La Tabla 1.2 muestra la distribución defrecuencias del grupo sanguíneo (variable cualitativa).

Se observa que las frecuencias relativas se introducen para hacer comparables dos o más tablas de datos delmismo tipo basados en tamaños de muestra diferentes. Por ejemplo, si en otra Universidad se encuentra lafrecuencia absoluta n′3 = 40 de entre el número total de estudiantes N ′ = 937, no es posible determinar apartir de n3 = 25 y n′3 = 40 en cuál de los dos muestras es más frecuente el grupo sanguíneo AB, pues lasfrecuencias absolutas están basadas en diferentes valores de N . Sin embargo, las frecuencias relativas (f3 = 0.05y f ′3 = 40/937 = 0.043) sí permiten efectuar tal comparación y concluir que el grupo sanguíneo AB es un pocomás frecuente en el primer caso.

Tabla 1.2Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad

(variable cualitativa)

Grupo sanguíneo Frecuencia absoluta (ni) Frecuencia relativa(fi =

niN

)Porcentaje (Pi = 100fi)

A 150 150500 = 0.30 30%

B 75 75500 = 0.15 15%

AB 25 25500 = 0.05 5%

0 250 250500 = 0.50 50%

Total 500 1 100%

Con carácter general una tabla para analizar una variable cualitativa es la que muestra la Tabla 1.3.

Tabla 1.3Distribución de frecuencias: variable cualitativa

Clase Fr. absoluta (ni) Fr. relativa (fi) % Fr. abs. acumulada (Ni) Fr. relativa acumulada (Fi)

C1 n1 f1 100f1 N1 F1

C2 n2 f2 100f2 N2 F2

......

......

......

CK nK fK 100fK NK = N FK = 1

Total N 1 100% . . . . . .

En la a la Tabla 1.3 se han añadido las distribuciones de frecuencias absolutas acumuladas, Ni, y frecuenciasrelativas acumuladas, Fi (véase el Ejemplo 1.3). La información que proporcionan la distribución de frecuencias

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 4: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 4

relativas puede obtenerse a partir de la distribución de frecuencias relativas acumuladas y recíprocamente.Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer una relaciónde orden entre los valores de la variable.

Ejemplo 1.3

Dentro de los procesos industriales de gran importancia para el Ingeniero Químico, están los procesos detratamiento de aguas. Un laboratorio determinó la dureza del agua de 10 muestras obteniendo los resultados:

Muestra Dureza1 Agua blanda2 Agua blanda3 Agua dura4 Agua muy dura5 Agua muy dura6 Agua extremadamente dura7 Agua blanda8 Agua blanda9 Agua dura10 Agua muy dura

La tabla de distribución de frecuencias para la variable C =«Dureza del agua» se muestra en la siguiente tabla:

Dureza del agua (Ci) ni fi Ni Fi

Agua blanda 4 0.4 4 0. 4Agua dura 2 0.2 6 0.6Agua muy dura 3 0.3 9 0.9Agua extremadamente dura 1 0.1 10 1Total 10 1 - - - - - -

1.2.2 Variable cuantitativa discreta

Criterios similares sirven para el caso cuantitativo discreto como muestra el ejemplo siguiente.

Ejemplo 1.4 Tabla para analizar una variable cuantitativa discreta

En la Tabla 1.4 se representan distribuciones de frecuencias para analizar el número de hermanos (variablecuantitativa discreta). Se observa que las clases son ahora valores numéricos, pues los datos lo son.

Las clases se han ordenado de menor a mayor para mayor claridad de la tabla.

Por otra parte, en la Tabla 1.4 se observa que las últimas variables tienen frecuencias muy bajas, lo que sesuele hacen en estos casos es agrupar en la última clase las clases originales 7, 8, . . . (por tener frecuencias muybajas) para no hacer la tabla muy extensa sin necesidad. El resultado puede observarse en la Tabla 1.5.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 5: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 5

Tabla 1.4Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500

alumnos varones de una Universidad (variable cuantitativa discreta)

no hermanos Fr. absoluta (ni) Fr. relativa (fi =niN

) % (Pi = 100fi) Fr. absoluta acumulada (Ni)

0 72 72500 = 0.144 14.4% 72

1 155 155500 = 0.31 31% 227

2 97 97500 = 0.194 19.4% 324

3 81 81500 = 0.162 16.2% 405

4 30 30500 = 0.06 6% 435

5 27 27500 = 0.054 5.4% 462

6 20 20500 = 0.04 4% 482

7 10 10500 = 0.02 2% 492

8 4 4500 = 0.008 0.8% 496

9 2 2500 = 0.004 0.4% 498

10 1 1500 = 0.002 0.2% 499

11 1 1500 = 0.002 0.2% 500

Total 500 1 100% - - -

Tabla 1.5Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500alumnos varones de una Universidad (variable cuantitativa discreta) con las últimas frecuencias

agrupadas, por tener valores muy bajos

no hermanos Fr. absoluta (ni) Fr. relativa (fi =niN

) Porcentaje (%) Fr. absoluta acumulada (Ni)

0 72 72500 = 0.144 14.4% 72

1 155 155500 = 0.31 31% 227

2 97 97500 = 0.194 19.4% 324

3 81 81500 = 0.162 16.2% 405

4 30 30500 = 0.06 6% 435

5 27 27500 = 0.054 5.4% 462

6 20 20500 = 0.04 4% 482

≥ 7 18 18500 = 0.036 3.6% 500

Total 500 1 100% - - -

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 6: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 6

Con carácter general una tabla para analizar una variable cuantitativa discreta es la que muestra la Tabla 1.6.

Tabla 1.6Distribución de frecuencias: variable cuantitativa discreta

Valor Fr. absoluta Fr. relativa Porcentaje (%) Abs. acumulada Rel. acumulada % acumulado

(xi) (ni) (fi =niN

) (pi) Ni =

i∑j=1

nj Fi =

i∑j=1

fj Pi =

i∑j=1

pj

x1 n1 f1 100f1 N1 = n1 F1 = f1 P1 = p1

x2 n2 f2 100f2 N2 = n1 + n2 F2 = f1 + f2 P2 = p1 + p2

. . . . . . . . . . . . . . . . . . . . .

xK nK fK 100fK NK = N FK = 1 PK = 100 %

Total N 1 100% - - - - - - - - -

1.2.3 Variable cuantitativa continua

Ejemplo 1.5 Tabla para analizar una variable cuantitativa continua

En el caso cuantitativo continuo, aún valiendo los criterios anteriores, se presenta la dificultad de de laformación de las clases. Al considerar el peso de los 500 alumnos (con una precisión en gramos), es prácticamenteimposible que dos individuos tengan el mismo peso, con lo que la tabla de valores contaría con miles de valorescon con frecuencias 0 y 1. Por ejemplo, entre 60 y 61 Kg hay 1000 valores posibles (tanto como gramos).

Para evitar esto, los datos deben agruparse en clases llamadas intervalos de clases: [L0, L1), [L1, L2), . . . ,[LK−1, LK), siendo Li−1 y Li límite inferior del intervalo de clase y límite superior respectivamente. Ladiferencia entre ambos, se llama amplitud de la clase:

a = Li − Li−1 . (1.1)

Por ejemplo, si se decide agrupar a los alumnos de 5 en 5 Kg, la presentación de los datos será como en laTabla 1.7. Se observa que

Los intervalos primero (x < 45) y el último (x ≥ 90) no constan de los límites ni tienen igual longitudque los demás. Esto se hace para simplificar la presentación de los datos, igual que se hizo en el últimointervalo de la Tabla 1.5. Se dice que son unos intervalos de «cajón de sastre».

Para facilitar la interpretación de los datos, los cálculos y las representaciones gráficas es convenienteque todos los intervalos de clase tengan la misma longitud.

Las clases no deben solaparse ni presentar huecos entre ellas (para evitar que un individuo pueda perte-necer a dos clases diferentes o que no haya clase en que clasificarlo).

En general, el número de clases a tomar es a decidir por el experimentador. Como norma general elnúmero de intervalos ha de estar entre 5 (menos es prácticamente no dar información) y 20 (más, esoscurecer la información global). Una regla muy utilizada es hacer K =

√N .

Para ciertos fines, que se verán después, conviene definir un valor que actuará como representante decada clase, valor llamado marca de clase:

ci =Li−1 + Li

2. (1.2)

Para las clases extremas a las que les faltan uno de los límites, se les asigna una longitud ficticia. Así, laprimera marca es c1 = (40 + 45)/2 = 42.5

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 7: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 7

Tabla 1.7Distribución del peso (x) en Kg de una muestra de 500 alumnos varones de una Universidad

(variable cuantitativa continua)

Intervalo de clase ni fi % Fr. absoluta acumulada (Ni) Marca de clase (ci)

x < 45 1 0.002 0.2% 1 42.5

45 ≤ x < 50 3 0.006 0.6% 4 47.5

50 ≤ x < 55 12 0.024 2.4% 16 52.5

55 ≤ x < 60 75 0.150 15% 91 57.5

60 ≤ x < 65 103 0.206 20.6% 194 62.5

65 ≤ x < 70 155 0.310 31.0% 349 67.5

70 ≤ x < 75 101 0.202 20.2% 450 72.5

75 ≤ x < 80 29 0.058 5.8% 479 77.5

80 ≤ x < 85 11 0.022 2.2% 490 82.5

85 ≤ x < 90 8 0.016 1.6% 498 87.5

x ≥ 90 2 0.004 0.4% 500 92.5

Total 500 1 100% - - - - - -

En general una tabla para analizar una variable cuantitativa continua es la que muestra la Tabla 1.8, quetambién podría contener las frecuencias acumuladas.

Tabla 1.8Distribución de frecuencias: variable cuantitativa continua

Intervalo de clase Frecuencia absoluta (ni) Frecuencia relativa (fi) % Marca de clase

[L0, L1) n1 f1 100f1 c1

[L1, L2) n2 f2 100f2 c2

......

......

...

[LK−1, LK) nK fK 100fK cK

Total N 1 100% - - -

A continuación formalizamos las definiciones de frecuencias usadas en los ejemplos que nos han permitidoclasificar y describir los datos.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 8: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 8

DISTRIBUCIÓN DE FRECUENCIAS

N Es el número total de datos (tamaño de la muestra).

C y C1,C2, . . .CK Es la variable a analizar y las K clases de esta variable.

Frecuencia absoluta (ni):

Se verifica queK∑i=1

ni = N

Es el número de elementos que pertenecen a la clase i de unavariable.Como hay varias (tantas como clases), se le adjudica un subíndice ique alude al número de la clase que se trate. Por ejemplo, n3 = 25significa que el número de individuos, de entre N , que pertenecena la tercera clase es de 25.Por otra parte, la suma total de todas las frecuencias absolutasdebe dar el total de la muestra estudiada, N .

Frecuencia relativa (fi): fi =niN

Se verifica queK∑i=1

fi = 1

Es el cociente entre la frecuencia absoluta, ni, de la clase i y elnúmero total de datos, N .Se introducen con el objetivo de hacer comparables dos o mástablas de datos del mismo tipo basadas en tamaños de muestradistintos.La suma de las frecuencias relativas es igual a 1.

Porcentaje relativo (pi): pi = 100fi Es frecuencia relativa a 100 individuos de la clase i, es decir es untanto por ciento (%). Se observa que la frecuencia relativa es untanto por uno.

Frecuencia absoluta acumulada (Ni):

Ni =

i∑j=1

nj

Es la suma de las frecuencias absolutas de todas las clases inferioresa la que estamos calculando. Así, N1 = n1, N2 = n1 + n2,N3 = n1 +n2 +n3, . . . y NK = n1 +n2 + · · ·+nK = N , es decirla última frecuencia absoluta acumulada deberá ser igual a N .

Frecuencia relativa acumulada (Fi):

Fi =Ni

N=

i∑j=1

niN

=

i∑j=1

fj

Es el cociente entre la frecuencia absoluta acumulada y el númerototal de individuos.

Porcentaje relativo acumulado (Pi):

Pi =

i∑j=1

pj

Es la suma de los porcentajes relativos de todas las clases inferio-res a la que estamos calculando. Así, P1 = p1, P2 = p1 + p2,P3 = p1 + p2 + p3, . . . y PK = p1 + p2 + · · ·+ pK = 100, es decirel último porcentaje relativo acumulado deberá ser igual a 100.

1.3 Representaciones gráficas

Los gráficos facilitan la lectura e interpretación de los datos. Los gráficos pueden ser de varios tipos, pero todosestán basados en el principio general de que la figura construida para cada clase deber tener un áreaproporcional a la frecuencia de esta clase: al lector lo que «le entra» por los ojos es el área de la figura.Los tipos de gráficos que se deben elegir dependen en general de la naturaleza de la variable estudiada.

1.3.1 Variable cualitativa

Diagrama de barras o rectángulos

Este tipo de diagramas se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintasclases y en el otro los valores de las frecuencias, absolutas o relativas. Sobre cada clase se levantan barras orectángulos de la misma base y altura igual a la frecuencia. Según se sitúen las clases sobre el eje de abscisas ode ordenadas, se tendría diagrama de rectángulos verticales u horizontales.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 9: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 9

Figura 1.1Diagrama de barras (rectángulos verticales) de las

frecuencias absolutas de la Tabla 1.2

0  

50  

100  

150  

200  

250  

300  

A   B   AB     0  

Figura 1.2Diagrama de barras (rectángulos horizontales) de

las frecuencias absolutas de la Tabla 1.2

0   50   100   150   200   250   300  

A  

B  

AB    

0  

Diagrama de sectores

El gráfico consiste en dibujar una circunferencia de radio arbitrario y dividir su círculo en sectores. A cada clasese le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase.Como en los 360◦ de la circunferencia han de estar incluidos los N individuos de la muestra, a una clase defrecuencia absoluta ni se le asigna un sector del ángulo αi definido por:

αi =niN× 360◦ = fi × 360◦

siendo fi la correspondiente frecuencia relativa.

Ejemplo 1.6 Diagrama de sectores para una variable cualitativa

En la Figura 1.3, construida en basa a la Tabla 1.9, a la clase «tumores» le corresponde un ángulo

α = 0.1966× 360◦ = 70◦46′33.6′′

Tabla 1.9Mortalidad por grupos de causas (España 1979)

Causa Porcentaje (%)Aparato circulatorio 46.07Tumores 19.66Aparato respiratorio 8.59Externa 5.53Aparato digestivo 5.46Mal definida 4.18Resto 10.51Total 100

Figura 1.3Diagrama de sectores para la Tabla 1.9

Aparato  circulatorio  

Tumores  

Aparato  respiratorio  

Externa  

Aparato  diges5vo  

Mal  definida  

Resto  

Ejemplo 1.7 Diagrama de barras y de sectores para una variable cualitativa

La Tabla 1.10 contiene datos de la distribución de 150 personas de 25 y 45 años de edad, según su estado civil.Y las Figuras 1.4 y 1.5 muestran el diagrama de barras y se sectores, respectivamente.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 10: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 10

Tabla 1.10Distribución de frecuencias de 150 personas de 25 a 45 años, según su estado civil

Estado Soltero Casado Viudo Divorciado No declarado TotalFr. absoluta 20 78 15 26 11 150

Figura 1.4Diagrama de barras para la Tabla 1.10

0  

10  

20  

30  

40  

50  

60  

70  

80  

90  

Soltero   Casado   Viudo   Divorciado   No  declarado  

Figura 1.5Diagrama de sectores para la Tabla 1.10

Soltero  

Casado  

Viudo  

Divorciado  

No  declarado  

Pictograma

En este tipo de gráfico cada variable se representa por una figura no geométrica, por ejemplo un automóvil, unedificio, una herramienta de trabajo,etc. Las figuras habrán de tener un área proporcional a la frecuencia de lasclases y esto puede lograrse por dos caminos.En los pictogramas de repetición se asigna un valor a una figura base, y esta se repite tantas veces comoconvenga a la frecuencias de las clase.En los pictogramas de ampliación, a cada clase se le asigna una única figura-motivo con un área proporcional ala frecuencia de aquella. En este último caso, si dos clases tienen frecuencias una doble de la otra, la figura-motivodebe tener un área doble de la otra.

Tabla 1.11Producción de vinos en Andalucía durante un año

Provincia Porcentaje (%)a

Huelva 21.97Sevilla 4.39Cádiz 32.96Málaga 27.47Granada 7.69Almería 3.29Jaén 2.19Total 100

aLos datos son inventados

Figura 1.6Pictograma para la Tabla 1.11

0  

5  

10  

15  

20  

25  

30  

35  

Huelva   Sevilla   Cádiz   Málaga   Granada   Almería   Jaén  

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 11: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 11

1.3.2 Variable cuantitativa discreta

Diagrama de barras o rectángulos

Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el diagrama de barras o rectángulos.Se construye de la misma forma que para las variables cualitativas pero ahora sobre el eje de abscisas se sitúanlos valores de la variable. Es decir, una vez colocados los valores de la variable en el eje de abscisas, se levantansobre ellos unos segmentos (barras) de altura igual a la frecuencia correspondiente.Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todas las barras será N o 1. LaFigura 1.7 representa el diagrama de barras para la Tabla 1.5. Nótese que las clases extremas, que no tienen iguallongitud que las demás, conviene dibujarlas con igual anchura. Tal sucede con la barra «≥ 7» de la Figura 1.7.

Polígono de frecuencias simples

Se trazan unos ejes cartesianos: a cada clase se le asigna un punto en el plano, con una abscisa que es el valordel dato, y una ordenada que es su frecuencia. La serie de puntos así obtenida se conecta mediante segmentosrectos, obteniendo una poligonal.De nuevo, los polígonos pueden ser de frecuencias absolutas o de frecuencias relativas. El polígono de frecuenciases especialmente útil para ver cómo evolucionan las frecuencias conforme aumenta el valor de datos. Por ello noes aplicable a los datos cualitativos no ordinales (el grupo sanguíneo A no tiene por qué ir por delante de B,etc).

Figura 1.7Diagrama de barras de frecuencias absolutas de

la Tabla 1.5

0  

20  

40  

60  

80  

100  

120  

140  

160  

180  

0   1   2   3   4   5   6   >=7    

Figura 1.8Polígono de frecuencias absolutas para las fre-

cuencias absolutas de la Tabla 1.5

0  

20  

40  

60  

80  

100  

120  

140  

160  

180  

0   1   2   3   4   5   6   >=7    

Diagrama de frecuencias acumuladas

Cuando la variable estadística es discreta se puede representar el diagrama de frecuencias acumuladas o escalo-nado. Pueden ser las frecuencias acumuladas absolutas, relativas o porcentajes acumulados.En la Figura 1.9 se representan las frecuencias absolutas acumuladas de correspondientes a la Tabla 1.5.

Figura 1.9Diagrama de frecuencias absolutas acumuladas de

la Tabla 1.5

0  

100  

200  

300  

400  

500  

600  

0   1   2   3   4   5   6   >=7    

Figura 1.10Polígono de frecuencias absolutas acumuladas de

la Tabla 1.5

0  

100  

200  

300  

400  

500  

600  

0   1   2   3   4   5   6   7   8  

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 12: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 12

Polígono de frecuencias acumuladas

El gráfico formado por los puntos cuyas abscisas son los valores de la variable y sus ordenadas la frecuenciaacumulada, unidos por segmentos, es el polígono de frecuencias acumuladas.La Figura 1.10 muestra el polígono de frecuencias absolutas acumuladas correspondientes a la Tabla 1.5.

1.3.3 Variable cuantitativa continua

Histograma

Cuando la variable estadística es cuantitativa continua, se utiliza el histograma, cuya representación está fun-damentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada clase.El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicandode este modo que existe continuidad en los valores de las variables. Un histograma es, por tanto, un gráficode variable continua dividida en intervalos de los que se eleva un rectángulo con área proporcional a sufrecuencia. Obsérvese que lo que es proporcional es el área, no la altura, lo que permite intervalos de diferenteamplitud. Una vez más resulta irrelevante trabajar con frecuencias absolutas o relativas.Si se trata de intervalos de la misma amplitud, la altura de cada uno de los rectángulos se toma igual a lafrecuencia correspondiente.

Si se trata de intervalos de amplitudes diferentes, co-mo en el la Tabla 1.12 del Ejemplo 1.8, la altura decada rectángulo hi conocida como densidad de fre-cuencia del intervalo [Li−1, Li), es igual a la frecuen-cia absoluta ni dividida por la amplitud del intervalocorrespondiente, ai, es decir

hi =niai

donde ai viene dada por (1.1).

En la Figura 1.12 se representa histograma de fre-cuencias absolutas de la Tabla 1.12.

El área del rectángulo correspondiente a la clasei-ésima es:

Figura 1.11Histograma de frecuencias absolutas de la Tabla 1.12

0 3 5 7 9 100

4

5

8

13

17

si = hiai =niaiai = ni

y la suma de las áreas de todos los rectángulos es:

S =

K∑i=1

ni = N

Es claro que si se toman frecuencias relativas, la suma de las áreas es igual a 1.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 13: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 13

Por otra parte se observa que, las clases ex-tremas, como las de la Tabla 1.7, conviene di-bujarlas con igual anchura. En la Figura 1.12se representa histograma de frecuencias abso-lutas de la Tabla 1.7.

Figura 1.12Histograma de frecuencias absolutas de la Tabla 1.7

0  

20  

40  

60  

80  

100  

120  

140  

160  

180  

40-­‐45   45-­‐50   50-­‐55   55-­‐60   60-­‐65   65-­‐70   70-­‐75   75-­‐80   80-­‐85   85-­‐90   90-­‐95  

Polígono de frecuencias simples

A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de línea consistenen unir los puntos medios de todos los intervalos contiguos mediante una recta, construyendo así un polígonode frecuencias, como muestra la Figura 1.13 del Ejemplo 1.8.

Ejemplo 1.8 Una variable cuantitativa continua con intervalos de amplitudes diferentes

La Tabla 1.12 contiene datos de la distribución de notas de 98 alumnos. Se observa que los intervalos de clasetienen longitudes diferentes.

Tabla 1.12Distribución de frecuencias de notas de 98 alum-

nos en una clase

Notas ni fi % hi marca

[0, 3) 24 0.24 24 % 8 1.5

[3, 5) 34 0.35 35 % 17 4

[5, 7) 26 0.27 27 % 13 6

[7, 9) 10 0.10 10 % 5 8

[9, 10) 4 0.04 4 % 4 9.5

Total 98 1 100 % - - - - - -

Figura 1.13Polígono de frecuencias absotutas enmarcado en

el histograma para la Tabla 1.12

0 3 5 7 9 100

4

5

8

13

17

Polígono de frecuencias acumuladas

El polígono de frecuencias acumuladas se utiliza para representar distribuciones de frecuencias (relativas oabsolutas) acumuladas.En el eje OX se representan los extremos de las clases. Se asigna la ordenada cero al extremo inferior del primerintervalo, es decir L0 = 0 y a cada extremo derecho de las clases se le asigna como ordenada la frecuenciaacumulada (absoluta, relativa o porcentual). La poligonal que une dichos puntos es el polígono de frecuenciasacumuladas (véase el Ejemplo 1.9).El hecho de tomar ahora la poligonal de los extremos a la derecha de los rectángulos es que, suponiendouniformemente distribuido el número de individuos en cada clase, dicha poligonal debería reflejar al final decada intervalo el total de individuos en él contenido.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 14: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 14

Ejemplo 1.9

En la figura de la derecha se muestran el histogramay el polígono de frecuencias absolutas acumuladaspara los datos de la tabla siguiente:

Peso (Kg.) Fr. absoluta (ni) Fr. acumulada Ni

[20,40) 12 12

[40, 60) 49 61

[60, 80) 32 93

[80, 100) 9 102

Total 102 - - -20 40 60 80 100

12

61

93

102

1.4 Medidas estadísticas

Agrupar los datos en tablas de frecuencias es un primer paso en el análisis estadístico de los mismos. Además,es conveniente resumir dichos datos en un solo número, que describa de una manera sencilla su comportamientoy sus características. Se trata de calcular las llamadas medidas estadísticas que pretenden «resumir» lainformación de la muestra para poder tener así un mejor conocimiento de la población.

Las medidas estadísticas suelen dividirse en medidas de posición o de tendencia central y medidas dedispersión. Parece claro que el cálculo de estas medidas requiere la posibilidad de efectuar operaciones con losvalores que toma la variable. Por este motivo, en lo que resta del tema tratamos sólo con variables cuantitativas.

1.4.1 Medidas de posición o de tendencia central

Consideraremos aquí las más utilizadas: la media aritmética y la mediana. Hay otras medidas de tendenciacentral, por ejemplo la moda, la media geométrica, la media cuadrática, la media armónica etc. que se utilizanen algunos procesos de carácter más específico y se escapan del objetivo de este tema.

Media aritmética

Media aritmética: caso discretoSea X una variable estadística cuantitativa que toma valores x1, x2, . . . , xK con frecuencias absolutas n1, n2,. . . , nK y N el tamaño de la muestra. Se define la media aritmética x como el valor:

x =x1n1 + x2n2 + · · ·+ xKnK

N=

1

N

K∑i=1

xini (1.3)

Ejemplo 1.10La media aritmética de la variable «nota» distribuida en intervalos de clase de la Tabla 1.12 es:

x =1.5× 24 + 4× 34 + 6× 26 + 8× 10 + 9.5× 4

98= 4.55

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 15: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 15

Siempre que se hace un cálculo, surge la pregunta ¿cuántas cifras decimales deben darse en la respuesta final? Noexisten normas estrictas para ello. Utilizaremos la convención de que, al calcular medias, el resultado se expresarácon hasta una o dos cifras decimales más que los datos. Para calcular las frecuencias relativas usaremos al menos4 cifras decimales, ya que con menos cifras se generarían errores considerables en los porcentajes. La últimacifra decimal se hallará mejor por redondeo que por truncamiento.

Advertencia:Al hacer una serie de cálculos no hay que redondear los resultados hasta que se finalicen todos los cálculos, delo contrario, se acumularían los errores de redondeo.

Ejemplo 1.11

La siguiente tabla de frecuencias muestra las calificaciones de 20 alumnos de Matemáticas:

Nota (xi) Fr. absoluta (ni) Fr. absoluta acumulada Ni

2 3 34 6 95 5 146 3 178 1 1810 2 20

Total 20 - - -

La nota media es

x =2× 3 + 4× 6 + 5× 5 + 6× 3 + 8× 1 + 10× 2

20=

101

20= 5.05

La media: caso continuoCuando la variable X es cuantitativa continua y está distribuida en intervalos de clase, la media aritmética secalcula considerando las marcas de clase ci y las frecuencias absolutas ni, i = 1, 2 . . . ,K de cada clase:

x =c1n1 + c2n2 + · · ·+ cKnK

N=

1

N

K∑i=1

cini (1.4)

Mediana

La mediana de los datos ordenados de menor a mayor es el valor (perteneciente o no a la muestra) que dejaa su izquierda el mismo número de valores que a su derecha (50% a su izquierda y 50% a su derecha), es decirdivide la muestra en dos partes iguales.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 16: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 16

Cálculo de la mediana: pocos datos

Sean X = (x1, x2, . . . , xN ), N datos a analizar.

Si N es impar, la mediana es el valor que ocupa la posición (N + 1)/2:

Me = xN+12

Si N es par, la mediana es la media aritmética de los dos valores centrales:

Me =xN/2 + xN/2+1

2

Ejemplo 1.12

Sea X = (3, 6, 7, 8, 9) una variable ordenada que toma un número impar de valores: N = 5 (impar). La medianaMe = 7 es el valor que ocupa la posición central (deja 3 datos antes y 3 datos después de ella):

Me = x 5+12

= x3 = 7.

Ejemplo 1.13

Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56) una variable ordenada que toma un número imparde valores: N = 15 (impar). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que

Me = x 15+12

= x8 = 23.

Luego la mediana Me = 23 deja 7 datos antes y 7 datos después de ella.

Ejemplo 1.14

Sea X = (3, 6, 7, 8, 9, 10) una variable ordenada que toma un número par de valores: N = 6 (par). La medianaMe la media aritmética que los dos valores centrales:

Me =xN

2+ xN

2 +1

2=x 6

2+ x 6

2+1

2=x3 + x4

2=

7 + 8

2= 7.5

que deja 2 valores por debajo y 2 valores por encima de ella.

Ejemplo 1.15

Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56) una variable ordenada que toma un número par devalores: N = 14 (par). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que

Me =xN

2+ xN

2 +1

2=x 14

2+ x 14

2 +1

2=x7 + x8

2=

21 + 23

2=

44

2= 22

Luego la mediana Me = 22 deja 7 datos antes y 7 datos después de ella.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 17: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 17

Cuando los datos están agrupados en forma de tabla de frecuencias, el cálculo de la mediana se facilita conla anotación de las frecuencias acumuladas. Se pueden usar frecuencias absolutas, relativas o porcentajes acu-mulados. Aquí, vamos usar los porcentajes acumulados, ya que el mismo procedimiento nos va a servir para elcálculo de los percentiles (véase la Sección 1.4.2).

Cálculo de la mediana: caso discreto

1. Construir la tabla de porcentajes acumulados Pi.

2. Ubicar el porcentaje 50 % tal que Pi−1 ≤ 50 % < Pi.

Si Pi−1 < 50 %, es decir no coincide con Pi−1, entonces

Me = xi

Si Pi−1 = 50 %, entonces

Me =xi−1 + xi

2

donde: xi = valor de X correspondiente a Pi; xi−1 = valor de la variable X correspondiente a Pi−1.

Ejemplo 1.16

Vamos a calcular la media de los datos de tabla de distribución de calificaciones del Ejemplo 1.11. Construimosla tabla de porcentajes acumulados.

Nota (xi) Fr. absoluta (ni) Fr. relativa % % acumulado2 3 0.15 15 154 6 0.30 30 455 5 0.25 25 706 3 0.15 15 858 1 0.05 5 9010 2 0.10 10 100

Total 20 1 100 - - -

Tenemos que

P2 = 45 % < 50 % < P3 = 70 %,

de donde

Me = x3 = 5.

Esto significa que la mitad de la clase ha obtenidoun 5 o menos, y la otra mitad un 5 o más.

2 4 5 6 8 10

15

45

70

85

90

100

50

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 18: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 18

Ejemplo 1.17

Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de calificacionesen una clase:

Nota (xi) 1 2 3 4 5 6 7 8 9Fr. absoluta (ni) 2 2 4 5 6 9 4 4 2Fr. relativa 0.0526 0.0526 0.1053 0.1316 0.1579 0.2368 0.1053 0.1053 0.0526% 5.26 5.26 10.53 13.16 15.79 23.68 10.53 10.53 5.26% acumulado 5.26 10.53 21.05 34.21 50 73.68 84.21 94.74 100

Tenemos que

50 % = P5 = 50 % < P6 = 73.68 %,

es decir 50 % = P5, de donde la mediana es

Me =x5 + x6

2=

5 + 6

2= 5.5,

lo que significa que la mitad de la clase ha obtenidoun 5.5 o menos y la otra mitad un 5.5 o más.

1 2 3 4 5 6 7 8 9

5.26

10.53

21.05

34.21

50

73.68

84.21

94.74

100

Me

Cálculo de la mediana: caso continuo

1. Construir la tabla de porcentajes acumuladosPi .

2. Ubicar el 50 % tal que

Pi−1 ≤ 50 % < Pi

3. Si Li−1 y Li son los límites inferior y supe-rior del intervalo correspondientes a Pi−1 y Pi

respectivamente, entonces la mediana Me es laabscisa del punto situado en la recta que in-terpola los valores (Li−1, Pi−1) y (Li, Pi), cuyaordenada es igual 50 %.

Pi

Pi−1

50%

MeLi−1

Li

Se recuerda que la recta que interpola los valores (Li−1, Pi−1) y (Li, Pi) viene dada por:

y = Pi−1 +Pi − Pi−1

Li − Li−1(x− Li−1). (1.5)

Luego, Me = x para y = 50, despejando la x de la ecuación (1.5), obtenemos:

Me = Li−1 +50− Pi−1

Pi − Pi−1(Li − Li−1). (1.6)

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 19: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 19

Ejemplo 1.18

Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de peso (en Kg.)de 102 personas en una clase:

Peso (Kg.) Fr. absoluta (ni) Fr. relativa (fi) % % Acumulados[20, 40) = [L0, L1) 12 0.1176 11.76 % 11.76 %

[40, 60) = [L1, L2) 49 0.4803 48.03 % 59.80 %

[60, 80) = [L2, L3) 32 0.3137 31.37 % 91.18 %

[80, 100) = [L3, L4) 9 0.088 8.8 % 100 %

Total 102 1 100% - - -

Tenemos 50 ∈ [11.76, 59.80] = [P1, P2] y L1 = 40,L2 = 60.

Por tanto, aplicando la fórmula (1.6) deducimos

Me = 40 +50− 11.76

59.80− 11.76(60− 40) ≈ 55.92.

20 40 60 80 100

11.76

59.8

91.18

100

50

Me

1.4.2 Percentiles

Existen medidas basadas en el orden de las observaciones. Hemos visto que la mediana es el valor que hace queel 50 % de los datos sean anteriores a ella y el otro 50 % posteriores. Cuando la muestra ordenada se divideen 100 partes iguales se obtienes los percentiles, denotados por p1, p2, . . . p99. El percentil p50 coincide con lamediana.

Percentil i es aquel valor pi que deja a su izquierda el i% y el resto por encima de los valores de la muestraordenada de menor a mayor.

Por ejemplo, el percentil 57 es el que hace que el 57 % de los datos son anteriores a él y el 43 % son posteriores. Lospercentiles son muy utilizados para describir los casos «raros» de las poblaciones. Así, afirmar que el precentil10 del peso de los niños varones recién nacidos es 2700 gramos significa que sólo un 10% de ellos tienen un pesoinferior a 2700 gramos.

Cálculo de percentilesPara calcular el percentil p`, se procede de modo análogo al cálculo e la mediana. Basta sustituir el 50 % porp`. Observemos que, en el caso de las distribuciones de variables continuas, el prercentil p` se calcula usandola fórmula:

p` = Li−1 +p` − Pi−1

Pi − Pi−1(Li − Li−1) (1.7)

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 20: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 20

Ejemplo 1.19 Datos agrupados en una tabla de frecuencias: caso continuo

Para los datos del Ejemplo 1.18 vamos a calcular el percentil 70, p70, es decir el valor del peso por debajo delcual se encuentra el 70% de los alumnos.

Tenemos que 70 ∈ [P2, P3] = [59.80, 91.18] y L2 = 60, L3 = 80. Por tanto, aplicando la fórmula (1.7),obtenemos

p70 = 60 +70− 59.80

91.18− 59.80(80− 60) ≈ 53.50

El percentil 70 es 53.5 significa que el 70 % de los alumnos tienen peso por debajo de 53.5 kilos y los demáspor encima.

Ejemplo 1.20

Para los datos del Ejemplo 1.18 vamos a responder a las siguientes preguntas:

a) ¿Qué porcentaje de alumnos tienen un peso menor que 60?

b) Suponiendo que los datos se distribuyen de modo homogéneo en cada intervalo, determinar el porcentajede alumnos que tienen un peso menor que 65.

Solución:

a): De la tabla del Ejemplo 1.18, se deduce fácilmente que el porcentaje de alumnos que tienen peso menorque 60 es 59.8 %

b): Se trata de determinar el porcentaje de alum-nos cuyo peso es menor que 65. Se observa que65 ∈ [60, 80). Tenemos L2 = 60 y L3 = 80 yP2 = 59.80 y P3 = 91.18 los porcentajes acumula-dos correspondientes.El porcentaje buscado es la ordenada, y, de la rectaque interpola los valores (L2, P2) y (L3, P3) corres-pondiente a la abscisa x = 65.

Usando la fórmula (1.5), se tiene trivialmente que

y = P2 +P3 − Pi−2

L3 − L2(x− L2), de donde

20 40 60 80

11.76

59.8

91.18

100

P2

P3

L2

L3

y = 59.80 +91.18− 59.80

80− 60(65− 60) ≈ 67.64

Luego el 67.64 % de alumnos tiene un peso menor que 65, es decir el valor 65 es el precentil 67.64.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 21: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 21

1.4.3 Medidas de dispersión: varianza y desviación típica

La media representa el centro de la distribución, pero ¿hasta qué punto representa a cada individuo? Seríaingenuo creer que todas las observaciones se sitúan en de la media. Las medidas de dispersión expresan elgrado de desviación de los datos respecto de las medidas de tendencia central, es decir la situación relativa delos datos, proximidad o alejamiento entre ellos.

Ejemplo 1.21

Las calificaciones obtenidas en los tres exámenes parciales de una asignatura por un alumno han sido 5, 6 y7 y por otro alumno 9, 7 y 2, la distribución de puntuaciones presenta en ambos casos, una media aritméticaigual a 6. En primer caso, las calificaciones son valores de gran proximidad y en el segundo esta separación esnotablemente mayor.

Desviación de una variable X = (x1, x2, . . . , xK) respecto de una característica de tendencia central C (porejemplo, la media aritmética, mediana, etc. ) es la cantidad

DC = xi − C o también DC = |xi − C|

Según sea la característica de tendencia central C, se tienen distintos índices de dispersión (desviación de lamedia, desviación de la mediana, . . . ).

Ejemplo 1.22

Se ha preguntado a los 5 últimos pacientes que han entrado en la consulta, por el número de parejas que hantenido en los últimos 48 meses. Sus respuestas están recogidas en la tabla que sigue:

Paciente Número de parejas (xi) Desviación de la media (xi − x) |xi − x2|

1 1 +3 = 4 - 1 9

2 3 +1 = 4 - 3 1

3 4 0 = 4 - 4 0

4 5 -1 = 4 - 5 1

5 7 -3 = 4 - 7 9

Total 20 0 20

La media es x = 20/5 = 4. El promedio de las desviaciones de las medias al cuadrado es s2 = 20/5 = 4,cálculo conocido por el nombre de la varianza. Para eliminar el cuadrado se hace la raíz cuadrada, de dondese obtiene la desviación típica es de 2 parejas. Este valor representa, pues, la distancia o desvío (de la media)típico en todas las observaciones. Por esta razón recibe el nombre de desviación típica.

La varianza se denota s2 (a veces, en algunas calculadoras se denota también como σ2n), se define como la

media aritmética de los cuadrados de las desviaciones a la media

s2 =1

N

K∑i=1

(xi − x)2ni

Es claro que si la varianza es nula, todos los valores de la variable coinciden con la media (dispersión es nula):

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 22: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 22

s2 = 0 ⇔ 1

N

K∑i=1

(xi − x)2ni = 0 ⇔ xi − x = 0 ⇔ xi = x ∀ i = 1, . . . ,K.

Por otro lado, cuanto más alejadas estén las observaciones de la media, mayor será la varianza.

PROPIEDAD DE LA VARIANZA

s2 =1

N

K∑i=1

(xi − x)2ni =1

N

K∑i=1

x2ini − x2

La varianza es la diferencia entre la media de los cuadradosy el cuadrado de la media (Teorema de König). Se puedesimplificar el cálculo de la varianza usando la esta propiedad.

La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en lainferencia estadística. Su principal inconveniente es que viene expresada en unidades que son el cuadrado de lasunidades de las observaciones originales (cm2 si x se mide en cm).

La desviación típica es la raíz cuadrada positiva de la varianza

s = +√s2 =

√√√√ 1

N

K∑i=1

(xi − x)2ni

PROPIEDAD DE LA DESVIACIÓN TÍPICA

s =

√√√√ 1

N

K∑i=1

(xi − x)2ni =

√√√√ 1

N

K∑i=1

x2ini − x2

Se obtiene usando el Teorema de König. Esta propiedadpuede permitir simplificar el cálculo de la desviación típica.

Ejemplo 1.23Consideramos los datos de la tabla del Ejemplo 1.11 que tienen la media aritmética x = 5.05.

Nota (xi) Fr. absoluta (ni) (xi − x̄)2 (xi − x̄)2ni x2i x2ini

2 3 9.3025 27.9075 4 124 6 1.1025 6.6150 16 965 5 0.0025 0.0125 25 1256 3 0.9025 2.7075 36 1088 1 8.7025 8.7025 64 6410 2 24.5025 49.0050 100 200

Total 20 94.95 605

Usando la definición tenemos la varianza y la desviación típica

s2 =1

N

6∑i=1

(xi − x)2ni =94.95

20= 4.7475 y s = +

√s2 = 2.1788.

Por otro lado, usando el Teorema de de König, los cálculos se simplifican:

s2 =1

N

6∑i=1

x2ini − x2 =605

20− (5.05)2 = 4.7475

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 23: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

1. Estadística descriptiva 23

Coeficiente de variación de Pearson

Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la mismaunidad, se introduce un número independiente de las unidades de mediada de las variables.

El coeficiente de variación de Pearson es:

CV =s

x, si x 6= 0.

Este coeficiente es un número abstracto, ya que es cociente de dos cantidades de una misma magnitud, y repre-senta la desviación típica medida en unidades de la media aritmética. Se acostumbra expresar este coeficienteen tantos por ciento, caso en el que su valor está dado por

V =s

x× 100

Se observa que cuanto menor sea CV mayor es la precisión del método. Cuanto mayor sea el coeficiente devariación menor será la representatividad de la medida.

Ejemplo 1.24

Los alumnos de un grupo de primer curso han sido calificados en matemáticas de 0 a 50 y en Física de 0 a 10:

Matemáticas FísicaCalificaciones No de alumnos Calificaciones No alumnos

15 3 2 1225 5 3 935 8 5 1240 14 6 545 16 7 447 5 9 449 3 10 8

Total 54 Total 54

¿ Cuál de las dos distribuciones es más homogénea con respecto a la nota media. ?

La media de calificaciones en Matemáticas es de 39.11 y la desviación típica es de 8.65, luego el coeficiente devariación de Pearson es:

CV1 =8.65

39.11= 0.221

y expresado en porcentajes es:

V1 = 0.221× 100 = 21.1 %.

La calificación media de Física es 5.27 y la desviación típica es 2.80, luego el coeficiente de variación de Pearsones:

CV2 =2.80

5.27= 0.531

y expresado en porcentajes es:

V2 = 0.531× 100 = 53.1 %.

Tenemos V1 < V2, por tanto hay mayor homogeneidad en las calificaciones de Matemáticas.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla

Page 24: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

Bibliografía

[1] E. Cobo, P. Muñoz, J.A. González, Bioestadística para no estadísticos, Madrid, Elsevier España, 2007.

[2] A. Martín Andrés, J.D. Luna del Castillo, Bioestadística para las Ciencias de la Salud, Ediciones Norma-Capitel, Madrid, 2004.

24

Page 25: Estadística descriptiva - departamento.us.esdepartamento.us.es/edan/php/asig/GRAFAR/GFMA/Tema1.pdf · 1 Versión: 23 de septiembre de 2013 Estadística descriptiva La estadística

Índice de Tema 1

1. Estadística descriptiva 11.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.1. Variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.3. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4. Medidas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.1. Medidas de posición o de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.2. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.4.3. Medidas de dispersión: varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . 21

Bibliografía 23

25