Upload
ngophuc
View
230
Download
0
Embed Size (px)
Citation preview
Estadıstica ITema 2: Analisis de datos univariantes
Tema 2: Analisis de datos univariantes
Contenido
1. Representaciones y graficos
I Tablas de frecuencias.
I Diagrama de barras, diagrama de sectores, histograma, polıgono defrecuencias, pictogramas. Otros graficos y graficos manipulados.
2. Medidas numericas para describir:
I Tendencia central (media, mediana, moda)
I Posicion (cuartiles, percentiles). Diagramas de cajas.
I Dispersion (varianza, desviacion tıpica, cuasi-varianza,cuasi-desviacion tıpica, rango, RIC, coeficiente de variacion)
I Forma (coeficientes de asimetrıa y de curtosis)
Tema 2: Analisis de datos univariantes
Lecturas recomendadas
I Pena, D., Romo, J. Introduccion a la Estadıstica para las CienciasSociales (1997).
I Capıtulos 2, 3, 4 y 5.
I Newbold, P. Estadıstica para Administracion y Economıa (2009).I Capıtulos 1 y 2
Descripcion de variables cualitativas
I Muestra: 46 profesionales de una companıa informatica en EstadosUnidos.
I Variable: EDUC: formacion academica (1=High School; 2=College;3=Advanced Degree)
I Variable: MGT: desempeno de un cargo de responsabilidad (1=si;0=no)
Para obtener informacion:
¿Como resumir los datos primarios en una forma mas util que permitauna interpretacion visual rapida?
Descripcion de variables cualitativas: tabla de frecuencias ydiagrama de barras
Formacion Academica Numero Empleados Proporcion empleadosHigh School 14 0.304
College 19 0.413Advanced Degree 13 0.283
Total 46 1
Descripcion de variables cualitativas: formato general de latabla
Frec. Frec.Clase, ci Absol., ni Relat., fi
c1 n1 f1 = n1
nc2 n2 f2 = n2
n...
......
ck nk fk = nkn
Total n 1
Nota:
I ni = numero de ci en la muestra, fi = nin
I 0 ≤ fi ≤ 1
Descripcion de variables cualitativas: formato generaldiagrama de barras
I Las barras tienen la misma amplitud y son equidistantes, con alturascorrespondientes a las frecuencias (absolutas).
I Existen huecos entre las barras.
I Las barras estan etiquetadas con los nombres de las clases.
Otros graficos para datos cualitativos: diagrama de sectores
I Cada sector es una fraccion del total del cırculo.
I Los sectores estan etiquetados con los nombres de las clases.
I Muchos programas ordenan las clases en orden alfabetico.
I Aunque es vistoso, es mas complejo de interpretar que el diagramade barras.
I Evitar los diagramas de sectores en 3D, ya que los sectores traserostienden a parecer menores que los sectores delanteros.
Dia
gra
ma
de
se
cto
res:
eje
mp
lo
Tabla dinámica
Muestra: 568 primeros episodios de Los Simpsons
Variable: miembro de la familia que protagoniza (dice más
palabras) un episodio
Nota: Se puede obtener el gráfico sin obtener antes la tabla de frecuencias.
Consultar el Material Complementario: uso de Excel
Otros graficos para datos cualitativos: diagrama de Pareto
I Diagrama de barras en el que la ordenacion de las categorıas de lavariable se hace por orden de frecuencias.
I Solo es valido para variables cualitativas no ordinales.
I Para detectar las “motivos” mas significativos (unos pocosproductos acaparan casi toda la frecuencia de compras)
Principio de Pareto (regla del 80 %-20 %)Basandose en el conocimiento empırico Pareto (en 1896) enuncio que lasociedad se dividıa en dos grupos proporcionales 80-20, los “pocos de mucho”y los “muchos de poco”:
I Un grupo minoritario formado por un 20 % de la poblacion que ostenta el80 % de algo.
I Un grupo mayoritario formado por un 80 % de la poblacion que ostenta el20 % de algo.
Diagrama de Pareto: ejemplo
I Muestra: De entre 1100 visitantes de la exposicion ”Turner y losMaestros” (Mueseo del Prado, 22 de junio a 19 de septiembre de2010), aquellos que adquirieron su entrada por via telematica (un20.3 %) Fuente: Instituto de Estudios Turısticos
I Variable: Razon principal para adquirir su entrada por via telematica
Instituto de Estudios Turísticos
Turner y los Maestros
21
Tabla 7. Visitantes según si ha tenido que esperar para entrar a la exposición
Filtro: Adquiere la entrada en taquilla
%
Ha tenido que esperar 12,1
No ha tenido que esperar 87,9
Total 100,0
Tabla 8. Visitantes por actividades realizadas en el tiempo de espera para entrar a la exposición
Filtro: Ha adquirido la entrada en taquilla y ha tenido que esperar desde que ha sacado
la entrada hasta que ha accedido a la exposición
%
Visitar la colección del Museo 16,6
Visitar o estar en la cafetería del Museo 7,7
Visitar la tienda del Museo 28,1
Estar o visitar otros espacios del Museo que no tienen colección
33,0
Esperar en el exterior del Museo 27,5
Tabla 9. Visitantes por la razón principal para adquirir la entrada por vía telemática
Filtro: Adquiere la entrada por vía telemática
%
Por comodidad 60,5
Rapidez 10,1
Puedo elegir el día y la hora de la visita 14,0
No tengo que esperar en taquilla 9,5
Porque la entrada es más barata 4,3
Por el horario 24 horas 1,2
Había oído hablar bien del servicio 0,4
Total 100,0
Diagrama de Pareto: ejemplo
Graficos para datos cualitativos: pictogramas
I Muestra: 70 estudiantes universitarios madrilenos
I Variable: Partido polıtico preferido
Partido preferido Num. Estudiantes Prop. EstudiantesPSOE 23 0.33
PP 15 0.21Unidos Podemos 20 0.29
Ciudadanos 7 0.10Otros 5 0.07Total 70 1
El area del grafico es proporcional a la frecuencia.
EjercicioResultados de una encuesta realizada a jovenes de entre 15 y 20 anosacerca de su actividad favorita en su tiempo de ocio
I ¿Cual es la variable de interes y cuales son los individuos?
I ¿Para que porcentaje de jovenes es la lectura su actividad de ociofavorita?
Ejercicio
De un examen realizado a un grupo de alumnos, cuyas notas se hanevaluado del 1 al 8, se ha obtenido la siguiente tabla:
Nota, ci ni fi1 4 0.082 43 0.164 7 0.145 56 107 7 0.148
I ¿Cuantos alumnos se han examinado?
I ¿Que porcentaje de alumnos ha sacado una nota igual o mayor a 6?
Ejercicio
En una encuesta sobre habitos de salud se les pregunta a 30 alumnos dela universidad, seleccionados al azar, sobre el deporte que practicanhabitualmente. Los resultados se muestran en la siguiente tabla:
Deporte, ci ni fiBaloncesto 12 0.4Natacion 3 0.1Futbol 9 0.3Ningun deporte 6 0.2Total 30 1
¿Cual de los siguientes diagramas de barras corresponderıa a estos datos?
Ejercicio Estadística Aplicada
a) c)
b) d)
Deporte
0
2
4
6
8
10
12
14
Baloncesto Natación Fútbol Ningún deporte
Deporte
0
2
4
6
8
10
12
14
Baloncesto Natación Fútbol Ningún deporte
Deporte
0
2
4
6
8
10
12
14
Baloncesto Natación Fútbol Ningún deporte
Deporte
0
2
4
6
8
10
12
14
Baloncesto Natación Fútbol Ningún deporte
Descripcion de variables cuantitativas discretas: tabla defrecuencias
I Muestra: seleccion de 100 centros comerciales en los que se lanza unapromocion de un cierto servicio durante noviembre de 2017.
I Variable: numero de nuevos clientes del servicio captados con lapromocion.
Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa
ci Absoluta ni Relativa fi Acumulada Ni Acumulada Fi
0 1 0,01 1 0,011 4 0,04 5 0,052 7 0,07 12 0,123 8 0,08 20 0,24 8 0,08 28 0,285 16 0,16 44 0,446 18 0,18 62 0,627 14 0,14 76 0,768 10 0,1 86 0,869 11 0,11 97 0,97
10 3 0,03 100 1
Total 100 1
Descripcion de variables cuantitativas discretas: tabla defrecuencias
I ¿En cuantos centros comerciales se captaron solo 5 nuevos clientes?
I ¿En que porcentaje de los centros comerciales se captaron al menos3 nuevos clientes?
I ¿En cuantos centros comerciales se captaron menos de 6 clientes?
I ¿En que porcentaje de los centros comerciales se captaron entre 4 y8 nuevos clientes?
I ¿En que porcentaje de los centros comerciales se captaron a lo sumo7 clientes?
Graficos para datos cuantitativos discretos: diagrama debarras
Los diagramas de barras pueden construirse tambien para datos discretossi no existen demasiados valores diferentes.
Descripcion de variables cuantitativas discretas: formatogeneral de la tabla
Frec. Frec.Frec. Frec. Absol. Relat.
Clase, ci Absol., ni Relat., fi Acumul., Ni Acumul., Fi
c1 n1 f1 = n1
n N1 = n1 F1 = f1
c2 n2 f2 = n2
n N2 = N1 + n2 F2 = F1 + f2
......
......
...ck nk fk = nk
n Nk = n Fk = 1Total n 1
Nota:
I c1 < c2 < · · · < ckI ni = numero de ci en la muestra, fi = ni
n
I Ni = Ni−1 + ni , Fi = Fi−1 + fiI 0 ≤ fi ,Fi ≤ 1
I Fi y Ni tambien tiene sentido para variables categoricas ordinales
Tablas y graficos para datos cualitativos ordinales
I Muestra: seleccion de 901 empleados.
I Variable: niveles de satisfaccion en el trabajo.
Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa
Clase Absoluta Relativa Acumulada AcumuladaMI 62 0.07 62 0.07I 108 0.12 170 0.19S 319 0.35 489 0.54
MS 412 0.46 901 1Total 901 1
Tablas y graficos para datos cualitativos ordinales
Atencion! Muchos programas ordenan las clases en orden alfabeticocuando la variable es categorica. Si es ordinal se debe ordenar de formaascendente.
Diagrama de barras para datos discretos
I Muestra: 46 profesionales de una companıa informatica en Estados Unidos.
I variable: EXPRNC: anos completos trabajados en la companıa
Experiencia, ci Frec. absolutas, ni Frec. relativas, fi1 5 0,1092 4 0,0873 4 0,0874 4 0,0875 3 0,0656 4 0,0877 1 0,0228 4 0,087
10 4 0,08711 2 0,04312 2 0,04313 2 0,04314 1 0,02215 1 0,02216 3 0,06517 1 0,02220 1 0,022
Total 46 1
Tabla de frecuencias y diagrama de barras para variablescuantitativas discretas
Demasiados valores diferentes.
Descripcion de variables cuantitativas continuas
I Muestra: 46 profesionales de una companıa informatica en Estados Unidos.
I Variable: EXPRNC: anos de experiencia
I Variable: SALARY: retribuciones brutas anuales (en dolares USA)
Agrupacion en intervalos de clase: datos continuos (odiscretos)
Intervalo Marca de clase (centro) ni fi Ni Fi
[l0, l1] c1 = l0+l12 n1 f1 N1 F1
(l1, l2] c2 = l1+l22 n2 f2 N2 F2
......
......
......
(lk−1, lk ] ck = lk−1+lk2 nk fk n 1
Total n 1
Nota:
I En Excel se excluye el extremo izquierdo, pero se incluye el extremoderecho (es una convencion).
I Es posible aplicar la convencion en sentido opuesto - verifica sudefinicion en el software que vayas a emplear.
I Util para tabular datos discretos si X toma muchos valoresdiferentes.
Agrupacion en intervalos de claseI Muy frecuentemente los intervalos tomados como clases poseen la
misma amplitud.I Determinar la amplitud a para cada intervalo mediante
a =numero mayor - numero menor
numero de intervalos deseados
I ¿Cuantos intervalos? Aproximadamente entre 5 y 20. Probando(experiencia y practica)
Tamano muestral Numero de clasesMenos de 50 5–7
50 a 100 7–8101 a 500 8–10
501 a 1000 10–111001 a 5000 11–14Mas de 5000 14–20
Tomado de Newbold
I Los intervalos nunca se solapan.I Redondea la amplitud del intervalo para obtener los extremos de los
intervalos deseados.
Agrupacion en intervalos de clase: histograma y polıgonode frecuencias
I Se obtiene el rango (maximo – mınimo): 20− 1 = 19
I Se calcula el numero de intervalos: 46 ≈ 50⇒ 7
I Se calcula la amplitud de los intervalos: 19/7 = 2.71⇒ 3.
I Se determinan los extremos (empezando antes del primer dato yterminando despues del ultimo): [0, 3], (3, 6], . . . , (18, 21]
Descripcion de variables cuantitativas continuas:histograma y polıgono de frecuencias
I No hay huecos entre las barras/cajas.
I Amplitud de cajas ≡ amplitud de intervalos (identicos) y los lımitesde las clases se marcan en el eje horizontal.
I Alturas de cajas ≡ frecuencias (aquı, absoluta).
I Las areas de cajas son proporcionales a las frecuencias.
Variables cuantitativas continuas: histograma
Descripcion de variables cuantitativas continuas:histograma y polıgono de frecuencias
Otros graficos: cartogramas (INE, Encuesta de Turismo de residentes)Gasto medio en viajes por persona durante el tercer trimestre de 2016
Gasto medio en excursiones por persona durante el tercer trimestre de 2016
Otros graficos: pictogramas
Otros graficos: datos temporales
Fuente: INE, Encuesta de Poblacion Activa
Manipulando con los graficos
Enganando con los pictogramas. El siguiente grafico fue publicado en LaVoz de Galicia del 24 de octubre de 2010.
I Haciendo que la altura es proporcional a la frecuencia da unaimpresion falsa.
I ¿Hay algo mas que os parece mal?
Manipulando con los graficosMala utilizacion de las escalas: el origen de los graficos no esta en el 0
Manipulando con los graficos
Manipulando con los graficosLa escala esta al reves
Manipulando con la Estadıstica
How to lie with Statistics? By Durrell Huff, pictures by Irving Geis.
Consultar online: https://archive.org/details/HowToLieWithStatistics
Descripcion numerica de datos: medidas descriptivas
Centro Posicion Variacion Forma
⇓ ⇓ ⇓ ⇓media cuartiles rango coef. asimetrıa
mediana percentiles rango intercuartılico coef. curtosismoda varianza
desviacion tıpicacoef. de variacion
Descripcion numerica de datos: medidas descriptivas
X ¿Para que sirven?, ¿que informacion proporcionan?
X ¿Se pueden calcular todas con todo tipo de variables?
X ¿Cuales son las mas adecuadas en cada caso?
X ¿Como calcularlas sin ordenador? Uso de la calculadora
Medidas de tendencia central
X La media (aritmetica)
X La mediana
X La moda
Tendencia central: la media (aritmetica)
Media (aritmetica)Es el promedio de todos los datos de la muestra:
x =
∑ni=1 xin
=x1 + . . .+ xn
n
I Es la medida de tendencia central mas usada.
I Representa el centro de gravedad de los datos
I Se calcula solo para variables cuantitativas
I Su calculo explıcito depende de como se presenten los datosx1, x2, . . . , xn
La media: ejemploPara el ejemplo de los 46 profesionales informaticos, ¿cual es suexperiencia media?
x =1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + · · ·+ 17 + 20
46= 7.5 anos
En Excel: funcion PROMEDIO(numero1;[numero 2]; ...)
La media: ejemplo¿Como la calcularıas a traves de las tablas de frecuencias absolutas?, ¿yde las relativas?
La media con datos agrupados
Se trabaja con las marcas de clase. En el ejemplo de los 46 profesionalesinformaticos, ¿cual es su salario medio?
Nota: salario medio a traves de los datos brutos x = 17250.413
La media: propiedadesX Linealidad: Si Y = a + bX ⇒ y = a + bx .
Si Z = X + Y ⇒ z = x + y
Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario medio?
Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?
Si se complementa el salario con un extra por productividad recogidoen la variable Y , con valor medio y , ¿Como obtienes el nuevo salariomedio?
X Inconvenientes: es muy sensible a valores extremos (observacionesatıpicas, outliers).
Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2
x =3 + 1 + 5 + 4 + 2
5= 3 y =
3 + 1 + 50 + 4 + 2
5= 12
No es recomendable usarla como medida central en datos muyasimetricos.
Tendencia central: la medianaEs la observacion que ocupa el lugar central
1 1 1 3 3 5 5 7 8 8 9
1. Ordenamos los datos de menor a mayor
2. Tenemos en cuenta tambien los que se repiten
3. Seleccionamos el valor que ocupa la posicion central
1 1 1 3 3 5 5 7 8 8 ⇒ M =3 + 5
2= 4
MedianaLista ordenada de menor a mayor: x(1), x(2), . . . , x(n)
M =
x((n+1)/2) si n impar
x(n/2)+x(n/2+1)
2 si n par
En Excel: funcion MEDIANA(numero1;[numero2];...)
La mediana: calculo a traves de la tabla de frecuenciasExperiencia, ci ni fi Ni Fi
1 5 0,109 5 0,1092 4 0,087 9 0,1963 4 0,087 13 0,2834 4 0,087 17 0,3705 3 0,065 20 0, 435 < 0.5
M=6 4 0,087 24 0, 522 > 0.57 1 0,022 25 0,5438 4 0,087 29 0,6309 0 0 29 0,630
10 4 0,087 33 0,71711 2 0,043 35 0,76112 2 0,043 37 0,80413 2 0,043 39 0,84814 1 0,022 40 0,87015 1 0,022 41 0,89116 3 0,065 44 0,95717 1 0,022 45 0,97818 0 0 45 0,97810 0 0 45 0,97820 1 0,022 46 1,000
La mediana: propiedades
X Linealidad: Si Y = a + bX con b > 0⇒ My = a + bMx
Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario mediano?
Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?
X ¿Tiene sentido preguntarse por la Mediana de la formacionacademica?
¿y de la variable nominal haber desempenado o no un cargo deresponsabilidad?
X Ventaja: No es sensible a valores extremos.
Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2
Mx = 3 My = 3
Es recomendable usar la Mediana como medida central en datos muyasimetricos.
La media y la mediana de datos muy asimetricosSalario bruto anual en 2014, Encuesta de Estructura Salarial 2014, I.N.E.
“La diferencia entre el salario medio y el mediano se explica porque en elcalculo del valor medio influyen notablemente los salarios muy altosaunque se refieran a pocos trabajadores.´´ (En la Nota de Prensa delINE de 28 de octubre de 2016)
Tendencia central: la moda
Es el valor mas frecuente
En el ejemplo, la moda de la experiencia es 1 ano, con una frecuencia de5 empleados
Los valores 2,3,4,8 y 10 tienen una frecuncia de 4 empleados
Tendencia central: la moda
¿Tiene sentido preguntarse por la moda del salario? ⇒ intervalo modal
La moda: propiedades
X Puede calcularse para variables cualitativas y cuantitativas. La unicaque tiene sentido para cualitativas nominales.
X No afectada por valores extremos.
X Puede no haber moda.
X Puede haber mas de una moda: bimodal–trimodal–plurimodal
¿Que nos puede estar indicando?
Distribución bimodalTiempo (en minutos) en completar un maratón. Datos tomados de un maratón popular
0
20
40
60
80
100
120
140
160
133 140 150 160 170 180 190 200 210 220 230 238
Tiempo en correr un maratón: histograma
� ¿Qué crees que está pasando?
� ¿Podrías aventurar qué tipo de corredores componen el grupo en
verde y el grupo en azul?
� ¿Ocurriría lo mismo si los datos fueran del maratón de unos Juegos
Olímpicos?
Medidas de localizacion
X Los cuartiles
X Los percentiles
Medidas de localizacion: cuartiles y percentiles
X Los cuartiles dividen los datos ordenados en cuatro segmentos querecogen la misma cantidad de observaciones.
X Los percentiles dividen los datos ordenados en cien segmentos querecogen la misma cantidad de observaciones.
1. Ordenamos los datos de menor a mayor
2. Tenemos en cuenta tambien los que se repiten
3. Seleccionamos el valor que ocupa la posicion:
I El primer cuartil Q1 ocupa la posicion 14(n + 1).
I El segundo cuartil Q2 (= mediana) ocupa la posicion 12(n + 1).
I El tercer cuartil Q3 ocupa la posicion 34(n + 1).
I El percentil k-esimo Pk , ocupa la posicion k100
(n + 1),k = 1, 2, . . . , 99, y deja el k % de los datos por debajo de el y el(100− k) % por encima.
Cuartiles y percentiles en Excel
Nota:
Lo mas habitual es que las fracciones 14 (n + 1), 3
4 (n + 1) y k100 (n + 1) no
den valores enteros ⇒ para obtener la posicion (entera) a la quecorresponden se tiene que fijar un criterio de redondeo.
En Excel, las funciones son:
I CUARTIL.INC(matriz;cuartil), con:1=primer cuartil, 2=mediana, 3=tercer cuartil
I PERCENTIL.INC(matriz;p), con:p = k
100 ∈ (0, 1), percentil k-esimo
Medidas de variacion
X El rango y el rango intercuartılico
X La varianza y la desviacion tıpica
X El coeficiente de variacion
Variacion: rango y rango intercuartılico (RIC)
I El rango es la medida de variacion mas simple
R = xmax − xmın
I Ignora la manera en que se distribuyen los datos.
I Sensible a observaciones atıpicas (outliers).
Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5− 1 = 4
Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100− 1 = 99
I El rango intercuartılico (RIC) puede eliminar ciertos problemasprovocados por los datos atıpicos. Se “eliminan” las observacionesde mayor valor y las de menor valor y se calcula el rango del 50 %central de la muestra.
RIC = 3er cuartil− 1er cuartil = Q3 − Q1
Variacion: rango intercuartılico y diagrama de cajas
I Las observaciones atıpicas (outliers) se encuentran
I por debajo de Q1 − 1.5 · RICI por encima de Q3 + 1.5 · RIC
I Para observaciones atıpicas (outliers) extremos, reemplazar 1.5 por 3en la definicion anterior
25% 25% 25% 25%
12 24 31 42 58
xmin Q1 ((Q2))MEDIANA
Q3 xmax
RI=18
Diagrama de Cajas Box-Plot
I Muestra cinco medidas de centralizacion.
I Muestra una medida robusta de dispersion.
I Permite estudiar la simetrıa de los datos.
I Da un criterio de deteccion de datos atıpicos.
I Es muy util para comparar datos
I Variante: cuando se presentan varios Box-Plot, se puede hacer elancho de la caja proprocional al numero de observaciones.
Homer y sus enemigos
Homer Simpson tiene dos enemigos principales: Flanders y Mr Burns:
En los episodios en los que salen ambos o alguno de los dos ¿Cómo se
distribuye la importancia de Homer?
Homer y sus enemigosEmpleando la variable de filtro creada en el Ejercicio 5 (Ejercicios Tema 1)
1) Crear 4 variables con los valores de “Homer” para cada uno de los casos: Homer&Burns,
Homer&Flanders,Homer&Both,Homer&None
2) Seleccionar todos los datos e insertar un Diagrama de Cajas y Bigotes
Medidas de variacion: varianza
I Promedio de cuadrados de las desviaciones de valores a la media.
I Varianza muestral
σ2 =
∑ni=1 (xi − x)2
n=
mas rapido de calcular︷ ︸︸ ︷∑ni=1 x2
i − n(x)2
n⇐ dividido por n
I Cuasi-varianza muestral (varianza muestral corregida)
s2 =
∑ni=1 (xi − x)2
n − 1=
∑ni=1 x2
i − n(x)2
n − 1⇐ dividido por n − 1
I Su relacion es
σ2 =n − 1
ns2
I Si a, b son numeros reales e Y = a + bX , se tiene s2y = b2s2
x
Medidas de variacion: desviacion tıpica o estandar (DT)
I La medida de dispersion mas utilizada.
I La desviacion tıpica muestral y la cuasi-desviacion tıpica muestralson respectivamente
σ =√σ2 s =
√s2
I Describe la variacion sobre la media.
I Posee las misma unidades que los datos, mientras que para lavarianza se tienen unidades2
I Tanto la varianza como DT pueden verse afectadas por la presenciade observaciones atıpicas.
Calculo de la varianza y la desviacion tıpicaEjemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17,Z : 11, 11, 11, 12, 19, 20, 20, 20
x =124
8= 15.5 y =
124
8= 15.5 z =
124
8= 15.5
n∑i=1
x2i = 112 + 122 + . . .+ 212 = 2000
n∑i=1
y 2i = 142 + 152 + . . .+ 172 = 1928
n∑i=1
z2i = 112 + 112 + . . .+ 202 = 2068
s2x =
∑ni=1 x2
i − n(x)2
n − 1=
2000− 8(15.5)2
8− 1=
78
7= 11.1429 ⇒ sx = 3.3381
s2y =
1928− 8(15.5)2
8− 1=
6
7= 0.8571 ⇒ sy = 0.9258
s2z =
2068− 8(15.5)2
8− 1=
146
7= 20.8571 ⇒ sz = 4.5670
Calculo de la varianza y la desviacion tıpica con Excel
Comparacion de desviaciones tıpicas
Ejemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21,Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20
●
●
●
● ● ●
●
●
● ●
●
●
●
●
●
●
● ● ● ●
●
● ● ●
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
z == 15.5 sz == 4.6
y == 15.5 sy == 0.9
x == 15.5 sx == 3.3
Medidas de variacion: coeficiente de variacion (CV)
I Es una medida relativa de variacion que se define como
CV =s
|x |
I Es una medida adimensional (sin unidades). Suele expresarse en %.
I Muestra la variacion con respecto a la media.
I Se utiliza para comparar la dispersion entre distintas variables, o bienentre diferentes grupos de individuos.
Ejemplo: Variabilidad en el precio del ano anterior de dos StocksStock A: Precio promedio el ano anterior = 50, Desviacion tıpica = 5Stock B: Precio promedio el ano anterior = 100, Desviacion tıpica = 5
CVA =5
50= 0.10 CVB =
5
100= 0.05
Ambos stocks poseen la misma DT, pero el stock B es menos variable en
relacion a la media de su precio.
Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16
Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936
Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315
Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781
Moda #N/A #N/A #N/A #N/A #N/A
Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246
Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581
Curtosis 0,80070785 -0,47804046 -1,0086797 0,64222018 -0,3081343
Coeficiente de asimetría -1,22872549 -0,49130289 -0,10955689 -1,05249387 0,21842549
Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505
Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255
Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576
Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239
Cuenta 157 157 157 157 157
ODS 4: Educación de calidad, Spain: 88,9
ODS 5: Igualdad de género , Spain: 80,6
ODS8: Trabajo decente y crecimiento económico, Spain: 80,9
ODS 12: Producción y consumo responsables , Spain: 60,8
ODS16: Paz, justicia e instituciones solidarias , Spain: 69,5
Puntaciones tipificadas. ¿En que ODS lo está
haciendo mejor España?
Puntuaciones tipificadas.
I Tipificar una variable X significa calcular
X − x
s
Si se aplica esta transformacion a todas las observaciones x1, . . . , xn,se obtienen las puntuaciones tipificadas z1, . . . , zn, donde cadazi = (xi − x)/s, para i = 1, . . . , n.
I La muestra tipificada tiene media cero y desviacion tıpica uno.
Puntaciones tipificadas. ¿En que ODS lo está
haciendo mejor España?
Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16
Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936
Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315
Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781
Moda #N/A #N/A #N/A #N/A #N/A
Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246
Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581
Curtosis 0,80070785 -0,47804046 -1,0086797 0,64222018 -0,3081343
Coeficiente de asimetría -1,22872549 -0,49130289 -0,10955689 -1,05249387 0,21842549
Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505
Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255
Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576
Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239
Cuenta 157 157 157 157 157
Spain 88,9 80,6 80,9 60,8 69,5
Con respecto a la media 16,5588089 20,7317865 18,9834835 -8,14146713 6,17380644
Incorporando variabilidad 0,72762243 1,25666648 1,04436741 -0,65088269 0,48311276
Medidas de forma
X Coeficiente de asimetrıa de Fisher
X Coeficiente de curtosis de Fisher
X Regla empırica
Medidas de Forma: Asimetrıa
OJO!!: No tomar una decision comparando solo el valor de Media,Mediana y Moda.Coeficiente de Asimetrıa de Fisher:
γ1 =1
n
n∑i=1
(xi − x
s
)3
En Excel: COEFICIENTE.ASIMETRIA(nombre1;[nombre2];...)
n
(n − 1)(n − 2)
n∑i=1
(xi − x
s
)3
Medidas de forma: asimetría
Función en Excel
Medidas de forma: curtosis
Coeficiente de Curtosis
→ γ2 =1
n
n∑i=1
(xi − x
s
)4
− 3
En Excel: CURTOSIS(nombre1;[nombre2];...)
n(n + 1)
(n − 1)(n − 2)(n − 3)
n∑i=1
(xi − x
s
)4
− 3(n − 1)2
(n − 2)(n − 3)
Medidas de forma: asimetría y curtosis
Excel function
Análisis de Datos en Excel: Estadística descriptiva
0
2
4
6
8
10
12
14
16
18
406,00 425,00 444,00 463,00 482,00 501,00 520,00 539,00
FR
EC
UE
NC
IA
MARCAS DE CLASE
[OECD-only] Average PISA score across Maths/Reading/Science(0-
600)
Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/
Spain: 491,4
[OECD-only] Average PISA score across
Maths/Reading/Science(0-600)
Media 491,9848408
Error típico 4,407032995
Mediana 496,9519786
Moda #N/A
Desviación estándar 26,0723588
Varianza de la muestra 679,7678935
Curtosis 1,905272727
Coeficiente de asimetría -1,319879232
Rango 113,2610878
Mínimo 415,6699466
Máximo 528,9310344
Suma 17219,46943
Cuenta 35
Regla empırica
Si la distribucion de los datos es acampanada (normal), es decir,simetrica y con colas suaves, se verifica:
I 68 % de los datos en (x − 1s, x + 1s)
I 95 % de los datos en (x − 2s, x + 2s)
I 99.7 % de los datos en (x − 3s, x + 3s)
Nota: Esta regla se conoce tambien como la regla del 68-95-99.7
Ejemplo: Sabemos que para una muestra de 100 observaciones, la mediaes 40 y la cuasi-desviacion tıpica es 5. Suponiendo que los datos tienenuna distribucion acampanada, ¿cuales son los extremos del intervalo quecontiene el 95 % de las observaciones?
95 % de xi ’s estan en: (x ± 2s) = (40± 2(5)) = (30, 50)