Estadística I Tema 2: Análisis de datos univariantes€¦ · Tema 2: An alisis de datos univariantes Contenido 1.Representaciones y gr a cos I Tablas de frecuencias. I Diagrama

Estadıstica ITema 2: Analisis de datos univariantes

Tema 2: Analisis de datos univariantes

Contenido

1. Representaciones y graficos

I Tablas de frecuencias.

I Diagrama de barras, diagrama de sectores, histograma, polıgono defrecuencias, pictogramas. Otros graficos y graficos manipulados.

2. Medidas numericas para describir:

I Tendencia central (media, mediana, moda)

I Posicion (cuartiles, percentiles). Diagramas de cajas.

I Dispersion (varianza, desviacion tıpica, cuasi-varianza,cuasi-desviacion tıpica, rango, RIC, coeficiente de variacion)

I Forma (coeficientes de asimetrıa y de curtosis)

Tema 2: Analisis de datos univariantes

Lecturas recomendadas

I Pena, D., Romo, J. Introduccion a la Estadıstica para las CienciasSociales (1997).

I Capıtulos 2, 3, 4 y 5.

I Newbold, P. Estadıstica para Administracion y Economıa (2009).I Capıtulos 1 y 2

Descripcion de variables cualitativas

I Muestra: 46 profesionales de una companıa informatica en EstadosUnidos.

I Variable: EDUC: formacion academica (1=High School; 2=College;3=Advanced Degree)

I Variable: MGT: desempeno de un cargo de responsabilidad (1=si;0=no)

Para obtener informacion:

¿Como resumir los datos primarios en una forma mas util que permitauna interpretacion visual rapida?

Descripcion de variables cualitativas: tabla de frecuencias ydiagrama de barras

Formacion Academica Numero Empleados Proporcion empleadosHigh School 14 0.304

College 19 0.413Advanced Degree 13 0.283

Total 46 1

Descripcion de variables cualitativas: formato general de latabla

Frec. Frec.Clase, ci Absol., ni Relat., fi

c1 n1 f1 = n1

nc2 n2 f2 = n2

n...

......

ck nk fk = nkn

Total n 1

Nota:

I ni = numero de ci en la muestra, fi = nin

I 0 ≤ fi ≤ 1

Descripcion de variables cualitativas: formato generaldiagrama de barras

I Las barras tienen la misma amplitud y son equidistantes, con alturascorrespondientes a las frecuencias (absolutas).

I Existen huecos entre las barras.

I Las barras estan etiquetadas con los nombres de las clases.

Otros graficos para datos cualitativos: diagrama de sectores

I Cada sector es una fraccion del total del cırculo.

I Los sectores estan etiquetados con los nombres de las clases.

I Muchos programas ordenan las clases en orden alfabetico.

I Aunque es vistoso, es mas complejo de interpretar que el diagramade barras.

I Evitar los diagramas de sectores en 3D, ya que los sectores traserostienden a parecer menores que los sectores delanteros.

Dia

gra

ma

de

se

cto

res:

eje

mp

lo

Tabla dinámica

Muestra: 568 primeros episodios de Los Simpsons

Variable: miembro de la familia que protagoniza (dice más

palabras) un episodio

Nota: Se puede obtener el gráfico sin obtener antes la tabla de frecuencias.

Consultar el Material Complementario: uso de Excel

Otros graficos para datos cualitativos: diagrama de Pareto

I Diagrama de barras en el que la ordenacion de las categorıas de lavariable se hace por orden de frecuencias.

I Solo es valido para variables cualitativas no ordinales.

I Para detectar las “motivos” mas significativos (unos pocosproductos acaparan casi toda la frecuencia de compras)

Principio de Pareto (regla del 80 %-20 %)Basandose en el conocimiento empırico Pareto (en 1896) enuncio que lasociedad se dividıa en dos grupos proporcionales 80-20, los “pocos de mucho”y los “muchos de poco”:

I Un grupo minoritario formado por un 20 % de la poblacion que ostenta el80 % de algo.

I Un grupo mayoritario formado por un 80 % de la poblacion que ostenta el20 % de algo.

Diagrama de Pareto: ejemplo

I Muestra: De entre 1100 visitantes de la exposicion ”Turner y losMaestros” (Mueseo del Prado, 22 de junio a 19 de septiembre de2010), aquellos que adquirieron su entrada por via telematica (un20.3 %) Fuente: Instituto de Estudios Turısticos

I Variable: Razon principal para adquirir su entrada por via telematica

Instituto de Estudios Turísticos

Turner y los Maestros

21

Tabla 7. Visitantes según si ha tenido que esperar para entrar a la exposición

Filtro: Adquiere la entrada en taquilla

%

Ha tenido que esperar 12,1

No ha tenido que esperar 87,9

Total 100,0

Tabla 8. Visitantes por actividades realizadas en el tiempo de espera para entrar a la exposición

Filtro: Ha adquirido la entrada en taquilla y ha tenido que esperar desde que ha sacado

la entrada hasta que ha accedido a la exposición

%

Visitar la colección del Museo 16,6

Visitar o estar en la cafetería del Museo 7,7

Visitar la tienda del Museo 28,1

Estar o visitar otros espacios del Museo que no tienen colección

33,0

Esperar en el exterior del Museo 27,5

Tabla 9. Visitantes por la razón principal para adquirir la entrada por vía telemática

Filtro: Adquiere la entrada por vía telemática

%

Por comodidad 60,5

Rapidez 10,1

Puedo elegir el día y la hora de la visita 14,0

No tengo que esperar en taquilla 9,5

Porque la entrada es más barata 4,3

Por el horario 24 horas 1,2

Había oído hablar bien del servicio 0,4

Total 100,0

Diagrama de Pareto: ejemplo

Graficos para datos cualitativos: pictogramas

I Muestra: 70 estudiantes universitarios madrilenos

I Variable: Partido polıtico preferido

Partido preferido Num. Estudiantes Prop. EstudiantesPSOE 23 0.33

PP 15 0.21Unidos Podemos 20 0.29

Ciudadanos 7 0.10Otros 5 0.07Total 70 1

El area del grafico es proporcional a la frecuencia.

EjercicioResultados de una encuesta realizada a jovenes de entre 15 y 20 anosacerca de su actividad favorita en su tiempo de ocio

I ¿Cual es la variable de interes y cuales son los individuos?

I ¿Para que porcentaje de jovenes es la lectura su actividad de ociofavorita?

Ejercicio

De un examen realizado a un grupo de alumnos, cuyas notas se hanevaluado del 1 al 8, se ha obtenido la siguiente tabla:

Nota, ci ni fi1 4 0.082 43 0.164 7 0.145 56 107 7 0.148

I ¿Cuantos alumnos se han examinado?

I ¿Que porcentaje de alumnos ha sacado una nota igual o mayor a 6?

Ejercicio

En una encuesta sobre habitos de salud se les pregunta a 30 alumnos dela universidad, seleccionados al azar, sobre el deporte que practicanhabitualmente. Los resultados se muestran en la siguiente tabla:

Deporte, ci ni fiBaloncesto 12 0.4Natacion 3 0.1Futbol 9 0.3Ningun deporte 6 0.2Total 30 1

¿Cual de los siguientes diagramas de barras corresponderıa a estos datos?

Ejercicio Estadística Aplicada

a) c)

b) d)

Deporte

0

2

4

6

8

10

12

14

Baloncesto Natación Fútbol Ningún deporte

Deporte

0

2

4

6

8

10

12

14


Deporte

0

2

4

6

8

10

12

14


Deporte

0

2

4

6

8

10

12

14


Descripcion de variables cuantitativas discretas: tabla defrecuencias

I Muestra: seleccion de 100 centros comerciales en los que se lanza unapromocion de un cierto servicio durante noviembre de 2017.

I Variable: numero de nuevos clientes del servicio captados con lapromocion.

Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa

ci Absoluta ni Relativa fi Acumulada Ni Acumulada Fi

0 1 0,01 1 0,011 4 0,04 5 0,052 7 0,07 12 0,123 8 0,08 20 0,24 8 0,08 28 0,285 16 0,16 44 0,446 18 0,18 62 0,627 14 0,14 76 0,768 10 0,1 86 0,869 11 0,11 97 0,97

10 3 0,03 100 1

Total 100 1

Descripcion de variables cuantitativas discretas: tabla defrecuencias

I ¿En cuantos centros comerciales se captaron solo 5 nuevos clientes?

I ¿En que porcentaje de los centros comerciales se captaron al menos3 nuevos clientes?

I ¿En cuantos centros comerciales se captaron menos de 6 clientes?

I ¿En que porcentaje de los centros comerciales se captaron entre 4 y8 nuevos clientes?

I ¿En que porcentaje de los centros comerciales se captaron a lo sumo7 clientes?

Graficos para datos cuantitativos discretos: diagrama debarras

Los diagramas de barras pueden construirse tambien para datos discretossi no existen demasiados valores diferentes.

Descripcion de variables cuantitativas discretas: formatogeneral de la tabla

Frec. Frec.Frec. Frec. Absol. Relat.

Clase, ci Absol., ni Relat., fi Acumul., Ni Acumul., Fi

c1 n1 f1 = n1

n N1 = n1 F1 = f1

c2 n2 f2 = n2

n N2 = N1 + n2 F2 = F1 + f2

......

......

...ck nk fk = nk

n Nk = n Fk = 1Total n 1

Nota:

I c1 < c2 < · · · < ckI ni = numero de ci en la muestra, fi = ni

n

I Ni = Ni−1 + ni , Fi = Fi−1 + fiI 0 ≤ fi ,Fi ≤ 1

I Fi y Ni tambien tiene sentido para variables categoricas ordinales

Tablas y graficos para datos cualitativos ordinales

I Muestra: seleccion de 901 empleados.

I Variable: niveles de satisfaccion en el trabajo.

Frecuencia FrecuenciaFrecuencia Frecuencia Absoluta Relativa

Clase Absoluta Relativa Acumulada AcumuladaMI 62 0.07 62 0.07I 108 0.12 170 0.19S 319 0.35 489 0.54

MS 412 0.46 901 1Total 901 1

Tablas y graficos para datos cualitativos ordinales

Atencion! Muchos programas ordenan las clases en orden alfabeticocuando la variable es categorica. Si es ordinal se debe ordenar de formaascendente.

Diagrama de barras para datos discretos

I Muestra: 46 profesionales de una companıa informatica en Estados Unidos.

I variable: EXPRNC: anos completos trabajados en la companıa

Experiencia, ci Frec. absolutas, ni Frec. relativas, fi1 5 0,1092 4 0,0873 4 0,0874 4 0,0875 3 0,0656 4 0,0877 1 0,0228 4 0,087

10 4 0,08711 2 0,04312 2 0,04313 2 0,04314 1 0,02215 1 0,02216 3 0,06517 1 0,02220 1 0,022

Total 46 1

Tabla de frecuencias y diagrama de barras para variablescuantitativas discretas

Demasiados valores diferentes.

Descripcion de variables cuantitativas continuas

I Muestra: 46 profesionales de una companıa informatica en Estados Unidos.

I Variable: EXPRNC: anos de experiencia

I Variable: SALARY: retribuciones brutas anuales (en dolares USA)

Agrupacion en intervalos de clase: datos continuos (odiscretos)

Intervalo Marca de clase (centro) ni fi Ni Fi

[l0, l1] c1 = l0+l12 n1 f1 N1 F1

(l1, l2] c2 = l1+l22 n2 f2 N2 F2

......

......

......

(lk−1, lk ] ck = lk−1+lk2 nk fk n 1

Total n 1

Nota:

I En Excel se excluye el extremo izquierdo, pero se incluye el extremoderecho (es una convencion).

I Es posible aplicar la convencion en sentido opuesto - verifica sudefinicion en el software que vayas a emplear.

I Util para tabular datos discretos si X toma muchos valoresdiferentes.

Agrupacion en intervalos de claseI Muy frecuentemente los intervalos tomados como clases poseen la

misma amplitud.I Determinar la amplitud a para cada intervalo mediante

a =numero mayor - numero menor

numero de intervalos deseados

I ¿Cuantos intervalos? Aproximadamente entre 5 y 20. Probando(experiencia y practica)

Tamano muestral Numero de clasesMenos de 50 5–7

50 a 100 7–8101 a 500 8–10

501 a 1000 10–111001 a 5000 11–14Mas de 5000 14–20

Tomado de Newbold

I Los intervalos nunca se solapan.I Redondea la amplitud del intervalo para obtener los extremos de los

intervalos deseados.

Agrupacion en intervalos de clase: histograma y polıgonode frecuencias

I Se obtiene el rango (maximo – mınimo): 20− 1 = 19

I Se calcula el numero de intervalos: 46 ≈ 50⇒ 7

I Se calcula la amplitud de los intervalos: 19/7 = 2.71⇒ 3.

I Se determinan los extremos (empezando antes del primer dato yterminando despues del ultimo): [0, 3], (3, 6], . . . , (18, 21]

Descripcion de variables cuantitativas continuas:histograma y polıgono de frecuencias

I No hay huecos entre las barras/cajas.

I Amplitud de cajas ≡ amplitud de intervalos (identicos) y los lımitesde las clases se marcan en el eje horizontal.

I Alturas de cajas ≡ frecuencias (aquı, absoluta).

I Las areas de cajas son proporcionales a las frecuencias.

Variables cuantitativas continuas: histograma

Descripcion de variables cuantitativas continuas:histograma y polıgono de frecuencias

Otros graficos: cartogramas (INE, Encuesta de Turismo de residentes)Gasto medio en viajes por persona durante el tercer trimestre de 2016

Gasto medio en excursiones por persona durante el tercer trimestre de 2016

Otros graficos: pictogramas

Otros graficos: datos temporales

Fuente: INE, Encuesta de Poblacion Activa

Manipulando con los graficos

Enganando con los pictogramas. El siguiente grafico fue publicado en LaVoz de Galicia del 24 de octubre de 2010.

I Haciendo que la altura es proporcional a la frecuencia da unaimpresion falsa.

I ¿Hay algo mas que os parece mal?

Manipulando con los graficosMala utilizacion de las escalas: el origen de los graficos no esta en el 0

Manipulando con los graficos

Manipulando con los graficosLa escala esta al reves

Manipulando con la Estadıstica

How to lie with Statistics? By Durrell Huff, pictures by Irving Geis.

Consultar online: https://archive.org/details/HowToLieWithStatistics

Descripcion numerica de datos: medidas descriptivas

Centro Posicion Variacion Forma

⇓ ⇓ ⇓ ⇓media cuartiles rango coef. asimetrıa

mediana percentiles rango intercuartılico coef. curtosismoda varianza

desviacion tıpicacoef. de variacion

Descripcion numerica de datos: medidas descriptivas

X ¿Para que sirven?, ¿que informacion proporcionan?

X ¿Se pueden calcular todas con todo tipo de variables?

X ¿Cuales son las mas adecuadas en cada caso?

X ¿Como calcularlas sin ordenador? Uso de la calculadora

Medidas de tendencia central

X La media (aritmetica)

X La mediana

X La moda

Tendencia central: la media (aritmetica)

Media (aritmetica)Es el promedio de todos los datos de la muestra:

x =

∑ni=1 xin

=x1 + . . .+ xn

n

I Es la medida de tendencia central mas usada.

I Representa el centro de gravedad de los datos

I Se calcula solo para variables cuantitativas

I Su calculo explıcito depende de como se presenten los datosx1, x2, . . . , xn

La media: ejemploPara el ejemplo de los 46 profesionales informaticos, ¿cual es suexperiencia media?

x =1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + · · ·+ 17 + 20

46= 7.5 anos

En Excel: funcion PROMEDIO(numero1;[numero 2]; ...)

La media: ejemplo¿Como la calcularıas a traves de las tablas de frecuencias absolutas?, ¿yde las relativas?

La media con datos agrupados

Se trabaja con las marcas de clase. En el ejemplo de los 46 profesionalesinformaticos, ¿cual es su salario medio?

Nota: salario medio a traves de los datos brutos x = 17250.413

La media: propiedadesX Linealidad: Si Y = a + bX ⇒ y = a + bx .

Si Z = X + Y ⇒ z = x + y

Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario medio?

Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?

Si se complementa el salario con un extra por productividad recogidoen la variable Y , con valor medio y , ¿Como obtienes el nuevo salariomedio?

X Inconvenientes: es muy sensible a valores extremos (observacionesatıpicas, outliers).

Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2

x =3 + 1 + 5 + 4 + 2

5= 3 y =

3 + 1 + 50 + 4 + 2

5= 12

No es recomendable usarla como medida central en datos muyasimetricos.

Tendencia central: la medianaEs la observacion que ocupa el lugar central

1 1 1 3 3 5 5 7 8 8 9

1. Ordenamos los datos de menor a mayor

2. Tenemos en cuenta tambien los que se repiten

3. Seleccionamos el valor que ocupa la posicion central

1 1 1 3 3 5 5 7 8 8 ⇒ M =3 + 5

2= 4

MedianaLista ordenada de menor a mayor: x(1), x(2), . . . , x(n)

M =

x((n+1)/2) si n impar

x(n/2)+x(n/2+1)

2 si n par

En Excel: funcion MEDIANA(numero1;[numero2];...)

La mediana: calculo a traves de la tabla de frecuenciasExperiencia, ci ni fi Ni Fi

1 5 0,109 5 0,1092 4 0,087 9 0,1963 4 0,087 13 0,2834 4 0,087 17 0,3705 3 0,065 20 0, 435 < 0.5

M=6 4 0,087 24 0, 522 > 0.57 1 0,022 25 0,5438 4 0,087 29 0,6309 0 0 29 0,630

10 4 0,087 33 0,71711 2 0,043 35 0,76112 2 0,043 37 0,80413 2 0,043 39 0,84814 1 0,022 40 0,87015 1 0,022 41 0,89116 3 0,065 44 0,95717 1 0,022 45 0,97818 0 0 45 0,97810 0 0 45 0,97820 1 0,022 46 1,000

La mediana: propiedades

X Linealidad: Si Y = a + bX con b > 0⇒ My = a + bMx

Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario mediano?

Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?

X ¿Tiene sentido preguntarse por la Mediana de la formacionacademica?

¿y de la variable nominal haber desempenado o no un cargo deresponsabilidad?

X Ventaja: No es sensible a valores extremos.

Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2

Mx = 3 My = 3

Es recomendable usar la Mediana como medida central en datos muyasimetricos.

La media y la mediana de datos muy asimetricosSalario bruto anual en 2014, Encuesta de Estructura Salarial 2014, I.N.E.

“La diferencia entre el salario medio y el mediano se explica porque en elcalculo del valor medio influyen notablemente los salarios muy altosaunque se refieran a pocos trabajadores.´´ (En la Nota de Prensa delINE de 28 de octubre de 2016)

Tendencia central: la moda

Es el valor mas frecuente

En el ejemplo, la moda de la experiencia es 1 ano, con una frecuencia de5 empleados

Los valores 2,3,4,8 y 10 tienen una frecuncia de 4 empleados

Tendencia central: la moda

¿Tiene sentido preguntarse por la moda del salario? ⇒ intervalo modal

La moda: propiedades

X Puede calcularse para variables cualitativas y cuantitativas. La unicaque tiene sentido para cualitativas nominales.

X No afectada por valores extremos.

X Puede no haber moda.

X Puede haber mas de una moda: bimodal–trimodal–plurimodal

¿Que nos puede estar indicando?

Distribución bimodalTiempo (en minutos) en completar un maratón. Datos tomados de un maratón popular

0

20

40

60

80

100

120

140

160

133 140 150 160 170 180 190 200 210 220 230 238

Tiempo en correr un maratón: histograma

� ¿Qué crees que está pasando?

� ¿Podrías aventurar qué tipo de corredores componen el grupo en

verde y el grupo en azul?

� ¿Ocurriría lo mismo si los datos fueran del maratón de unos Juegos

Olímpicos?

Medidas de localizacion

X Los cuartiles

X Los percentiles

Medidas de localizacion: cuartiles y percentiles

X Los cuartiles dividen los datos ordenados en cuatro segmentos querecogen la misma cantidad de observaciones.

X Los percentiles dividen los datos ordenados en cien segmentos querecogen la misma cantidad de observaciones.

1. Ordenamos los datos de menor a mayor

2. Tenemos en cuenta tambien los que se repiten

3. Seleccionamos el valor que ocupa la posicion:

I El primer cuartil Q1 ocupa la posicion 14(n + 1).

I El segundo cuartil Q2 (= mediana) ocupa la posicion 12(n + 1).

I El tercer cuartil Q3 ocupa la posicion 34(n + 1).

I El percentil k-esimo Pk , ocupa la posicion k100

(n + 1),k = 1, 2, . . . , 99, y deja el k % de los datos por debajo de el y el(100− k) % por encima.

Cuartiles y percentiles en Excel

Nota:

Lo mas habitual es que las fracciones 14 (n + 1), 3

4 (n + 1) y k100 (n + 1) no

den valores enteros ⇒ para obtener la posicion (entera) a la quecorresponden se tiene que fijar un criterio de redondeo.

En Excel, las funciones son:

I CUARTIL.INC(matriz;cuartil), con:1=primer cuartil, 2=mediana, 3=tercer cuartil

I PERCENTIL.INC(matriz;p), con:p = k

100 ∈ (0, 1), percentil k-esimo

Medidas de variacion

X El rango y el rango intercuartılico

X La varianza y la desviacion tıpica

X El coeficiente de variacion

Variacion: rango y rango intercuartılico (RIC)

I El rango es la medida de variacion mas simple

R = xmax − xmın

I Ignora la manera en que se distribuyen los datos.

I Sensible a observaciones atıpicas (outliers).

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5− 1 = 4

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100− 1 = 99

I El rango intercuartılico (RIC) puede eliminar ciertos problemasprovocados por los datos atıpicos. Se “eliminan” las observacionesde mayor valor y las de menor valor y se calcula el rango del 50 %central de la muestra.

RIC = 3er cuartil− 1er cuartil = Q3 − Q1

Variacion: rango intercuartılico y diagrama de cajas

I Las observaciones atıpicas (outliers) se encuentran

I por debajo de Q1 − 1.5 · RICI por encima de Q3 + 1.5 · RIC

I Para observaciones atıpicas (outliers) extremos, reemplazar 1.5 por 3en la definicion anterior

25% 25% 25% 25%

12 24 31 42 58

xmin Q1 ((Q2))MEDIANA

Q3 xmax

RI=18

Diagrama de Cajas Box-Plot

I Muestra cinco medidas de centralizacion.

I Muestra una medida robusta de dispersion.

I Permite estudiar la simetrıa de los datos.

I Da un criterio de deteccion de datos atıpicos.

I Es muy util para comparar datos

I Variante: cuando se presentan varios Box-Plot, se puede hacer elancho de la caja proprocional al numero de observaciones.

Homer y sus enemigos

Homer Simpson tiene dos enemigos principales: Flanders y Mr Burns:

En los episodios en los que salen ambos o alguno de los dos ¿Cómo se

distribuye la importancia de Homer?

Homer y sus enemigosEmpleando la variable de filtro creada en el Ejercicio 5 (Ejercicios Tema 1)

1) Crear 4 variables con los valores de “Homer” para cada uno de los casos: Homer&Burns,

Homer&Flanders,Homer&Both,Homer&None

2) Seleccionar todos los datos e insertar un Diagrama de Cajas y Bigotes

Medidas de variacion: varianza

I Promedio de cuadrados de las desviaciones de valores a la media.

I Varianza muestral

σ2 =

∑ni=1 (xi − x)2

n=

mas rapido de calcular︷︸︸︷∑ni=1 x2

i − n(x)2

n⇐ dividido por n

I Cuasi-varianza muestral (varianza muestral corregida)

s2 =

∑ni=1 (xi − x)2

n − 1=

∑ni=1 x2

i − n(x)2

n − 1⇐ dividido por n − 1

I Su relacion es

σ2 =n − 1

ns2

I Si a, b son numeros reales e Y = a + bX , se tiene s2y = b2s2

x

Medidas de variacion: desviacion tıpica o estandar (DT)

I La medida de dispersion mas utilizada.

I La desviacion tıpica muestral y la cuasi-desviacion tıpica muestralson respectivamente

σ =√σ2 s =

√s2

I Describe la variacion sobre la media.

I Posee las misma unidades que los datos, mientras que para lavarianza se tienen unidades2

I Tanto la varianza como DT pueden verse afectadas por la presenciade observaciones atıpicas.

Calculo de la varianza y la desviacion tıpicaEjemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17,Z : 11, 11, 11, 12, 19, 20, 20, 20

x =124

8= 15.5 y =

124

8= 15.5 z =

124

8= 15.5

n∑i=1

x2i = 112 + 122 + . . .+ 212 = 2000

n∑i=1

y 2i = 142 + 152 + . . .+ 172 = 1928

n∑i=1

z2i = 112 + 112 + . . .+ 202 = 2068

s2x =

∑ni=1 x2

i − n(x)2

n − 1=

2000− 8(15.5)2

8− 1=

78

7= 11.1429 ⇒ sx = 3.3381

s2y =

1928− 8(15.5)2

8− 1=

6

7= 0.8571 ⇒ sy = 0.9258

s2z =

2068− 8(15.5)2

8− 1=

146

7= 20.8571 ⇒ sz = 4.5670

Calculo de la varianza y la desviacion tıpica con Excel

Comparacion de desviaciones tıpicas

Ejemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21,Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20

●

●

●

● ● ●

●

●

● ●

●

●

●

●

●

●

● ● ● ●

●

● ● ●

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

z == 15.5 sz == 4.6

y == 15.5 sy == 0.9

x == 15.5 sx == 3.3

Medidas de variacion: coeficiente de variacion (CV)

I Es una medida relativa de variacion que se define como

CV =s

|x |

I Es una medida adimensional (sin unidades). Suele expresarse en %.

I Muestra la variacion con respecto a la media.

I Se utiliza para comparar la dispersion entre distintas variables, o bienentre diferentes grupos de individuos.

Ejemplo: Variabilidad en el precio del ano anterior de dos StocksStock A: Precio promedio el ano anterior = 50, Desviacion tıpica = 5Stock B: Precio promedio el ano anterior = 100, Desviacion tıpica = 5

CVA =5

50= 0.10 CVB =

5

100= 0.05

Ambos stocks poseen la misma DT, pero el stock B es menos variable en

relacion a la media de su precio.

Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16

Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936

Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315

Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781

Moda #N/A #N/A #N/A #N/A #N/A

Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246

Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581

Curtosis 0,80070785 -0,47804046 -1,0086797 0,64222018 -0,3081343

Coeficiente de asimetría -1,22872549 -0,49130289 -0,10955689 -1,05249387 0,21842549

Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505

Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255

Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576

Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239

Cuenta 157 157 157 157 157

ODS 4: Educación de calidad, Spain: 88,9

ODS 5: Igualdad de género , Spain: 80,6

ODS8: Trabajo decente y crecimiento económico, Spain: 80,9

ODS 12: Producción y consumo responsables , Spain: 60,8

ODS16: Paz, justicia e instituciones solidarias , Spain: 69,5

Puntaciones tipificadas. ¿En que ODS lo está

haciendo mejor España?

Puntuaciones tipificadas.

I Tipificar una variable X significa calcular

X − x

s

Si se aplica esta transformacion a todas las observaciones x1, . . . , xn,se obtienen las puntuaciones tipificadas z1, . . . , zn, donde cadazi = (xi − x)/s, para i = 1, . . . , n.

I La muestra tipificada tiene media cero y desviacion tıpica uno.

Puntaciones tipificadas. ¿En que ODS lo está

haciendo mejor España?

Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16

Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936

Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315

Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781

Moda #N/A #N/A #N/A #N/A #N/A

Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246

Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581

Curtosis 0,80070785 -0,47804046 -1,0086797 0,64222018 -0,3081343

Coeficiente de asimetría -1,22872549 -0,49130289 -0,10955689 -1,05249387 0,21842549

Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505

Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255

Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576

Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239

Cuenta 157 157 157 157 157

Spain 88,9 80,6 80,9 60,8 69,5

Con respecto a la media 16,5588089 20,7317865 18,9834835 -8,14146713 6,17380644

Incorporando variabilidad 0,72762243 1,25666648 1,04436741 -0,65088269 0,48311276

Medidas de forma

X Coeficiente de asimetrıa de Fisher

X Coeficiente de curtosis de Fisher

X Regla empırica

Medidas de Forma: Asimetrıa

OJO!!: No tomar una decision comparando solo el valor de Media,Mediana y Moda.Coeficiente de Asimetrıa de Fisher:

γ1 =1

n

n∑i=1

(xi − x

s

)3

En Excel: COEFICIENTE.ASIMETRIA(nombre1;[nombre2];...)

n

(n − 1)(n − 2)

n∑i=1

(xi − x

s

)3

Medidas de forma: asimetría

Función en Excel

Medidas de forma: curtosis

Coeficiente de Curtosis

→ γ2 =1

n

n∑i=1

(xi − x

s

)4

− 3

En Excel: CURTOSIS(nombre1;[nombre2];...)

n(n + 1)

(n − 1)(n − 2)(n − 3)

n∑i=1

(xi − x

s

)4

− 3(n − 1)2

(n − 2)(n − 3)

Medidas de forma: asimetría y curtosis

Excel function

Análisis de Datos en Excel: Estadística descriptiva

0

2

4

6

8

10

12

14

16

18

406,00 425,00 444,00 463,00 482,00 501,00 520,00 539,00

FR

EC

UE

NC

IA

MARCAS DE CLASE

[OECD-only] Average PISA score across Maths/Reading/Science(0-

600)

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Spain: 491,4

[OECD-only] Average PISA score across

Maths/Reading/Science(0-600)

Media 491,9848408

Error típico 4,407032995

Mediana 496,9519786

Moda #N/A

Desviación estándar 26,0723588

Varianza de la muestra 679,7678935

Curtosis 1,905272727

Coeficiente de asimetría -1,319879232

Rango 113,2610878

Mínimo 415,6699466

Máximo 528,9310344

Suma 17219,46943

Cuenta 35

Regla empırica

Si la distribucion de los datos es acampanada (normal), es decir,simetrica y con colas suaves, se verifica:

I 68 % de los datos en (x − 1s, x + 1s)

I 95 % de los datos en (x − 2s, x + 2s)

I 99.7 % de los datos en (x − 3s, x + 3s)

Nota: Esta regla se conoce tambien como la regla del 68-95-99.7

Ejemplo: Sabemos que para una muestra de 100 observaciones, la mediaes 40 y la cuasi-desviacion tıpica es 5. Suponiendo que los datos tienenuna distribucion acampanada, ¿cuales son los extremos del intervalo quecontiene el 95 % de las observaciones?

95 % de xi ’s estan en: (x ± 2s) = (40± 2(5)) = (30, 50)

Documents

Estadística I Tema 2: Análisis de datos univariantes€¦ · Tema 2: An alisis de datos univariantes Contenido 1.Representaciones y gr a cos I Tablas de frecuencias. I Diagrama