Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Estadística DescriptivaClase 16
Basada en notas de Mathias Bourel
Estadística Descriptiva
¿Quién fue el primero en hacer un promedio?
El rey Rituparna, apuntando hacia un árbol,dijo: “Yo sé cuantas hojas tiene ese árbol, sinsiquiera contarlas”.
I Es uno de los registros más antiguos de estimación.I Su truco era simple:
consistía en estimar el número de hojas en una pequeña ramapromedio, y multiplicarlo por el número estimado de pequeñasramas en el árbol.
I La historia termina en que luego de una ardua noche de conteo, elnúmero verdadero de hojas se encontraba muy próximo al númerodado por el rey.
Estadística Descriptiva¿Por qué funciona?
I La idea es que una rama típica del árbol será representativa y daráuna buena estimación.
I El método funciona porque lo que se cuenta de más algunas veces,es compensado por lo que se cuenta de menos en otras.
¿Cuántos patos hay en la foto?
Estadística Descriptiva
Imaginarse una grilla
Pero ¿cómo elegir un rectángulo típico?
I A ojo, digamos que hay 15 patos en un rectángulo típico. Esto nosda una estimación de 225 patos en total.
I ¿Hay una manera sistemática de elegir un rectángulo típico?
Estadística DescriptivaHay más de una manera
Si nos dicen que el máximo es 34 y el mínimo es 0, podemos tomar
Valor típico =Máximo +Mínimo
2= 17.
Así, obtendríamos una estimación de 255 patos.
Hacemos la cuenta
5 11 21 8 4
5 27 34 11 6
25 17 15 6 0
Estadística Descriptiva
¿Más valores típicos?
I Hay 195 patos. Entonces
Valor típico =Suma
15= 13.
Y eso que ningún rectángulo tiene 13 patos.I También podría ser
Valor típico = el que más se repite.
Hay 3 valores que se repiten dos veces: el 5, el 6 y el 11.I Ordenamos, de menor a mayor los rectángulos:
la mitad hacia la izquierdaz }| {0 4 5 5 6 6 8 11
la mitad hacia la derechaz }| {11 15 17 21 25 27 34 .
Valor típico = aquel que divide en dos partes iguales al total.
Estadística Descriptiva
¿Con cuál nos quedamos?
Depende de la distribución de los datos, y sobre todo, de qué infor-mación queremos obtener.
Individuos, variables y distribuciones
Los individuos son los objetos descritos por un conjunto de datos.
Una variable es cualquier característica de un individuo.
La distribución de una variable nos dice qué valores toma y con quéfrecuencia.
Estadística Descriptiva
Variables categóricas y cuantitativas
Una variable categórica indica a qué grupo o categoría pertenece unindividuo.
Una variable cuantitativa toma valores numéricos, para los que tienesentido hacer operaciones numéricas.
Ejemplo
Nombre Edad Sexo Raza Salario TrabajoPerez, Juan 27 Hombre Blanca 32540 TécnicoMartínez, Ana 43 Mujer Blanca 65000 DirectivoWang, Li 22 Hombre Asiatica 15000 Cadete...
......
......
...
Estadística Descriptiva
Tenencia de la vivienda en Uruguay ECH2014
A B C D E F G H I
Tenencia de la Vivienda ECH2014
Porcentaje
0
10
20
30
40
A Prop. de la viv. y el terr. y los está pagando.
B Prop. de la viv. y el terr. y ya los pagó.
C Prop. sólo de la vivienda y la está pagando.
D Prop. sólo de la vivienda y ya la pagó.
E Inquilino o arrendatario de la vivienda.
F Ocupante con relación de dependencia.
G Ocupante gratuito. Se lo permite el B.P.S.
H Ocupante gratuito. Se lo permite el prop.
I Ocupante sin permiso del propietario.
A B C D E F G H I8,6% 46,3% 0,5% 5,4% 17,2% 1,5% 0,7% 19,2% 0,8%
¿Cuál es la tenencia de la vivienda típica en Uruguay?
Estadística Descriptiva
La Moda
Si X es una variable categórica que toma los valores {x1, . . . , xn}, lamoda de X es aquel valor que se repite con mayor frecuencia
Moda(X ) = xi más frecuente.
La moda para variables cuantitativas
Si la variable es cuantitativa, debemos agrupar los datos y tomar lamoda de los datos agrupados. En este caso, la moda dependerá decómo agrupemos los datos.
Estadística Descriptiva
¿Cuál es el salario típico en Uruguay?
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
Ingreso (miles de pesos)
Frecuencia
0 20 40 60 80 100
0.00
0.01
0.02
0.03
0.04
0.05
La moda corresponde al intervalo 10 � 15 mil pesos.
Estadística Descriptiva
Medidas de Centro
Es un número que representa el “centro” de una distribución.
I La moda es un ejemplo de medida de centro.I Supongamos que tenemos datos
{x1, x2, . . . , xn}
de una variable numérica X .I Podemos cuantificar cuán central es un número x para X con
d(x) =nX
i=1
|x � xi | .
I Busquemos el valor de x que minimiza la función d .
Estadística Descriptiva
Volviendo a los patos
0 5 10 15 20 25 30 35
150
200
250
300
Grafico de d para el ejemplo de los patos
x
d
El mínimo se alcanza en x = 11. ¡No es casualidad!
Estadística Descriptiva
Buscamos el mínimo de dI El problema es que d no es derivable.I Ordenamos los datos de menor a mayor:
x⇤1 x⇤2 · · · x⇤n .
I d es lineal en cada segmento⇥x⇤i , x
⇤i+1
⇤, y vale
d(x) =iX
j=1
x � x⇤j +nX
j=i+1
x⇤j � x
=
nX
j=i+1
x⇤j �iX
j=1
x⇤j + (2i � n)x = B + Ax,
en donde A = 2i � n y B =Pn
j=i+1 x⇤j �Pi
j=1 x⇤j son constantes.
Estadística Descriptiva
Buscamos el mínimo de dI Supongamos primero que n es impar. Entonces
8><>:A < 0 cuando i n�1
2 ,
A > 0 cuando i � n+12 .
I Por lo que d alcanza su mínimo en el punto x⇤n+12.
I Supongamos ahora que n es par. En este caso
8>>>><>>>>:
A < 0 cuando i n2 � 1,
A = 0 cuando i = n2,
A > 0 cuando i � n2 + 1.
I Luego d alcanza su mínimo en cualquier punto defx⇤n/2, x
⇤n/2+1
g.
Estadística Descriptiva
El mínimo de d según la paridad de n
Luego d alcanza su mínimo en
8><>:x⇤n+1
2, cuando n es impar,
cualquier punto defx⇤n/2, x
⇤n/2+1
g, cuando n es par.
Estadística Descriptiva
La Mediana
Sea X una variable cuantitativa que toma los valores
{x1, . . . , xn}.
La mediana de X es un valor m que deja 50% de los datos a suizquierda y 50% a su derecha.
Para calcularla aplicamos la siguiente receta:
m =8>><>>:x⇤n+1
2cuando n es impar
x⇤n/2+x⇤n/2+1
2 cuando n es par
en donde {x⇤1, . . . , x⇤n} es la muestra ordenada de menor a mayor.
Estadística Descriptiva
La mediana de ingresos en Uruguay
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
Ingreso (miles de pesos)
Frecuencia
0 20 40 60 80 100
0.00
0.01
0.02
0.03
0.04
0.05
DensidadMediana
I La mediana es 15 mil pesos.I Esto es, ¡la mitad recibe un ingreso inferior a 15 mil pesos!
Estadística Descriptiva
Un viejo truco estadístico
I Fue un poco engorroso calcular el mínimo de la función d .I En estadística existe un truco para hacer que una función se vuelvaderivable.
I Consiste en elevar al cuadrado! y lo veremos más de una vez.I Sea X una variable numérica con valores {x1, . . . , xn}.I Consideremos, en lugar de d , la función
d2(x) =nX
i=1
(x � xi )2.
I ¿Dónde alcanza d2 su mínimo?
x = arg mınx 2R
d2(x)
Estadística DescriptivaBuscamos el mínimo de d2
I Como d2 es derivable, podemos derivar e igualar a cero:
d 02(x) = 2nX
i=1
(x � xi ) = 0.
I Despejando, obtenemos un punto crítico en x = 1n
Pni=1 xi .
I Como d2 es una función cuadrática, alcanza su mínimo en x .
La Media o Promedio
Sea X una variable numérica con valores {x1, . . . , xn}. La media opromedio de X es
x =1n
nX
i=1
xi .
En palabras, la suma sobre la cantidad total datos.
Estadística DescriptivaEl promedio de ingresos en Uruguay
Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014
Ingreso (miles de pesos)
Frecuencia
0 20 40 60 80 100
0.00
0.01
0.02
0.03
0.04
0.05
DensidadMedianaMedia
I El sueldo promedio es de 18 mil pesos.I Los pocos encuestados con ingresos cercanos a $100000 hacen quela media sea mayor a la mediana.
Estadística DescriptivaComparación entre la media y la mediana
Histograma de la poblacion de las ciudades de Uruguay
Poblacion en miles de habitantes
Densidad
0 20 40 60 80 100 120
0.000
0.010
0.020
0.030
I En el histograma no está Montevideo.I La media y la mediana de habitantes de las 62 ciudades máspobladas de Uruguay son
x = 45892 y M = 16490.
Estadística Descriptiva
Comparación entre la media y la mediana
I Si sacamos a Montevideo, quedan
x = 25250 y M = 16240.
I La mediana casi no cambió, pero la media es muy diferente.
A diferencia de la media, la mediana es robusta. Esto quiere decirque es relativamente insensible a datos atípicos.
I La media tiene la ventaja de ser más fácil de manipularmatemáticamente.
I Cuando las muestras de datos son grandes, la media tiene unadistribución bien conocida. Esto lo veremos más adelante.
Estadística Descriptiva
Resumiendo... Medidas de centro
I La moda es la única medida de centro que podemos usarcuando la variable es categórica.
I La mediana es menos sensible a datos atípicos.I La media tiene ventajas teóricas respecto a la mediana.
Estadística Descriptiva
Medidas de dispersión
I Miden la variabilidad de una distribución.I En general, es un número que indica si los diferentes valoresde una variable se alejan de la media.
La Varianza
Sea X una variable cuyos valores son {x1, . . . , xn}. La varianza s2 deX es
s2 =1
n � 1
nX
i=1
(x � x)2,
en donde x es la media de X .
A veces se indica la variable X con un subíndice: s2X .
Estadística Descriptiva
La desviación típica
Sea X una cuyos valores son {x1, . . . , xn}. La desviación típica de Xes
s =
vt1
n � 1
nX
i=1
(x � x)2.
Esto es: la raíz cuadrada de la varianza.
I ¿Por qué n � 1 y no n? La suma de los desvíos di = xi � x es
nX
i=1
di =nX
i=1
xi � x = 0.
Solamente n � 1 de los d2i puede variar libremente.
I Cuando se usa n en lugar de n � 1, se escribe � en lugar de s .
Estadística DescriptivaLa desviación típica de los ingresos en Uruguay
Salario liquido en Uruguay
Salario
Densidad
0 20 40 60 80 100
0.00
0.01
0.02
0.03
0.04
I La desviación típica es s = 13617 pesos.I El 80% de los salarios están en el intervalo
⇥promedio ± desviación típica
⇤
Estadística Descriptiva
Desviacion tipica moderada
Valor de la variable
Densidad
-6 -4 -2 0 2 4 6
0.00.1
0.20.3
0.4
Desviacion tipica chica
Valor de la variable
Densidad
-6 -4 -2 0 2 4 6
0.00.2
0.40.6
0.8
Desviacion tipica grande
Valor de la variable
Densidad
-6 -4 -2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
Estadística Descriptiva¿Por qué n � 1 y no n?
Histograma de una cierta variable X
Valores de la variable
Densidad
-2 -1 0 1 2 3
0.00.1
0.20.3
I Supongamos que disponemos de 30 valores de una variable X .I La varianza de X es s2 = 1,02.
Estadística Descriptiva
¿Por qué n � 1 y no n?
I Tomamos todas las muestras posibles de tamaño 5 de X .I Para cada una de esas muestras, calculamos su varianza s2.I ¡El promedio es 1,03!I Si usamos �2, el promedio es 0,82.
Histograma de varianzas
Varianza de la muestra
Densidad
0 1 2 3 4
0.00.1
0.20.3
0.40.5
0.60.7
Estadística Descriptiva
Los Cuartiles
I El primer cuartil Q1 es la mediana de las observacionessituadas a la izquierda de la mediana global.
I El tercer cuartil Q3 es la mediana de las observaciones situadasa la derecha de la mediana global.
I El primer cuartil deja el 25% de los datos a su izquierda y el 75%a su derecha.
I El tercer cuartil deja el 75% de los datos a su izquierda y el 25% asu derecha.
I En el ejemplo de los patos:
25%z }| {0 4 5 5 6 6 8 11 11 15 17
25%z }| {21 25 27 34
Estadística DescriptivaLos Cuartiles
Salario liquido en Uruguay
Salario
Densidad
0 20 40 60 80 100
0.00
0.01
0.02
0.03
0.04
I El primer cuartil es Q1 = 10000 pesos.I El tercer cuartil es Q3 = 24000 pesos.
Estadística Descriptiva
El Rango Intercuartílico.
El Rango Intercuartílico es otra medida de dispersión.
Sea X una variable cuyos valores son {x1, . . . , xn}. Definimos el rangointercuartílico de X como
RIC(X ) = Q3 � Q1.
I En el ejemplo de los ingresos por salario tenemos
RIC(Salarios) = 14000 pesos.
I Al igual que la mediana, el rango intercuartílico es una medidarobusta de la dispersión.
Estadística Descriptiva
Resumen numérico de los datos
Robusta No RobustaMedida de centro Mediana MediaMedida de dispersión Rango Intercuartílico Desviación Típica
Los cinco números resumenI Un resumen rápido del centro y dispersión de los datos.
mın Q1 M Q3 max
I Usar x y s sólo para distribuciones razonablemente simétricas queno presenten datos atípicos.
I El resumen de los ingresos en Uruguay:
mın Q1 M Q3 max100 10000 16000 24000 100000
Diagrama de tallos
Podemos hacer el diagrama de tallos y hojas del Grupo 3. En la izquierda ponemos el primer dígito lo que conforma el tallo, en la derecha van los segundos dígitos.