37
Tema 1: Variables estad´ ısticas unidimensionales T ´ ecnicas Cuantitativas I 2013-2014 ´ Indice del tema 1 Introducci´ on 2 Variables estad´ ısticas. Tablas estad´ ısticas. Representaciones gr´ aficas. 3 Momentos centrados y no centrados. 4 Medidas de posici´ on: medias aritm´ etica, geom´ etrica y arm´ onica; moda, mediana y percentiles. 5 Medidas de dispersi´ on: recorridos, varianza, desviaci´ on t´ ıpica y coeficiente de variaci´ on. 6 Medidas de forma: coeficientes de asimetr´ ıa y de apuntamiento de Fisher. 7 Medidas de concentraci´ on: curva de concentraci´ on, ´ ındice de concentraci´ on de Gini y mediala. ecnicas cuantitativas I TC 1 (2013-2014) 2 / 73

Indice del tema - Universidad de Granada

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Tema 1: Variables estadısticas unidimensionales

Tecnicas Cuantitativas I

2013-2014

Indice del tema

1 Introduccion

2 Variables estadısticas. Tablas estadısticas. Representaciones graficas.

3 Momentos centrados y no centrados.

4 Medidas de posicion: medias aritmetica, geometrica y armonica; moda,mediana y percentiles.

5 Medidas de dispersion: recorridos, varianza, desviacion tıpica y coeficiente devariacion.

6 Medidas de forma: coeficientes de asimetrıa y de apuntamiento de Fisher.

7 Medidas de concentracion: curva de concentracion, ındice de concentracion deGini y mediala.

Tecnicas cuantitativas I TC 1 (2013-2014) 2 / 73

DEFINICIONES DE ESTADISTICA

RAE (Real Academia de la Lengua Espanola):

• f. Estudio de los datos cuantitativos de la poblacion, de los recursos naturalese industriales, del trafico o de cualquier otra manifestacion de las sociedadeshumanas.

• f. Conjunto de estos datos.

• f. Rama de la matematica que utiliza grandes conjuntos de datos numericospara obtener inferencias basadas en el calculo de probabilidades.

Tecnicas cuantitativas I TC 1 (2013-2014) 3 / 73

Definicion de HampelLa Estadıstica es el arte y la ciencia de extraer informacion util y relevante de unconjunto de datos empıricos.

Resumiendo estas dos, podrıamos decir que Estadıstica es la ciencia que estudialos metodos y procedimientos para recoger, clasificar, resumir y analizar datos ypara hacer inferencias cientıficas partiendo de tales datos.

La Estadıstica tiene por objeto el estudio de conjuntos numerosos (edades,votos, estaturas, gastos, precios,...) que es donde se reflejaran las regularidades.No se ocupa de casos raros, la anecdota no pertenece al dominio estadıstico.

Tecnicas cuantitativas I TC 1 (2013-2014) 4 / 73

Como se deduce de la definicion, la Estadıstica puede dividirse en dos grandesramas:

• La Estadıstica Descriptiva, que se encarga de describir las caracterısticas deuna poblacion o muestra, deduciendo conclusiones sobre su estructura. Tratade explicar el comportamiento de los fenomenos. Entre sus objetivos seencuentra:

• Recogida de datos, organizacion, ordenacion.• Tabulacion y clasificacion de los mismos.• Realizacion de resumenes numericos y graficos de los datos.• Busqueda de relaciones entre distintos fenomenos.

• La Estadıstica Inferencial, la cual, basandose en los resultados obtenidos deuna muestra infiere, induce o estima las leyes generales del comportamientode la poblacion.

Tecnicas cuantitativas I TC 1 (2013-2014) 5 / 73

POBLACION

MUESTRA

MUESTREO

DATOS

ENCUESTAS

DATOS:Ordenados

Resumidos...

E. DESCRIPTIVA

EstimacionesIntervalos de Confianza...

E. INFERENCIAL

PR

OB

AB

ILID

AD

Tecnicas cuantitativas I TC 1 (2013-2014) 6 / 73

Fenomenos

• Determinısticos: Producen los mismos resultados si se realizan en identicascondiciones.

• Aleatorios: No se puede predecir el resultado exacto, aunque se realicerepetidas veces en las mismas condiciones.

Tecnicas cuantitativas I TC 1 (2013-2014) 7 / 73

Conceptos Basicos

• Poblacion: Elementos sobre los que se quiere realizar el estudio.

• Muestra: Subconjunto representativo de la poblacion: Rapidez, Destruccion,Economıa y Precision.

• Variable: Caracterıstica en estudio• Discreta: Valores aislados y pocos.• Contınuas: Valor infinito o grande de valores.

Tecnicas cuantitativas I TC 1 (2013-2014) 8 / 73

Tablas Estadısticas

Se ha preguntado a un grupo de 13 alumnos sobre la opinion del servicio decafeterıa de la facultad (1: Muy Malo- 5: Muy Bueno), obteniendose:

Puntuacion Cafeterıa: 1 3 5 5 3 1 4 5 4 4 4 3 4

Puntuacion ¿Cuantos lo han valorado?1 22 03 34 55 3

Tecnicas cuantitativas I TC 1 (2013-2014) 9 / 73

Tablas Estadısticas

• Modalidades (xi ): Valores que ha presentado el fenomeno (individuales ointervalos). Para intervalos xi : marca de clase.

• Frecuencias Absolutas (ni ): Numero de veces que se ha bservado esamodalidad.

• Numero total de observaciones (n): n =∑

ni .

• Frecuencias Relativas (fi ): fi =ni

n(Multiplicando por 100 tenemos el

porcentaje de veces que se ha elegido la modalidad).

• Frecuencia Absoluta Acumulada (Ni ): Numero de veces que se han observado

valores menores o iguales a dicha modalidad. Ni =i∑

j=1

ni .

• Frecuencia Relativa Acumulada (Ni ): Proporcion observada de valores

menores o iguales a dicha modalidad. Fi =i∑

j=1

fi .

• Distribucion de Frecuencias: Valores de la Variable y sus frecuencias.

Tecnicas cuantitativas I TC 1 (2013-2014) 10 / 73

Tablas Estadısticas

xi ni fi Ni Fi

1 2 0.153846 2 0.1538462 0 0 2 0.1538463 3 0.230769 5 0.3846154 5 0.384615 10 0.7692305 3 0.230769 13 1

n = 13

Tecnicas cuantitativas I TC 1 (2013-2014) 11 / 73

Tablas Estadısticas

[Li−1,Li] xi ni fi Ni Fi

[L0, L1] x1 n1 f1 N1 F1

[L1, L2] x2 n2 f2 N2 F2

......

......

......

[Lk−1, Lk ] xk nk fk Nk Fk

n

Tecnicas cuantitativas I TC 1 (2013-2014) 12 / 73

Ejemplo 1Un profesor desea conocer el nivel de Matematicas de sus alumnos. Para ellosomete a una prueba a 15 alumnos obteniendo los siguientes resultados:

4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5

La tabla de frecuencias para estos datos es

xi ni Ni fi Fi

3 2 2 0.133 0.1334 4 6 0.266 0.45 4 10 0.266 0.6666 2 12 0.133 0.87 3 15 0.2 1

15 1

Tecnicas cuantitativas I TC 1 (2013-2014) 13 / 73

Ejemplo 2Se miden las longitudes en milımetros de las patas de una determinada variedadde escarabajos, obteniendose los siguientes resultados

0,2, 0,6, 1,1, 1,7, 1,9, 3,7, 3,8, 4,2, 4,5, 4,8, 5,3,5,7, 6,2, 6,7, 7,5, 8,1, 8,5, 8,7, 9,2, 9,5

Tecnicas cuantitativas I TC 1 (2013-2014) 14 / 73

La tabla quedara como sigue:

0,2, 0,6, 1,1, 1,7, 1,9, 3,7, 3,8, 4,2, 4,5, 4,8, 5,3,5,7, 6,2, 6,7, 7,5, 8,1, 8,5, 8,7, 9,2, 9,5

(Li−1, Li ] ni Ni fi Fi xi Ai hi

(0,1] 2 2 0.1 0.1 0.5 1 2(1,3] 3 5 0.15 0.25 2 2 1.5(3,5] 5 10 0.25 0.5 4 2 2.5(5,6] 2 12 0.1 0.6 5.5 1 2(6,8] 3 15 0.15 0.75 7 2 1.5

(8,10] 5 20 0.25 1 9 2 2.520 1

Notese que no todos los intervalos han de tener la misma amplitud.

Tecnicas cuantitativas I TC 1 (2013-2014) 15 / 73

Diagrama de Barras

Tabla

xi ni fi3 2 0,1334 4 0,2665 4 0,2666 2 0,1337 3 0,2

15 1,0000

Frecuencias Absolutas

1 2 3 4 5 6 7 8

1

2

3

4

5ni

Tecnicas cuantitativas I TC 1 (2013-2014) 16 / 73

Polıgono de Frecuencias

Tabla

xi ni fi3 2 0,1334 4 0,2665 4 0,2666 2 0,1337 3 0,2

15 1,0000

Frecuencias Absolutas

1 2 3 4 5 6 7 8

1

2

3

4

5

ni

Tecnicas cuantitativas I TC 1 (2013-2014) 17 / 73

Curva Acumulativa

Tabla

xi Ni Fi

3 2 0,1334 6 0,45 10 0,6666 12 0,87 15 1

Frecuencias Absolutas

1 2 3 4 5 6 7 8

2

4

6

8

10

12

14

16

Ni

ni

Tecnicas cuantitativas I TC 1 (2013-2014) 18 / 73

Histograma

Tabla

(Li−1, Li ] xi hi(0, 1] 0.5 2(1, 3] 2 1.5(3, 5] 4 2.5(5, 6] 5.5 2(6, 8] 7 1.5

(8, 10] 9 2.5

1 3 5 6 8 10

0,5

1

1,5

2

2,5

hi

Tecnicas cuantitativas I TC 1 (2013-2014) 19 / 73

Polıgono de Frecuencias

Tabla

(Li−1, Li ] xi hi(0, 1] 0.5 2(1, 3] 2 1.5(3, 5] 4 2.5(5, 6] 5.5 2(6, 8] 7 1.5

(8, 10] 9 2.5

1 3 5 6 8 10

0,5

1

1,5

2

2,5

hi

Tecnicas cuantitativas I TC 1 (2013-2014) 20 / 73

Curva Acumulativa de FrecuenciasAbsolutas

Tabla

(Li−1, Li ] Ni Fi(0, 1] 2 0.1(1, 3] 5 0.25(3, 5] 10 0.5(5, 6] 12 0.6(6, 8] 15 0.75

(8, 10] 20 1

1 3 5 6 8 10

2

4

6

8

10

12

14

16

18

20

Ni

Tecnicas cuantitativas I TC 1 (2013-2014) 21 / 73

Diagrama de Rectangulos

Tabla

RIE. ni fiB 15 0.5

M 12 0.4A 3 0.1

30 1

3

6

9

12

15ni

BAJO

50 %

MEDIO

40 %

ALTO

10 %

Tecnicas cuantitativas I TC 1 (2013-2014) 22 / 73

Diagrama de Sectores

Tabla

RIE. ni fi o

B 15 0.5 180M 12 0.4 144A 3 0.1 36

30 1 360o

BAJO15

50 %

MEDIO12

40 %

ALTO3

10 %

Tecnicas cuantitativas I TC 1 (2013-2014) 23 / 73

Pictograma

La siguiente grafica presenta un pictograma cuyo numero de figuras esproporcional a las frecuencias:

Tabla

RIE. niC 200A 300P 500

1000

PISOS

APART.

CASAS

=100

Tecnicas cuantitativas I TC 1 (2013-2014) 24 / 73

Pictograma

Sin embargo, este pictograma se ha representado realizando cada figura con untamano proporcional a las frecuencias:

Tabla

RIE. niC 200A 300P 500

1000 200

300

500

ni

Casas

20 %

Apart.

30 %

Pisos

50 %

Tecnicas cuantitativas I TC 1 (2013-2014) 25 / 73

Momentos

• Momentos No Centrados:

ar =1

n

k∑i=1

x ri ni

(MEDIA ARITMETICA: x = a1. (a0 = 1).)

• Momentos Centrados:

mr =1

n

k∑i=1

(xi − x)rni

(VARIANZA: S2 = m2. m0 = 1, m1 = 0.)

Tecnicas cuantitativas I TC 1 (2013-2014) 26 / 73

Medidas de Posicion: Medias

Tratan de representar un conjunto de datos mediante unsolo valor y suelen tomar la posicion central respecto a

los datos.

• Media Aritmetica: x =1

n

k∑i=1

xini .

• Media Geometrica: G = n

√√√√ k∏i=1

xnii

• Media Armonica: H =n

k∑i=1

ni

xi

• Si se agrupan los n datos en s conjuntos: x =x1n1 + · · ·+ x sns

n.

• Si se cambia el origen y escala de la variable: y = ax + b ⇒ y = ax + b.

Tecnicas cuantitativas I TC 1 (2013-2014) 27 / 73

Ejemplo 4Se toman 100 cajas de semillas y se observa que en cada una de ellas hay entre 0y 5 semillas germinadas. Si X =numero semillas germinadas en una caja’, calculael numero medio de semillas germinadas a partir de los datos en la siguiente tabla:

xi ni Ni

0 4 41 20 242 45 693 25 944 5 995 1 100

100

Tecnicas cuantitativas I TC 1 (2013-2014) 28 / 73

Numero medio de semillas germinadas

x =k∑

i=1

xi · ni

N=

=0× 4 + 1× 20 + 2× 45 + 3× 25 + 4× 5 + 5× 1

100= 2,10

Tecnicas cuantitativas I TC 1 (2013-2014) 29 / 73

Ejemplo 2Con los datos del ejemplo 2, calcule la longitud media de las patas de losescarabajos observados.

(Li−1, Li ] xi ni

(0, 1] 0,5 2(1, 3] 2 3(3, 5] 4 5(5, 6] 5,5 2(6, 8] 7 3

(8, 10] 9 520

Tecnicas cuantitativas I TC 1 (2013-2014) 30 / 73

En este caso, como los datos estan agrupados por intervalos, se toman las marcasde clase:

Longitud media de las patas

x =0,5× 2 + 2× 3 + 4× 5 + 5,5× 2 + 7× 3 + 9× 5

20= 5,2

Tecnicas cuantitativas I TC 1 (2013-2014) 31 / 73

EjemploCalcula la media aritmetica de la variable Z , si sus valores son zi = 3yi + 9xi ,i = 1, 2, ..., n, y se sabe que y = −3 y x = 4.

z = 3y + 9x = 3× (−3) + 9× 4 = 27.

Tecnicas cuantitativas I TC 1 (2013-2014) 32 / 73

Ejemplo 3Si se sube en bicicleta a Sierra Nevada a una velocidad de 10 Km/h y se baja auna velocidad de 60 Km/h, ¿a que velocidad media se ha hecho el recorridocompleto de ida y vuelta teniendo en cuenta que la distancia desde la casa delciclista a Sierra Nevada es de 30 km?

La media aritmetica es: x =10 + 60

2= 35 km/h.

A esta velocidad, tardarıamos en recorrer los 30 + 30 km...30 + 30

35= 1,7143 h,

pero hemos tardado30

10= 3 h en subir y

30

60= 0,5h en bajar (total=3,5h).

H =2

110 + 1

30

= 17,1429 km/h. A esa velocidad el tiempo que hemos tardado

serıa30 + 30

17,1429= 3,5 h!!

Tecnicas cuantitativas I TC 1 (2013-2014) 33 / 73

Ejemplo 4Una vivienda que en el ano 2000 se compro por 125.000e se ha vendido en el ano2007 por 500.000e. Otra vivienda que se compro en 1995 por 100.000e sevendio en el 2006 por 700000e. ¿Cual de las viviendas incremento mas su valor?

Incrementos medios (media geometrica):

7

√V2007

V2000= 1,219 (incremento anual medio vivienda 1 de 21,9 %).

11

√V2006

V1995= 1,1935 (incremento anual medio vivienda 2 de 19,35 %).

Tecnicas cuantitativas I TC 1 (2013-2014) 34 / 73

Medidas de Posicion: Moda

Moda: Valor que se presenta con mas frecuencia.

• Variables Discretas:

xi ni

1 22 03 34 55 3

Tecnicas cuantitativas I TC 1 (2013-2014) 35 / 73

Medidas de Posicion: Moda

• Variables Continuas:

[Li−1,Li] ni ai hi =ni

ai[0, 5] 15 5 3[5, 7] 20 2 10[7, 9] 12 2 6

[9, 10] 3 1 3

[Li−1, Li ]: Intervalo modal (aquel con mayor altura)

1 Mo1 = xi =Li−1 + Li

2.Mo1 = 6. (Marca de Clase)

2 Mo2 = Li−1 +hi+1

hi−1 + hi+1ai .Mo2 = 5 +

6

3 + 62 = 6,333333.

3 Mo3 = Li−1 +hi − hi−1

(hi − hi−1) + (hi − hi+1)ai .Mo3 = 5 +

10 − 6

(10 − 3) + (10 − 6)=

5,363636.

Tecnicas cuantitativas I TC 1 (2013-2014) 36 / 73

Medidas de Posicion: Mediana

Mediana: Valor que deja (cuando los datos estan ordenados de menor a mayor) lamitad de los datos por debajo.Si los datos son: 5, 10, 30, 45, 50: Me = 30. (Para num de datos impares: valorcentral

Si los datos son: 5, 10, 30, 45: Me =10 + 30

2. (Para num de datos par: punto

medio de los dos centrales

Tecnicas cuantitativas I TC 1 (2013-2014) 37 / 73

Medidas de Posicion: Mediana

• Variables Discretas:Buscamos el valor

n

2en las frecuencias acumuladas:

• Si Ni =n

2, Me =

xi + xi+1

2.

• Sin

2no coindice con ninguna Ni : se busca el primer xi tal que Ni >

n

2.

xi ni Ni

1 2 22 0 23 3 54 5 105 3 13

n

2=

13

2= 6,5, luego Me = 4, puesto que N4 es la pimera frecuencia

acumulada mayor que 6,5.

Tecnicas cuantitativas I TC 1 (2013-2014) 38 / 73

Medidas de Posicion: Mediana

• Variables Continuas:Buscamos el valor

n

2en las frecuancias acumuladas:

• Si Ni =n

2, Me = Li (extremo superior del intervalo).

• Sin

2no coindice con ninguna Ni , buscamos el intervalo [Li−1, Li ] donde

primero se da que Ni >n2

y Me = Li−1 +n2− Ni−1

niai

[Li−1,Li] ni Ni ai hi =ni

ai[0, 5] 15 15 5 3[5, 7] 20 35 2 10[7, 9] 12 47 2 6

[9, 10] 3 50 1 3

n

2=

50

2= 25 ⇒ [Li−1, Li ] = [5, 7], luego Me = 5 +

502 − 15

20= 5,5.

Tecnicas cuantitativas I TC 1 (2013-2014) 39 / 73

Percentiles

DefinicionSe define el percentil de orden α como aquel punto que deja a su izquierdaαN/100 observaciones y a su derecha (1− α)N/100 observaciones.

NotacionSe denota por Pα al percentil α, que es aquel xi tal que Fi = α/100.

Tecnicas cuantitativas I TC 1 (2013-2014) 40 / 73

Percentil

CalculoEl calculo de los percentiles es analogo al de la mediana, pero sustituyendo N/2por αN/100.En particular, la formula para el caso continuo sera

Pα = Li−1 +αN100 − Ni−1

niAi

CuartilesLos percentiles P25,P50 y P75 tambien se llaman cuartiles y dividen a los datos en4 partes con igual numero de observaciones. Se representan por Q1,Q2 y Q3

Tecnicas cuantitativas I TC 1 (2013-2014) 41 / 73

InterpretacionAsı, P20 es el punto que deja a su izquierda el 20 % de las observaciones, P55 elque deja un 55 %, etc. Observese que P50 =me.

Ejemplo 1Calcular el tercer cuartil, P75 = Q3, con los datos del ejemplo 1,

xi ni Ni

3 2 24 4 65 4 106 2 127 3 15

15

1 Calcular la columna Ni

2 Obtener 75×N100 = 11,25

3 Como N3 <75×N

100 < N4

4 El percentil 75 es, P75 = x4 = 6

Un 75 % de los alumnos han sacado una nota menor o igual a 6

Tecnicas cuantitativas I TC 1 (2013-2014) 42 / 73

Ejemplo 2Calculemos P21 para los datos del ejemplo 2.

(Li−1, Li ] xi ni Ni

(0, 1] 0,5 2 2(1, 3] 2 3 5(3, 5] 4 5 10(5, 6] 5,5 2 12(6, 8] 7 3 15

(8, 10] 9 5 2020

1 Calcular la columna Ni

2 Obtener 21×N100 = 4,2

3 Como N1 <21×N

100 < N2

4 Intervalo del percentil: (1, 3]

5 Calcular percentil 21

me = 1 +4,2− 2

32 = 2.4666

Esto es un 21 % de los escarabajos tienen patas que miden 2.4666 milımetros omenos.

Tecnicas cuantitativas I TC 1 (2013-2014) 43 / 73

Medidas de dispersion

Objetivo

• Dado que las medidas de posicion resumen los datos en un valor, esinteresante conocer si este valor representa bien la serie, es decir, si los datosse encuentran concentrados en torno a este valor, o bien estan muy dispersos.

• Las medidas de dispersion miden la representatividad de las medidas delocalizacion.

Tecnicas cuantitativas I TC 1 (2013-2014) 44 / 73

Rango

Se define el Rango como el mayor valor observado menos el menor.Matematicamente

Rango = xmax − xmin

Si los datos estan agrupados por intervalos, se tomarıa xmax como el extremoderecho del ultimo intervalo y xmin como el extremo izquierdo del primer intervalo.

Tecnicas cuantitativas I TC 1 (2013-2014) 45 / 73

Varianza y desviacion tıpica

Definicion VarianzaSe define la varianza, que denotaremos S2, como

S2 =

∑Ni=1(xi − x)2

N=

=

∑ki=1(xi − x)2ni

N=

∑ki=1 x2

i ni

N− x2

donde, como es usual, los xi denotan las observaciones o las marcas de clase en elcaso agrupado.

Definicion Desviacion TıpicaSe define la desviacion tıpica como S = +

√S2.

Tecnicas cuantitativas I TC 1 (2013-2014) 46 / 73

Propiedades

1 S2 ≥ 0, S ≥ 0.

2 S = 0 ⇐⇒ S2 = 0 ⇐⇒ los valores observados son todos iguales.

3 Si yi = a + bxi , entonces S2y = b2S2

x y Sy = |b|Sx , donde S2y es la varianza

de Y y S2x es la varianza de X .

4 Las unidades en que se mide la varianza son las de X al cuadrado y las de ladesviacion tıpica coinciden con las de X .

Tecnicas cuantitativas I TC 1 (2013-2014) 47 / 73

Coeficiente de Variacion

ProblemaEl problema que plantea el uso de la varianza y de la desviacion tıpica, comomedidas de dispersion, es la dependencia de las unidades.

Por ello, es conveniente definir una medida adimensional de dispersion (es decir,que no tenga unidades), que sea objetiva y ademas, que permita la comparacionde la dispersion entre distintas variables.

Tecnicas cuantitativas I TC 1 (2013-2014) 48 / 73

Coeficiente de Variacion

Si x 6= 0, esta medida nos la da el coeficiente de variacion:

CV = 100 · S

|x |

InterpretacionCuanto mas se separen las observaciones de la media, mayor es la dispersion y portanto el valor de la varianza,el de la desviacion tıpica y el coeficiente de variacion.Cuanto menor sean estas medidas, mas representativa es la media.

Tecnicas cuantitativas I TC 1 (2013-2014) 49 / 73

Ejemplo 1Un profesor desea conocer el nivel de Matematicas de sus alumnos. Para ellosomete a una prueba a 15 alumnos obteniendo los siguientes resultados:

4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5

La tabla de frecuencias para estos datos es

xi ni Ni fi Fi

3 2 2 0.133 0.1334 4 6 0.266 0.45 4 10 0.266 0.6666 2 12 0.133 0.87 3 15 0.2 1

15 1

Tecnicas cuantitativas I TC 1 (2013-2014) 50 / 73

Ejemplo 1x = 5.

S2 =k∑

i=1

x2i ni

N− (x)2 =

=32 · 2 + 42 · 4 + 52 · 4 + 62 · 2 + 72 · 3

15− 52 = 1,733

Por lo tanto, S =√

1,733 = 1,3164 y el coeficiente de variacion

CV = 100 · 1,3164

5= 26,33

Tecnicas cuantitativas I TC 1 (2013-2014) 51 / 73

Ejemplo 2La varianza de los datos del ejemplo 2 sera

S2 =k∑

i=1

x2i ni

N− (x)2 =

=0,52 · 2 + 22 · 3 + 42 · 5 + 5,52 · 2 + 72 · 3 + 92 · 5

20− (5,2)2 = 8,21

Por lo tanto, S =√

8,21 = 2,8653 y el coeficiente de variacion

CV = 100 · 2,8653

5,2= 57,3

Tecnicas cuantitativas I TC 1 (2013-2014) 52 / 73

Ejemplo 2Supongamos que los datos del ejemplo 2 se han medido en centımetros en vez deen milımetros. Calcula la varianza en ese caso.Si xi son los datos del ejemplo 2, entonces yi = 10−1xi seran los mismos datosmedidos en centımetros. Usando las propiedades de la varianza tenemos

S2y = (10−1)2S2

x = 10−2S2x = 0,0821

Sin embargo el coeficiente de variacion es el mismo para los datos medidos encentımetros y en milımetros.

Tecnicas cuantitativas I TC 1 (2013-2014) 53 / 73

Desigualdad de Chebyshev

Prob.[xi ∈ (x − kS , x + kS)] ≥ 1− 1

k2

• La proporcion de datos que difieren (por encima o debajo) como mucho k

veces la desviacion tıpica es mayor que 1− 1

k2.

• Para k = 2: la proporcion de datos en (x − 2S , x + 2S) es del 75 %.

Tecnicas cuantitativas I TC 1 (2013-2014) 54 / 73

Estadısticos de forma

Son medidas que tratan de caracterizar aspectos de la forma de la distribucion deuna muestra.Los aspectos mas relevantes son:

Simetrıa: Miden la simetrıa de la distribucion de frecuencias en torno a lamedia.El estadıstico mas utilizado es el Coeficiente de Asimetrıa de Fisher.

Apuntamiento: Miden el apuntamiento de la distribucion de frecuencias.El estadıstico mas utilizado es el Coeficiente de Apuntamiento oCurtosis.

Los estadısticos de forma se encargan de describir, como su propio nombre indica,la forma que tiene la distribucion de valores en la muestra, en particular seestudian dos aspectos que son la asımetrıa y el apuntamiento.

Tecnicas cuantitativas I TC 1 (2013-2014) 55 / 73

Coeficiente de asimetrıa

El coeficiente de asimetrıa es el promedio de las desviaciones de los valores de lamuestra respecto de la media muestral, elevadas al cubo, dividido por ladesviacion tıpica al cubo.

g1 =

∑i (xi − x)3fi

S3

El coeficiente de asimetrı mide el grado de simetrıa de los valores de la muestracon respecto a la media muestral, de manera que:

• g1 = 0 indica que hay el mismo numero de valores a la derecha y a laizquierda de la media (simetrica).

• g1 < 0 indica que la mayorıa de los valores son mayores que la media(asimetrica a la izquierda).

• g1 > 0 indica que la mayorıa de los valores son menores que la media(asimetrica a la derecha).

Tecnicas cuantitativas I TC 1 (2013-2014) 56 / 73

Coeficiente de asimetrıa

Distribucion simetrica (g1 = 0)

Frecuenciarelativa

0.0

0.1

0.2

0.3

0.4

Aquı tenemos el histograma de una distribucion simetrica. Como puedeobservarse, la media queda justo en el centro de la distribucion, coincidiendo conla mediana y existe el mismo numero de barras y con la misma frecuencia a unlado y a otro de la media.

Tecnicas cuantitativas I TC 1 (2013-2014) 57 / 73

Coeficiente de asimetrıa

Distribucion asimetrica a la izquierda (g1 < 0)

Frecuenciarelativa

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Tecnicas cuantitativas I TC 1 (2013-2014) 58 / 73

Coeficiente de asimetrıa

Distribucion asimetrica a la derecha (g1 > 0)

Frecuenciarelativa

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Tecnicas cuantitativas I TC 1 (2013-2014) 59 / 73

Calculo del coeficiente de asimetrıa

Siguiendo con el ejemplo de las estaturas, podemos calcular el coeficiente deasimetrıa a partir de la tabla de frecuencias anadiendo una nueva columna con loscubos de las desviaciones a la media x = 174,67 cm:

X xi ni xi − x (xi − x)3ni

(150, 160] 155 2 −19,67 −15221,00(160, 170] 165 8 −9,67 −7233,85(170, 180] 175 11 0,33 0,40(180, 190] 185 7 10,33 7716,12(190, 200] 195 2 20,33 16805,14∑

30 2066,81

g1 =

∑(xi − x)3ni/n

s3=

2066,81/30

10,13= 0,07.

Al estar tan proximo a 0, este valor indica que la distribucion es practicamentesimetrica con respecto a la media.

Tecnicas cuantitativas I TC 1 (2013-2014) 60 / 73

Coeficiente de apuntamiento o curtosis

El coeficiente de apuntamiento muestral de una variable X se define como elpromedio de las desviaciones de los valores de la muestra respecto de la mediamuestral, elevadas a la cuarta, dividido por la desviacion tıpica a la cuarta y alresultado se le resta 3.

g2 =

∑(xi − x)4ni/n

s4− 3 =

∑(xi − x)4fi

s4− 3

El coeficiente de apuntamiento muestral mide el grado de apuntamiento de losvalores de la muestra con respecto a una distribucion normal de referencia, demanera que:

• g2 = 0 indica que la distribucion tienen un apuntamiento normal(mesocurtica).

• g2 < 0 indica que la distribucion tiene menos apuntamiento de lo normal(platicurtica).

• g2 > 0 indica que la distribucion tiene mas apuntamiento de lo normal(leptocurtica).

Tecnicas cuantitativas I TC 1 (2013-2014) 61 / 73

Coeficiente de apuntamiento o curtosis

Distribucion mesocurtica (g2 = 0)

Frecuenciarelativa

0.0

0.1

0.2

0.3

0.4

Tecnicas cuantitativas I TC 1 (2013-2014) 62 / 73

Coeficiente de apuntamiento o curtosis

Distribucion platicurtica (g2 < 0)

Frecuenciarelativa

0.0

0.1

0.2

0.3

0.4

Tecnicas cuantitativas I TC 1 (2013-2014) 63 / 73

Coeficiente de apuntamiento o curtosis

Distribucion leptocurtica (g2 > 0)

Frecuenciarelativa

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Tecnicas cuantitativas I TC 1 (2013-2014) 64 / 73

Calculo del coeficiente de apuntamiento

De nuevo para el ejemplo de las estaturas podemos calcular el coeficiente deasimetrıa a partir de la tabla de frecuencias anadiendo una nueva columna con lasdesviaciones a la media x = 174,67 cm elevadas a la cuarta:

X xi ni xi − x (xi − x)4ni

(150, 160] 155 2 −19,67 299396,99(160, 170] 165 8 −9,67 69951,31(170, 180] 175 11 0,33 0,13(180, 190] 185 7 10,33 79707,53(190, 200] 195 2 20,33 341648,49∑

30 790704,45

g2 =

∑(xi − x)4ni/n

s4− 3 =

790704,45/30

10,14− 3 = −0,47.

Como se trata de un valor negativo, aunque pequeno, podemos decir que ladistribucion es ligeramente platicurtica.

Tecnicas cuantitativas I TC 1 (2013-2014) 65 / 73

Medidas de Concentracion

Las medidas de concentracion miden la mayor o menor igualdad en el reparto de unacantidad (por ejemplo, la masa salarial total de una empresa, ...). Ante este problemaeminentemente economico, medidas estadısticas como la media, la varianza, ..., noson significativas, por lo que es necesario construir unos indicadores especıficos. Lacaracterıstica que se va a estudiar puede presentar las siguientes situaciones lımite:

• Maxima concentracion: Cuando un solo individuo recibe la cantidad total arepartir y el resto nada.

• Equidistribucion (mınima concentracion): Todos los individuos reciben lamisma cantidad.

Entre ambas situaciones extremas hay infinidad de situaciones intermedias que tra-taremos de cuantificar con las siguientes medidas de concentracion:

• Curva de concentracion de Lorenz.

• Indice de Gini.

• Mediala.

Tecnicas cuantitativas I TC 1 (2013-2014) 66 / 73

Curva de Lorenz

Li−1 Li xi ni xini Ni ui pi qi

donde:

• ui =i∑

j=1

xini (columna de xini acumulada).

• pi = Fi × 100 (frecuencias acumuladas relativas en 100 %).

• qi =ui∑k

j=1 xjnj

× 100

Generalmente se usa cuando los datos son sobre sueldos (las frecuencias relativasrepresentarıan el numero de trabajadores que cobran sueldo en esa franja). En estecaso, xini es la cantidad que reciben en total los trabajadores de la franja i-esima.

La curva de Lorenz representa los puntos (pi , qi ).

Tecnicas cuantitativas I TC 1 (2013-2014) 67 / 73

Curva de Lorenz

0

0.2

0.4

0.6

0.8

1.0

0 0.2 0.4 0.6 0.8 1.0

x

y

• Si hay un reparto equitativo, a un porcentaje pi de trabajadores lecorresponde un porcentaje qi de la cantidad recibida igual a pi . (en este casola curva de Lorenz coincidirıa con la recta y = x).

• Cuanto mas se acerque la curva de Lorenz a y = x mas equitativo sera elreparto.

• Cuanto mayor sea la concentracion del reparto mas se alejara de la rectay = x .

Tecnicas cuantitativas I TC 1 (2013-2014) 68 / 73

Ejemplo

[Li−1, Li ] ni

[500, 1500] 3[1500, 2500] 7[2500, 3500] 8[3500, 4500] 4[4500, 5500] 2[5500, 6500] 1

Completando la tabla:Li−1 Li ni xi xini Ni ui pi qi

500 1500 3 1000 3000 3 3000 12 4.1095891500 2500 7 2000 14000 10 17000 40 23.287672500 3500 8 3000 24000 18 41000 72 56.164383500 4500 4 4000 16000 22 57000 88 78.082194500 5500 2 5000 10000 24 67000 96 91.780825500 6500 1 6000 6000 25 73000 100 100

25 73000

Tecnicas cuantitativas I TC 1 (2013-2014) 69 / 73

Ejemplo

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Tecnicas cuantitativas I TC 1 (2013-2014) 70 / 73

Indice de Gini

IG = 1−

k−1∑i=1

qi

k−1∑i=1

pi

• Si pi = qi , entonces IG = 0: Reparto Equitativo.

• Si qi = 0 salvo para qk = 100, entonces IG = 1: Concentracion Maxima.

Tecnicas cuantitativas I TC 1 (2013-2014) 71 / 73

Ejemplo

Li−1 Li xi ni xini Ni ui pi qi

500 1500 3 1000 3000 3 3000 12 4.1095891500 2500 7 2000 14000 10 17000 40 23.287672500 3500 8 3000 24000 18 41000 72 56.164383500 4500 4 4000 16000 22 57000 88 78.082194500 5500 2 5000 10000 24 67000 96 91.780825500 6500 1 6000 6000 25 73000 100 100

25 73000

IG = 1− 253,5

308= 0,1769

Tecnicas cuantitativas I TC 1 (2013-2014) 72 / 73

Mediala

La Mediala es la mediana sobre los datos de xini en vez de sobre ni .

Ml = Li−1 +50− qi−1

qi − qi−1ai

• Si hay equidistribucion Me = Ml .

• ∆M = Ml −Me: Si es 0 equidistribucion.

•∆M

Rdara un valor entre 0 y 1, cuanto mas cercano a 0 mas equitativo y

cuanto mas cercano a 1 mas concentracion.

Tecnicas cuantitativas I TC 1 (2013-2014) 73 / 73