Análisis de Datos Cualitativos y Cuantitativos -II

Preview:

DESCRIPTION

CLASES DE MAESTRIA SEGUNDA CLASE - PARTE2. UNDAC 2015

Citation preview

DOCENTE: Mg. Sc. Ing. EDGAR ALCÁNTARA TRUJILLO

Los promedios determinan el centro, pero noindican acerca de cómo están situados los datosrespecto al centro.

En primer lugar se necesita una medida del nivel dela dispersión o la variabilidad de los datos conrespecto a su centro con la finalidad de ampliar ladescripción de los datos o de comparar dos o masseries de datos.

En segundo lugar se necesita una medida del gradoo nivel de la asimetría o la deformación en amboslados del centro de una serie de datos, con el finde describir la forma de la distribución de datos.Esta medida se denomina índice de asimetría.

En tercer lugar se necesita una medida que nospermita comparar el apuntamiento o curtosisde distribuciones simétricas con respecto a ladistribución simétrica normal. Esta medida sellama índice de apuntamiento o curtosis.

Por otro lado, la forma de la distribución quedadescrita por la ubicación de los promedios enla distribución de frecuencias o por laubicación de los cuartiles en una grafica decaja.

Finalmente las medidas de curtosis son validassolo para distribuciones simétricas.

Estas medidas son números reales quemiden el grado o nivel de separación de losdatos con respecto a un valor central, quegeneralmente es la media aritmética.

Las principales medidas de dispersión son:◦ El rango

◦ El rango intercuartil

◦ La varianza

◦ La desviación estándar, y

◦ El coeficiente de variación.

Denotado por R es el numero que resulta de ladiferencia del valor máximo (xmax) menos el valormínimo (xmin) de una serie de datos observados devariable X:

R = xmax - xmin

El rango es una medida muy fácilmente calculable,pero es muy inestable, como depende de dosvalores extremos, su valor puede cambiargrandemente si se añade o elimina un solo dato.

Ejemplo: sean las dos series de datosa) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9b) 1, 2, 3, 4, 5, 6, 7, 8, 9

Ambas tienen la misma media = 5, y el mismorango 8, pero no tienen la misma dispersión, yaque la segunda tiene mayor variabilidad.

Es el número que resulta de la diferencia delcuartil 3 menos el cuartil 1 de los datos. Estoes: RI = Q3 - Q1

El rango intercuartil es una medida que excluyeel 25% superior (cuarto superior) y el 25%inferior (cuarto inferior), dando un rangodentro del cual se encuentra el 50% central delos datos observados y a diferencia del rangono se encuentra afectada por los valoresextremos.

Si el rango intercuartil es muy pequeñoentonces describe alta uniformidad o pequeñavariabilidad de los valores centrales.

Ii fi Fi

[26, 34> 1 1

[34, 42> 2 3

[42, 50> 4 7

[50, 58> 10 17

[58, 66> 16 33

[66, 74> 8 41

[74, 82> 4 45

45

Como: RI = Q3 – Q1

Calculamos primero Q1:

El 25% inferior de los n = 45, es 11,25

(25%n = 0,25xn=n/4).

Este 25% inferior esta entre las frecuenciasacumuladas 7 y 17 que se corresponden con elintervalo [50, 58>

En este intervalo, Li=50, fi=10, A=8, Fi-1=7

∆fi = 0,25xn – Fi-1 = 11,25 – 7 = 4,25

Luego:

4,53810

25,450)(1

xxA

f

fLQ

i

ii

A continuación calculamos Q3:

El 75% inferior de los n = 45, es 33,75 (75% x n =0,75xn = ¾ x n).

Este 75% inferior está entre las frecuenciasacumuladas 33 y 41 que se corresponden con elintervalo [66, 74>

En este intervalo, Li=66, fi=8, A=8, Fi-1= 33

∆fi = 0,75xn – Fi-1 = 33,75 – 33 = 0,75

Luego:

Finalmente calculamos el RI:

RI = Q3 – Q1 = 66,75 – 53,4 = 13,35

Por lo que podemos concluir que el 50% de los 45datos varia en el rango de 13,35.

75,6688

75,066)(3

xxA

f

fLQ

i

ii

LA VARIANZA: Es la media aritmética de loscuadrados de las diferencias de los datoscon respecto a su media aritmética.

La varianza se denota por , y si escalculada para una población se denota .

La varianza es una medida de dispersiónque genera unidades de medición alcuadrado ($2, m2, etc.)

DESVIACION ESTANDAR: Es la raíz cuadradapositiva de la varianza.

Se denota por sn.

2

ns2

a) VARIANZA DE DATOS NO AGRUPADOS:La varianza de n mediciones: x1, x2, …, xnde alguna variable cuantitativa X, cuyamedia es x,es el numero real:

Se comprueba que:

Por lo tanto:

n

xxxx

s

n

i

i

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(*)( xnxxxn

i

i

n

i

i

21

2

2 )( xn

x

s

n

i

i

n

Los salarios quincenales, en dólares,recopilados en una muestra de 45empleados son:

63 82 36 49 56 64 59 35 7843 51 70 57 62 43 68 62 2664 72 52 51 62 60 71 61 5559 60 67 57 67 61 67 51 8150 64 76 44 73 56 62 63 60

Calcule la varianza y la desviaciónestándar.

Tenemos:

Luego la varianza de los 45 salarios sinagrupar es:

Luego la desviación estándar es:

164530;333,5945

2670;2670;45

1

2

1

n

i

i

n

i

i xxxn

)($778,135)333,59(45

164530)( 2221

2

2

x

n

x

s

n

i

i

n

($)652,11778,1352 nn ss

b) VARIANZA DE DATOS AGRUPADOS:

1. Varianza de datos agrupados de variable discreta:

Si n valores de una variable discreta X se clasifican en k valoresdistintos x1, x2, …, xk con frecuencias respectivas f1, f2, …, fk,entonces su varianza es el numero:

Se comprueba que:

Por lo tanto:

n

xxfxx

s

k

i

ii

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(**)( xnxfxxfk

i

ii

k

i

ii

21

2

2 )(

*

xn

xf

s

k

i

ii

n

Ejemplo:

Calcule la varianza y desviación estándar de ladistribución de frecuencias siguientes:

Numero de Hijos xiF. Absolutas

fi

0 1

1 4

2 7

3 6

4 2

Tenemos:

Tenemos: n = 20, k = 5, x = 44/20 = 2,2

La varianza será:

La desviación estándar es:

Numero de Hijos

xi

F. Absolutas

fi

fi*xi fi(xi)2

0 1 0 0

1 4 4 4

2 7 14 28

3 6 18 54

4 2 8 32

TOTAL 20 44 118

06,1)2,2(20

118)(

*2212

x

n

xf

s

k

i

ii

n

0296,106,12 nn ss

2. Varianza de datos agrupados porintervalos:

Si n valores de una variable cuantitativa X, sonagrupados en k intervalos, con marcas de clasesy1, y2, …, yk con frecuencias respectivas f1, f2, …,fk, entonces su varianza es el numero:

Se comprueba que:

Por lo tanto:

n

xyfxy

s

k

i

ii

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(**)(

xnyfxyfk

i

ii

k

i

ii

21

2

2 )(

*

xn

yf

s

k

i

ii

n

Ejemplo:Calcule la varianza y desviación estándar dela distribución de frecuencias por intervalossiguientes:

Ii fi

[26, 34> 1

[34, 42> 2

[42, 50> 4

[50, 58> 10

[58, 66> 16

[66, 74> 8

[74, 82> 4

45

Tenemos:

La VARIANZA será:

La DESVIACION ESTANDAR es:

Ii yi fi fi*yi fi ( yi ) 2

[26, 34[ 30 1 30 900

[34, 42[ 38 2 76 2888

[42, 50[ 46 4 184 8464

[50, 58[ 54 10 540 29160

[58, 66[ 62 16 992 61504

[66, 74[ 70 8 560 39200

[74, 82] 78 4 312 24336

TOTAL: n = 45 2694 166452

916,11445

2694

45

166452)(

* 2

21

2

2

x

n

yf

s

k

i

ii

n

7199,10916,1142 nn ss

Es una medida de dispersión relativa (libre deunidades de medición), se define como el cocientede la desviación estándar entre la media aritmética.Esto es:

El coeficiente o índice de variación se utiliza paracomparar la variabilidad de dos o mas series dedatos que tengan medidas iguales o diferentes oque tengan unidades de medidas iguales odiferentes (por ejem., comparar la variabilidad deuna serie de datos, medidos en kilogramos con lade otra serie de datos medidos en metros).

%)( enóx

sCV

Si las calificaciones en la selección depersonal, de dos grupos de personas, H1 yH2 , tienen la misma desviación estándarigual a 14, no podemos concluir que los dosgrupos tienen la misma variabilidad (salvoque tengan medias iguales).

Del mismo modo, si la desviación estándarde H1 es 2 y la de H2 es 4 no podemosconcluir que las calificaciones de H2 sonmás dispersas que las de H1. La variabilidadde estos dos grupos depende, además, desus medias.

En el primer caso, si se indica que la mediadel grupo H1 es 16 y la media del grupo H2 es11, los coeficientes de variación respectivoson:

Es decir, las calificaciones obtenidas en H1

son más homogéneas o tienen menorvariabilidad que las calificaciones de H2.

%5,87,875,016

14

1

11 ó

x

sCV

%127,27,111

14

2

22 ó

x

sCV

1. Si dos o mas grupos de datos (observados en elmismo tipo de medición) tienen medias aritméticasiguales, entonces, es más dispersa o de mayorvariabilidad la serie que tiene mayor valor. Unacualquiera de sus medidas de variación como: Rango(R), o Rango intercuartil (RI), o Varianza (s2), oDesviación Estándar (s), o Coeficiente de variación(CV), si hay marcada asimetría, es preferible compararla variabilidad con el RI).

2. Si dos o mas series de datos, no tienen medias iguales(o casi iguales) o no tienen las mismas unidades demedición (variables diferentes), entonces, es mashomogénea o de menor variabilidad la serie que tengamenor coeficiente de variación CV, sin importar suforma de asimetría.

Cuando es necesario comparar valores observados quepertenecen a:

◦ Diferentes distribuciones de datos.

◦ Las que difieren en su media aritmética o en su varianza

◦ O difieren en el tipo de unidad de medida (variablesdiferentes)

Se estandarizan los valores observados de la variableaplicando la variable “estandarizadora” o variable estándar Z

Para una distribución de datos de variable “X” la variableestándar Z (puntaje estándar Z); se define por:

.

ns

xXZ

La variable Z estandariza en CERO cualquier mediay estandariza en UNO (1) cualquier varianza.

Los valores estandarizados indican la posiciónrelativa de las unidades estadísticas dentro de sugrupo.

Por lo tanto Z es otra medida de posición, ademásde los percentiles.

EJEMPLO:

Las calificaciones en un examen final deMatemáticas y Sociología generaron las medias 13y 17 y las desviaciones estándar 3 y 4respectivamente. Si un alumno obtuvo 14 enmatemática y 16 en Sociología, ¿en cual de los doscursos tiene mejor rendimiento relativo?

El que tenga 16 en Sociología y 14 en Matemática, nosignifica que tenga mejor rendimiento en Sociología.

Debemos calcular los rendimientos relativos con lapuntuación estandarizada Z:

◦ En Matemáticas:

◦ En Sociología:

En consecuencia, el alumno tiene mejor rendimientoen Matemáticas ya que tiene mayor rendimientorelativo en esa asignatura.

333,03

1314

Z

25,04

1716

Z

1) La varianza es un numero real no negativo yviene expresado en mediciones cuadráticas.Mientras que la desviación estándar estambién un numero real no negativa queviene expresado en las mismas unidades enlas que se observan los datos.

2) Dado la media (x) y la varianza (s2) de ndatos de una variable X, se tiene:

)(*2

2

1

2

xsnx n

n

i

i

3. Si la variable cuantitativa X se transforma en Y = aX + b (estoes cada uno de los n valores xi se transforma en yi = axi + b)entonces, la varianza de X y la varianza de Y denotados porVar(X), Var(Y) respectivamente, verifican la siguiente relación:

Var(Y) = a2.Var(X)

Consecuentemente:

DesvEstdr(Y) = |a|.DesvEstdr(X)

Como casos particulares se tiene:

Si Y = b, entonces, Var(b) = 0. Es decir, si los n datos de unavariable son iguales a una constante, entonces su varianzaes = a cero.

Si Y = X + b, entonces, Var(Y) = Var(X). Es decir, si sumamosuna constante a cada valor de la variable, la varianza y enconsecuencia la desviación estándar, no cambian.

Si Y = aX, entonces, Var(Y) = a2.Var(X). Es decir simultiplicamos por una constante a a cada valor de lavariable, la varianza de los nuevos valores es igual que lavarianza de los antiguos valores multiplicados por a2.

4) Dados k series de datos con tamaños,medias y varianzas respectivas:

n1, x1, ,

n2, x2, ,

…,

nk, xk, ,

entonces, la varianza total, de los n = n1 +n2 +…+ nk datos es el numero:

2

1ns

n

xn

xn

xsn

s

k

i

ii

nn

k

i

ini

n

i

1-

21

2

2

2

*

x donde, ,)(

).(

2

2ns

2

kns

5) Desigualdad de Chebyshev:

Cualquiera sea la forma de la distribución(simétrica o asimétrica) de los datosobservados de una variable X, el intervalo[x – k*sn ; x + k*sn>, donde k>1, contienepor lo menos:

El porcentaje de datos que se ubican fueradel intervalo es menor que:

.

datos los de cientopor 1

12k

%1001

2x

k

Se dice que una distribución de frecuenciasvariable discreta o una distribución porintervalos es simétrica, si son iguales lasfrecuencias de sus valores equidistantes delintervalo central.

En una distribución simétrica coinciden en sucentro la media, la mediana y la moda.

En contraposición, si estos 3 promedios nocoinciden, entonces, la distribución tieneforma asimétrica con cola o sesgo a laderecha (positiva) o la izquierda (negativa).

COEFICIENTE O INDICE DE ASIMETRIA DE PEARSON:

Sirve para medir la asimetría de ladistribución de los datos, este índice es unnumero real.

Como en distribución de marcada asimetríase verifica: x – Mo 3.(x – Me), entonces otraforma de expresar el índice de asimetría es:

s

MoxAS

s

MexAS

)(3

Si As = 0, la distribución de los datos essimétrica, coinciden los tres promedios:

x = Me = Mo. Si As ≠ 0, la distribución es asimétrica. Es

asimétrica positiva o sesgada o de cola a laderecha, si As > 0 , (donde Mo < Me < x). Y, esasimétrica negativa o sesgada o de cola a laizquierda, si As < 0 (donde x < Me < Mo)

NOTA: (Ojivas asimétricas y simétricas) Lasojivas o curvas de frecuencias acumuladas,presentan formas particulares según el tipo deasimetría.

La curtosis es la propiedad de una distribuciónde frecuencias por la cual se compara ladispersión de los datos observados cercanos alvalor central con la dispersión de los datoscercanos a ambos extremos de la distribución.Se aplica si la distribución es simétrica.

La curtosis se mide en comparación a la curvasimétrica normal o mesocurtica.

Una curva simétrica con curtosis mayor que dela normal se denomina curva leptocurtica.

Una curva simétrica con curtosis menor que dela normal es denominada platicurtica.

Esta medida de curtosis es muy poco usadapor ser muy inestable. Sin embargodescribe muy bien el concepto.

La curtosis utilizando percentiles se definepor el cociente:

INTERPRETACION:

Si la distribución es normal, K tiende a cero.Si K tiende a 0,5 es leptocúrtica, y si Ktiende a -0,5 es platicúrtica.

5,01090

2575

PP

PPK

EJERCICIO 1:

Supóngase que los siguientes datos representan los salariospor día de 12 trabajadores de una empresa muy grandeseleccionados aleatoriamente (en soles).9, 10, 12, 3, 5, 7, 15, 10, 9, 11, 13, 11Determinar el primer cuartil de la muestra.

SIOLUCIÓN:Q1

3 5 7 9 9 10 10 11 11 12 13 15x1 x2 x3 x4 x5 x5 x7 x8 x9 x10 x11 x12

Como n=12, (n+1)/4 = (12+1)/4 = 3.25; esto significa que elvalor de Q es el tercer dado más 25% de la diferencia entre losvalores de las observaciones tercero y cuarto. Así, el valor de latercera observación es igual a 7, y el del cuarto es 9, entonces:

Q1 = 7 +(9-7)(0.25) = 7 + 0.5 = 7.50 soles

EJERCICIO 1:En el mes de enero el sueldo promedio de lostrabajadores del sector industrial era de $200. Para elmes de julio se considera un aumento del 30% alsueldo del mes de enero mas un adicional de $50. Si elcoeficiente de variación en enero era de 0,25, ¿sepuede decir que la distribución de sueldos en julio esmas homogénea.

EJERCICIO 2:Si los salarios no agrupados de 120 obreros tienen unamedia de $300 y una desviación estándar de $30a) ¿Cuántos obreros por lo menos tienen salarios

comprendidos en el intervalo [$240, $360]?b) Determine el intervalo que contiene al menos el

88,889% de los salarios.c) Si el salario mínimo es $210, en que porcentaje se

puede afirmar que los salarios son superiores a$390?

EJERCICIO 3:El costo inicial de producción X de unamuestra de 80 objetos de cierto tipo, tieneuna media de $250 para el 60% de lamuestra y de $200 para el resto, ademásuna desviación estándar de $20 para el60% de la muestra y de $25 para el resto.

a) Calcule la varianza del costo inicial de los 80objetos.

b) Si el costo final de producción Y es igual al 20%mas del costo inicial, mas 5 dólares y si elprecio de venta de cada objeto de la muestraes proporcional al cuadrado del costo final deproducción, ¿Cuánto se recaudaría por la ventatotal?, ¿Cuánto seria la utilidad neta?.

Recommended