42
DOCENTE: Mg. Sc. Ing. EDGAR ALCÁNTARA TRUJILLO

Análisis de Datos Cualitativos y Cuantitativos -II

Embed Size (px)

DESCRIPTION

CLASES DE MAESTRIA SEGUNDA CLASE - PARTE2. UNDAC 2015

Citation preview

Page 1: Análisis de Datos Cualitativos y Cuantitativos -II

DOCENTE: Mg. Sc. Ing. EDGAR ALCÁNTARA TRUJILLO

Page 2: Análisis de Datos Cualitativos y Cuantitativos -II
Page 3: Análisis de Datos Cualitativos y Cuantitativos -II

Los promedios determinan el centro, pero noindican acerca de cómo están situados los datosrespecto al centro.

En primer lugar se necesita una medida del nivel dela dispersión o la variabilidad de los datos conrespecto a su centro con la finalidad de ampliar ladescripción de los datos o de comparar dos o masseries de datos.

En segundo lugar se necesita una medida del gradoo nivel de la asimetría o la deformación en amboslados del centro de una serie de datos, con el finde describir la forma de la distribución de datos.Esta medida se denomina índice de asimetría.

Page 4: Análisis de Datos Cualitativos y Cuantitativos -II

En tercer lugar se necesita una medida que nospermita comparar el apuntamiento o curtosisde distribuciones simétricas con respecto a ladistribución simétrica normal. Esta medida sellama índice de apuntamiento o curtosis.

Por otro lado, la forma de la distribución quedadescrita por la ubicación de los promedios enla distribución de frecuencias o por laubicación de los cuartiles en una grafica decaja.

Finalmente las medidas de curtosis son validassolo para distribuciones simétricas.

Page 5: Análisis de Datos Cualitativos y Cuantitativos -II

Estas medidas son números reales quemiden el grado o nivel de separación de losdatos con respecto a un valor central, quegeneralmente es la media aritmética.

Las principales medidas de dispersión son:◦ El rango

◦ El rango intercuartil

◦ La varianza

◦ La desviación estándar, y

◦ El coeficiente de variación.

Page 6: Análisis de Datos Cualitativos y Cuantitativos -II

Denotado por R es el numero que resulta de ladiferencia del valor máximo (xmax) menos el valormínimo (xmin) de una serie de datos observados devariable X:

R = xmax - xmin

El rango es una medida muy fácilmente calculable,pero es muy inestable, como depende de dosvalores extremos, su valor puede cambiargrandemente si se añade o elimina un solo dato.

Ejemplo: sean las dos series de datosa) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9b) 1, 2, 3, 4, 5, 6, 7, 8, 9

Ambas tienen la misma media = 5, y el mismorango 8, pero no tienen la misma dispersión, yaque la segunda tiene mayor variabilidad.

Page 7: Análisis de Datos Cualitativos y Cuantitativos -II

Es el número que resulta de la diferencia delcuartil 3 menos el cuartil 1 de los datos. Estoes: RI = Q3 - Q1

El rango intercuartil es una medida que excluyeel 25% superior (cuarto superior) y el 25%inferior (cuarto inferior), dando un rangodentro del cual se encuentra el 50% central delos datos observados y a diferencia del rangono se encuentra afectada por los valoresextremos.

Si el rango intercuartil es muy pequeñoentonces describe alta uniformidad o pequeñavariabilidad de los valores centrales.

Page 8: Análisis de Datos Cualitativos y Cuantitativos -II

Ii fi Fi

[26, 34> 1 1

[34, 42> 2 3

[42, 50> 4 7

[50, 58> 10 17

[58, 66> 16 33

[66, 74> 8 41

[74, 82> 4 45

45

Page 9: Análisis de Datos Cualitativos y Cuantitativos -II

Como: RI = Q3 – Q1

Calculamos primero Q1:

El 25% inferior de los n = 45, es 11,25

(25%n = 0,25xn=n/4).

Este 25% inferior esta entre las frecuenciasacumuladas 7 y 17 que se corresponden con elintervalo [50, 58>

En este intervalo, Li=50, fi=10, A=8, Fi-1=7

∆fi = 0,25xn – Fi-1 = 11,25 – 7 = 4,25

Luego:

4,53810

25,450)(1

xxA

f

fLQ

i

ii

Page 10: Análisis de Datos Cualitativos y Cuantitativos -II

A continuación calculamos Q3:

El 75% inferior de los n = 45, es 33,75 (75% x n =0,75xn = ¾ x n).

Este 75% inferior está entre las frecuenciasacumuladas 33 y 41 que se corresponden con elintervalo [66, 74>

En este intervalo, Li=66, fi=8, A=8, Fi-1= 33

∆fi = 0,75xn – Fi-1 = 33,75 – 33 = 0,75

Luego:

Finalmente calculamos el RI:

RI = Q3 – Q1 = 66,75 – 53,4 = 13,35

Por lo que podemos concluir que el 50% de los 45datos varia en el rango de 13,35.

75,6688

75,066)(3

xxA

f

fLQ

i

ii

Page 11: Análisis de Datos Cualitativos y Cuantitativos -II

LA VARIANZA: Es la media aritmética de loscuadrados de las diferencias de los datoscon respecto a su media aritmética.

La varianza se denota por , y si escalculada para una población se denota .

La varianza es una medida de dispersiónque genera unidades de medición alcuadrado ($2, m2, etc.)

DESVIACION ESTANDAR: Es la raíz cuadradapositiva de la varianza.

Se denota por sn.

2

ns2

Page 12: Análisis de Datos Cualitativos y Cuantitativos -II

a) VARIANZA DE DATOS NO AGRUPADOS:La varianza de n mediciones: x1, x2, …, xnde alguna variable cuantitativa X, cuyamedia es x,es el numero real:

Se comprueba que:

Por lo tanto:

n

xxxx

s

n

i

i

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(*)( xnxxxn

i

i

n

i

i

21

2

2 )( xn

x

s

n

i

i

n

Page 13: Análisis de Datos Cualitativos y Cuantitativos -II

Los salarios quincenales, en dólares,recopilados en una muestra de 45empleados son:

63 82 36 49 56 64 59 35 7843 51 70 57 62 43 68 62 2664 72 52 51 62 60 71 61 5559 60 67 57 67 61 67 51 8150 64 76 44 73 56 62 63 60

Calcule la varianza y la desviaciónestándar.

Page 14: Análisis de Datos Cualitativos y Cuantitativos -II

Tenemos:

Luego la varianza de los 45 salarios sinagrupar es:

Luego la desviación estándar es:

164530;333,5945

2670;2670;45

1

2

1

n

i

i

n

i

i xxxn

)($778,135)333,59(45

164530)( 2221

2

2

x

n

x

s

n

i

i

n

($)652,11778,1352 nn ss

Page 15: Análisis de Datos Cualitativos y Cuantitativos -II

b) VARIANZA DE DATOS AGRUPADOS:

1. Varianza de datos agrupados de variable discreta:

Si n valores de una variable discreta X se clasifican en k valoresdistintos x1, x2, …, xk con frecuencias respectivas f1, f2, …, fk,entonces su varianza es el numero:

Se comprueba que:

Por lo tanto:

n

xxfxx

s

k

i

ii

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(**)( xnxfxxfk

i

ii

k

i

ii

21

2

2 )(

*

xn

xf

s

k

i

ii

n

Page 16: Análisis de Datos Cualitativos y Cuantitativos -II

Ejemplo:

Calcule la varianza y desviación estándar de ladistribución de frecuencias siguientes:

Numero de Hijos xiF. Absolutas

fi

0 1

1 4

2 7

3 6

4 2

Page 17: Análisis de Datos Cualitativos y Cuantitativos -II

Tenemos:

Tenemos: n = 20, k = 5, x = 44/20 = 2,2

La varianza será:

La desviación estándar es:

Numero de Hijos

xi

F. Absolutas

fi

fi*xi fi(xi)2

0 1 0 0

1 4 4 4

2 7 14 28

3 6 18 54

4 2 8 32

TOTAL 20 44 118

06,1)2,2(20

118)(

*2212

x

n

xf

s

k

i

ii

n

0296,106,12 nn ss

Page 18: Análisis de Datos Cualitativos y Cuantitativos -II

2. Varianza de datos agrupados porintervalos:

Si n valores de una variable cuantitativa X, sonagrupados en k intervalos, con marcas de clasesy1, y2, …, yk con frecuencias respectivas f1, f2, …,fk, entonces su varianza es el numero:

Se comprueba que:

Por lo tanto:

n

xyfxy

s

k

i

ii

in

1

2

2

)(

datos de #

)(sdiferencia de cuadrados de totalSuma

2

1

2

1

2 )(**)(

xnyfxyfk

i

ii

k

i

ii

21

2

2 )(

*

xn

yf

s

k

i

ii

n

Page 19: Análisis de Datos Cualitativos y Cuantitativos -II

Ejemplo:Calcule la varianza y desviación estándar dela distribución de frecuencias por intervalossiguientes:

Ii fi

[26, 34> 1

[34, 42> 2

[42, 50> 4

[50, 58> 10

[58, 66> 16

[66, 74> 8

[74, 82> 4

45

Page 20: Análisis de Datos Cualitativos y Cuantitativos -II

Tenemos:

La VARIANZA será:

La DESVIACION ESTANDAR es:

Ii yi fi fi*yi fi ( yi ) 2

[26, 34[ 30 1 30 900

[34, 42[ 38 2 76 2888

[42, 50[ 46 4 184 8464

[50, 58[ 54 10 540 29160

[58, 66[ 62 16 992 61504

[66, 74[ 70 8 560 39200

[74, 82] 78 4 312 24336

TOTAL: n = 45 2694 166452

916,11445

2694

45

166452)(

* 2

21

2

2

x

n

yf

s

k

i

ii

n

7199,10916,1142 nn ss

Page 21: Análisis de Datos Cualitativos y Cuantitativos -II

Es una medida de dispersión relativa (libre deunidades de medición), se define como el cocientede la desviación estándar entre la media aritmética.Esto es:

El coeficiente o índice de variación se utiliza paracomparar la variabilidad de dos o mas series dedatos que tengan medidas iguales o diferentes oque tengan unidades de medidas iguales odiferentes (por ejem., comparar la variabilidad deuna serie de datos, medidos en kilogramos con lade otra serie de datos medidos en metros).

%)( enóx

sCV

Page 22: Análisis de Datos Cualitativos y Cuantitativos -II

Si las calificaciones en la selección depersonal, de dos grupos de personas, H1 yH2 , tienen la misma desviación estándarigual a 14, no podemos concluir que los dosgrupos tienen la misma variabilidad (salvoque tengan medias iguales).

Del mismo modo, si la desviación estándarde H1 es 2 y la de H2 es 4 no podemosconcluir que las calificaciones de H2 sonmás dispersas que las de H1. La variabilidadde estos dos grupos depende, además, desus medias.

Page 23: Análisis de Datos Cualitativos y Cuantitativos -II

En el primer caso, si se indica que la mediadel grupo H1 es 16 y la media del grupo H2 es11, los coeficientes de variación respectivoson:

Es decir, las calificaciones obtenidas en H1

son más homogéneas o tienen menorvariabilidad que las calificaciones de H2.

%5,87,875,016

14

1

11 ó

x

sCV

%127,27,111

14

2

22 ó

x

sCV

Page 24: Análisis de Datos Cualitativos y Cuantitativos -II

1. Si dos o mas grupos de datos (observados en elmismo tipo de medición) tienen medias aritméticasiguales, entonces, es más dispersa o de mayorvariabilidad la serie que tiene mayor valor. Unacualquiera de sus medidas de variación como: Rango(R), o Rango intercuartil (RI), o Varianza (s2), oDesviación Estándar (s), o Coeficiente de variación(CV), si hay marcada asimetría, es preferible compararla variabilidad con el RI).

2. Si dos o mas series de datos, no tienen medias iguales(o casi iguales) o no tienen las mismas unidades demedición (variables diferentes), entonces, es mashomogénea o de menor variabilidad la serie que tengamenor coeficiente de variación CV, sin importar suforma de asimetría.

Page 25: Análisis de Datos Cualitativos y Cuantitativos -II

Cuando es necesario comparar valores observados quepertenecen a:

◦ Diferentes distribuciones de datos.

◦ Las que difieren en su media aritmética o en su varianza

◦ O difieren en el tipo de unidad de medida (variablesdiferentes)

Se estandarizan los valores observados de la variableaplicando la variable “estandarizadora” o variable estándar Z

Para una distribución de datos de variable “X” la variableestándar Z (puntaje estándar Z); se define por:

.

ns

xXZ

Page 26: Análisis de Datos Cualitativos y Cuantitativos -II

La variable Z estandariza en CERO cualquier mediay estandariza en UNO (1) cualquier varianza.

Los valores estandarizados indican la posiciónrelativa de las unidades estadísticas dentro de sugrupo.

Por lo tanto Z es otra medida de posición, ademásde los percentiles.

EJEMPLO:

Las calificaciones en un examen final deMatemáticas y Sociología generaron las medias 13y 17 y las desviaciones estándar 3 y 4respectivamente. Si un alumno obtuvo 14 enmatemática y 16 en Sociología, ¿en cual de los doscursos tiene mejor rendimiento relativo?

Page 27: Análisis de Datos Cualitativos y Cuantitativos -II

El que tenga 16 en Sociología y 14 en Matemática, nosignifica que tenga mejor rendimiento en Sociología.

Debemos calcular los rendimientos relativos con lapuntuación estandarizada Z:

◦ En Matemáticas:

◦ En Sociología:

En consecuencia, el alumno tiene mejor rendimientoen Matemáticas ya que tiene mayor rendimientorelativo en esa asignatura.

333,03

1314

Z

25,04

1716

Z

Page 28: Análisis de Datos Cualitativos y Cuantitativos -II

1) La varianza es un numero real no negativo yviene expresado en mediciones cuadráticas.Mientras que la desviación estándar estambién un numero real no negativa queviene expresado en las mismas unidades enlas que se observan los datos.

2) Dado la media (x) y la varianza (s2) de ndatos de una variable X, se tiene:

)(*2

2

1

2

xsnx n

n

i

i

Page 29: Análisis de Datos Cualitativos y Cuantitativos -II

3. Si la variable cuantitativa X se transforma en Y = aX + b (estoes cada uno de los n valores xi se transforma en yi = axi + b)entonces, la varianza de X y la varianza de Y denotados porVar(X), Var(Y) respectivamente, verifican la siguiente relación:

Var(Y) = a2.Var(X)

Consecuentemente:

DesvEstdr(Y) = |a|.DesvEstdr(X)

Como casos particulares se tiene:

Si Y = b, entonces, Var(b) = 0. Es decir, si los n datos de unavariable son iguales a una constante, entonces su varianzaes = a cero.

Si Y = X + b, entonces, Var(Y) = Var(X). Es decir, si sumamosuna constante a cada valor de la variable, la varianza y enconsecuencia la desviación estándar, no cambian.

Si Y = aX, entonces, Var(Y) = a2.Var(X). Es decir simultiplicamos por una constante a a cada valor de lavariable, la varianza de los nuevos valores es igual que lavarianza de los antiguos valores multiplicados por a2.

Page 30: Análisis de Datos Cualitativos y Cuantitativos -II

4) Dados k series de datos con tamaños,medias y varianzas respectivas:

n1, x1, ,

n2, x2, ,

…,

nk, xk, ,

entonces, la varianza total, de los n = n1 +n2 +…+ nk datos es el numero:

2

1ns

n

xn

xn

xsn

s

k

i

ii

nn

k

i

ini

n

i

1-

21

2

2

2

*

x donde, ,)(

).(

2

2ns

2

kns

Page 31: Análisis de Datos Cualitativos y Cuantitativos -II

5) Desigualdad de Chebyshev:

Cualquiera sea la forma de la distribución(simétrica o asimétrica) de los datosobservados de una variable X, el intervalo[x – k*sn ; x + k*sn>, donde k>1, contienepor lo menos:

El porcentaje de datos que se ubican fueradel intervalo es menor que:

.

datos los de cientopor 1

12k

%1001

2x

k

Page 32: Análisis de Datos Cualitativos y Cuantitativos -II

Se dice que una distribución de frecuenciasvariable discreta o una distribución porintervalos es simétrica, si son iguales lasfrecuencias de sus valores equidistantes delintervalo central.

En una distribución simétrica coinciden en sucentro la media, la mediana y la moda.

En contraposición, si estos 3 promedios nocoinciden, entonces, la distribución tieneforma asimétrica con cola o sesgo a laderecha (positiva) o la izquierda (negativa).

Page 33: Análisis de Datos Cualitativos y Cuantitativos -II
Page 34: Análisis de Datos Cualitativos y Cuantitativos -II

COEFICIENTE O INDICE DE ASIMETRIA DE PEARSON:

Sirve para medir la asimetría de ladistribución de los datos, este índice es unnumero real.

Como en distribución de marcada asimetríase verifica: x – Mo 3.(x – Me), entonces otraforma de expresar el índice de asimetría es:

s

MoxAS

s

MexAS

)(3

Page 35: Análisis de Datos Cualitativos y Cuantitativos -II

Si As = 0, la distribución de los datos essimétrica, coinciden los tres promedios:

x = Me = Mo. Si As ≠ 0, la distribución es asimétrica. Es

asimétrica positiva o sesgada o de cola a laderecha, si As > 0 , (donde Mo < Me < x). Y, esasimétrica negativa o sesgada o de cola a laizquierda, si As < 0 (donde x < Me < Mo)

NOTA: (Ojivas asimétricas y simétricas) Lasojivas o curvas de frecuencias acumuladas,presentan formas particulares según el tipo deasimetría.

Page 36: Análisis de Datos Cualitativos y Cuantitativos -II
Page 37: Análisis de Datos Cualitativos y Cuantitativos -II

La curtosis es la propiedad de una distribuciónde frecuencias por la cual se compara ladispersión de los datos observados cercanos alvalor central con la dispersión de los datoscercanos a ambos extremos de la distribución.Se aplica si la distribución es simétrica.

La curtosis se mide en comparación a la curvasimétrica normal o mesocurtica.

Una curva simétrica con curtosis mayor que dela normal se denomina curva leptocurtica.

Una curva simétrica con curtosis menor que dela normal es denominada platicurtica.

Page 38: Análisis de Datos Cualitativos y Cuantitativos -II
Page 39: Análisis de Datos Cualitativos y Cuantitativos -II

Esta medida de curtosis es muy poco usadapor ser muy inestable. Sin embargodescribe muy bien el concepto.

La curtosis utilizando percentiles se definepor el cociente:

INTERPRETACION:

Si la distribución es normal, K tiende a cero.Si K tiende a 0,5 es leptocúrtica, y si Ktiende a -0,5 es platicúrtica.

5,01090

2575

PP

PPK

Page 40: Análisis de Datos Cualitativos y Cuantitativos -II

EJERCICIO 1:

Supóngase que los siguientes datos representan los salariospor día de 12 trabajadores de una empresa muy grandeseleccionados aleatoriamente (en soles).9, 10, 12, 3, 5, 7, 15, 10, 9, 11, 13, 11Determinar el primer cuartil de la muestra.

SIOLUCIÓN:Q1

3 5 7 9 9 10 10 11 11 12 13 15x1 x2 x3 x4 x5 x5 x7 x8 x9 x10 x11 x12

Como n=12, (n+1)/4 = (12+1)/4 = 3.25; esto significa que elvalor de Q es el tercer dado más 25% de la diferencia entre losvalores de las observaciones tercero y cuarto. Así, el valor de latercera observación es igual a 7, y el del cuarto es 9, entonces:

Q1 = 7 +(9-7)(0.25) = 7 + 0.5 = 7.50 soles

Page 41: Análisis de Datos Cualitativos y Cuantitativos -II

EJERCICIO 1:En el mes de enero el sueldo promedio de lostrabajadores del sector industrial era de $200. Para elmes de julio se considera un aumento del 30% alsueldo del mes de enero mas un adicional de $50. Si elcoeficiente de variación en enero era de 0,25, ¿sepuede decir que la distribución de sueldos en julio esmas homogénea.

EJERCICIO 2:Si los salarios no agrupados de 120 obreros tienen unamedia de $300 y una desviación estándar de $30a) ¿Cuántos obreros por lo menos tienen salarios

comprendidos en el intervalo [$240, $360]?b) Determine el intervalo que contiene al menos el

88,889% de los salarios.c) Si el salario mínimo es $210, en que porcentaje se

puede afirmar que los salarios son superiores a$390?

Page 42: Análisis de Datos Cualitativos y Cuantitativos -II

EJERCICIO 3:El costo inicial de producción X de unamuestra de 80 objetos de cierto tipo, tieneuna media de $250 para el 60% de lamuestra y de $200 para el resto, ademásuna desviación estándar de $20 para el60% de la muestra y de $25 para el resto.

a) Calcule la varianza del costo inicial de los 80objetos.

b) Si el costo final de producción Y es igual al 20%mas del costo inicial, mas 5 dólares y si elprecio de venta de cada objeto de la muestraes proporcional al cuadrado del costo final deproducción, ¿Cuánto se recaudaría por la ventatotal?, ¿Cuánto seria la utilidad neta?.