32
INSTITUTO TECNOLÓGICO DE MÉRIDA ESTADISTICA APLICADA UNIDAD 3 DESCRIPCION DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN PRESENTA: GUILLERMO BUENFIL RICALDE NIEVES GARCIA CASTRO YARELI QUINTAL MARTINEZ EMIDELFI VARGUEZ PACHECO PROFESOR: DR. JORGE EMETERIO MADERO LLANES MÉRIDA, YUCATÁN, MÉXICO. 9 DE MARZO DE 2014

Medidas de Tendencia Central Y Dispersión

Embed Size (px)

DESCRIPTION

DESCRIPCION DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN

Citation preview

  • INSTITUTO TECNOLGICO DE MRIDA

    ESTADISTICA APLICADA

    UNIDAD 3

    DESCRIPCION DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN

    PRESENTA:

    GUILLERMO BUENFIL RICALDE

    NIEVES GARCIA CASTRO

    YARELI QUINTAL MARTINEZ

    EMIDELFI VARGUEZ PACHECO

    PROFESOR:

    DR. JORGE EMETERIO MADERO LLANES

    MRIDA, YUCATN, MXICO.

    9 DE MARZO DE 2014

  • UNIDAD 3 DESCRIPCIN DE LOS DATOS: MEDIDAS DE TENDENCIA CENTRAL Y DE

    DISPERSIN

    3.1 Medidas de tendencia central a partir de datos agrupados

    Una medida de tendencia central es un valor que se encuentra en el centro o a la mitad de un

    conjunto de datos (Triola, 2013).

    Las medidas de centralizacin o de posicin, tienen como propsito establecer valores

    que representen lo mejor posible las caractersticas de un conjunto de datos. Las medidas de

    centralizacin tienen como finalidad indicar la ubicacin del centro de la distribucin.

    (Bargas & Camargo, 2004).

    (Levin & Rubin, 2004) Mencionan que la tendencia central se refiere al punto medio

    de una distribucin, las medidas de tendencia central se conocen tambin como medidas de

    dispersin.

    Para su mejor comprensin describe los siguientes conceptos:

    Dispersin: se refiere a la separacin de los datos que proporcionan informacin til,

    es decir al grado en que las observaciones se separan.

    Existen dos caractersticas de los conjuntos de datos que proporcionan informacin

    til: el sesgo y la curtosis.

    Sesgo: los datos que representan los datos puntuales de un conjunto de datos pueden

    ser simtricos o sesgados.

    Curtosis: cuando medimos la curtosis de una distribucin estamos midiendo estamos

    midiendo que tan puntiaguda es.

    Triola, (2013), seala que hay muchas formas distintas de determinar el centro, por

    lo que existen diferentes definiciones de las medidas de tendencia central, que incluyen la

    media, la mediana, la moda y la mitad del rango.

  • De acuerdo con Triola, (2013), al calcular medidas de tendencia central, a menudo es

    necesario redondear los resultados, por lo que utilizamos la siguiente regla

    Aumente una posicin decimal a las que hay en el conjunto original de datos.

    (Debido a que los valores de la moda son iguales a alguno de los datos originales,

    pueden permanecer sin redondeo).

    Cuando aplique esta regla, redondee solo la respuesta final y no los valores

    intermedios que aparecen durante los clculos. As, la media de 2, 3, 5, es 3.333333, que

    se redondea a 3.3, una posicin decimal ms que los valores originales de 2, 3, 5. Otro

    ejemplo sera la media de 80.4 y 80.6, que es igual a 80.50 (una posicin decimal ms de la

    que se emple para los valores originales). Debido a que la moda es uno o ms de los valores

    originales, no redondeamos sus valores; simplemente se utilizan los mismos datos originales

    (Triola, 2013).

    Spiegel & Stephens (2007) indica que un promedio es un valor tpico o representativo

    de un conjunto de datos. Como estos valores tpicos tienden a encontrarse en el centro de los

    conjuntos de datos, ordenados de acuerdo con su magnitud, a los promedios se les conoce

    tambin como medidas de tendencia central.

    Tambin menciona que se pueden definir varios tipos de promedios; los ms usados

    son la media aritmtica, la mediana, la moda, la media geomtrica y la media

    armnica. Cada una de ellas tiene ventajas y desventajas de acuerdo con el tipo de

    datos y el propsito de su uso.

    (Webster, 1996), sealan que sin clculos con lo que medir la tendencia central, muchas

    decisiones empresariales resultaran bastante difciles de tomar. El hace hincapi en las

    diferencias entre estas medidas de la tendencia central no implica que una medida sea

    necesariamente mejor que las dems. La medida que se elija depende de la naturaleza de los

    datos o de la manera en que stos se vayan a utilizar.

    Definicin de equipo:

    Es el punto medio o central en el que se distribuyen los datos estos pueden ser simtricos o

    sesgados.

  • 3.1.1 Media

    Bargas & Camargo (2004) definen a la media aritmtica como la medida central o promedio

    en la que intervienen todos los datos de un conjunto. Cuando los datos estn organizados en

    una tabla de datos agrupados la media aritmtica se calcula sumando el producto de cada

    marca de clase (m) con su respectiva frecuencia (f) y dividiendo este resultado entre el total

    de datos o sumatoria de las frecuencias.

    = 11 + 22 + 33 + + 1 + 2 + 3 + = ()

    Media aritmtica (): La media aritmtica o simplemente media, que denotaremos por , es el nmero obtenido al dividir la suma de todos los valores de la variable entre el nmero total de observaciones. Si los datos estn agrupados en intervalos, la expresin de la media aritmtica, es la misma, pero utilizando la marca de clase (Xi). (Ruz, 2004)

    La media aritmtica o media de un conjunto de datos es la medida de tendencia central

    que se calcula al sumar los datos y dividir el total entre el nmero de datos. Si los datos son

    una muestra de una poblacin, la media se simboliza mediante , (que se lee x barra);

    cuando se usan todos los valores de la poblacin, la media se simboliza por medio de m (la

    letra griega mu minscula). (Por lo general, los estadsticos muestrales se representan con

    letras del abecedario latino como y los parmetros poblacionales con letras del alfabeto

    griego como m.) (Triola, 2013).

  • Triola (2013), indica que la siguiente frmula se utiliza para calcular la media cuando

    los datos muestrales estn resumidos en una distribucin de frecuencias.

    Levin & Rubin, (2004) mencionan que para encontrar la media aritmtica de datos

    agrupados, primero calculamos el punto medio de cada clase. Para lograr que los puntos

    medios queden en cifras cerradas se redondea las cantidades.

    Lind, Marchal, & Wathen, (2012), mencionan que para aproximar la media

    aritmtica de datos organizados en una distribucin de frecuencia, comience suponiendo

    que las observaciones en cada clase se representan a travs del punto medio de la clase. La

    media de una muestra de datos organizados en una distribucin de frecuencias se calcula de

    la siguiente manera:

    donde:

    designa la media muestral.

    M es el punto medio de cada clase.

    f es la frecuencia en cada clase.

    fM es la frecuencia en cada clase multiplicada por el punto medio de la clase.

    fM es la suma de estos productos.

    n es el nmero total de frecuencias.

  • Webster (1996), menciona que en el clculo de la media aritmtica a partir de datos

    agrupados se adopta la hiptesis de que las observaciones de cada clase son iguales a la

    marca de clase. Aunque esta hiptesis suele ser bastante arriesgada, es probable que resulte

    equilibrada, puesto que algunas de las observaciones sern mayores que la marca de clase,

    mientras que otras estarn por debajo. As pues, en promedio, la hiptesis no es tan ilgica.

    Una vez aceptada la hiptesis, hemos de tener en cuenta la frecuencia y la marca de clase

    de cada una de las clases al calcular la media a partir de datos agrupados. La frmula es la

    siguiente:

    g = fM / n = fM / f

    donde:

    f es la frecuencia o nmero de observaciones de cada clase

    M es la marca de cada clase

    n es el tamao de la muestra, igual a las frecuencias combinadas en todas las clases.

    (Lind, Marchal, & Wathen, 2012), sealan que las caractersticas principales de la media

    aritmtica son las siguientes:

    a) Por lo menos se requiere la escala de medicin de intervalo.

    b) Todos los valores de los datos se incluyen en el clculo.

    c) Un conjunto de datos slo posee una media. Es decir, que es nica.

    d) La suma de las desviaciones de la media es igual a 0.

  • Levin & Rubin, (2004) mencionan las Ventajas y desventajas de la media aritmtica:

    La media aritmtica, como un solo nmero que representa a un conjunto de datos

    completo, tiene importantes ventajas.

    Primero se trata de un concepto familiar para la mayora de las personas y es

    intuitivamente claro.

    Segundo cada conjunto de datos tiene una media; es una medida que puede

    calcularse y es nica debido a que cada conjunto de datos tiene una media. Por

    ltimo la media es til para llevar a cabo procedimientos estadsticos como la

    comparacin de medias de varios conjuntos de datos.

    Sus desventajas son:

    La primera aunque la media es confiable en cuanto a que toma en cuenta todos los

    valores del conjunto de datos, puede verse afectada por valores extremos que no son

    representativos del resto de los datos.

    El segundo se es incapaz de calcular la media para un conjunto de datos que tiene

    clases de extremo abierto en la parte inferior o superior de la escala.

    Definicin de equipo:

    La media aritmtica o promedio destaca por representar el reparto equitativo, se calcula al

    sumar todos los datos y dividir el total entre el nmero de datos.

  • Ejemplo de clculo de Media:

    Ejemplo: La siguiente tabla de frecuencias del nmero de pasajeros que utilizaron las

    lneas reas Pigs & People en una observacin realizada durante 50 das.

    Clase (pasajeros)

    Frecuencia (f) (das)

    M fM

    50 a 59 3 54.5 163.5 60 a 69 7 64.5 451.5 70 a 79 18 74.5 1341.0 80 a 89 12 84.5 1014.0 90 a 99 8 94.5 756.0 100 a 109 2 104.5 209.0

    50 3935.0

    Con ayuda de la frmula podemos ver que P&P transport una media diaria de 78.7

    pasajeros:

    g = fM / n = 3935 / 50 = 78.7

  • 3.1.2. Mediana

    Para Bargas & Camargo (2004) la mediana es el valor central que divide en dos partes

    iguales un conjunto de datos. Cuando los datos se encuentran organizados en una tabla de

    datos agrupados, el calculo de la mediana se realiza empleando la siguiente frmula basada

    en la llamada clase mediana, que es aquella clase o intervalo que contiene al dato o datos

    centrales:

    = + 2 donde:

    = lmite real inferior de la clese mediana

    = frecuencia total o suma de frecuencias

    = frecuencia de la clase mediana

    =frecuencia acumulada anterior a la clase mediana

    = amplitud del intervalo de la clase mediana

    Cuando los datos estn organizados en forma agrupada y la suma de las frecuencias

    es impar se sabe que se tiene un dato central, a esta sumatoria se le debe sumar 1 y dividirse

    entre 2 para determinar la posicin del dato central. Cuando la suma de las frecuencias es

    par se tienen dos datos centrales.

    Levin & Rubin, (2004) mencionan que una medida es un solo valor del conjunto de

    datos que mide la observacin central del conjunto. Esta sola observacin es el elemento

    que est ms al centro del conjunto de nmeros. La mitad de los elementos estn por arriba

    de este punto y la otra mitad est por debajo.

    La mediana de un conjunto de datos es la medida de tendencia central que implica el

    valor intermedio, cuando los datos originales se presentan en orden de magnitud creciente (o

    decreciente). La mediana suele denotarse con (y se lee x con tilde) (Triola, 2013).

  • (Lind, Marchal, & Wathen, 2012), la mediana es el valor que se encuentra en medio

    de un conjunto de datos ordenados.

    Las principales caractersticas de la mediana son las siguientes:

    a) Se requiere por lo menos la escala ordinal de medicin.

    b) No influyen sobre sta valores extremos.

    c) Cincuenta por ciento de las observaciones son ms grandes que la mediana.

    d) sta es nica de un conjunto de datos.

    (Webster, 1996), si los datos se han recogido en una tabla de frecuencias, no se pueden

    colocar en serie ordenada para calcular la mediana. Empezaremos por hallar la clase mediana

    de la distribucin de frecuencias. La clase mediana es la clase cuya frecuencia acumulada es

    mayor o igual que n/2. La mediana se puede determinar entonces as:

    Mediana = Lmd + n/2 F (C)

    fmd

    donde:

    Lmd es el lmite inferior de la clase mediana

    F es la frecuencia acumulada que precede a la clase mediana (10)

    Fmd es la frecuencia de la clase mediana

    C es el intervalo de clase de la clase mediana

    La mediana de un conjunto de nmeros acomodados en orden de magnitud (es decir,

    en una ordenacin) es el valor central o la media de los dos valores centrales (Spiegel &

    Stephens, 2007). En datos agrupados, la mediana se obtiene por interpolacin, como se

    expresa por la frmula:

  • Geomtricamente, la mediana es el valor de X (abscisa) que corresponde a una recta

    vertical que divide al histograma en dos partes que tienen la misma rea. A este valor de X

    se le suele denotar: (Spiegel & Stephens, 2007).

    Continuando con el ejemplo de las lneas reas P&P, calcularemos la mediana.

    Clase (pasajeros)

    Frecuencia (f) (das)

    Frecuencia acumulada

    50 a 59 3 3 60 a 69 7 10 70 a 79 18 28 80 a 89 12 40 90 a 99 8 48 100 a 109 2 50

    Si utilizamos la frmula, obtendremos la mediana:

    Mediana = 70 + 50/2 10 (10) = 78.33

    18

    As pues, podemos concluir que 25 das la mitad de los 50 supervisados volaron

    por las lneas reas P&P menos de 78.33 pasajeros y los otros 25 das surcaron los cielos con

    P&P ms de 78.33 pasajeros.

  • Definicin de equipo

    La mediana indica el valor que separa los datos en dos fracciones iguales con el cincuenta

    porciento de los datos cada una. Para las muestras que cuentan con un nmero impar de

    observaciones o datos, la mediana dar como resultado una de las posiciones de

    la serie ordenada; mientras que para las muestras con un nmero par de observaciones se

    debe promediar los valores de las dos posiciones centrales.

    3.1.3. Moda

    Levin & Rubin, (2004) mencionan que cuando los datos ya se encuentran agrupados en una

    distribucin de frecuencias, podemos suponer que la moda est localizada en la clase que

    contiene mayor nmero de elementos es decir en la clase que tiene mayor frecuencia.

    Triola, (2013), menciona que la moda de un conjunto de datos es el valor que se

    presenta con mayor frecuencia. As mismo, indica que un conjunto de datos puede tener una

    moda, ms de una moda o ninguna moda.

    Cuando dos valores se presentan con la misma frecuencia y esta es la ms alta, ambos

    valores son modas, por lo que el conjunto de datos es bimodal.

    Cuando ms de dos valores se presentan con la misma frecuencia y esta es la ms

    alta, todos los valores son modas, por lo que el conjunto de datos es multimodal.

    Cuando ningn valor se repite, se dice que no hay moda.

    De acuerdo con lo plasmado por Bargas & Camargo (2004) la moda es el valor o

    valores que ocurren con mayor frecuencia. Para calcular la moda cuando los datos estn

    organizados en una tabla de datos agrupados, se utiliza la siguiente frmula basada en la

    llamada clase o intervalo modal, que es aquel intervalo o clase que tiene la mayor

    frecuencia.

  • = + 11 + 2 donde:

    = lmite real inferior de la clese modal

    1= diferencia entre la frecuencia de la clase modal y la frecuencia inmediata inferior

    2= diferencia entre la frecuencia de la clase modal y la frecuencia inmediata superior

    = amplitud de la clase modal

    (Lind, Marchal, & Wathen, 2012) La moda es el valor que se presenta con mayor frecuencia

    en un conjunto de datos.

    1. La moda se determina en el caso de datos de nivel nominal.

    2. Un conjunto de datos puede tener ms de una moda.

    (Webster, 1996), como por definicin la moda es la observacin que se presenta ms

    a menudo, se encontrar en la clase de frecuencia ms alta. Esta clase de mxima frecuencia

    se llama clase modal. Para estimar la moda en el caso de datos agrupados utilizaremos la

    frmula:

    Moda = Lmo + Da (C)

    Db + Da

    donde:

    Lmo es el lmite inferior de la clase modal

    Da es la diferencia entre la frecuencia de la clase modal y la de la clase que la precede

    Db es la diferencia entre la frecuencia de la clase modal y la de la clase que la sigue

    C es el intervalo de clase de la clase modal

  • La moda de un conjunto de nmeros es el valor que se presenta con ms frecuencia; es decir,

    es el valor ms frecuente. Puede no haber moda y cuando la hay, puede no ser nica. A una

    distribucin que slo tiene una moda se le llama unimodal. En el caso de datos agrupados,

    para los que se ha construido una curva de frecuencia que se ajuste a los datos, la moda es el

    valor (o los valores) de X que corresponden al punto (o puntos) mximos de la curva. A este

    valor de X se le suele denotar X^ (Spiegel & Stephens, 2007).

    En una distribucin de frecuencia o en un histograma la moda se puede obtener mediante la

    frmula siguiente:

    Ejemplo: A partir de la tabla, la moda es:

    Moda = 70 + 18 - 7 (10) = 76.47

    (18-12) + (18-7)

    Definicin de equipo

    La moda nos indica el valor que ms se repite dentro de los datos. Puede no haber moda y

    cuando la hay, puede no ser nica.

  • 3.2 Medidas de dispersin a partir de datos agrupados

    Las medidas de dispersin sirven para cuantificar la variabilidad de un conjunto de datos,

    es decir, describen la forma en la cual los datos estn separados o dispersos con respecto al

    centro de la coleccin o conjunto. (Bargas & Camargo, 2004)

    Encontrar una mediad de la tendencia central no siempre es suficiente. A veces

    resulta til poder mencionar tambin el grado en que las observaciones individuales se

    distribuyen en torno a dicho punto central (Webster, 1996).

    Una medida de dispersin ms completa indica el grado en que las observaciones

    individuales se dispersan o distribuyen alrededor de su media. As pues, vemos que una

    medida de dispersin se puede utilizar para describir con ms detalle un conjunto de datos y

    dar al personal estadstico una idea sobre la naturaleza de las observaciones que han sido

    recogidas para su anlisis. (Webster, 1996).

    El grado de dispersin de los datos numricos respecto a un valor promedio se llama

    dispersin o variacin de los datos. Existen varias medidas de dispersin (o variacin); las

    ms usadas son el rango, la desviacin media, el rango semi-intercuartil, el rango percentil

    10-90 y la desviacin estndar (Spiegel & Stephens, 2007).

  • 3.2.1 Desviacin estndar

    Para Triola (2013), la desviacin estndar de un conjunto de valores muestrales, denotada

    con s, es la medida de variacin de los valores con respecto a la media. Es un tipo de

    desviacin promedio de los valores con respecto a la media. Para calcular la desviacin

    estndar s (sigma minscula) de una poblacin, se utiliza una frmula ligeramente diferente:

    en vez de dividir entre n - 1, se divide entre el tamao N de la poblacin, como se muestra

    en la siguiente expresin:

    Para calcular la desviacin estndar de datos agrupados en una distribucin de

    frecuencias, pondere cada una de las diferencias cuadradas por el nmero de frecuencias en

    cada clase. La frmula es:

    donde:

    s es el smbolo de la desviacin estndar de la muestra.

    M es el punto medio de la clase.

    f es la frecuencia de clase.

    n es el nmero de observaciones en la muestra.

    designa la media muestral.

  • (Lind, Marchal, & Wathen, 2012) Para determinar la desviacin estndar:

    Paso 1: Reste la media del punto medio de clase.

    Paso 2: Eleve al cuadrado la diferencia entre el punto medio de clase y la media.

    Paso 3: Multiplique la diferencia al cuadrado entre el punto medio de clase y la media por la

    frecuencia de clase.

    Paso 4: Sume f(M - )2 . Para determinar la desviacin estndar, inserte estos valores en la

    frmula antes mencionada.

    La desviacin estndar es la raz cuadrada de la varianza. Las principales caractersticas de

    la desviacin estndar son:

    a) Se expresa en las mismas unidades de los datos originales.

    b) Es la raz cuadrada de la distancia promedio al cuadrado de la media.

    c) No puede ser negativa.

    d) Es la medida de dispersin que se informa con ms frecuencia.

    (Webster, 1996), menciona que si los datos estn agrupados en una tabla de frecuencias, la

    desviacin estndar se puede calcular as:

    s = fM - n 2

    n 1

    Bargas & Camargo (2004) mencionan como desviacin estndar a la raz cuadrada

    del promedio de las desviaciones cuadrticas de los datos con respecto a la media aritmtica

    del conjunto, o simplemente como la raz cuadrada de la varianza. Tambin llamada

    desviacin tpica, es por mucho la medida de dispersin ms utilizada como una medida

    representativa de un conjunto de datos. Cuando los datos estn organizados en una tabla de

    datos agrupados se utiliza la frmula:

  • = = (( )2)

    donde:

    = marca de clase de cada intervalo ( )2= valor de la desviacin elevada al cuadrado de cada marca de clase y la media aritmtica

    = frecuencia correspondiente a cada dato

    = sumatoria de frecuencias o el total de datos

    Mtodo abreviado para el clculo de la desviacin estndar

    Cuando en una distribucin de frecuencia se tienen datos agrupados y los intervalos de clase

    son de un mismo tamao c, se tiene dj = cuj, o Xj = A + cuj y la frmula se trasforma en:

    Esta ltima frmula proporciona un mtodo muy sencillo para el clculo de la

    desviacin estndar y se recomienda su uso para datos agrupados, siempre que los intervalos

    de clase sean de un mismo tamao. A este mtodo se le llama mtodo de compilacin y es

    exactamente anlogo al empleado en el captulo 3 para calcular la media aritmtica de datos

    agrupados (Spiegel & Stephens, 2007).

  • Ejemplo: El director de vuelo de P&P necesita informacin sobre la dispersin del nmero

    de pasajeros. Las decisiones en relacin con los horarios y el tamao ms eficiente de los

    aviones dependen de la fluctuacin de la carga de pasajeros. Si esta variacin del nmero de

    pasajeros es grande pueden hacer falta aviones mayores para evitar congestiones los das en

    que los pasajeros son muchos. La tabla de frecuencias de P&P era:

    Clase (pasajeros)

    Frecuencia (f) (das) M fM M

    2 fM2

    50 a 58 2 54 108 2916 5832 59-67 5 63 315 3969 19845 68 a 76 14 72 1008 5184 72576 77 a 85 18 81 1458 6561 118098 86 a 94 7 90 630 8100 56700 95 a 103 4 99 396 9801 39204 50 3915 312255

    En el apartado de la media ya se haba calculado con un valor de = 78.3

    Por tanto sustituyendo los valores en la frmula nos da:

    s = fM - n2

    n 1

    s = 312,255- 50(78.3) 2 = 10.80 pasajeros

    50-1

    Interpretacin: El director de vuelo puede decidir ahora si los aviones que se utilizan

    en la actualidad pueden absorber las fluctuaciones del nmero de pasajeros mediadas pro una

    desviacin tpica de 10.8. Si no es as, quiz haya que utilizar aviones ms grandes para

    acomodar el exceso, que de otro modo, se producira los das de trfico ms intenso.

  • 3.2.2 Varianza

    Triola, (2013), menciona que la varianza de un conjunto de valores es una medida de

    variacin igual al cuadrado de la desviacin estndar.

    Varianza muestral: el cuadrado de la desviacin estndar s.

    Varianza poblacional: s2 el cuadrado de la desviacin estndar poblacional s.

    La varianza tiene una gran desventaja: las unidades de la varianza son diferentes de

    las unidades del conjunto original de datos. Por ejemplo, si tenemos datos que consisten en

    tiempos de espera en minutos, las unidades de varianza estn dadas en minutos cuadrados

    (min2), pero, qu es un minuto cuadrado? Como la varianza utiliza unidades distintas, es

    sumamente difcil comprenderla si la relacionamos con el conjunto original de datos. Por esta

    propiedad, es mejor enfocarnos en la desviacin estndar al tratar de comprender la variacin

    (Triola, 2013).

    (Lind, Marchal, & Wathen, 2012), las principales caractersticas de la varianza son:

    a) Todas las observaciones se utilizan para realizar el clculo.

    b) No influyen excesivamente sobre ella observaciones extremas.

    c) Resulta de alguna manera difcil trabajar con las unidades, pues son las unidades originales

    elevadas al cuadrado.

    La varianza de un conjunto de datos se define como el cuadrado de la desviacin

    estndar y, por lo tanto, corresponde al valor s2 en las ecuaciones.

    Cuando es necesario distinguir la desviacin estndar de una poblacin de la

    desviacin estndar de una muestra obtenida de esa poblacin, se suele emplear s para la

    ltima y (letra griega sigma minscula) para la primera. De manera que s2 y 2 representan

    la varianza muestral y la varianza poblacional, respectivamente (Spiegel & Stephens, 2007).

    De acuerdo a lo que indican Bargas & Camargo (2004), la varianza es la medida que representa el promedio de los cuadrados de las desviaciones de los datos con respecto a la

  • media aritmtica del conjunto, se simboliza con 2. Cuando los datos estn organizados en una tabla de datos agrupados se utiliza la siguiente relacin:

    = 2 = (( )2)

    donde:

    = marca de clase de cada intervalo ( )2= valor de la desviacin elevada al cuadrado de cada marca de clase y la media aritmtica

    = frecuencia correspondiente a cada dato

    = sumatoria de frecuencias o el total de datos

  • 3.2.3 Coeficiente de variacin

    El coeficiente de variacin (o CV) de un conjunto de datos muestrales o poblacionales sin

    valores negativos, expresado como porcentaje, describe la desviacin estndar en relacin

    con la media. El coeficiente de variacin est dado de la siguiente forma:

  • 3.2.4 Otras medidas de dispersin

    Aunque la varianza y la desviacin tpica son las medidas de la dispersin ms tiles en

    anlisis estadstico, hay otras formas de medir la dispersin de un conjunto de datos. Estas

    medidas adicionales de la dispersin, que a veces resultan bastante tiles, son los cuartiles,

    deciles y percentiles (Webster, 1996).

    Percentiles

    Los percentiles son medidas de ubicacin, que se denotan con P1, P2, , P99, las cuales

    dividen un conjunto de datos en 100 grupos con aproximadamente 1% de los valores en cada

    grupo. autor

    Centiles o Percentiles ( Pi ), son los valores que dividen a la distribucin en 100 partes

    iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habr 99

    percentiles. (Q2 = D5 = Me = P50) (Ruz, 2004)

    Cuantiles

    Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen

    a la distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero

    de frecuencias. (Ruz, 2004)

    Webster, (1996).menciona que los cuantiles ms conocidos son:

    a) Cuartiles ( Qi )

    Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las

    cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer

    cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su

    izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los

    datos. (Q2 = Me).

    Los cuartiles son medidas de ubicacin, que se denotan por Q1, Q2 y Q3, y dividen

    un conjunto de datos ordenado en cuatro partes iguales, con aproximadamente el 25% de los

    valores en cada grupo.

  • Q1 (primer cuartil): Separa el 25% inferior de los valores ordenados del 75% superior.

    (Para ser ms precisos, al menos el 25% de los valores ordenados son menores que o iguales

    a Q1, y al menos el 75% de los valores son mayores que o iguales a Q1).

    Q2 (segundo cuartil): Igual a la mediana; separa el 50% inferior de los valores ordenados

    del 50% superior.

    Q3 (tercer cuartil): Separa el 75% inferior de los valores ordenados del 25% superior. (Para

    ser ms precisos, al menos el 75% de los valores ordenados son menores que o iguales a Q3,

    y al menos el 25% de los valores son mayores que o iguales a Q3).

    Todo conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales El

    primer cuartil es el valor por debajo del cual se sitan a lo sumo el 25% de las observaciones

    y por encima del cual se encuentra el 75% restante. El segundo cuartil est justo en el centro,

    es igual a la mediana. El tercer cuartil es el valor por debajo del cual se encuentran como

    mximo el 75% de las observaciones y por encima del cual se halla el 25% restante. La

    determinacin de cuartiles demuestra su utilidad con bastante frecuencia. Por ejemplo,

    muchas escuelas universitarias slo admiten a los estudiantes situados en el 25% superior

    (tercer cuartil) (Webster, 1996).

    Deciles

    Los deciles dividen un conjunto de datos en 10 subconjuntos iguales, y los percentiles dan

    lugar a 100 partes. El primer decil es la observacin por debajo de la cual se encuentran como

    mximo el 10% de las observaciones, mientras que el 90% restante se sitan o encima de l

    (Webster, 1996).

    Los deciles (Di) son los valores de la variable que dividen a la distribucin en las

    partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habr 9 deciles.

    (Q2 = D5 = Me) (Ruz, 2004)

    El primer percentil es el valor por debajo del cual se localizan no ms del 1% de las

    observaciones, y el resto por encima. Cada conjunto de datos tiene 9 deciles y 99 percentiles

    (Webster, 1996).

  • 3.3 Interpretacin y usos de la desviacin estndar

    Uso y comprensin de la desviacin estndar

    En este apartado trataremos de dar sentido a la desviacin estndar, para que no sea solo

    un nmero misterioso carente de cualquier significado prctico. Una herramienta rudimentaria

    pero sencilla para comprender la desviacin estndar es la regla prctica de las desviaciones,

    que se basa en el principio de que, para muchos conjuntos de datos, la vasta mayora (tanto como

    el 95%) de los valores muestrales se ubican dentro de dos desviaciones estndar a partir de la

    media. Es posible mejorar la exactitud de esta regla si tomamos en cuenta factores como el

    tamao de la muestra y la naturaleza de la distribucin, pero preferimos sacrificar exactitud en

    aras de la sencillez. Adems, podramos usar tres o incluso cuatro desviaciones estndar en vez

    de dos, pero deseamos una regla sencilla que nos ayude a interpretar los valores de las

    desviaciones estndar (Triola, 2013).

    La desviacin estndar de un conjunto de N nmeros X1, X2, . . . , XN se denota como s y

    est definida por:

    Donde x representa la desviacin de cada uno de los nmeros Xj respecto a la media

    X_. Por lo tanto, s es la raz cuadrada de la media (RCM) de las desviaciones respecto de la

    media, o, como suele llamrsele algunas veces, la desviacin raz-media-cuadrado.

    Si X1, X2, . . . , XN se presentan con frecuencias f1, f2, . . . , fK, respectivamente, la desviacin

    estndar se puede expresar como:

    Donde Esta frmula es til para datos agrupados.

  • Propiedades de la desviacin estndar

    La desviacin estndar mide la variacin entre los valores de los datos.

    Los valores cercanos tienen una desviacin estndar menor, y los valores con una

    variacin mucho mayor tienen una desviacin estndar ms grande.

    La desviacin estndar tiene las mismas unidades de medicin (como minutos, gramos

    o dlares) de los datos originales.

    Para muchos conjuntos de datos, un valor es inusual si difiere de la media por ms de

    dos desviaciones estndar.

    Cuando se compara la variacin de dos conjuntos de datos diferentes, solo se comparan

    las desviaciones estndar si los conjuntos de datos utilizan la misma escala y las mismas

    unidades, y si sus medias son aproximadamente iguales.

    La desviacin estndar normalmente se utiliza como medida para comparar la dispersin de

    dos o ms conjuntos de observaciones (Lind, Marchal, & Wathen, 2012).

    (Lind, Marchal, & Wathen, 2012), mencionan que la desviacin estndar se puede

    interpretar empleando dos medidas.

    A. Chebyshev (1821-1894) estableci un teorema que nos permite determinar la

    mnima porcin de valores que se encuentran a cierta cantidad de desviaciones estndares de

    la media. Por ejemplo, de acuerdo con el teorema de Chebyshev, por lo menos tres de cuatro

    valores, o 75%, deben encontrarse entre la media ms dos desviaciones estndares y la media

    menos dos desviaciones estndares. Esta relacin se cumple con independencia de la forma

    de la distribucin. Adems, por lo menos ocho de los nueve valores, 88.9%, se encontrarn

    ms de tres desviaciones estndares y menos tres desviaciones estndares de la media. Por lo

    menos 24 de 25 valores, o 96%, se encontrar entre ms y menos cinco desviaciones

    estndares de la media. El teorema de Chebyshev, establece que independientemente de la

    forma de la distribucin, por lo menos 1 _ 1/k2 de las observaciones se encontrarn a k

    desviaciones estndares de la media, siendo k mayor que 1.

    B. La regla emprica afirma que en cualquier distribucin de frecuencias simtrica

    con forma de campana, aproximadamente 68% de las observaciones se encontrarn entre ms

  • y menos una desviacin estndar de la media; cerca de 95% de las observaciones se

    encontrarn entre ms y menos dos desviaciones estndares de la media y, de hecho todas

    (99.7%), estarn entre ms y menos tres desviaciones estndares de la media.

    De acuerdo con (Webster, 1996), la desviacin tpica es til para describir un

    conjunto de datos porque mide el grado en que las observaciones individuales estn

    diseminadas en torno a su media. Pero hay como mnimo otras dos aplicaciones de la

    desviacin tpica: 1) el Teorema de Chebyshve y 2) la distribucin normal y la regla emprica.

    1) El Teorema de Chebyshev, afirma que para cualquier conjunto de datos; al menos

    1-1 K2 de las observaciones estn dentro de K desviaciones tpicas de la media, siendo

    K, cualquier nmero mayor que 1.

    2) La Distribucin normal y la regla emprica. El concepto de distribucin normal se

    encuentra a cada paso en anlisis estadstico y tiene considerable importancia. Una

    distribucin normal es una distribucin de datos continuos (no discretos) que da lugar

    a una curva simtrica y en forma de campana. La regla emprica especfica que:

    a. El 68.3% de las observaciones se sita dentro de ms o menos una desviacin

    tpica de la media.

    b. El 95.5% de las observaciones se sita dentro de ms o menos dos

    desviaciones tpicas de la media.

    c. El 99.7% de las observaciones est dentro de ms o menos tres desviaciones

    tpicas de la media.

    3) Otra aplicacin es el coeficiente de sesgo de Pearson. Algunas estn sesgadas a la

    izquierda o a la derecha, estas condiciones de sesgo se miden con ste coeficiente:

    P = 3 ( mediana) / s

    Si P < 0, los datos estn sesgados a la izquierda; si P > 0, estn sesgados a la derecha;

    si P = 0, estn distribuidos normalmente.

    Ejemplo: La siguiente tabla de distribucin de frecuencias muestra la forma como se

    agruparon las 110 fallas de energa elctrica.

  • INTERVALOS (MIN)

    FRECUENCIA (f)

    1 5 14

    6 10 32

    11 15 28

    16 20 16

    21 25 13

    26 30 7

    110

    a) Calcular la media aritmtica

    INTERVALOS (MIN)

    LIMITE INFERIOR

    LIMITE SUPERIOR

    MARCA (m) FRECUENCIA (f)

    mf

    1 5 0.5 5.5 3 14 42

    6 10 5.5 10.5 8 32 256

    11 15 10.5 15.5 13 28 364

    16 20 15.5 20.5 18 16 288

    21 25 20.5 25.5 23 13 299

    26 30 25.5 30.5 28 7 196

    110 1445

    = ()

    = 1445110 = 13.14

    b) Calcular la mediana

  • INTERVALOS (MIN)

    LIMITE INFERIOR

    LIMITE SUPERIOR

    FRECUENCIA (f)

    FRECUENCIA ACUMULADA (fa)

    1 5 0.5 5.5 14 14

    6 10 5.5 10.5 32 46

    11 15 10.5 15.5 28 74

    16 20 15.5 20.5 16 90

    21 25 20.5 25.5 13 103

    26 30 25.5 30.5 7 110

    110

    = 10.5 = 110 = 28 = 46 = 5

    = 10.5 + 1102 4628 5 = 10.5 + 55 4628 5 = 10.5 + 928 5 = 10.5 + (. 321)5

    = 10.5 + 1.6 = 12.1

    c) Calcular la moda

  • INTERVALOS (MIN)

    LIMITE INFERIOR

    LIMITE SUPERIOR

    FRECUENCIA (f)

    1 5 0.5 5.5 14

    6 10 5.5 10.5 32

    11 15 10.5 15.5 28

    16 20 15.5 20.5 16

    21 25 20.5 25.5 13

    26 30 25.5 30.5 7

    110

    = 5.5 1= 18 2= 4 = 5

    = 5.5 + 1818 + 45 = 5.5 + 18225 = 5.5 + (. 82)5 = 5.5 + 4.1 = 9.6

    d) Calcular la desviacin media

    DESVIACIN MEDIA

    INTERVALOS (MIN) MARCA (m) FRECUENCIA (f) mf |m - x| f |m - x|

    1 5 3 14 42 10.14 141.96

    6 10 8 32 256 5.14 164.48

    11 15 13 28 364 0.14 3.92

    16 20 18 16 288 4.86 77.76

    21 25 23 13 299 9.86 128.18

    26 30 28 7 196 14.86 104.02

    110 1445 620.32

  • = .. = 620.32110 = 5.64

    e) Calcular la varianza

    VARIANZA Y DESVIACIN ESTANDAR

    INTERVALOS (MIN) MARCA (m) FRECUENCIA (f) mf (m - x)2 f(m - x)2

    1 5 3 14 42 102.82 1439.48

    6 10 8 32 256 26.42 845.44

    11 15 13 28 364 0.02 0.56

    16 20 18 16 288 23.62 377.92

    21 25 23 13 299 97.22 1263.86

    26 30 28 7 196 220.82 1545.74

    110 1445 5473

    = 2 = 5473110 = 4975

    f) Calcular la desviacin estndar

    = = 4975 = 7.05

  • REFERENCIAS

    Bargas, R., & Camargo, M. (2004). Introduccin a la probabilidad y la estadstica. Mexico: UADY.

    Levin, R. I., & Rubin, D. S. (2004). Estadstica para administracin y economa (7a ed.). Mxico: Pearson Educacin.

    Lind, D., Marchal, W., & Wathen, S. (2012). Estadstica aplicada a los negocios y la economa (15 ed.). Mxico: McGraw Hill.

    Ruz, M. (2004). Manual de Estadstica. Sevilla: eumed.net.

    Spiegel, M., & Stephens, L. (2007). Estadstica 4ta Edicin. Mxico, D.F.: McGraw Hill.

    Triola, M. (2013). Estadstica (11a. ed.). Mxico: Pearson Educacion.

    Webster, A. L. (1996). Estadstica aplicada a la Empresa y a la Econom (2a. ed.). Madrid: Irwin.

    3.1 Medidas de tendencia central a partir de datos agrupados3.1.1 Media3.1.2. MedianaDefinicin de equipo3.1.3. Moda

    3.2 Medidas de dispersin a partir de datos agrupados3.2.1 Desviacin estndar3.2.2 Varianza3.2.3 Coeficiente de variacin3.2.4 Otras medidas de dispersin

    3.3 Interpretacin y usos de la desviacin estndar