Medidas descritivas

Embed Size (px)

Citation preview

  • Captulo 5Medidas Descritivas

  • 5.1 - IntroduoConforme foi visto no captulo 3, ao se analisar uma distribuio de freqncias, deve-se observar caractersticas como a tendncia central, a disperso, e a forma da distribuio dos dados. Estas caractersticas podem ser descritas por parmetros denominados medidas descritivas de uma populao ou amostra de dados.

  • 5.2. MEDIDAS DE TENDNCIA CENTRAL Refere-se concentrao dos dados de uma amostra ou populao em torno de um valor intermedirio. As principais medidas de tendncia central so a mdia aritmtica, a mediana e a moda.

  • 5.2.1. MDIA ARITMTICA SIMPLESA mdia aritmtica ou simplesmente mdia de uma varivel quantitativa pode ser simples ou ponderada. definida como o quociente da diviso da soma dos dados da amostra (populao) pelo tamanho da amostra (populao).Se x1, x2, ..., xN constituem a populao de dados de uma varivel quantitativa X, a mdia aritmtica simples desta populao :

  • Se x1, x2, ..., xN constituem a populao de dados de uma varivel quantitativa X, a mdia aritmtica simples desta populao :

    No caso de uma amostra de n dados de uma varivel quantitativa X, a mdia aritmtica :

  • 5.2.1.2. MDIA ARITMTICA PONDERADA Em algumas situaes, ao se determinar a mdia, atribui-se uma importncia maior ou menor a determinada observao. A importncia de um valor determinada por um fator denominado peso ou ponderao.Neste caso, a mdia aritmtica definida como o quociente da diviso da soma dos produtos das observaes pelos respectivos pesos, pela soma dos pesos, sendo denominada mdia aritmtica ponderada.

  • Assim, se x1, x2, ..., xN, constituem a populao de N dados de uma varivel quantitativa X, sendo atribudos a este dados os pesos p1, p2, ..., pN, , a mdia aritmtica ponderada desta populao Por outro lado, se x1, x2, ..., xn, constituem uma amostra de n dados de uma varivel quantitativa X, sendo atribudos a este dados os pesos p1, p2, ..., pn, , a mdia aritmtica ponderada desta amostra

  • Medidas de Posio Mdia AritmticaExemplos:1) Sabendo-se que a produo leiteira diria da vaca B, durante uma semana foi (em litros):Qual a produo mdia da semana?

    SegTerQuarQuiSexSabDom10141315161812

  • 5.2.2. MEDIANA A mediana de N dados da populao de uma varivel quantitativa o valor que se localiza no centro do conjunto de dados quando estes so dispostos em ordem crescente. Conseqentemente, metade ou 50% dos dados esto abaixo da mediana e a metade ou os 50% restantes esto acima da mesma.Se N mpar, a mediana o valor que ocupa a posio (N+1)/2; se N par, a mediana e, por conveno, a mdia aritmtica entre o valor de posio N/2 e o de posio (N/2)+1.

  • Medidas de Posio MedianaExemplos:1) Encontre a mediana dos dados abaixo:4, 13, 11, 2, 21, 15, 6, 16, 9Em ordem: 2, 4, 6, 9, 11, 13, 15, 16, 21Md = 11

  • Medidas de Posio Mediana2) Encontre a mediana dos dados abaixo:2, 18, 7, 12, 6, 10, 21, 13Em ordem: 2, 6, 7, 10, 12, 13, 18, 21Md =Md = 11

  • 5.2.3. MODADenomina-se moda o dado mais frequente da populao ou de uma amostra de dados de uma varivelquantitativa. A moda pode no existir e se existir, pode no ser nica. Assim sendo, uma distribuio de dados pode ser amodal quando no tem moda, unimodal quando tem moda nica, bimodal quando tem duas modas e, em geral multimodal, se tiver vrias modas.

  • Medidas de Posio ModaExemplos:1) Encontre a moda dos dados abaixo:a) 7, 8, 9, 10, 10, 10, 11, 12, 13, 15Mo = 10 b) 3, 5, 8, 10, 12, 13Mo = Amodal c) 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9Mo = 4 e 7Bimodal

  • 5.2.4. PERCENTIS O percentil de ordem k de n dados de uma varivel quantitativa dispostos em ordem crescente um valor tal k/100 ou k % destes n dados esto abaixo e 1k/100 ou 100k% restantes esto acima do referido valor.Se k = 50, o percentil de ordem correspondente a mediana; se k = 25, 50 e 75, os percentis com as ordens correspondentes so denominados 1.quartil, 2. quartil e 3. quartil, respectivamente; se k = 10, 20, 30, ..., 90, os percentis de ordem correspondentes so denominados 1. decil, 2. decil, 3. decil, ..., 9. decil, respectivamente. O ksimo percentil de uma populao de N dados quando estes esto dispostos em ordem crescente o valor de posio k(N+1)/100. No caso de uma amostra de n dados, o ksimo percentil da amostra o valor de posio k(n + 1)/100.

  • 5.2.5. MEDIDAS DE TENDNCIA CENTRAL DE DADOS AGRUPADOS Mdia aritmtica

    Mediana l o limite inferior da classe medianaF(ant) a frequencia acumulada da classe anterior a classe medianaf frequencia da classe medianah amplitude da classe medana

    Modal o limite inferior da (s) classe (s) de maior freqncia (classe modal), h a amplitude da classe (s) modal (is), fm a freqncia da classe modal, fa a freqncia da classe adjacente anterior fp a freqncia da classe adjacente posterior.

  • Medidas de Posio Mdia AritmticaExemplos:Qual a mdia de filhos do sexo masculino?2) Consideremos a distribuio relativa a 34 famlias de quatro filhos, tomando para varivel o nmero de filhos do sexo masculino:

  • Medidas de Posio Mdia AritmticaEnto:

    Logo:Concluso?

  • 2) Consideremos a distribuio relativa a estatura de alunos de uma disciplina:Medidas de Posio Mdia AritmticaQual a estatura mdia dos alunos?11

  • Como, neste caso:

    Temos:Concluso?11

  • l* = 158F(ant)= 13h*= 4f*= 11OBS

  • 2) Encontre a moda da distribuio abaixo:Medidas de Posio ModaMo = 3

  • 3) Encontre a moda da distribuio abaixo:

    Obs.: Com intervalo de classeMedidas de Posio ModaA classe que apresenta a maior frequncia denominada classe modal. Pela definio, podemos afirmar que a moda, neste caso, o valor dominante que est compreendido entre os limites da classe modal. O mtodo mais simples para o clculo da moda consiste em tomar o ponto mdio da classe modal. Damos a esse valor denominao de moda bruta.Temos ento:

    Onde l* o limite inferior da classe modal;L* o limite superior da classe modal.

  • 3) Encontre a moda da distribuio abaixo:Medidas de Posio ModaTemos que a classe modal i=3, l*=158 e L*=162.cm

  • Percentis: os noventa e nove valores que separam uma srie em 100 partes iguais.Medidas de Posio IndicamosO clculo de um percentil segue a mesma tcnica do clculo da mediana, porm a frmula passa a ser:K nmero de ordem do percentilObs.: com intervalo de classePkk100

  • Medidas de Posio 1) Encontre o primeiro e terceiro quartis da distribuio abaixo:Exemplofa

  • Medidas de Posio fa

  • Exemplo:Calcule o 37o percentil para a distribuio abaixo:P3737K = 37100

  • K = 37

  • 5.2.6. EMPREGO DAS MEDIDAS DE TENDNCIA CENTRAL A mdia a medida mais utilizada devido as suas propriedades aritmticas. Porm esta medida fortemente influenciada por valores discrepantes e neste caso utiliza-se a mediana.A moda pouco utilizada. Porm, se a freqncia do valor que mais ocorre acentuadamente maior que as dos demais valores, a moda pode ser utilizada como medida de tendncia central.

  • 5.3. MEDIDAS DE DISPERSOEstas medidas indicam o grau de disperso dos dados de uma populao ou amostra de uma varivel quantitativa em torno de uma medida de tendncia central. A disperso pode ser absoluta ou relativa

  • 5.3.1. MEDIDAS DE DISPERSO ABSOLUTAS5.3.1.1. VarinciaSe x1, x2, ..., xn constituem a populao com mdia de N dados de uma varivel quantitativa X, a varincia desta populao onde xi (i = 1, 2, ..., N) so os desvios dos dados em relao mdia da populao. A varincia a mdia dos quadrados dos desvios em relao mdia aritmtica.A frmula acima pode ser modificada, considerando-se que

    Esta frmula alm de ser mais prtica, fornece um resultado mais exato do que a frmula original porque evita os arredondamentos quando o valor da mdia apresenta casas decimais.

  • Por outro lado, se x1, x2, ..., xn constituem uma amostra de n dados de uma varivel quantitativa X, a varincia desta amostra A razo do divisor n 1 em lugar de n ser explicada futuramente em estudos mais avanados.Modificando-se a frmula acima como no caso da varincia de uma populao e omitindo-se os ndices dos somatrios tem-se que

  • Propriedadesda VarinciaSomando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrria, a varincia no se alteraMultiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, a varincia fica multiplicada (ou dividida) pelo quadrado da constante

  • 5.3.1.2. Desvio padroSendo a varincia expressa em termos do quadrado da unidade de medida da varivel em estudo, define-se uma medida de disperso que a raiz quadrada da varincia. Esta medida denominada desvio ou afastamento padro que, ao contrrio da varincia, expressa a disperso em termos da unidade de medida da varivel, sendo portanto mais fcil de ser interpretada.

  • Propriedades do Desvio PadroSomando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma constante arbitrria, o desvio padro no se alteraMultiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por um valor constante, desvio padro fica multiplicado (ou dividido) pela constante

  • 5.3.2. Dados Agrupadosonde xi e fi (i = 1, 2, ..., nc) so, respectivamente, o ponto mdio e a freqncia da i-sima classe e N = (populao) ou n = (amostra).

  • 5.3.1.3. Amplitude total ou Range (R)A amplitude total ou amplitude de variao dos dados de populao ou de uma amostra de uma varivel quantitativa definida como a diferena a entre os valores extremos. uma medida pouco utilizada porque no detecta a disperso dos valores intermedirios. Se os dados estiverem agrupados em classes numa tabela de distribuio de freqncias, a amplitude total dada pela diferena entre o limite inferior da primeira classe e o limite superior da ltima classe.

  • ExemploExemplo: Sejam as seguintes amostras A e B:A= {5, 6, 7, 8, 25}B= {5, 8, 11, 19, 25}Ambas as amostras apresentam Range (R): R = 25 - 5 = 20 .Porm, em A h uma maior variabilidade, que a amplitude total no deixa clara.

  • 5.3.1.2. Desvio semi-interquartlico Mede a disperso em torno da mediana, definido como a mdia das diferenas absolutas entre os quartis extremos (1. e 3.) e a mediana,simplificando, tem-se finalmente queO desvio semi-interquartlico mede a disperso dos dados entre Q1 e Q3desprezando a disperso dos dados abaixo de Q1 e acima de Q3.

  • 5.3.1.4. Desvio mdio desvio mdio definido como a mdia aritmtica dos desvios.

  • 5.3.2. MEDIDAS DE DISPERSO RELATIVA Comparar as disperses de dois ou mais conjuntos de valores de diferentes variveis. Se as varivel em estudo so medidas em diferentes unidades de medida ou mesmo que as unidades de medidas sejam as mesmas, os valores apresentam diferentes ordens de grandeza. Neste caso deve-se utilizar as medidas de disperso relativa que so adimensionais

  • Exemplo: Sejam os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivduos.

  • 5.4. MEDIDAS DE ASSIMETRIA E DE CURTOSE Estes parmetros fornecem informaes sobre a forma como se distribuem os valores observados de uma varivel. A medida de assimetria indica se h mais valores abaixo ou acima da mdia de uma populao ou de uma amostra.A medida de curtose indica se os valores intermedirios de uma amostra ou populao so dispersos ou concentrados.

  • 5.4.1. DEFINIO DE ASSIMETRIAFigura 5.1. Distribuio simtricaFigura 5.2. Distribuio assimtrica positiva Figura 5.3. Distribuio assimtrica negativa

  • 5.4.2. COEFICIENTE DE ASSIMETRIA Um coeficiente de assimetria indica o grau da assimetria de uma distribuio de dados. Um dos coeficientes de assimetria mais utilizados :

  • 5.4.3. CONCEITO DE CURTOSE

  • 5.4.4. COEFICIENTE DE CURTOSE

  • 5.5. ANLISE DE DADOS A PARTIR DAS ESTATSTICAS DE ORDEM As caractersticas de uma distribuio so em geral descritas informando os valores da mdia e do desvio padro e, algumas vezes do coeficiente de assimetria. Porm a mdia e o desvio padro so fortemente influenciados pela presena de valores discrepantes. Para contornar esta dificuldade, John Tukey (1977) props descrever as caractersticas de uma distribuio atravs das estatsticas de ordem que so, a mediana, os quartis ou juntas e os extremos, apresentados no esquema a seguir.onde n o nmero de observaes, a mediana, J as juntas (1 quartil e 3 quartil) e E os extremos (o menor valor observado, Ei e o maior valor observado, Es

  • As caractersticas da distribuio da populao pode ser analisada a partir do diagrama de Tukey (boxplot em ingls), devido a sua configurao.A diferena DI = Q3 Q1 denominada desvio interquartlico e pode ser empregada como medida de disperso.Este diagrama indica as seguintes caractersticas: a) tendncia central: dada pela posio da mediana na escala de medida da varivel; b) disperso: medida pelo valor de DI; c) assimetria: indicada a partir da comparao das diferenas Q1 e Q3 .Todos os valores observados inferiores a e superiores a so discrepantes (outliers).Os valores a e b so o menor valor observado no discrepante e o maior valor observado no discrepante, respectivamente.