165
Antonio F. Beraldo Estatística Descritiva V.3 – 2013 Estatística I

Apostila estatística descritiva

Embed Size (px)

DESCRIPTION

UFJF - Antonio Beraldo

Citation preview

Page 1: Apostila estatística descritiva

Antonio F. Beraldo

Estatística Descritiva

V.3 – 2013

Estatística I

Page 2: Apostila estatística descritiva
Page 3: Apostila estatística descritiva

Estatística Descritiva

Antonio Fernando Beraldo

Departamento de EstatísticaICE — UFJF

Revisão e digitação

Ana Darc da SilvaElisa Lancini NogueiraLucas Silva NovaisMarcelle Souza PintoMirela Rigolon ValinoteRaphael de Freitas SaldanhaRosiany GrosmanStéfani FerreiraVanessa Castro AbreuVictor Lopes Costa Serra

Versão 3 — 2013

Page 4: Apostila estatística descritiva
Page 5: Apostila estatística descritiva

ApresentaçãoEsta Apostila é o primeiro volume de um conjunto de textos preparados para os

alunos dos cursos de Graduação e Pós-Graduação que possuem disciplinas de Estatísticaem sua grade curricular. Os textos abordam os seguintes temas:

Apostila ConteúdoI Estatística DescritivaII Cálculo de ProbabilidadesIII Amostragem, Inferência e Testes EstatísticosIVa Metodologia do Trabalho CientíficoIVb Elaboração e Apresentação de Trabalhos CientíficosV Análise Estatística de DadosVI Tópicos Especiais de Estatística Aplicada

Em cada capítulo das Apostilas procuramos sintetizar os conteúdos, em textos brevesde exposição dos conceitos, seguidos de exemplos de aplicações das fórmulas.

Outros materiais didáticos, referenciados no corpo das Apostilas, estão disponí-veis no site do Professor:

http://www.ufjf.br/antonio_beraldo

A. F. Beraldo iii

Page 6: Apostila estatística descritiva
Page 7: Apostila estatística descritiva

AgradecimentosEste é um trabalho que reflete a experiência - e aprendizagem - do ensino de

Estatística e a valiosíssima contribuição dos alunos nestes 21 anos de atividades naUniversidade Federal de Juiz de Fora, como também a prática da aplicação da Estatísticaem dezenas de dissertações e teses de mestrandos e doutorandos de diversas IES do País.Sem esta contribuição, este trabalho não existiria.

Em destaque, agradeço ao estímulo das professoras doutoras Martha de OliveiraGuerra e Vera Maria Peters, do Centro de Biologia da Reprodução; à paciência abnegadade Renata Márcia de Figueiredo, PhD, pela revisão do texto básico da edição inicial(1998);

A todos os alunos que, com suas críticas e sugestões, me ensinaram o como, o quandoe o quê.

Este trabalho é dedicado, in memoriam, a meu pai.

Wilson João Beraldo(1918 - 1994)

A. F. Beraldo v

Page 8: Apostila estatística descritiva

SumárioSumário vi

1 Introdução à Estatística 11.1 O Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 Atributos e Variáveis: a Natureza dos dados Estatísticos . . . . . . . . . 21

2 Medidas Estatísticas de Tendência Central 312.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.1.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.1.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . 332.1.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 342.1.4 Média Harmônica . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.1.5 Propriedades da Média Aritmética . . . . . . . . . . . . . . . . . 38

2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.4 Ponto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3 Medidas Estatísticas de Dispersão 453.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.2 Desvios e Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.5 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Estatística em Grandes Conjuntos: Distribuições de Frequências 614.1 Frequências Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2 Frequências Relativas, o Histograma e os Polígonos de Frequência . . . . 674.3 Frequências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.4 Frequências Relativas Acumuladas e a Ogiva de Galton . . . . . . . . . . 75

5 Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão 815.1 Cálculo da Média: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.2 Cálculo da Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.3 Cálculo da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

vi A. F. Beraldo

Page 9: Apostila estatística descritiva

SUMÁRIO

5.3.1 Roteiro para o cálculo da mediana . . . . . . . . . . . . . . . . . . 905.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação . . 945.5 Exemplos Comentados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6 Estatística em Grandes Conjuntos: Medidas de Posição 1036.1 Cálculo de Quartis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . 1096.2 Determinação Gráfica das Separatrizes . . . . . . . . . . . . . . . . . . . 1146.3 Determinação Gráfica de intervalos . . . . . . . . . . . . . . . . . . . . . 118

7 Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose 1217.1 Simetria e Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217.2 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1287.3 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

8 Introdução à Análise Exploratória de Dados 1418.1 Fundamentos da Análise Exploratória . . . . . . . . . . . . . . . . . . . . 1418.2 Determinação dos Quartis: . . . . . . . . . . . . . . . . . . . . . . . . . . 1458.3 Cálculo das Cercas e o Box-Plot . . . . . . . . . . . . . . . . . . . . . . . 148

A. F. Beraldo vii

Page 10: Apostila estatística descritiva
Page 11: Apostila estatística descritiva

1 Introdução à EstatísticaA Estatística é um conjunto de métodos que, utilizando procedimentos matemáti-

cos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenômenosnaturais e sociais e organizar e fornecer informações de apoio às Ciências. AEstatística é uma das Matemáticas, assim como a Geometria, a Trigonometria e oCálculo Integral. E não há, na vida contemporânea, praticamente nenhum setor deatividade humana em que não faça uso da Estatística.

Os verbos da Estatística são:

ContarContar é o processo matemático mais primitivo para se conhecer a realidade.

Provavelmente, o processo de contagem começou há muitos milhares de anos atrás, juntocom a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caça.Segundo os especialistas1, o homem primitivo contava até 2 – acima desta quantidade,deveria existir um gesto para significar “muitos” (até hoje, algumas tribos primitivascontam no máximo até 3). Depois, talvez com auxílio dos dedos das mãos, formou-seaos poucos o sistema decimal. Com a evolução cultural e tecnológica, alguns povosadotaram sistemas diferentes, como o vintesimal (múltiplos de vinte2) e o sexagesimal3.Em pinturas rupestres e inscrições talhadas em pedras, vemos como nossos antepassadosenumeravam os objetos do seu mundo – pedaços da sua “realidade”: membros dogrupo, produtos agrícolas, animais domesticados, a caça abatida, etc. Mas, quando esta“realidade” se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores),a contagem de seus componentes passa a ser bem mais trabalhosa.

A Estatística começou quando o homem precisou enumerar (recensear) seus bens,seus rebanhos, a colheita e os exércitos. Estas informações sempre foram vitais paraos reis e governantes, e as contagens eram feitas periodicamente, a seu mando. Temosnotícias de levantamentos feitos na China, 2.000 anos a.C., na Bíblia (informações sobreo contingente de soldados e armas do povo judeu), dos recenseamentos no Império

1Ver Boyer, História da Matemática, Ed. Edgar Blucher Ltda/USP, São Paulo, 1976.2Como os franceses dizem “oitenta”?3A “contagem” do tempo é feita, até hoje, neste sistema. Veja também as medidas utilizadas na

trigonometria.

A. F. Beraldo 1

Page 12: Apostila estatística descritiva

1. Introdução à Estatística

Romano (população e extensão territorial)4, das coletas de dados feitas pelos árabesno século VIII. Ainda na Idade Média, Carlos Magno, rei dos francos e Imperadordo Ocidente, organizou o Estado a partir da contagem de seus súditos e de suaspropriedades. Guilherme, o Conquistador, ordenou a elaboração do Domesday Book,um curioso catálogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produção, parafins de coleta de impostos. Como se pode ver, a Estatística sempre foi associada aoEstado (daí seu nome). Ainda na Inglaterra, mas no séc. XVII temos o trabalho deum dos primeiros “demógrafos”, John Graunt, (1620-1674) que pesquisou o crescimentoda população de Londres, a proporção entre os sexos das crianças e dos adultos, e acausa da morte de milhares de pessoas nas várias tabelas do livro Natural and PoliticalObservations Made upon the Bills of Mortality (1662), que surpreende pela atualidadee pela metodologia6.

Censos demográficos são realizados a cada 10 anos desde 1790 nos EUA, desde 1791na França, e desde 1801 na Grã Bretanha. No Brasil em 1872, foi realizado o primeirorecenseamento nacional no país, o qual recebeu o nome de Recenseamento da Populaçãodo Império do Brasil. Depois deste e até 1940, novas operações censitárias sucederam-seem 1890, 1900 e 1920. Em 1910 e em 1930, não foram realizados os recenseamentos7

4Os habitantes do Império Romano tinham que responder ao census na sua cidade de origem, e apunição para quem fugisse ou não respondesse era a pena de morte. Segundo a Bíblia, os pais de Jesus,Maria e José, tiveram que empreender uma viagem de Nazaré, na Galiléia, até Belém, na Judéia, pararesponder ao Censo ordenado por César.

5Está na Internet, transposto para o inglês de hoje: http://www.domesdaybook.co.uk/index.html. Se você lê bem em inglês, divirta-se.

6Veja o site http://www.edstephan.org/Graunt/graunt.html.7Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html

2 A. F. Beraldo

Page 13: Apostila estatística descritiva

A seguir, um histograma de frequência mostra a composição percentual dapopulação brasileira segundo o Censo de 2010:

Figura 1.1: População Brasileira Urbana (2010) distribuição percentual por faixas etárias

Fonte: Pirâmide Etária, disponível emhttp://www.ibge.gov.br/censo2010/piramide_etaria/index.php

Segundo o IBGE, o Censo Demográfico de 2010 contou uma população de 190.732.694pessoas (Nov/2010). Cada 1% no gráfico acima corresponde a cerca de 1,9 milhões dehabitantes. Em 10 anos, a população aumentou em quase 21 milhões de habitantes,ou seja, grosso modo, cresceu, em média, 4 habitantes por minuto (diferença entrenascimentos e mortes). No entanto, a taxa de crescimento está declinando: segundo oBanco Mundial, deve passar dos atuais 0,9 para 0,24 em meados deste século.

No país, como um todo, as proporções eram, em 2010, de 48,3% do sexo masculinoe de 51,7% do sexo feminino, ou seja, havia 1,07 brasileira para cada brasileiro. Aproporção masculino/feminino é maior na Região Norte (0,97) e menor na RegiãoNordeste (0,91).

A. F. Beraldo 3

Page 14: Apostila estatística descritiva

1. Introdução à Estatística

MedirAlguns fenômenos não são “contáveis” são mensuráveis. As técnicas de medir, cuja

história se confunde com a história da Ciência, foram amplamente desenvolvidas pelaEstatística. A Estatística tem a sua maneira própria de medir, e suas próprias medidas,chamadas estatísticas: média, moda, variância, desvio padrão, números-índices ...A Estatística mede, por exemplo, a dispersão (ou concentração) de elementos de umconjunto em torno de um elemento central; a probabilidade da ocorrência de defeitosem um produto industrial; a relação entre o nível de renda de uma população e seuconsumo de alimentos; a evolução das taxas de mortalidade de indivíduos acometidos dedoenças; a posição de um elétron em torno do núcleo do átomo; a classificação provável dedeterminado candidato num concurso vestibular (entre milhares de candidatos); o efeitoda propaganda nas vendas de um determinado produto; a audiência de um programa detelevisão; a intenção de votos em um candidato a prefeito...

Um bom exemplo do que seja calcular uma medida estatística sobre uma grandemassa de dados é o cálculo do valor do PIB – Produto Interno Bruto, soma das riquezasproduzidas pela indústria, agropecuária e serviços, durante um determinado período. Éum dos principais indicadores econômicos de um país, e sua evolução, ano a ano, revelao comportamento de sua economia. O cálculo do PIB, no entanto, não é tão simples.Imagine que o IBGE queira calcular a riqueza gerada por um artesão. Ele cobra, poruma escultura, de madeira, R$ 30. No entanto, não é esta a contribuição dele para oPIB. Para fazer a escultura, ele usou madeira e tinta. Não é o artesão, no entanto, queproduz esses produtos – ele teve que adquiri-los da indústria. O preço de R$ 30 trazembutido os custos para adquirir as matérias-primas para seu trabalho. Assim, se amadeira e a tinta custaram R$ 20, a contribuição do artesão para o PIB foi de R$ 10,não de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedaço demadeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses cálculospara toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produção total decada setor as matérias-primas que ele adquiriu de outros setores. Depois de fazer essescálculos, o instituto soma a riqueza gerada por cada setor, chegando à contribuição decada um para a geração de riqueza e, portanto, para o crescimento econômico8.

8Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.shtml

4 A. F. Beraldo

Page 15: Apostila estatística descritiva

Figura 1.2: Evolução percentual do Produto Interno Bruto – Brasil

Fonte: Indicadores Econômicos do Banco Central do Brasil

O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhões de reais,um crescimento de cerca de 7,5%.. O PIB per capita, foi de cerca de R$ 19 mil, umcrescimento de 6,5% sobre 20099.

9http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp

A. F. Beraldo 5

Page 16: Apostila estatística descritiva

1. Introdução à Estatística

ClassificarClassificar é quase uma decorrência natural dos processos de contar e de medir.

Medidas estatísticas conduzem à colocação dos fenômenos (e de suas variáveis10) emclasses. Classificar pode ser entendido como categorizar (colocar em categorias - A,B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). AEstatística possui também suas medidas especiais de classificação, como as separatrizese os escores padronizados, entre outras. Estes processos vêm desde o século XVII, comos estudos de Estatística Demográfica, de John Graunt, até a Análise Exploratória deTukey, com suas técnicas modernas de análise de dados numéricos.

Na figura a seguir, um exemplo de aplicação da Estatística Descritiva:

Figura 1.3: Distribuição percentual das classes econômicas, segundo a metodologia daABEP

Fonte: Associação Brasileira de Empresas de Pesquisa, Brasil, 2009.

10Variáveis são os valores produzidos na ocorrência de um fenômeno. Este é um assunto importante,que será abordado muitas vezes durante este curso.

6 A. F. Beraldo

Page 17: Apostila estatística descritiva

Segundo os critérios da ABEP, as classes econômicas, em termos de poder aquisitivo,têm a seguinte renda média:

Tabela 1.1: Classes Econômicas - Brasil - 2008Classe Média em R$

Econômica do poder aquisitivoA1 14.366A2 8.099B1 4.558B2 2.327C1 1.391C2 933D 618E 403

Fonte: http://www.abep.org

RelacionarA Estatística estuda os relacionamentos entre os fenômenos, no tempo e no espaço.

Através de um conjunto de medidas estatísticas, procura-se determinar se existe umacorrelação (ou interdependência) entre duas ou mais variáveis e, se esta relação existir,se é forte ou fraca. Pode-se investigar, por exemplo, a relação existente entre aescolaridade de uma população e a incidência de uma determinada doença; a correlaçãoentre o número de animais predadores em um lugar e os tipos de presas existentes nestaregião; o rendimento escolar de alunos e seu quociente de inteligência; o número deacidentes de trânsito e a quantidade de veículos em circulação...

Veja, a seguir, um exemplo de correlação entre dois atributos de um grupo de pessoas:peso e estatura.

Figura 1.4: Pesos e estaturas médias de 100 indivíduos do sexo masculino

A. F. Beraldo 7

Page 18: Apostila estatística descritiva

1. Introdução à Estatística

Figura 1.5: Curva de correlação entre os pesos e as estaturas médias de 100 indivíduosdo sexo masculino

Os dois gráficos acima mostram o estudo da correlação entre pesos e estatura de 100estudantes de um colégio da cidade. Na figura 1.4 estão os dados colocados no gráfico,e, na figura 1.5, a curva de correlação – uma espécie de ajustamento ideal entre o pesoe estatura, a equação da curva de correlação e a estatística R2 - “r ao quadrado” - quemostra o grau de correlação linear entre as duas variáveis. Quanto mais próximo deR2 = 1, 0; melhor a correlação entre os valores das duas variáveis.

8 A. F. Beraldo

Page 19: Apostila estatística descritiva

CompararComparar grandezas é uma das áreas onde mais se aplicam os processos estatísticos.

São as estatísticas chamadas números-índices, entre outras, de larga utilização naEconomia, nas Ciências Sociais, na Medicina, na Administração Pública, etc. Aocomparar valores destas grandezas entre diversos países ou regiões, em épocas diferentes,procura-se, desta forma, medir a evolução destas grandezas - o que fornece os parâmetrospara o planejamento governamental das políticas sociais e econômicas, entre muitosoutros exemplos.

Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000

Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008.

O IDH, Índice de Desenvolvimento Humano, é uma estatística elaborada e calculadapela ONU (PNUD), que leva em consideração dados sobre a Educação, Saúde e Rendaper capita de uma região (cidade, estado, país) em determinado ano. Quanto maispróximo de 1, melhor a situação do país com relação a estas variáveis. Quanto maispróximo de zero, pior. O IDH do Brasil é de 0,699 (2010) que o coloca em 73o lugar entreos 169 países pesquisados. Os maiores valores do IDH (2010) foram os da, pela ordem,Noruega, Austrália, Nova Zelândia, Estados Unidos e Irlanda. Os piores índices são dospaíses Zimbábue, República Democrática do Congo, Níger, Mali e Burkina Faso11.

11http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\-paises-no-idh-2010.html

A. F. Beraldo 9

Page 20: Apostila estatística descritiva

1. Introdução à Estatística

PreverAs técnicas de previsão estatística (forecasting), baseadas no Cálculo de Probabilida-

des, constituem o ferramental básico dos Sistemas de Apoio às Decisões. Principalmentea Análise de Séries Temporais (onde os fenômenos se relacionam diretamente com opassar do tempo), que talvez seja o ramo da Estatística de maior desenvolvimento nosúltimos anos. A previsão estatística, conjugada com as técnicas de correlação e decomparação, auxilia no planejamento das ações e no desenvolvimento das empresas, dasinstituições governamentais e de tecnologia - de prognósticos do comportamento dascarteiras de ações na Bolsa de Valores ao lançamento de satélites espaciais. Uma parteimportante da previsão estatística é a Atuária, ou Cálculo Atuarial, que trata doscálculos de seguros (de vida, de acidentes, de doenças, etc.), tendo por base o Cálculode Probabilidades.

A seguir, gráficos mostrando a evolução de duas medidas estatísticas muito impor-tantes em Demografia e nas Políticas Públicas em Saúde: Expectativa de Vida, a Taxade Natalidade, e a Taxa de Fecundidade (Fonte: Censo 2000 e PNAD 200312).

Figura 1.7: Expectativa de Vida ao Nascer

12PNAD é a abreviação de Pesquisa Nacional por Amostragem Domiciliar. É uma pesquisa feitapelo IBGE com periodicidade menor do que o Censo, e é utilizada para acompanhar a evolução dealgumas estatísticas.

10 A. F. Beraldo

Page 21: Apostila estatística descritiva

Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regressão)

Figura 1.9: Expectativa de Vida ao Nascer (Previsão)

A. F. Beraldo 11

Page 22: Apostila estatística descritiva

1. Introdução à Estatística

InferirInferir é o processo estatístico em que se estima o valor de uma medida da população

(chamada parâmetro13) a partir do valor desta mesma medida, calculada sobre umaAmostra retirada da população. Por exemplo, queremos saber qual é a taxa defertilidade (número de filhos por mulher) da população do Brasil. Em outras palavras,desejamos saber o parâmetro “número de filhos por mulher”. Esta população é muitonumerosa (em torno de 60 milhões de mulheres). Sorteamos, então, uma Amostrade 2.400 mulheres desta população e, com os dados desta amostra, calculamos duasestatísticas14: a média e o desvio-padrão15. A partir destas estatísticas, dizemos(por exemplo) que a taxa de fertilidade atual no Brasil está “em torno” de 2,8 filhospor mulher. Ou seja, estimamos o valor do parâmetro de uma população a partir deestatísticas amostrais.

Figura 1.10: Inferir

13Parâmetro: É o valor de uma medida, referente a população.14Estatística: É o valor de uma medida referente à amostra.15Média e desvio-padrão são medidas que estudamos no Capítulo 2 desta Apostila.

12 A. F. Beraldo

Page 23: Apostila estatística descritiva

TestarTestes Estatísticos são processos de verificação da igualdade ou desigualdade entre

duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, porexemplo, ou entre estatísticas de dois ou mais conjuntos, separados no tempo ou noespaço. Pode se testar estatisticamente a eficiência de um processo (uma dieta, porexemplo), ou a eficácia de uma ação (um método de aprendizagem), as diferenças entreos resultados de dois ou mais tipos de tratamentos médicos (a cura pela sugestão, pelaalopatia ou pela homeopatia). A seguir, uma ilustração de uma pesquisa experimentalonde se testa a eficácia de um medicamento em um grupo de pessoas.

Figura 1.11: Pesquisa experimental

Na figura 1.11, um experimento científico que consiste em analisar os efeitos deuma droga. São dois grupos de pessoas. O primeiro grupo, chamado de Estudo, ouExperimental, recebe a droga; o segundo grupo, chamado de grupo de Controle, nãorecebe a droga, mas um composto inócuo, chamado Placebo. A Estatística fornecerecursos para avaliar os efeitos da droga administrada, comparando as variações entreos dois grupos, e verificando se a droga produz realmente o efeito que se espera.

A. F. Beraldo 13

Page 24: Apostila estatística descritiva

1. Introdução à Estatística

ModelarO que faz um cliente do supermercado tomar a decisão de comprar um produto de

determinada marca, e não de outra? Quais são os fatores de risco de alguém tornar-sediabético? Em crianças em processo de alfabetização, o que facilita e o que dificulta aaprendizagem? Tomada de decisões, incidência de doenças e processos de aprendizagemsão exemplos de fenômenos complexos que ocorrem, associados – ou determinados –por vários “fatores”. Saber quais são os fatores mais importantes, qual o impacto deassociação de fatores, e quais as consequências de realçarmos um ou mais fatores sãoalguns aspectos da análise de modelos multivariados.

Cuidado para não confundir rendimento escolar com aprendi-zagem. Rendimento escolar é o que é apurado nas provas,trabalhos, atividades, etc (nota é uma variável objetiva,quantitativa). Aprendizagem é uma variável latente (vejamais em “Variáveis latentes”, página 28).

Suponha que estamos pesquisando os fatores que interferem no rendimento escolardos alunos da última série do ensino médio. O simpático menino da figura acima, que fazparte do grupo pesquisado pode ser “descrito” pelas suas variáveis: sexo, idade, condiçãoeconômica familiar, constituição da família (pais casados, pais separados, pais em uniãoestável, etc.), escolaridade dos pais, relação idade/série, número de repetências, e muitosoutros atributos. E, é claro, as variáveis referentes às notas (rendimento escolar).

Modelo é a representação estruturada de um fenômeno a partir de hipóteses derelacionamento de suas variáveis. Por exemplo,

Figura 1.12: Fatores em um modelo

14 A. F. Beraldo

Page 25: Apostila estatística descritiva

Um modelo é uma simplificação – uma representação esquemática -, de comopercebemos os fenômenos. Matematicamente, escrevemos

Y = B1x1 +B2x2 +B3x3 + · · ·+BnXn

Exemplificando (bem superficialmente): Pense no fenômeno da aprendizagem. Con-sidere que aprender determinado assunto está relacionado (associado) com as variá-veis “horas de estudo”, “material didático” (quantidade e qualidade), “capacidade doprofessor”, “escolaridade dos pais”, “simpatia com a matéria”, entre outras. Estassão as variáveis, que aparecem no modelo como x1, x2, x3, . . . , xn Cada variável estámultiplicada por um B, que mede a importância que atribuímos a esta variável. Osvalores de B1, B2, B3, . . . , Bn podem ser altos, baixos, ou mesmo nulos, conforme seu“peso”.

Considere, por fim, que podemos medir esta “aprendizagem” por meio de exames(provas, testes) que, bem elaborados, pontuam (quantificam) esta “aprendizagem”. Osvalores obtidos nos testes são os valores de Y . Assim, podemos correlacionar Y com asvariáveis, que no nosso modelo, favorecem ou são obstáculos para a “aprendizagem”.

A. F. Beraldo 15

Page 26: Apostila estatística descritiva

1. Introdução à Estatística

1.1 O Método EstatísticoImagine o conjunto de moradores do Bairro B: são pessoas que tem os mais diversos

atributos – idade, estado civil, naturalidade, renda, etc. –, que desejamos conhecer.No entanto, todos estes moradores possuem pelo menos um atributo em comum:são pessoas residentes no Bairro B.

Figura 1.13: O conjunto Universo

Para efeito de análise estatística, estes moradores do Bairro B são agrupados em umconjunto que denominamos Universo, notado pelo símbolo Ω. Pertencem ao conjuntoUniverso todas as pessoas que possuem este atributo: moradores do Bairro B. Estão“fora” do Universo todas as pessoas que não possuem este atributo. Os demais atributosdos moradores podem ser descritos por um conjunto de valores denominado variável.Assim, temos as variáveis sexo, idade, estado civil, renda, etc.

Assume-se, para efeito de estudo, que estas variáveis são aleatórias, ou seja,seus valores não são influenciados por nenhum fator externo16. As variáveis de umconjunto Universo (e o próprio conjunto Universo) são descritas por medidas chamadasparâmetros. Por exemplo, as variáveis idade, renda, escolaridade (medida em anos deestudo) tem, cada uma, os parâmetros média (µ), variância (σ2), desvio-padrão (σ);as variáveis sexo, escolaridade (medida em nível de ensino) e naturalidade, tem, cadauma, o parâmetro proporção (π).

16O conceito de variável aleatória é explicado em profundidade na Apostila II – Cálculo deProbabilidades.

16 A. F. Beraldo

Page 27: Apostila estatística descritiva

1.1 O Método Estatístico

Um parâmetro é uma medida de uma variável do conjunto Universo, e recebemcomo símbolo, as letras do alfabeto grego.

Um conjunto Universo é suposto de tamanho infinito, ou finito. Mesmo sendode tamanho finito, sempre partimos do princípio que estes conjuntos têm um tamanhomuito grande – um número muito grande de elementos. Este “tamanho muito grande”torna extremamente difícil, senão impossível, a obtenção destes parâmetros. Paraestudarmos o Universo, dispomos de dois métodos principais: o Censo e o MétodoEstatístico.

Censo, ou recenseamento é o processo de coleta de dados em que todo o conjuntouniverso é pesquisado. Todos os elementos do conjunto são estudados, um a um, e ocenso só termina quando todo o conjunto universo for abrangido. Censos são trabalhosos,demorados, dispendiosos e, por isso mesmo, são realizados apenas por instituições oficiaise por órgãos do governo. Censos demográficos são realizados de dez em dez anos,quando uma grande quantidade de recenseadores é recrutada para coletar dados sobre apopulação, através de questionários. Desta forma, podemos medir a evolução de dadoscomo a população das cidades e do meio rural, as taxas de natalidade e mortalidade, ascaracterísticas da etnia, o credo religioso, as migrações internas, etc.

Figura 1.14: O Censo

A. F. Beraldo 17

Page 28: Apostila estatística descritiva

1. Introdução à Estatística

Portanto, o Censo17 é uma investigação extensiva a todos os elementos do Universo,e também intensiva, pois, na oportunidade da realização de um Censo, são coletadosdados sobre centenas de variáveis, como “características gerais da população, educa-ção, migração, nupcialidade, trabalho, famílias e domicílios (...) informações sobre apopulação residente por sexo, cor ou raça, religião, categorias de incapacidade ou defi-ciência física ou mental, nível educacional, movimentos migratórios, situação conjugal,ocupação, rendimento de trabalho, tamanho da família e condições habitacionais, entreoutros aspectos, para o total do Brasil, grandes regiões e unidades da federação (...)comentários sobre as características selecionadas em cada um dos temas e as diferençasregionais observadas, notas e anexos contendo a Classificação de Religiões, desenvolvidapelo IBGE e o Instituto Superior de Estudos da Religião - ISER, e a ClassificaçãoNacional de Atividades Econômicas - Domiciliar.”18

O Método Estatístico foi desenvolvido para obtermos o valor estimado dosparâmetros, a partir das medidas de um subconjunto do Universo chamado Amostra.Este método consiste nos seguintes passos:

1. O conjunto Universo é tratado de forma que cada um, e todos os seuselementos, têm a mesma probabilidade de serem sorteados. Este processo é chamado dehomogeneização do Universo. Em seguida, alguns elementos do Universo são sorteadospara compor um subconjunto chamado amostra (ω):

17Para se ter uma ideia da magnitude do problema do Censo em um país como o nosso, com seus 8,5milhões de km2, O Censo 2010 custou em torno de 1,4 bilhão de reais. Os 240 mil recenseadores, comseus GPS, visitaram 58 milhões de domicílios, em 5.565 cidades, e coletaram dados sobre os mais de190 milhões de brasileiros. A coleta de dados foi feita não mais em formulários de papel, mas por meiode 220 mil palmtops e netbooks, em cerca de 314 mil setores censitários. Os dados foram transmitidosà central do IBGE via web. Foram duas modalidades de questionários: o “básico”, com 16 perguntas,e o “amostra”, com 81 perguntas, aplicados em 7 milhões de domicílios, sorteados dentro do universo.-Entre as novidades deste censo foi a inclusão do item “união homossexual” entre as 20 opções de graude parentesco com o responsável pelo domicílio, e o mapeamento das cerca de 210 línguas faladas nopaís (http://www.ibge.gov.br/censo2010/). Um censo é uma espécie de corrida contra o tempo, emtermos de atualização de números. Por exemplo, desde que você começou a ler esta nota de rodapé, jánasceram mais de 6 brasileiros (o ritmo estimado é de 4,2 nascimentos/minuto).

18Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm

18 A. F. Beraldo

Page 29: Apostila estatística descritiva

1.1 O Método Estatístico

Figura 1.15: Universo e Amostra

A extração dos elementos do Universo que irão compor a Amostra é um processoque recebe o nome de Amostragem. A Amostragem consiste em uma série de técnicascuja finalidade é fazer com que os princípios de aleatoriedade sejam respeitados.

A Amostra, por ter um tamanho muito inferior ao tamanho do Universo, podeser observada em sua totalidade (ao contrário do Universo). Estas “observações” sãochamadas medidas estatísticas, ou, mais simplesmente, estatísticas (veja o quadro aseguir).

A. F. Beraldo 19

Page 30: Apostila estatística descritiva

1. Introdução à Estatística

Figura 1.16: Estatística e Parâmetros

Uma estatística é uma medida descritiva de uma variável da amostra, e recebecomo símbolo, uma letra do alfabeto latino.

Após o cálculo das estatísticas, prossegue-se com um outro processo estatístico:a Inferência, que consiste no cálculo dos parâmetros (populacionais) a partir dasestatísticas (amostrais).

População =⇒ Parâmetro.Amostra =⇒ Estatística.

20 A. F. Beraldo

Page 31: Apostila estatística descritiva

1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos

Portanto, há uma correspondência entre as medidas amostrais (estatísticas) e asmedidas populacionais (parâmetros). Esta correspondência é expressa da seguintemaneira:

Parâmetro = Estatística ± Margem de erro

A margem de erro pode ser interpretada como a diferença existente entre asmedidas de uma amostra e as do universo de onde foi extraída. Cada estatísticapossui a sua margem de erro. A margem de erro é função:

• Do Nível de Confiança com que se está trabalhando;

• Do tamanho da amostra, n;

• Das condições do Universo (infinito ou finito), e da dispersão de seus valores;

• Do tipo de amostragem que foi realizado (com reposição ou sem reposição).

Todas estas condições serão extensamente estudadas na Apostila Estatística III.

1.2 Atributos e Variáveis: a Natureza dos dadosEstatísticos

Na seção anterior, falamos de atributos, que seriam algo como as qualidades oucaracterísticas que todos os elementos de um Universo (e das amostras dele extraídas)possuiriam. Estes atributos são uma espécie de característica comum aos elementosdo Universo. Por exemplo, seja o Universo Ω1 constituído por todos os alunos dasuniversidades brasileiras. O atributo em comum destes elementos do Universo é “estarmatriculado em algum curso de alguma universidade brasileira”. Seja um subconjuntodeste Universo Ω1, que chamaremos de Ω2, formado por elementos que pertencem àsuniversidades federais. Seu atributo comum é “estar matriculado em algum curso dealguma universidade federal brasileira”. Seja, outra vez, outro subconjunto do UniversoΩ2, que chamaremos de Ω3, que consiste nos estudantes da UFJF. Seu atributo emcomum é: “estar matriculado em algum curso da UFJF”. A figura a seguir ilustra adisposição destes conjuntos:

Continuemos com o conjunto Ω3: “alunos matriculados em algum curso da UFJF”.Além deste atributo comum, estes elementos do Universo Ω3 possuem diversas ca-racterísticas: curso em que estão matriculados, nível do curso, idade, sexo, estado

A. F. Beraldo 21

Page 32: Apostila estatística descritiva

1. Introdução à Estatística

Figura 1.17: Conjuntos universo

civil, estatura, peso, naturalidade, classe social, classe econômica, número de matrícula,pontuação no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras.Estas características, daqui por diante, passam a se chamar variáveis.

Uma variável é uma característica dos elementos do Universo (e da Amostra) quepode ser valorada.

Por exemplo, a variável “curso em que estão matriculados”. Pode assumir os“valores” Arquitetura, Direito, Medicina, Psicologia, Administração, tantos quantosforem os cursos oferecidos pela UFJF. A variável “nível do curso” pode assumir osvalores Graduação, Especialização, Mestrado, Doutorado... A variável “idade” podeassumir valores que vão de, digamos, 16 anos até 70 anos. A variável “estatura” podeassumir valores, digamos, de 1,00m a 2,30m. E assim por diante.

O domínio da variável (tipo de valores que a variável pode assumir) é que determinao tipo da variável.

22 A. F. Beraldo

Page 33: Apostila estatística descritiva

1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos

Estes podem ser:

Figura 1.18: Variáveis

Uma variável é dita quantitativa ou numérica quando assume exclusivamentevalores numéricos (que representam quantidades). São discretas quando estes valorespertencem ao conjunto dos Naturais (N), mais o zero ( v ∈: 0, 1, 2, 3, 4, 5, . . . ). Geral-mente, estes valores são resultado de um processo de contagem.

Uma variável é quantitativa (ou numérica) contínua quando pode assumir valorespertencentes ao conjunto dos Reais, (v ∈ R). Geralmente, estes valores são resultado deuma medição.

Uma variável é dita qualitativa, categórica ou nominal, quando pode assumirapenas valores não-numéricos (palavras, sinais, ou números que não representam quan-tidades). Será dicotômica se seu domínio conter apenas dois valores, será politômicase o seu domínio conter mais de dois valores.

No exemplo que estudamos, a variável idade é quantitativa discreta. Pode assumiros valores 16, 17, 18, ... , 70. A variável estatura é quantitativa contínua, podendoassumir qualquer valor entre 1,00m e 2,30m: 1,01m, 1,02m, 1,03m, ... , 2,29m, 2,30m.

A variável sexo é qualitativa (ou nominal) dicotômica, podendo assumir osvalores “masculino” ou “feminino” . O curso em que o aluno está matriculado éuma variável qualitativa politômica, que pode assumir os valores “Engenharia”,“Medicina”, “Direito”, “Enfermagem”, etc.

Classificação quanto a naturezaAlgumas vezes uma mesma característica do Universo pode ser estudada por mais de

uma variável. Por exemplo, a classificação econômica dos moradores de um bairro: pes-

A. F. Beraldo 23

Page 34: Apostila estatística descritiva

1. Introdução à Estatística

quisando por domicílio, podemos simplesmente perguntar qual é o rendimento familiarmensal dos moradores do domicílio; podemos estimar esta renda perguntando o valor daconta de energia elétrica; podemos perguntar quais e quantos eletrodomésticos existemno domicílio, e a escolaridade dos moradores..., enfim, existem várias formas de conseguirdados sobre esta característica, cada um deles apurado através de uma variável.

As variáveis são também tipificadas segundo sua Natureza, ou Nível de Mensu-ração. Esta é uma categorização muito útil na descrição de amostras, mas requer umestudo mais apurado, quando precisamos decidir qual tipo de variável é mais adequado(e qual variável é a mais adequada) para descrevermos determinada característica de umUniverso19.

Variável nominal: O nível mais baixo de informação é o das variáveis nominaisdicotômicas que, como vimos, podem assumir apenas dois valores, opostos e comple-mentares: sim ou não, ligado ou desligado, defeituoso ou não defeituoso. Em seguida,temos as variáveis nominais politômicas, que podem assumir mais de dois valores.Por exemplo, estado civil: solteiro, casado, união estável, separado, divorciado, viúvo,outros.

Variável nominal ordinal: É uma variável nominal politômica cujos valores podemser colocados em ordem de intensidade (ou de freqüência, ou de gravidade, entre outrasqualificações). Por exemplo, as respostas à questão:

Em relação à reserva de vagas nas universidades federais (política de cotas), você:

Discorda totalmente;

Discorda;

Não sei avaliar;

Concorda;

Concorda totalmente.

Variável intervalar: É uma variável quantitativa, em que os valores estão dispostosem uma escala, e os intervalos entre os pontos da escala são fixos e iguais. Por exemplo,

19Esta é uma tarefa muito complexa. Uma boa parte do tempo de planejamento das pesquisas deveser dedicada a este processo. Veja Apostila IV – Metologia de Pesquisa

24 A. F. Beraldo

Page 35: Apostila estatística descritiva

1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos

as escalas de temperatura, como a escala Celsius20: 0C corresponde ao “ponto do gelo” e100C que corresponde ao “ponto de ebulição” da água, medidos pela coluna de mercúriode um termômetro. Estes dois pontos foram convencionados, e a distância entre eles foidividida em cem partes, e variação da temperatura entre 10C e 15C é a mesma queentre 15C e 20COutro aspecto a considerar é que o valor de 0C não significa que “nãohá” temperatura, e sim, que “a temperatura é de 0C ”.

É importante notar que um corpo a 60C não é “duas vezes mais quente” que umcorpo a 30C. Temperatura é variável intervalar e “quente” (ou “frio”) é valor de umavariável nominal ordinal.

Variável de razão: São as variáveis cujos valores são múltiplos ou submúltiplos deuma unidade convencionada, podendo haver uma correspondência linear (como no casodas variáveis estatura, peso, tempo, valores monetários) ou não-linear (exponencial oulogarítmica). No caso de uma variável de razão, o valor 0 (zero) corresponde a “ausênciade”, e não uma convenção, como é o caso das variáveis intervalares.

Em casos que a evolução dos valores é linear, como por exemplo, as medidasde comprimento (estatura, distância). A unidade é o metro, e, se dizemos que “ocomprimento de uma sala de aula é de 8m”, estamos falando que “o comprimento dasala é de 8 x 1m” (oito vezes um metro). O mesmo vale para peso, tempo, volume, área,e outras.

Há casos em que a correspondência não é linear, ou quando o intervalo entre doispontos de uma escala não é fixo. Por exemplo, as escalas que utilizam logaritmos, comoas escalas Richter21 – intensidade de terremotos, e a escala de decibéis – intensidadedo som e do ruído. Dizer que um terremoto alcançou 4 graus na escala Richter nãosignifica que sua intensidade foi duas vezes a de um terremoto de “grau 2”, e sim, a 100vezes a de um terremoto grau 2. No caso da escala de ruídos, a intensidade do ruído émedida em decibéis (dB), sendo que a variação de 1 dB corresponde a uma variação de10 vezes na potência do som ou do ruído.

20Anders Celsius (1701-1744), astrônomo e cientista sueco. Curiosamente, quando foi inventada, aescala Celsius era “ao contrário”: 0C correspondia ao “ponto de ebulição” e 100C ao “ponto do gelo”da água. Depois de sua morte, a escala passou a ter o sentido e direção atual.

21Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseramem 1935 a escala de medida sismográfica que, no começo, tinha a finalidade de medir unicamente osterremotos que se produziram na Califórnia (EUA). A escala Richter corresponde ao logaritmo daamplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores queultrapassam o grau 9, é, uma “escala aberta” (sem limite superior).

A. F. Beraldo 25

Page 36: Apostila estatística descritiva

1. Introdução à Estatística

Exemplo 1.1. Propaganda de carro: destacamos as variáveis:

Figura 1.19: Características de um automóvel

Notar que as variáveis dados de razão sempre se referem a uma base: o melhorexemplo está no preço do carro, fornecido tanto em reais quanto em dólares.

Comentários:

1. Discretas ou Contínuas? Notar que as variáveis numéricas discretas podem sertratadas como se fossem contínuas. Um dos problemas que são resolvidos pelaEstatística, como foi dito, é o de efetuar contagens em conjuntos muito grandes.Mesmo para estes conjuntos (o número de analfabetos no país, por exemplo), oresultado desta contagem pode ser calculado com uma precisão razoável, usandoum método estatístico chamado Estimação. Sem entrar em detalhes, nestemomento, podemos dizer que estimar uma quantidade é calcular um intervalonumérico em que o valor mais provável de uma medida esteja nele contido.Note que escrevemos “intervalo numérico”, ou seja, a grosso modo, “entre doisnúmeros”. Diz-se que uma pessoa tem entre 120.000 a 140.000 fios de cabelo,isto é, ela tem entre 120 mil e 140 mil fios de cabelo. Este resultado é obtidoassim: divide-se a área total do couro cabeludo do cidadão em quadradinhos deárea igual, digamos, 1 cm2 de área. Para simplificar, vamos supor que o courocabeludo contenha 1.000 quadradinhos. Sorteia-se uma série de quadradinhos,digamos, uns trinta quadradinhos. Em cada quadradinho sorteado conta-se onúmero de fios de cabelo, e calcula-se amédia de “fios de cabelo por quadradinho”.Calcula-se também outra estatística, chamada desvio padrão, que é, por assim

26 A. F. Beraldo

Page 37: Apostila estatística descritiva

1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos

dizer, a “faixa de variação” da média. Se a média foi de 290 fios de cabelo porquadradinho, e o desvio padrão de 50 fios de cabelo por quadradinho, dizemos queo número de “fios de cabelo, por quadradinho”, está entre 240 e 340. Como são1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios decabelo. Note que “número de fios de cabelo” é, a priori, uma variável numéricadiscreta. Quando seu valor se torna muito grande, dá-se a ela um tratamento devariável numérica contínua.

2. Variáveis Categóricas Dicotômicas: este tipo de variável também é muitoutilizado pela Estatística. Dissemos que ela pode assumir os valores S e N (sime não). Estendendo o raciocínio, podemos dizer que esta variável pode assumirdois valores, opostos e complementares, e que são mutuamente excludentes,ou seja: a variável possui dois estados, que não podem ocorrer simultaneamente.Por exemplo: “cara” ou “coroa”, no lançamento de uma moeda; “masculino” ou“feminino”, no nascimento de uma criança; “ligado” ou “desligado”, para umaparelho elétrico. Notar que muitas vezes atribui-se um valor “numérico” aosestados da variável, como, por exemplo, 1 para “ligado” e 0 para “desligado”.Deve-se prestar atenção a este caso, porque, apesar de termos valores numéricos,estes apenas simbolizam os estados da variável, que deve continuar sendo entendidae tratada como variável categórica, e não como variável numérica.

3. Por outro lado, podemos substituir as categorias de uma variável qualitativa pornúmeros, se esta variável qualitativa possui um caráter hierárquico ou ordinal, oumesmo de graduação em nível ou intensidade. Por exemplo, em uma pesquisa deopinião pública a respeito do presidente da república, as respostas possíveis são:“ótimo”, “bom”, “regular”, “ruim” ou “péssimo” (variáveis qualitativas). Devidoao alto grau de subjetividade nesta conceituação, pode-se substituir a pergunta dapesquisa por outra: “Qual nota, numa escala de 0 a 10, você daria ao Presidenteda República?”. Com este procedimento, tenta-se tornar a pesquisa mais objetiva,com a utilização de variáveis quantitativas. O inverso pode também ser utilizado:as famílias de um bairro podem ter uma classificação sócio-econômica A, B, C, Dou E (variável qualitativa) conforme sua renda familiar (variável quantitativa).

4. Muitas vezes você encontrará variáveis qualitativas identificadas por números.Por exemplo, em um questionário acerca do estado civil de um elemento amostral,pode-se identificar “solteiro” por “01”, “casado” por “02”, “divorciado” por “03”,etc. É preciso não confundir este valores, digamos, pseudo-numéricos, com valoresde uma variável quantitativa. Estado civil é uma variável qualitativa e deveter o tratamento correspondente, adequado. Outro exemplo: no seu número dematrícula, consta, digamos, o dígito “04” - que corresponde ao curso no qual você

A. F. Beraldo 27

Page 38: Apostila estatística descritiva

1. Introdução à Estatística

está matriculado. Apesar de ser um número, estes dígitos representam variáveisqualitativas.

5. Atributos e Variáveis: Tempos atrás, fazia uma distinção entre atributos e variá-veis. Atributo era uma espécie de característica do elemento amostral que “poucoou nada variava”, como sexo, naturalidade, data de nascimento, e outras. Já avariável seria uma característica que se alterava mais frequentemente.

Variáveis latentesAté agora, falamos apenas de variáveis objetivas, como peso, estatura, sexo,

classe econômica. São variáveis cujos valores podem ser diretamente apurados, sejapor questionários e entrevistas, seja pela observação dos coletores de dados, seja porinstrumentos apropriados de medição. Existe, no entanto, um outro extenso grupo devariáveis que não são passíveis de serem medidas direta e objetivamente, mas cujosvalores (ou “estados”) são estimados - são as chamadas variáveis latentes, muitocomuns em Psicologia, Ciências Sociais, Educação, Economia e Administração. Algunsexemplos: Qualidade de Vida, Satisfação do Consumidor, Nível de Participação Política,Nível de Aprendizagem, Inteligência, Aptidão Física...

Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida?Deve-se, primeiro, definir o quê seja “Qualidade Vida”, e de quem: da população emgeral, dos jovens, das mulheres, dos deficientes físicos? O que seria Aptidão Física?

A definição do significado de uma variável latente é feita a partir de estudos teóricos,muitas vezes acompanhados de pesquisas qualitativas. Esta definição é chamada deconstructo, e procura desmembrar a variável latente em uma série de variáveis cujosvalores podem ser obtidos de forma direta. Veja o exemplo 1.2 a seguir:

Exemplo 1.2. Uma pesquisa dos alunos do curso de Ciências Sociais procurou medir oNível de Satisfação dos moradores do Bairro Alfa. “Nível de Satisfação” é uma variávellatente, como foi dito, e não pode ser medida direta e objetivamente.

A equipe resolveu, então, elaborar um constructo em que a variável Qualidade de Vidafoi segmentada nos fatores Saúde, Educação, Segurança, Transporte, Lazer, Comércio,e Vizinhança, cuja avaliação foi feita pelos respondentes a um questionário aplicado a600 moradores do bairro.

Por exemplo, o fator Saúde foi medida pela avaliação feita pelos respondentes, emquestões como:

28 A. F. Beraldo

Page 39: Apostila estatística descritiva

1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos

Em relação ao atendimento do Posto de Saúde, você está:

Totalmente Insatisfeito

Insatisfeito

NSA – Não Sei Avaliar

Satisfeito

Totalmente Satisfeito

As respostas eram pontuadas de 1 a 5. A pontuação de cada fator foi a somadas pontuações das questões a ele relativas. A menor pontuação de um fator, porrespondente, era 5, a maior, 25 pontos. Foi utilizada a mediana como medida detendência central22 de cada fator.

Adicionalmente, adotou-se o seguinte critério:

• Entre 5 e 10 pontos – Fator mal avaliado

• Entre 11 e 18 pontos – Fator avaliado como “regular”

• Entre 19 e 25 pontos – Fator bem avaliado

Veja um dos resultados da pesquisa no gráfico a seguir. Avalie cada fator segundo ocritério dado.

Figura 1.20: Resultados da pesquisa (dados fictícios)

22A mediana e demais medidas de tendência central são estudadas no próximo capítulo.

A. F. Beraldo 29

Page 40: Apostila estatística descritiva
Page 41: Apostila estatística descritiva

2 Medidas Estatísticas de Tendência CentralMedidas de Tendência Central procuram caracterizar um conjunto de n dados

numéricos por apenas um valor. Esta parece ser uma tendência natural das pessoas:quando se têm uma série de valores procura-se um valor “médio”, pelo qual se identificao conjunto. É muito comum se ouvirem frases do tipo “os aluguéis estão em torno deR$ 250,00”, ou “são meninos na faixa de 12 anos”, ou ainda “o jogador faz cerca de 2gols por partida”. Expressões como “em torno”, “cerca de”, “na faixa de”, ou ainda “emmédia”, traduzem esta tentativa de adotar-se um valor único para identificar umconjunto de valores

A Estatística possui um conjunto de Medidas de Tendência Central que, conformeo caso, fornecem este valor único, característico dos dados existentes na amostra.Tenha em mente que estamos tratando apenas de variáveis quantitativas. Variáveisqualitativas serão abordadas em outra parte desta Apostila.

As Medidas de Tendência Central que estudaremos nesta parte serão a média, amoda, a mediana e o ponto médio. Existem outras estatísticas de tendência centralque serão citadas, quando necessário.

2.1 Média2.1.1 Média Aritmética

Definição: A média, ou média aritmética, de um conjunto de n valores numéricos édefinida como a razão entre a soma destes valores e o tamanho do conjunto.

Seja um conjunto A de n valores numéricos, descrito como

A = x1, x2, x3, · · · , xn

Define-se sua média aritmética, ou simplesmente, média, notada por X

A. F. Beraldo 31

Page 42: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

X =∑xi

n(2.1)

Onde: X é a média aritmética do conjunto, n é o tamanho (número de elementos)do conjunto.

Exemplo 1.1 Seja o conjunto A = 1, 2, 4, 8, 0, 3. Sua média será:

X =∑xi

n= 1 + 2 + 4 + 8 + 0 + 3

6 = 186 = 3, 0

Note que o elemento 0 “entra” na conta, no somatório de xi.

Exemplo 1.2 Seja o conjunto B = 8,−2, 5, 6,−4, 2, 2,−1. Sua média será:

X =∑xi

n= 8− 2 + 5 + 6− 4 + 2 + 2− 1

8 = 168 = 2, 0

Note que elementos com sinal negativo mantêm o sinal, no somatório.

Exemplo 1.3: Seja o conjunto C = 1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2. Sua média será:

X =∑xi

n= 1 + 2 + 4 + 3 + 2 + 2 + 2 + 3 + 2 + 1 + 2

11 = 2411 = 2, 18

Note que a média pode ser fracionária, ou seja, pode assumir um valor que, à primeiravista, pode parecer absurdo, como é o caso de “1,3 filhos por casal”, ou “0,96 gols porpartida”.

Comentários

1. Note que “média” é um termo técnico, matemático. Devemos diferenciar o conceitoque temos, no cotidiano, da palavra “média”. Quando dizemos que uma pessoapossui estatura média, na linguagem do dia-a-dia, não-técnica, queremos dizerque ela não é alta nem baixa. Quando dizemos que um aluno “está na média”,queremos dizer que suas notas situam-se em torno de uma “nota média”, adotada

32 A. F. Beraldo

Page 43: Apostila estatística descritiva

2.1 Média

pela escola ou pelo curso que frequenta. Isto é bem diferente do conceito queacabamos de estudar.

2. A média de um conjunto nem sempre poderá ser adotada como valor característicodeste conjunto. Conjuntos muito irregulares (com valores extremos) tambémpossuem média, mas esta pode não caracterizar o conjunto. Por exemplo, se numaprova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outrametade tirou nota 7, a média será 5. No entanto:

a Nenhum aluno tirou nota 5;b Se você disser “esta é uma turma nota 5”, estará superestimando metade da

turma (a que tirou nota 3) e subestimando a outra metade (a que tirou nota7).

2.1.2 Média Aritmética PonderadaA média aritmética ponderada é aplicável quando um conjunto de valores possui

elementos que se repetem. Por exemplo, o conjunto A:

A = 1, 1, 5, 5, 5, 6, 6

No conjunto acima, o elemento 1 repete-se duas vezes, o elemento 5 repete-se trêsvezes e o elemento 6 repete-se duas vezes. Diz-se, então, que o elemento 1 tem peso 2(duas repetições), o elemento 5 tem peso 3 e o elemento 6 tem peso 2. Ao calcularmosa média do conjunto teríamos:

X =∑xi

n= 1 + 1 + 5 + 5 + 5 + 6 + 6

7 = 297 = 4, 14

Podemos simplificar as operações, fazendo

X =∑xi

n= (1× 2) + (5× 3) + (6× 2)

7 = 297 = 4, 14

Ao invés de somar 1 + 1, preferimos fazer 1 × 2; ao invés de somar 5 + 5 + 5,calculamos 5 ×3 . O mesmo com 6 + 6 substituído por 6 × 2. O resultado é o mesmo,mas o número de operações ficou reduzido - é mais prático calcular assim. No exemploacima o conjunto é pequeno (7 elementos). Em conjuntos maiores, a praticidade de

A. F. Beraldo 33

Page 44: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

utilizar-se a multiplicação dos elementos por seus pesos fica bem mais evidente. De umaforma geral, introduzimos a média aritmética ponderada XP , dada por:

XP =∑j=k

j=1 xjpj∑j=kj=1 pj

(2.2)

onde xj são os elementos repetidos do conjunto, e pj são os pesos(número de vezesem que os elementos ocorrem no conjunto). Veja o exemplo a seguir:

Seja A = 4, 4, 4, 5, 5, 7, 7, 7, 7, 3, 3, 2, 2, 2, 2, 2, 6 . Calculando a média de A, optamospor utilizar a média ponderada:

XP =∑xi × pi∑pi

= (4× 3) + (5× 2) + (7× 4) + (3× 2) + (2× 5) + (6× 1)3 + 2 + 4 + 2 + 5 + 1

= 7217 = 4, 24

Nota: as propriedades da média aritmética se aplicam igualmente à média aritméticaponderada.

2.1.3 Média GeométricaSeja um conjunto A de n valores numéricos, descrito como:

A = x1, x2, x3, · · · , xn

Define-se a sua média geométrica como:

XG = n√x1x2x3 · · ·xn (2.3)

ou seja, a média geométrica do conjunto, XG,é a raiz n-ésima do produtório doselementos xi do conjunto.

Por exemplo: seja o conjunto A = 1, 4, 5, 6, 3. Sua média geométrica é dada por

34 A. F. Beraldo

Page 45: Apostila estatística descritiva

2.1 Média

XG = n√x1.x2.x3. · · · .xn = 5

√1× 4× 5× 6× 3 = 5

√360 = 3, 245

Lembre-se que:

1. No conjunto dos Reais, R, não existe raiz par de número negativo.

2. Se você estiver utilizando calculadoras que possuem a função xy, a expressão acimapara o cálculo da média geométrica pode ser reescrita como:

XG = (x1 × x2 × x3 × · · · × xn) 1n

3. Se você estiver utilizando logaritmos, a expressão do cálculo da média geométricapassa a ser:

logXG = 1n

(log x1 + log x2 + log x3 + ...+ log xn

)

2.1.4 Média HarmônicaSeja um conjunto A de n valores numéricos, descrito como

A = x1, x2, x3, · · · , xn

Define-se sua média harmônica como:

XH = n∑i=ni=1

1xi

(2.4)

A. F. Beraldo 35

Page 46: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

Por exemplo, seja o conjunto A = 3, 4, 6, 2. Sua média harmônica XH é dada por

XH = n∑ 1xi

= 413 + 1

4 + 16 + 1

2= 4

1512

= 3, 20

Nota: Como você deve ter notado, ao analisar a fórmula de cálculo da médiaharmônica, esta não existe no campo real se:

1. Existir pelo menos um elemento do conjunto igual a zero.

2. O somatório ∑ 1xi

for igual a zero.

Nota: A partir deste ponto, iremos utilizar a notação X para as médias aritméticasSimples e Ponderadas, XG para a média geométrica e XH para a média harmônica.

Comentários

1. Aplicação das Médias Geométrica e Harmônica:

A média geométrica deve ser utilizada quando os valores do conjunto estão colo-cados em alguma forma de progressão geométrica ou quando os valores mostrama evolução exponencial de uma grandeza. É muito utilizada quando os valoresda amostra são números índices. A média geométrica é aplicada, por exemplo,no cálculo das médias de taxas: de inflação, de preços, de juros, de evoluçãode índices econômicos, etc. É bastante utilizada, também, em Demografia e emEpidemiologia.A média harmônica é aplicada em taxas ou coeficientes por quantidades fixas,como, por exemplo, nos índices utilizados em saúde pública: óbitos por 10.000habitantes, incidência de uma doença por 1.000 habitantes, etc.

2. Se um conjunto possui apenas valores positivos, temos sempre a seguinte relação:

X ≥ XG ≥ XH

Os casos de igualdade entre as médias referem-se a conjuntos com valores iguais.Para exemplificar esta relação, utilizamos o conjunto formado pelos números 1, 2, 4.

36 A. F. Beraldo

Page 47: Apostila estatística descritiva

2.1 Média

Sua média aritmética é dada por:

X =∑xi

n= 1 + 2 + 4

3 = 2, 3

A média geométrica é dada por:

XG = 3√

1× 2× 4 = 3√

8 = 2

A média harmônica é dada por:

XH = 311 +

12 +

14

= 34 + 2 + 1

4

= 31, 75 = 1, 71

3. Você pode ver que as médias Harmônicas e Geométricas não são tão afetadaspela existência de valores extremos no conjunto.

4. As médias aritméticas são diretamente afetadas pelos próprios valores do con-junto. Lembre-se que a média aritmética é o resultado de uma operação matemá-tica que envolve tanto o número de elementos do conjunto (denominador) quantoo somatório destes valores (numerador).

5. Vantagens do uso da média:

• A média é a Estatística de Tendência Central de mais fácil compreensão. Éutilizada de forma generalizada, na Estatística Descritiva e na Inferencial;• A média sempre pode ser calculada em conjuntos numéricos;• Pode ser tratada algebricamente. Por exemplo, se um conjunto muito grande

de valores é subdividido, as médias dos subconjuntos podem ser combinadas,para fornecer a média do conjunto original.

6. Desvantagens do uso da média:

• Como seu valor pode ser distorcido pela presença de elementos extremos noconjunto, há de se fazer uma verificação na distribuição destes valores, parajulgar se a média é boa ou ruim para caracterizar o conjunto.

A. F. Beraldo 37

Page 48: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

2.1.5 Propriedades da Média Aritmética

Propriedade I

Seja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA.Seja um conjunto B, definido comoB = x1 + k, x2 + k, x3 + k, · · · , xn + k = xi + kn, (sendo k uma constante) ecom média XB.A média XB será igual a XA + k.Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de umconjunto, a nova média será a média do conjunto original somada (ou diminuída)a esta constante K.

Propriedade II

Seja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA.Seja um conjunto B, definido comoA = x1 · k, x2 · k, x3 · k, · · · , xn · k = xi · kn, e com média XB.(sendo k uma constante diferente de zero)A média XB será igual a XA × k.

Propriedade III

Seja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA.Sejas as diferenças (ou desvios) di = xi − XA (diferença entre cada elemento doconjunto em relação à média). Temos que:

i=n∑i=1

di = 0

Ou seja, a soma algébrica dos valores das diferenças dos elementos em relação àmédia do conjunto é sempre nula.

38 A. F. Beraldo

Page 49: Apostila estatística descritiva

2.2 Moda

Propriedade IVSeja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA.Sejam as diferenças (ou desvios) di = xi − V (diferença de cada elemento doconjunto em relação a um valor V qualquer.Temos que ∑i=n

i=1 d2i é um mínimo quando V = XA

2.2 Moda

Definição: A moda de um conjunto de valores numéricos é o valor de maiorfrequência dentro do conjunto.

Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de umamoda, ou pode não possuir moda. Para que um conjunto possua moda, é necessárioque:

1. Existam valores repetidos no conjunto;

2. No conjunto, existam um ou mais valores que se repitam mais vezes do que osdemais.

A moda é notada por X. A frequência da moda, ou das modas, é chamadafrequência modal

(fk

).

Exemplo: Seja o conjunto A = 1, 3, 4, 5, 5, 8, 5. Sua moda X = 5, a frequênciamodal

(fk

)= 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes).

Exemplo: Seja o conjunto B = 1, 3, 4, 5, 5, 8, 4. Suas modas são X = 5 e X = 4, efrequência modal

(fk

)= 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo

2 vezes cada).

Exemplo: Seja o conjunto C = 1, 1, 4, 5, 5, 4. Este conjunto não possui moda.Apesar de haver repetição de valores, nenhum valor do conjunto repete-se maisvezes que os demais.

Exemplo: Seja o conjunto D = 1, 1, 1, 1, 1, 1. Este conjunto não possui moda.Apesar de haver repetição do valor 1, nenhum valor do conjunto repete-se mais do queos demais. Apesar disto, é óbvio que o valor 1 é o valor característico do conjunto.

A. F. Beraldo 39

Page 50: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

Comentários

1. A moda não é muito considerada pelos estatísticos uma vez que ela pode nãoocorrer ou, o que é pior, pode existir mais de uma moda na amostra. Desta forma,ficaríamos em dúvida de qual dos valores da moda usar - lembre-se que uma medidade tendência central tem que ser um valor único.

2. Muitos alunos tendem a procurar “sub-modas” na distribuição, quando há elemen-tos com frequência próxima à frequência modal. Isto não é correto. A moda teráa maior frequência dentro do conjunto.

3. Outro erro muito comum é, quando a distribuição possui duas modas, inventar-seuma “moda média”, que seria o valor médio entre as modas. Esta “moda média”não existe.

4. Mesmo que a moda possa não ser utilizada como Medida de Tendência Central (nocaso de duas ou mais modas, por exemplo), ela não perde sua utilidade. As modasfornecem indícios que existem vários pontos de concentração na amostra, o quepode caracterizar um conjunto formado por vários subconjuntos - e é assim que aamostra deve ser analisada.

5. A moda é diretamente afetada pelo número de repetições dos elementos doconjunto.

6. Vantagens da moda:

a Quando a frequência modal é alta (por exemplo, 50% do conjunto), a modapassa a ser o valor “típico” do conjunto;

b A moda não é afetada por valores extremos do conjunto;

c Ao contrário da média, se um conjunto possui moda(s), esta(s) pertence(m)necessariamente ao conjunto.

7. Desvantagens da moda

a A moda pode não existir;

b O conjunto pode ser bimodal ou polimodal

c A frequência modal é muito baixa (poucas repetições), o que torna a moda nãocaracterística do conjunto.

40 A. F. Beraldo

Page 51: Apostila estatística descritiva

2.3 Mediana

2.3 Mediana

Definição: A mediana é o valor central de um conjunto ordenado.

A mediana é notada por X.

Seja o conjunto A = 1, 4, 6, 3, 9. Para calcular sua mediana, temos que ordenar oconjunto (vide definição acima). Ordenado, o conjunto passa a ser:

A′ = 1, 3,4, 6, 9

O valor central (no “meio” do conjunto) é o elemento 4. Portanto, a mediana desteconjunto é X = 4.

Em conjuntos pequenos, de tamanho ímpar, é fácil determinar a mediana. Se oconjunto possui n elementos e n é ímpar, a mediana ocupa a posição central (n+ 1)/2.No exemplo acima, como o conjunto possui 5 elementos, a mediana está na 3a posição,pois (5 + 1)/2 = 3.

Figura 2.1: Conjunto de tamanho ímpar

No entanto, em conjuntos pequenos, de tamanho par, temos duas posições centrais:

Figura 2.2: Conjunto de tamanho par

A. F. Beraldo 41

Page 52: Apostila estatística descritiva

2. Medidas Estatísticas de Tendência Central

Neste caso, a mediana será a média dos dois valores centrais. Por exemplo, sejao conjunto B = 1, 0, 3, 5, 4, 9, 2, 1. O conjunto ordenado será:

B′ = 0, 1, 1, 2, 3, 4, 5, 9

Os valores centrais são 2 e 3. Portanto, a mediana deste conjunto é X = (2 + 3)/2 =2, 5

Comentários

1. A mediana é considerada a Medida de Tendência Central mais robusta, uma vezque não sofre a desvantagem da média de se alterar devido à presença de valoresextremos.

2. Como se vê, o valor da mediana depende apenas de sua posição. Logicamente, seo tamanho do conjunto é alterado, a mediana pode deslocar-se para cima ou parabaixo.

3. Vantagens da mediana:

a A mediana, por ser independente dos valores do conjunto, pode ser calculadamesmo para conjuntos abertos;

b Sua robustez.

4. Desvantagens da mediana:

a A mediana não é característica do conjunto se a distribuição de valores forbimodal ou polimodal (áreas de concentração diferentes);

b Se um conjunto for de tamanho par, a mediana terá que ser “inventada”, emuma posição arbitrada 1.

1Não consideremos isto uma desvantagem. Mesmo que a mediana não pertença ao conjunto, suafinalidade como medida de tendência central ou de posição não se perde. Sempre saberemos que 50%dos valores do conjunto estão abaixo da mediana, e 50% acima dela. É isso que importa.

42 A. F. Beraldo

Page 53: Apostila estatística descritiva

2.4 Ponto Médio

2.4 Ponto Médio

Definição: O ponto médio de um conjunto é a média entre o maior valor e o menorvalor do conjunto.

O ponto médio é notado por x . A expressão de cálculo é

x = Maior valor + Menor valor2 (2.5)

Por exemplo, seja o conjunto A = 3, 8, 1, 9, 4. Seu ponto médio, x, é dado por

x = Maior valor + Menor valor2 = 9 + 1

2 = 102 = 5, 0

A. F. Beraldo 43

Page 54: Apostila estatística descritiva
Page 55: Apostila estatística descritiva

3 Medidas Estatísticas de DispersãoAté aqui estudamos as Medidas de Tendência Central. Procuramos um valor único

que represente todo um conjunto numérico. Com a determinação deste valor, seja elea média, a moda ou a mediana, aumentamos ainda mais o nível de conhecimento quepossuímos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Média comoMedida de Tendência Central (por mais imperfeita que possa ser esta medida), e verificarcomo os demais elementos do conjunto se dispõem em torno da média.

Na prática, podemos obter amostras regulares, com a maioria de seus elementosconcentrados em torno da média, ou irregulares, com valores dispersos, distantesda média. Alguns conjuntos são extremamente regulares, como as medidas de peçasfabricadas em série, em indústrias com um bom controle de qualidade. Outros, aocontrário, são bastante heterogêneos como, por exemplo, as idades dos habitantes deuma cidade - temos desde recém-nascidos até pessoas de idade bem avançada.

Figura 3.1: Conjunto A

No conjunto A, os elementos da amostra se concentram de maneira quase uniforme,em torno da região central (em cinza). Existem alguns elementos, inclusive, dentro daárea cinzenta. Se imaginarmos que esta área cinzenta representa a Medida de TendênciaCentral (no caso, a média), teremos um conjunto de pouca dispersão em torno da média.

A. F. Beraldo 45

Page 56: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

Figura 3.2: Conjunto B

Ao contrário, no conjunto B, os elementos da amostra se afastam da região central,estando dispersos por todas as regiões da amostra. Uns poucos elementos se encontrampróximos a esta região central; o restante dos elementos da amostra se distribui irregu-larmente. Comparando as duas ilustrações, formamos um conceito, ainda que visual, deuma grandeza chamada dispersão.

3.1 AmplitudeAmplitude (R) é simplesmente a distância entre o maior valor e o menor valor de um

conjunto de dados. Por exemplo, a Amplitude do conjunto A = 1, 3, 5, 5, 5, 8 é iguala R = 8− 1 = 7.

Outra forma de mostrar a Amplitude de um conjunto é a que utiliza a notação dateoria dos conjuntos: [a, b] significando um intervalo fechado, sendo a o menor valor e bo maior valor. Para o exemplo acima, teremos R = [1, 8].

46 A. F. Beraldo

Page 57: Apostila estatística descritiva

3.2 Desvios e Desvio Médio

3.2 Desvios e Desvio MédioO nosso problema, agora que já temos uma ideia visual do que seja concentração

ou dispersão, é quantificar esta dispersão em torno da média. Na ilustração ao lado,mostramos uma tentativa de quantificação desta grandeza. Medimos a distância entrecada elemento da amostra e a média do conjunto. Esta distância é chamada de desviode um elemento, que notaremos por di. Assim, cada elemento da amostra poderá terseu desvio calculado em relação à média. É uma medida ainda bem primitiva, mas já éum começo.

Figura 3.3: Desvios

Exemplificando, seja o conjunto A = 0, 3, 2, 7, 8, 4. A média deste conjunto é

X =∑xi

n= 0 + 3 + 2 + 7 + 8 + 4

6 = 246 = 4, 0

Os desvios dos elementos são calculados pela fórmula:

di = xi −X (3.1)

A. F. Beraldo 47

Page 58: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

Onde di é o desvio de um elemento xi e X é a média do conjunto. Calculando osdesvios dos elementos do conjunto, temos:

Tabela 3.1: Desvios dos elementos do conjunto

xi di

0 0− 4 = −43 −12 −27 +38 +44 0Σ 0

Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorremquando os elementos são menores que a média; desvios positivos acontecem quando oselementos são maiores do que a média; desvios nulos ocorrem quando os elementos sãocoincidentes com a média. Assim, podemos ter:

di > 0 o que indica que xi > X , ou que o elemento xi está acima da média X

di = 0 o que indica que xi = X , ou que o elemento xi coincide com a média X

di < 0 o que indica que xi < X, ou que o elemento xi está abaixo da média X

Repare, também, que a soma algébrica dos desvios em relação à média éigual a zero. Esta é uma das propriedades da média, que já foi estudada, e é umamaneira de conferirmos se nossas contas estão certas.

Já temos uma ideia dos desvios dos elementos (ou de cada elemento), dentro doconjunto. Ainda assim, é pouco. Queremos ter uma ideia geral de como está a dispersão,como um todo, dentro da amostra. Uma ideia inicial é calcular a média dos desvios,ou desvio médio. Uma fórmula para o desvio médio seria

d =∑i=n

i=1 | di |n

(3.2)

A introdução da operação módulo | di | se faz necessária porque a soma algébricados desvios é sempre igual a zero. Se assim não o fizéssemos, teríamos sempre d = 0

48 A. F. Beraldo

Page 59: Apostila estatística descritiva

3.3 Variância e Desvio Padrão

Utilizando a tabela 3.2 para calcular o desvio médio, temos:

Tabela 3.2: Cálculo do desvio médioxi di |d|0 -4 43 -1 12 -2 27 +3 38 +4 44 0 0Σ 0 14

d =∑i=n

i=1 | di |n

= 146 = ±2, 33

O que quer dizer este valor? Este desvio médio, de ±2, 33, indica que os elementosda amostra se desviam, em média, de 2, 33 unidades (acima e abaixo da média). Estedesvio é em relação à média, lembre-se que pode ser tanto positivo quanto negativo. Esteé um valor médio, ou seja, sofre de todas as imperfeições desta medida: fortementeafetada por valores extremos, não se aplica a conjuntos muito irregulares, etc. Estasdesvantagens, de certa forma, distorcem aquilo que seria uma boa medida da grandezadispersão. É necessário, então, melhorar a forma de medir a dispersão dos elementosda amostra em torno da média. Existem alguns procedimentos matemáticos adotadospela Estatística, dentre os quais o mais utilizado é o cálculo de uma estatística chamadadesvio padrão.

3.3 Variância e Desvio PadrãoO desvio padrão foi adotado pela Estatística para refletir, de maneira mais realista,

mais robusta1 e mais precisa a grandeza dispersão nas amostras. O desvio padrão é oresultado de uma operação matemática chamada raiz média quadrática dos desvios.De uma forma mais prática, para calcular o desvio padrão é melhor calcular antes, outraestatística chamada variância. Por enquanto, não se preocupe com o que significa avariância, mas saiba que é uma estatística muito importante, intensamente utilizada emanálises mais avançadas em Estatística.

Definição: A variância é a média dos quadrados dos desvios em relação à média.

1Você se lembra do que é robustez, em Estatística?

A. F. Beraldo 49

Page 60: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

A variância é notada por s2 (a letra “s”, minúscula, elevada ao quadrado). A fórmulada variância é a seguinte:

s2 =∑i=n

i=1 d2i

n− 1 (3.3)

O desvio padrão é a raiz quadrada da variância. Sua fórmula, portanto, é:

s =√s2 (3.4)

Seja o conjunto do exemplo anterior, A = 0, 3, 2, 7, 8, 4. A média do conjunto,X = 4, e os desvios foram calculados, conforme a tabela 3.3.

Tabela 3.3: Desvios dos elementos do conjunto

xi di

0 −43 −12 −27 +38 +44 0Σ 0

50 A. F. Beraldo

Page 61: Apostila estatística descritiva

3.3 Variância e Desvio Padrão

Montamos mais uma coluna, à direita, para conter os valores dos quadrados dosdesvios:

Tabela 3.4: Cálculo dos quadrados dos desvios

xi di d2

0 −4 163 −1 12 −2 47 +3 98 +4 164 0 0Σ 0 46

A variância, então, será:

s2 =∑i=n

i=1 d2i

n− 1 = 465 = 9, 2

O desvio padrão será:

s =√s2 =

√9, 2 = 3, 03

Comentários

1. A dispersão dos elementos de um conjunto é uma espécie de “propriedade” dosconjuntos, assim como as figuras geométricas planas possuem área, e as figuras emtrês dimensões possuem volume.

2. Leia novamente a Propriedade IV da média aritmética. É por consequência destapropriedade que utilizamos a variância.

3. Você deve estar perguntando: por que, afinal, não utilizamos a variância, apenas,sem mais esta medida do desvio padrão? A resposta é a seguinte:

Suponha que estamos analisando as notas de uma turma, em que foram atribuídos“pontos” aos alunos, numa escala de 0 a 10. Então, podemos ter alunos com 0ponto, 1, 2 ou 3 pontos, e assim por diante, até alunos com 10 pontos.

Ao calcularmos a média das notas dos alunos, encontramos, por exemplo, o valor6,8. Isto quer dizer que a média da turma é 6,8 pontos.

A. F. Beraldo 51

Page 62: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

Ao calcularmos as Medidas de Dispersão, temos: desvios di calculados em pontos,desvio médio calculado em pontos, e a variância em pontos ao quadrado (!).Ora, esta unidade de medida, “pontos ao quadrado”, não existe! Para voltarmos àunidade original, temos que extrair a raiz quadrada da variância - que é justamenteo desvio padrão, cuja unidade é pontos... Agora, estamos sossegados.

4. A maioria dos autores faz uma distinção entre o cálculo da variância e do desviopadrão referindo-se a amostras ou aos elementos do conjunto Universo (ou popu-lação). Adotam expressões de cálculo ligeiramente diferentes para s2(variância deamostras) e para σ2 (variância de populações)2. As fórmulas são:Para amostras:

s2 =∑d2

n− 1 (3.5)

Para populações:

σ2 =∑d2

N(3.6)

Onde d2 é a expressão “quadrado do desvio”(di = xi − X), e n e N são,respectivamente, os tamanhos da amostra e da população, N >> n. O desviopadrão é calculado da mesma forma, seja para amostras, seja para populações:s =√s2 para amostras e σ =

√σ2 para populações.

Esta diferença não representa muito em termos de resultado, para n ou N

superiores a 30. Daí que utilizaremos, nesta apostila, o denominador n − 1 paraamostras de tamanho inferior a 30, e n, para amostras com tamanho maior ouigual a 30. Para populações, a mesma regra.Se aplicássemos a fórmula da variância com n, ao invés de n− 1 no denominador,os resultados seriam: s2 = 7, 67 e s = 2, 67. O erro cometido seria de 14%, paramenos, no desvio padrão. Isto ocorreu porque o tamanho do conjunto é muitopequeno, 6 elementos apenas.

2Os motivos técnicos para esta distinção serão discutidos na Apostila III, Amostragem, Inferênciade Testes

52 A. F. Beraldo

Page 63: Apostila estatística descritiva

3.4 Coeficiente de variação

Outra fórmula para o cálculo da variância pode ser deduzida da expressão queutilizamos. É a seguinte:

s2 =∑i=n

i=1 d2i

n−X2 (3.7)

Você pode utilizar qualquer uma das expressões, dependendo da sua comodidade.

3.4 Coeficiente de variaçãoO coeficiente de variação (CV) é a razão entre o desvio padrão e a média do conjunto.

Sua fórmula, portanto, é

CV = s

X(3.8)

No exemplo atual, calculamos a média X = 4, 0 e o desvio padrão S = 3, 03. Ocoeficiente de variação será dado por

CV = s

X= 3, 03

4, 0 = 0, 7575

Nota: Na prática, expressamos o valor do CV em porcentagem. O CV calculadoacima será, então, CV = 76%.

Comentários

1. As Medidas de Dispersão que estudamos analisam a disposição dos elementosamostrais em relação à média. Nas amostras, os elementos podem estar distantesda média (dispersos), ou concentrados em torno desta Estatística (caso das amos-tras homogêneas), ou mesmo esta disposição pode ser irregular, com uma parteda amostra concentrada e a outra dispersa. Novamente temos que aprofundara análise destas Estatísticas, assim como fizemos com as Medidas de TendênciaCentral.

2. A Amplitude fornece uma ideia preliminar de como está a dispersão, a grosso modo,na amostra. Se a variável estatura dos indivíduos é que está sendo medida, umaamostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma

A. F. Beraldo 53

Page 64: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

dispersão de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m]- a “faixa de valores possíveis” em A é menor do que em B. Mas este é apenas ocomeço da nossa análise.

3. Os Desvios e o Desvio Médio, como vimos, são medidas um tanto imperfeitas.Mesmo assim, é conveniente dispor os desvios dos elementos em uma tabela- os desvios muito grandes em relação à média podem indicar a existência de“outliers"3. Outlier, em Estatística, é o nome que se dá ao elemento ou elementosque se distanciam exageradamente da média, ou da regularidade do conjunto. Aexistência de outliers causa uma grande elevação das Medidas de Dispersão, comoveremos a seguir.

4. Você deve ter em mente que só o estudo de muitos conjuntos e muitas distribuiçõesde valores irá fornecer a você uma boa ideia do que é um desvio padrão “alto” ou“baixo”. Isto depende da variável em estudo. As peças de um motor fabricadoem série, por exemplo, saem da linha de montagem com as medidas praticamenteiguais, se a máquina estiver bem calibrada e lubrificada. Os desvios padrões dasmedidas “tendem” a zero, e só um exame muito minucioso irá apontar as diferenças(mínimas) existentes entre elas. Quanto maior a regularidade e qualidade dosprocessos de fabricação, menores serão os coeficientes de variação encontrados. Aregulamentação dos padrões de qualidade, as normas ISO 9000 e outras, utilizamos desvios padrões e os escores padronizados para fixar os limites de tolerância dasmedidas dos produtos industriais.

5. Com outras variáveis, principalmente as adotadas nas áreas das Ciências Econô-micas, Humanas e da Saúde, devemos estar preparados para encontrar desviospadrões tão altos que chegam a descaracterizar a média dos dados coletados. Masa Estatística possui ferramentas que solucionam estes problemas. A Apostila IIItraz algumas destas ferramentas.

6. A variância, o desvio padrão e o coeficiente de variação são utilizados em todosos casos, para medir a dispersão em relação à média. No momento, não sepreocupe com a variância - esta estatística é de extrema importância, e será objetode estudos mais adiante. Mas neste ponto concentremo-nos no desvio padrãoe no coeficiente de variação. Neste primeiro contato, normalmente o aluno nãoconsegue visualizar o que seja (ou o que é medido) pelo desvio padrão. Vamostentar esclarecer, através do exemplo seguinte:

3Outlier é uma palavra da língua inglesa, pronuncia-se “áut-laiar”. Na linguagem comum, significa“alguém que não reside na cidade onde trabalha ou estuda, ou ocupa um cargo administrativo”. Tambémé empregue para significar “parte separada do todo”. Em Estatística, há um significado diferente: valorfora da “regularidade” do conjunto.

54 A. F. Beraldo

Page 65: Apostila estatística descritiva

3.4 Coeficiente de variação

Exemplo 3.1. Imagine que estamos estudando a variável “peso”, expressa emquilos, de um conjunto de 17 pessoas. Este conjunto é o seguinte:

A1 = 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68

Então, todas as pessoas em A1 possuem 68 kg. A média do conjunto, assim comosua mediana, é igual a 68 kg. Como não há variação, o desvio padrão é igual a 0,e o coeficiente de variação é igual a 0%. O conjunto é absolutamente uniforme eregular. Vamos modificar o conjunto, alterando os 2 primeiros e os dois últimoselementos, montando o conjunto A2:

A2 = 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70

A média e a mediana continuam iguais a 68, e agora, a moda pode ser calculada,e é também igual a 68. O conjunto não é mais tão regular, dada a introduçãode elementos iguais a 66 kg e 70 kg, que possuem desvios -2 kg e +2 kg,respectivamente. O desvio padrão, que reflete estas alterações, passa a ser de1,00 kg. O CV passa a ser de 1,5 %.

Figura 3.4: Conjunto A1 e A2, respectivamente

Alteramos ainda mais o conjunto original, e montamos o conjunto A3:

A3 = 64, 64, 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70, 72, 72

As Medidas de Tendência Central (média, moda e mediana) permanecem asmesmas: 68 kg. O desvio padrão e o coeficiente de variação crescem para 2,24kg e 3,3%.

A. F. Beraldo 55

Page 66: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

Continuamos a alterar o conjunto inicial, montando os conjuntos A4, A5 e A6,conforme quadro a seguir:

Tabela 3.5: Conjuntos A

Elemento (i) A1 A2 A3 A4 A5 A61 68 66 64 62 60 582 68 66 64 64 62 623 68 68 66 64 64 624 68 68 66 66 66 665 68 68 68 66 66 666 68 68 68 66 66 667 68 68 68 68 68 688 68 68 68 68 68 689 68 68 68 68 68 6810 68 68 68 68 68 6811 68 68 68 68 68 6812 68 68 68 70 70 7013 68 68 68 70 70 7014 68 68 70 70 70 7015 68 68 70 72 72 7416 68 70 72 72 74 7417 68 70 72 74 76 78

Média 68 68 68 68 68 68Moda Não há 68 68 68 68 68

Mediana 68 68 68 68 68 68Amplitude 0 4 8 12 16 20Desviopadrão

0,00 1,00 2,24 3,16 4,00 4,80

Coef. deVariação

0,0% 1,5% 3,3% 4,7% 5,9% 7,1%

Repare que à medida em que vamos alterando os valores do conjunto, as Estatís-ticas de Tendência Central permanecem as mesmas, mas as Medidas de Dispersãoaumentam de valor.

56 A. F. Beraldo

Page 67: Apostila estatística descritiva

3.4 Coeficiente de variação

Representando graficamente estas alterações, percebemos como a regularidade doconjunto vai diminuindo a cada alteração:

Figura 3.5: Conjunto A4

Na Figura 3.5, conjunto A4, os elementos começam a se espalhar mais, o queaumenta as medidas de dispersão.

Figura 3.6: Conjunto A6

Na Figura 3.6, conjunto A6, os valores estão ainda mais dispersos. O coeficientede variação sobe para 7,1%.As alterações que fizemos no conjunto provocaram um aumento na dispersão e,consequentemente, nas suas medidas: desvio padrão e coeficiente de variação.

A. F. Beraldo 57

Page 68: Apostila estatística descritiva

3. Medidas Estatísticas de Dispersão

7. Foi dito que a existência de outliers acarreta uma grande elevação nas medidas dedispersão. Imagine que alguém tivesse cometido um erro na coleta de dados doconjunto do exemplo anterior, e que o último elemento, ao invés de ter 78 kg, foianotado como se tivesse 128 kg4. A representação do conjunto é a seguinte:

Figura 3.7: Outliers

As estatísticas passam a ser as seguintes:

Média 71Moda 68

Mediana 68Amplitude 70

Desvio padrão 15,25Coef.de Variação 21, 5%

Note que a média foi “puxada” para cima, mas a mediana permanece a mesma(lembre-se que a mediana é a Medida de Tendência Central mais robusta). Mas odesvio padrão e o coeficiente de variação triplicaram de valor.

4Na verdade, este elemento com 128 kg não é tão discrepante. Mais tarde, na parte de AnáliseExploratória de Dados, você irá aprender a identificar com maior precisão os outliers em umadistribuição.

58 A. F. Beraldo

Page 69: Apostila estatística descritiva

3.5 Propriedades da variância

3.5 Propriedades da variânciaPropriedade I

Seja um conjunto A, de valores numéricos, definido como:A = x1, x2, x3, · · · , xn = xin, e com média XA e variância S2

A

Seja um conjunto B, definido como B = x1 + k, x2 + k, x3 + k, · · · , xn + k =xi + kn, e com média XB e variância S2

B.

A variância S2B será igual à variância S2

A.

Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valoresde um conjunto, a variância do conjunto não se altera.

Propriedade II

Seja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA e variância S2

A.Seja um conjunto B, definido comoB = x1 · k, x2 · k, x3 · k, · · · , xn · k = xi · kn,(sendo k uma constante diferentede zero) e com média XB e variância S2

B.

A variância S2B será igual à variância S2

Ak2.

Assim, se multiplicarmos (ou dividirmos) por uma constante k(k 6= 0),a todos os valores de um conjunto, a nova variância será a variânciado conjunto original, multiplicada (ou dividida) pelo quadrado destaconstante (k2).

Propriedade III

Seja um conjunto A, de valores numéricos, definido comoA = x1, x2, x3, · · · , xn = xin, e com média XA e variância S2

A. Sejam um outroconjunto B = y1, y2, y3, · · · , yn cujos valores são definidos como Y = aX + b .Pelas Propriedades I e II, acima, temos que

S2B = a2S2

A

A. F. Beraldo 59

Page 70: Apostila estatística descritiva
Page 71: Apostila estatística descritiva

4 Estatística em Grandes Conjuntos:Distribuições de Frequências

Até agora, temos estudado conjuntos de tamanho pequeno, com poucos elementos.São amostras que se prestam bem à apresentação dos conceitos de Medidas de TendênciaCentral (média, moda, mediana) e de Dispersão (variância, desvio padrão, etc.). Noentanto, em muitos dos nossos trabalhos é feita a análise estatística de conjuntos bemmaiores, com 300, 400, 500 elementos - às vezes muito mais do que isso.

Grandes conjuntos são os que possuem mais de 30 elementos. Em termos práticos, adiferença está na maneira de tratar matematicamente as duas categorias. É obvio que,à medida que o conjunto aumenta de tamanho, teremos maior trabalho com os cálculose com a organização dos dados – é o que estudaremos nas páginas seguintes.

4.1 Frequências SimplesUma vez extraída a amostra de elementos do Universo, passamos a processar seus

dados, para obter as informações que descrevem esta amostra. Estas informações sãoessencialmente numéricas, ou seja, procuramos obter medidas estatísticas que irãoaumentar nosso nível de conhecimento sobre a amostra (e, em um estágio posterior, nosinformar sobre o Universo).

Suponha que estamos fazendo uma pesquisa em um bairro da cidade, procurandonos informar sobre a variável renda familiar de seus moradores. Foram entrevistadasaleatoriamente 120 pessoas, todas moradoras do bairro. As respostas foram anotadas àmedida que se entrevistavam os moradores, e os resultados (chamados dados brutos)estão a seguir (em Salários Mínimos, ou SM):

A. F. Beraldo 61

Page 72: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

8,2 3,2 4,1 5,1 5,1 5,3 9,5 11,21,2 1,1 1,7 2,8 4,3 3,5 3,5 4,05,7 7,0 7,0 5,9 6,0 7,0 8,4 8,48,2 3,4 3,2 3,2 3,4 3,8 13,7 14,221,4 15,9 5,2 5,7 6,5 7,8 7,8 7,52,0 2,2 12,6 12,7 19,3 20,7 24,2 4,44,0 3,9 3,8 6,2 6,7 6,8 6,4 6,26,3 7,8 7,7 7,4 8,3 8,0 7,2 7,39,2 10,4 10,1 9,4 12,0 11,4 11,2 12,011,6 9,9 9,1 11,0 10,6 10,6 1,6 1,13,0 2,8 1,6 2,4 1,5 4,2 4,1 3,83,9 1,7 2,4 2,0 3,3 3,3 4,1 4,215,0 14,7 13,5 8,4 11,0 16,4 16,8 16,21,5 5,5 6,3 3,3 2,7 3,4 2,0 2,02,8 3,7 5,7 5,6 4,0 3,0 2,0 4,0

Figura 4.1: Dados brutos

Os dados dispostos na figura 4.1 não apresentam qualquer organização. Ainda nãotemos ideia de qual será a média ou a moda da renda familiar na amostra, ou comoestá sua dispersão. O passo seguinte é aumentar o nível de informação sobre a amostra,dispondo os dados em ordem crescente, formando um conjunto chamado Rol:

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,71,7 2,0 2,0 2,0 2,0 2,0 2,2 2,42,4 2,7 2,8 2,8 2,8 3,0 3,0 3,23,2 3,2 3,3 3,3 3,3 3,4 3,4 3,43,5 3,5 3,7 3,8 3,8 3,8 3,9 3,94,0 4,0 4,0 4,0 4,1 4,1 4,1 4,24,2 4,3 4,4 5,1 5,1 5,2 5,3 5,55,6 5,7 5,7 5,7 5,9 6,0 6,2 6,26,3 6,3 6,4 6,5 6,7 6,8 7,0 7,07,0 7,2 7,3 7,4 7,5 7,7 7,8 7,87,8 8,0 8,2 8,2 8,3 8,4 8,4 8,49,1 9,2 9,4 9,5 9,9 10,1 10,4 10,610,6 11,0 11,0 11,2 11,2 11,4 11,6 12,012,0 12,6 12,7 13,5 13,7 14,2 14,7 15,015,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2

Figura 4.2: Rol

Agora já podemos verificar qual é o menor valor (1,1 SM) e o maior valor (24,2 SM).No entanto, mesmo colocados em ordem, no rol, os dados ainda exigem um bom esforçopara entendermos o que se passa na amostra. O nível de informação ainda está muitobaixo, e pode (e deve) ser melhorado se classificarmos estes dados, dividindo a amostra

62 A. F. Beraldo

Page 73: Apostila estatística descritiva

4.1 Frequências Simples

em faixas de renda. Numa primeira tentativa, vamos dividir os dados nas seguintesfaixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por diante, até umafaixa de 23 a 25 SM. Esta divisão é arbitrária, poderíamos ter dividido as classes de3 em 3 SM, de 5 em 5 SM, etc. Mas esta é, como dissemos, uma primeira tentativa.Começamos a montar uma tabela, em que na primeira coluna colocamos a divisão queadotamos (as faixas de renda):

Tabela 4.1: Divisão em faixas de rendaFaixas de Renda (*)

1 a 33 a 55 a 77 a 99 a 1111 a 1313 a 1515 a 1717 a 1919 a 2121 a 2323 a 25(*) em Salários Mínimos (SM)

Na tabela 4.1, estão dispostos, na primeira coluna, os intervalos que identificam asfaixas de rendas. Estes intervalos são chamados classes, e são limitados à esquerda e àdireita. Cada classe possui então dois limites: o Limite Inferior e o Limite Superior.As classes são contadas de cima para baixo: 1a classe, de 1 a 3 SM (limite inferior 1,limite superior 3); 2a classe, de 3 a 5 SM (limite inferior 3, limite superior 5), e assim pordiante, até a última classe (12a classe), de 23 a 25 SM (limite inferior 23, limite superior25). Prosseguimos, então, contando quantos elementos da amostra pertencem acada uma das faixas. Por exemplo, a primeira faixa:

Neste ponto, surge uma dúvida: e se na amostra existir um elemento com rendafamiliar exatamente igual a 3 SM? Este elemento pertence à faixa “1 a 3 SM” ou à faixa“3 a 5 SM”? Temos que adotar um critério, uma “condição de pertinência”. Este critériopode ser um dos seguintes:

1. Classes fechadas à esquerda. a classe “1 a 3” conteria todos os elementos entre 1e 3 SM, incluindo o elemento com 1 SM e excluindo o elemento com 3 SM.

A. F. Beraldo 63

Page 74: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,71,7 2,0 2,0 2,0 2,0 2,0 2,2 2,42,4 2,7 2,8 2,8 2,8 3,0 3,0 3,23,2 3,2 3,3 3,3 3,3 3,4 3,4 3,43,5 3,5 3,7 3,8 3,8 3,8 3,9 3,94,0 4,0 4,0 4,0 4,1 4,1 4,1 4,24,2 4,3 4,4 5,1 5,1 5,2 5,3 5,55,6 5,7 5,7 5,7 5,9 6,0 6,2 6,26,3 6,3 6,4 6,5 6,7 6,8 7,0 7,07,0 7,2 7,3 7,4 7,5 7,7 7,8 7,87,8 8,0 8,2 8,2 8,3 8,4 8,4 8,49,1 9,2 9,4 9,5 9,9 10,1 10,4 10,610,6 11,0 11,0 11,2 11,2 11,4 11,6 12,012,0 12,6 12,7 13,5 13,7 14,2 14,7 15,015,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2

Figura 4.3: Contagem dos elementos da primeira faixa de renda

2. Classes fechadas à direita: a classe “1 a 3” conteria todos os elementos entre 1 e3 SM, incluindo o elemento com 3 SM e excluindo o elemento com 1 SM – foi ocritério que adotamos, veja o Quadro 4.3.A notação que empregamos, para indicar se as classes são fechadas à esquerda ouà direita, é a seguinte ( a e b são os limites inferiores e superiores das classes):

a ` b Classes fechadas à esquerda: inclui todos os elementos entre a e b, excetoos elementos iguais a b.a a b Classes fechadas à direita: inclui todos os elementos entre a e b, excetoos elementos iguais a a.

A partir da adoção de um destes critérios, podemos partir para o passo seguinte,que é a contagem dos elementos pertencentes às classes. O resultado desta conta-gem é chamado de f, ou frequência simples (ou, ainda, frequência absoluta). Asfrequências das classes são colocadas na segunda coluna da tabela, que passa a sechamar Distribuição de Frequências da variável:

64 A. F. Beraldo

Page 75: Apostila estatística descritiva

4.1 Frequências Simples

Tabela 4.2: Distribuição de Frequências da Renda Familiar do Bairro X

Classes de Renda f1 —| 3 233 —| 5 285 —| 7 227 —| 9 159 —| 11 1111 —| 13 813 —| 15 515 —| 17 417 —| 19 019 —| 21 221 —| 23 123 —| 25 1

Σ 120

Note que adotamos o critério de “classes fechadas à direita”. Poderíamos teradotado outro critério, e as frequências das classes poderiam ser diferentes.

Comentários

1. Foi dito que a divisão em classes é feita por “tentativas”. E isto é verdade,nas primeiras vezes que fazemos este trabalho. À medida que se adquire certaexperiência, fica mais fácil determinar em quantas classes iremos dividir o conjuntode dados coletados, se as classes terão tamanho igual ou diferente, etc.

2. Alguns autores adotam fórmulas empíricas para determinar em quantas classesiremos dividir o conjunto de dados. O número de classes NC pode ser calculadopelas seguintes expressões:

NC = 1 + 3, 3 log nou

NC =√n

Onde “n” é o tamanho do conjunto de dados. Você pode escolher qualquer umadestas fórmulas, mas, voltando ao Comentário 1, sua experiência é que irá indicaro melhor NC. Aqui se fazem duas recomendações: não se deve dividir o rol emmenos de 5 classes. Assim, o número de classes deve ser maior ou igual a 5.Outra: procure utilizar o maior número de classes possível (sem exageros, é claro- na prática, trabalhamos com no máximo 10 a 12 classes, na maioria das vezes).

A. F. Beraldo 65

Page 76: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

3. As classes não precisam, necessariamente, possuir o mesmo tamanho. Caso sejapreciso, você pode variar os tamanhos (amplitudes) das classes, atendendo aalguma condição especial. A exigência que se faz é que o limite inferior deuma classe tem que ser igual ao limite superior da classe anterior (comuma exceção, como se verá nos exercícios resolvidos), ou seja, os intervalos declasse se dispõem de forma contínua.

4. Há algum tempo atrás, havia uma preocupação em dividir a amostra de formaa não deixar nenhuma classe com frequência igual a 0. Atualmente, não há estapreocupação, e é até recomendável que as classes tenham amplitudes iguais, nãoimportando se alguma classe não contém elementos amostrais (f = 0). De certaforma, este procedimento auxilia a entender ainda melhor a amostra.

5. O mais importante é que a tabela de Distribuição de Frequências forneça uma boaideia do que está ocorrendo na amostra, para a variável em estudo.

Recapitulando:

Um conjunto de 120 elementos, com os valores da variável Renda Familiar, medidaem salários mínimos (SM), foi dividido em classes (faixas) de renda, de amplitudes(tamanhos) iguais. Adotou-se o critério de “fechada a direita”(a a b). Contaram-sequantos elementos (quantas rendas familiares) pertenciam a cada classe, colocando-se oresultado na segunda coluna, das frequências simples (f).

Tabela 4.3: Distribuição de Frequências da Renda Familiar do Bairro X

66 A. F. Beraldo

Page 77: Apostila estatística descritiva

4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência

4.2 Frequências Relativas, o Histograma e osPolígonos de Frequência

Em Estatística, muito raramente se trabalha com as frequências simples para descrever-se a amostra. Prefere-se, e é mais cômodo, trabalhar com as chamadas frequênciasrelativas, fr, que exprimem o percentual de elementos dentro de cada classe.

Cada classe tem a sua frequência relativa, que é calculada pela fórmula:

fr = f∑f× 100 (4.1)

que pode ser escrita desta forma:

fr = f

n× 100 (4.2)

Onde n = ∑f , e n é chamado tamanho da amostra (é o número de entrevistas

que foram feitas). No exemplo da Tabela 4.3, n = 120.

A frequência relativa é expressa em percentuais, como foi dito. Por exemplo,a frequência relativa da primeira classe (1a 3) é calculada assim:

fr = f

n× 100 = 23

120 × 100 = 19, 2

O número 19,2 é lido como 19,2 porcento. Em muitos livros e artigos, princi-palmente de origem dos EUA ou da Europa, você vai encontrar a frequência relativaexpressa em decimais, e não em percentagem. Por exemplo, 19,2 (%) é escrito 0,192. Afórmula de cálculo das frequências relativas é escrita, então, como:

fr = f∑f

= f

n(4.3)

A. F. Beraldo 67

Page 78: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

Calculando as frequências relativas para todas as classes, temos:

Tabela 4.4: Distribuição de Frequências da Renda Familiar do Bairro X

Classes de Renda f fr1 —| 3 23 19,23 —| 5 28 23,35 —| 7 22 18,37 —| 9 15 12,59 —| 11 11 9,211 —| 13 8 6,713 —| 15 5 4,215 —| 17 4 3,317 —| 19 0 0,019 —| 21 2 1,721 —| 23 1 0,823 —| 25 1 0,8

Σ 120 100,0

Na prática, não se coloca o símbolo % após o valor das frequências relativas, nemas palavras explicando o que quer dizer cada coluna. A tabela da Distribuição deFrequências, como manda a norma, fica da seguinte forma:

Como se “lê” este tipo de tabela?

• Esta tabela é chamada distribuição de frequências. Na primeira coluna databela estão, obrigatoriamente, as classes: 1 a 3, 3 a 5, 5 a 7, etc. Uma classeé sempre identificada por dois números, significando um intervalo numérico. Porexemplo, a classe 1 a 3 lê-se “intervalo de 1 a 3 salários mínimos”. Os númerosque identificam a classe são chamados limite inferior e limite superior da classe.Na classe 1 a 3, o limite inferior é 1, o limite superior é 3; na classe 3 a 5, o limiteinferior é 3, e o superior é 5, e assim por diante.

• Na segunda coluna estão as frequências simples (f). Uma frequência simples é onúmero de elementos da amostra pertencente a cada classe. É o resultado de umacontagem. Assim, na classe 1a 3, temos 23 elementos; na classe 3 a 5, temos 28elementos; na classe 5 a 7, temos 22 elementos, e assim por diante.

• Na terceira coluna estão as frequências relativas (fr). Uma frequência relativaé o percentual de cada classe em relação ao total da amostra. Assim, na classe1 a 3, temos 23 elementos, que equivalem a 19, 2% da amostra; na classe 3 a 5,temos 28 elementos, que representam 23, 3% da amostra; na classe 5 a 7, temos22 elementos, que representam 18, 3% da amostra, e assim por diante.

68 A. F. Beraldo

Page 79: Apostila estatística descritiva

4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência

O nível de informação sobre a amostra aumentou bastante: agora, já sabemos comsegurança muita coisa sobre a amostra (e até tabelamos nossos dados). Sabemosqual a classe mais numerosa e a menos numerosa, e quanto cada classe representapercentualmente, sobre o total da amostra.

Podemos aumentar ainda mais o conhecimento sobre a amostra, utilizando umexcelente recurso de representação de dados: os gráficos. Um gráfico bastante utilizadopara representar distribuições de frequências é o Histograma de Frequências:

Figura 4.4: Histograma de frequências

Figura 4.5: Histograma de frequências

A. F. Beraldo 69

Page 80: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

Outro tipo de histograma muito utilizado é o Histograma de Frequências Relativas.A construção do gráfico é mesma, apenas mudando, no eixo vertical, de frequênciasabsolutas (f) para frequências relativas (fr):

Figura 4.6: Histograma de frequências relativas

Porém, um histograma mais completo apresenta dois eixos verticais: um para asfrequências simples (f), outro para as frequências relativas (fr). Veja a seguir:

Figura 4.7: Histograma de frequências absolutas e relativas

Outro tipo de gráfico também é muito utilizado para representar uma distribuição defrequências. Trata-se do Polígono de Frequências Relativas, que é traçado unindo-se

70 A. F. Beraldo

Page 81: Apostila estatística descritiva

4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência

por segmentos de reta (poligonais) os pontos médios das bases superiores dos retângulosdo Histograma:

Figura 4.8: Polígono de frequências

Ao final do processo, obtemos a poligonal fechada que é a imagem da distribuição defrequência:

Figura 4.9: Polígono de frequências relativas

A. F. Beraldo 71

Page 82: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

Costuma-se, também, traçar o Polígono de Frequências Relativas sem o Histograma,com os segmentos de reta unindo os pontos (x, y), onde x é ponto médio das classes e ya frequência relativa das classes:

Figura 4.10: Polígono de frequências relativas

72 A. F. Beraldo

Page 83: Apostila estatística descritiva

4.3 Frequências Acumuladas

4.3 Frequências AcumuladasAumentando mais o nível de informações sobre a amostra, introduzimos mais uma

estatística: a Frequência Acumulada (F). A Frequência Acumulada de uma classe é asoma das frequências absolutas, desde a primeira classe até aquela classe. Para montara coluna das Frequências Acumuladas, proceda da seguinte forma:

1. Na primeira classe, repita a frequência simples da classe:

Tabela 4.5: Distribuição de Frequências da Renda Familiar do Bairro X

2. Em seguida, faça a soma deste valor com a frequência absoluta da segunda classe:

Tabela 4.6: Distribuição de Frequências da Renda Familiar do Bairro X

A. F. Beraldo 73

Page 84: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

3. Repita a operação para as demais classes:

Tabela 4.7: Distribuição de Frequências da Renda Familiar do Bairro X

Note que a última Frequência Acumulada tem que ser igual ao tamanho da amostra.

Os valores na coluna das Frequências Acumuladas nos dão a seguinte informação: aFrequência Acumulada de uma classe é a quantidade de elementos existentes na amostra,desde o limite inferior da primeira classe até o limite superior da classe considerada.Podemos escrever desta forma:

Fk =i=k∑i=1

fi (4.4)

Ou seja, a Fk, frequência acumulada da classe k é a soma das frequências simplesdesde a primeira classe até a k-ésima classe.

74 A. F. Beraldo

Page 85: Apostila estatística descritiva

4.4 Frequências Relativas Acumuladas e a Ogiva de Galton

4.4 Frequências Relativas Acumuladas e a Ogiva deGalton

De maneira análoga à das Frequências Acumuladas, montamos a coluna das Frequên-cias Relativas Acumuladas Fr, tendo por base a coluna das Frequências Relativas:

1. Na primeira classe, repita a sua frequência relativa:

Tabela 4.8: Distribuição de Frequências da Renda Familiar do Bairro X

2. Em seguida, faça a soma deste valor com a frequência relativa da segunda classe:

Tabela 4.9: Distribuição de Frequências da Renda Familiar do Bairro X

A. F. Beraldo 75

Page 86: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

3. Repita a operação para as demais classes:

Tabela 4.10: Distribuição de Frequências da Renda Familiar do Bairro X

Note que a última Frequência Relativa Acumulada tem que ser igual a 100%.

Os valores na coluna das Frequências Relativas Acumuladas nos dão a seguinteinformação: a Frequência Relativa Acumulada de uma classe é o percentual deelementos existentes na amostra, desde o limite inferior da primeira classe até olimite superior da classe considerada. Podemos escrever desta forma:

Frk =i=k∑i=1

fri (4.5)

Ou seja, a Frk, frequência relativa acumulada da classe k é a soma das frequênciasrelativas desde a primeira classe até a k-ésima classe.

Para representar os valores destas duas estatísticas (F e Fr), utilizamos o Polígonode Frequências Acumuladas (Ogiva de Galton), que se constrói da seguinte forma:

1. Traçam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical,à esquerda, colocamos a escala para os valores de F, começando obrigatoriamentedo zero e crescendo até n (tamanho do conjunto, neste exemplo igual a 120).No segundo eixo vertical, à direita, colocamos os valores percentuais, começandotambém do 0 e crescendo até 100% - com intervalos (escala) de 10% em 10%.

76 A. F. Beraldo

Page 87: Apostila estatística descritiva

4.4 Frequências Relativas Acumuladas e a Ogiva de Galton

2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo não éobrigatório começar-se do valor zero, mas devemos colocar o sinal de “quebra deescala”, se for o caso.

Figura 4.11: Eixos cartesianos para o traçado do polígono de frequências acumuladas

3. O Polígono de Frequências Acumuladas é uma linha suave, cujo ponto deorigem é dado pelas coordenadas (x, y), sendo x o limite inferior da primeiraclasse, e y igual a zero.

Figura 4.12: Marcação do primeiro ponto do polígono de frequências acumuladas

A. F. Beraldo 77

Page 88: Apostila estatística descritiva

4. Estatística em Grandes Conjuntos: Distribuições de Frequências

4. O segundo ponto do polígono é dado por: limite superior da primeira classe,frequência acumulada da primeira classe.

Figura 4.13: Marcação de pontos no polígono de frequências acumuladas

5. Para os demais pontos, que representam os limites superiores das classes, aordenada é a frequência acumulada da classe.

Figura 4.14: Marcação de pontos no polígono de frequências acumuladas

78 A. F. Beraldo

Page 89: Apostila estatística descritiva

4.4 Frequências Relativas Acumuladas e a Ogiva de Galton

Ao terminar de marcar os pontos, trace uma linha suave unindo-os:

Figura 4.15: Polígono de frequências acumuladas (Ogiva de Galton)

A. F. Beraldo 79

Page 90: Apostila estatística descritiva
Page 91: Apostila estatística descritiva

5 Estatística em Grandes Conjuntos:Medidas de Tendência Central e Dispersão

Em Estatística, muitas vezes as amostras são bem maiores, formando conjuntos de100, 300, 600 elementos ou mais, muito mais. Neste caso, utilizamos as Distribuiçõesde Frequências, não só para o que foi explicado no Capítulo 4, mas também paracalcular as Estatísticas de Tendência Central e as demais estatísticas. Os conceitosde Tendência Central (média, moda e mediana) são os mesmos que foram apresentadospara as amostras de tamanho pequeno. Este capítulo introduz novas fórmulas, que sãoadaptações de cálculo quando o tamanho maior dos conjuntos torna difícil ou trabalhosoa utilização das fórmulas que foram estudadas no Capítulo 2.

5.1 Cálculo da Média:Vamos exemplificar o cálculo da média para grandes amostras utilizando a distri-

buição de frequências a seguir (a mesma com que estamos trabalhando no Capítulo4).

Tabela 5.1: Classes de rendaClasses de Renda f

1 —| 3 233 —| 5 285 —| 7 227 —| 9 159 —| 11 1111 —| 13 813 —| 15 515 —| 17 417 —| 19 019 —| 21 221 —| 23 123 —| 25 1∑

120

Montamos uma terceira coluna, onde estão os valores de uma estatística chamadaponto médios da classe (x). Cada classe possui o seu ponto médio, que é calculado pelafórmula :

A. F. Beraldo 81

Page 92: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

x = LI + LS

2 (5.1)

Onde x é o ponto médio da classe, LI é o limite inferior da classe e LS o limitesuperior da classe. O ponto médio, portanto, é a média dos limites das classes. Atabela passa a ter, então, mais esta coluna:

Tabela 5.2: Classes de rendaClasses de Renda f x

1 —| 3 23 23 —| 5 28 45 —| 7 22 67 —| 9 15 89 —| 11 11 1011 —| 13 8 1213 —| 15 5 1415 —| 17 4 1617 —| 19 0 1819 —| 21 2 2021 —| 23 1 2223 —| 25 1 24∑

120

O conceito de ponto médio é o seguinte: após a elaboração da distribuiçãode frequências, os dados originais da amostra são abandonados. Sabe-se quantoselementos pertencem a cada classe (frequências simples da classe), mas não se sabe maisquais eram estes elementos. O ponto médio representa toda a classe - imagina-seque a classe está concentrada em seu ponto médio, que é o valor característico daclasse. A partir disto, pode-se assumir que, no exemplo acima, todos os 23 elementos daprimeira classe são iguais a 2; todos os 28 elementos da segunda classe são iguais a 4, eassim por diante. É o mesmo que dizer que as 23 famílias da primeira classe, que temrenda entre 1 e 3 SM, tem uma renda média de 2 SM; que as 28 famílias da segundaclasse, que tem renda entre 3 e 5 SM, tem renda média de 4 SM, e assim por diante.É claro que esta é uma simplificação, um artifício de cálculo que fazemos para estimar,primeiramente, a média de cada classe, e, depois, a média de todo o conjunto.

Esta é uma das razões pelas quais se deve dividir uma amostra no maior númerode classes possível, fazendo que a amplitude das classes seja a menor possível -

82 A. F. Beraldo

Page 93: Apostila estatística descritiva

5.1 Cálculo da Média:

isto diminui o “erro” (imprecisão) em tomar toda a classe pelo seu ponto médio, que éa média dos limites.

A fórmula da média para distribuições de frequências (dados grupados) é a seguinte:

X =∑i=k

i=1 fixi

n(5.2)

Onde X é a média,fi e xi são as frequências e os pontos médios das classes e n é otamanho da amostra,(n = ∑i=n

i=1 fi) , na qual k é número de classes da distribuição defrequência.

Para obter o numerador da fórmula ∑ fi.xi ,utilizamos uma quarta coluna, na qualvão estar os resultados dos produtos frequência vezes o ponto médio das classes:

Tabela 5.3: Cálculo dos produtos Frequência × ponto médio

A. F. Beraldo 83

Page 94: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

Finalmente, calculamos a média:

X =∑i=k

i=l fixi

n= 836

120 = 6, 97 ∼= 7, 0

Comentários

Esta fórmula é a fórmula da média ponderada (veja Capítulo 2). O que se fezfoi assumir que toda uma classe está concentrada no seu ponto médio, e utilizaras frequências das classes como pesos, ou ponderações dos pontos médios. Veja asemelhança entre as duas expressões:

Xp =∑xipi∑pi

Média ponderada

X =∑fixi

n

Média para distribuições de frequência

No Histograma de Frequência da distribuição, vemos a posição da média:

Figura 5.1: Histograma de Frequências Absolutas e Relativas, mostrando a médiaaritmética da distribuição

84 A. F. Beraldo

Page 95: Apostila estatística descritiva

5.1 Cálculo da Média:

Outra fórmula para o cálculo da média utiliza as frequências relativas, ao invés dasfrequências absolutas. A expressão é :

X =i=k∑i=1

fri.xi (5.3)

Tabela 5.4: Cálculo dos produtos Frequência Relativa × ponto médio

A. F. Beraldo 85

Page 96: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

5.2 Cálculo da ModaA moda de uma distribuição de frequências pode ser calculada através de dois

métodos. Um, o método de King, que fornece uma moda “grosseira”, e outro, ométodo de Czuber, que fornece uma moda mais precisa. Ambos os métodos sereferem a uma classe modal, que é a classe de maior frequência da distribuição.Por exemplo, considere a distribuição a seguir:

Tabela 5.5: Determinação da classe modal

A classe modal é a classe 3 a 5, que é a que possui a maior frequência.

Partimos do princípio de que as distribuições de frequência que apresentam diferentesfrequências de classes possuem pelo menos uma moda e que esta moda, pelo próprioconceito da medida, deve pertencer à classe modal, isto é, deve ser um número entre olimite inferior e o limite superior da classe modal.

Pelo método de King, a moda de uma distribuição de frequências é o ponto médioda classe modal:

Xking = LIk + LSk

2 (5.4)

Onde Linfk e Lsupk são os limites inferior e superior da classe modal.

86 A. F. Beraldo

Page 97: Apostila estatística descritiva

5.2 Cálculo da Moda

Para a distribuição acima, a moda de King será:

Xking = LIk + LSk

2 = 3 + 52 = 4 (5.5)

Comentários

A moda de King é uma aproximação da moda verdadeira. É chamada, por algunsautores, de moda “grosseira”, não sendo muito utilizada. No entanto, fornece uma boaindicação do valor da moda real.

A moda, segundo o método de Czuber, é calculada através da seguinte fórmula:

X = LIk +(

DA

DA+DP

)Ampk (5.6)

Onde:

LIk é o limite inferior da classe modal;

DA diferença entre a frequência da classe modal e a frequência da classe anterior;

DP diferença entre a frequência da classe modal e a frequência da classe posterior;

Ampk amplitude da classe modal.

A. F. Beraldo 87

Page 98: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

Calculando a moda de Czuber para a distribuição dada, teremos:

Tabela 5.6: Cálculo da moda de Czuber

Aplicando na fórmula, temos:

X = LIk +(

DA

DA+DP

)Ampk = 3 +

( 55 + 6

).2 = 3, 9

Comentários

1. Deve-se ter em mente que o cálculo da moda, pelo método de Czuber, só pode seraplicado a distribuições unimodais. Assume-se que a amostra possui uma, eapenas uma moda e que esta moda pertence à classe de maior frequência.

2. No caso de nos depararmos com distribuições que aparentam possuir mais de umamoda, não aplicamos o processo de Czuber.

88 A. F. Beraldo

Page 99: Apostila estatística descritiva

5.3 Cálculo da Mediana

5.3 Cálculo da MedianaA mediana, em distribuições de frequências, é calculada pela fórmula

X = LIm +(Pos(X)− Fant

f

)Ampm (5.7)

Onde:

X é o valor da mediana.

LIm Limite inferior da classe que contém a mediana

Pos(X) Posição da mediana

Fant Frequência acumulada da classe da posição anterior à classe que contém a mediana.

Ampm Amplitude (tamanho) da classe que contém a mediana.

A posição ( Pos(X)) da mediana é calculada através da fórmula Pos(X) = n/2, naqual n é o tamanho da amostra. Em alguns livros você encontrará a seguinte fórmula,que também é válida:

Pos(X) = (n+ 1)2

A. F. Beraldo 89

Page 100: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

5.3.1 Roteiro para o cálculo da medianaSeja a distribuição de frequências com a qual estamos trabalhando:

Tabela 5.7: Cálculo da medianaClasses de Renda f

1 —| 3 233 —| 5 285 —| 7 227 —| 9 159 —| 11 1111 —| 13 813 —| 15 515 —| 17 417 —| 19 019 —| 21 221 —| 23 123 —| 25 1∑

120

1o passo O tamanho n da amostra é 120. A partir deste valor, calculamos a posiçãoda mediana:

Pos(X) = n/2 = 120/2 = 60

Note que não arredondamos os valores encontrados para as posições. As posiçõespara a mediana podem ser números inteiros (quando n é par), ou decimais (quandon é impar). Por exemplo, se n fosse igual a 121, teríamos

Pos(X) = n/2 = 121/2 = 60, 5

Não se deve arredondar este valor para 61.

90 A. F. Beraldo

Page 101: Apostila estatística descritiva

5.3 Cálculo da Mediana

2o passo Calcula-se a coluna das frequências acumuladas (F):

Tabela 5.8: Cálculo da medianaClasses de Renda f F

1 —| 3 23 233 —| 5 28 515 —| 7 22 737 —| 9 15 889 —| 11 11 9911 —| 13 8 10713 —| 15 5 11215 —| 17 4 11617 —| 19 0 11619 —| 21 2 11821 —| 23 1 11923 —| 25 1 120∑

120

3o passo Identifica-se a classe que contém a mediana. A classe que contém a mediana éaquela cuja a frequência acumulada (F) é a primeira frequência acumulada maiorou igual à posição da mediana. Neste exemplo, a primeira frequência acumulada(F) maior ou igual à posição da mediana (60,0) é F = 73.

Tabela 5.9: Cálculo da mediana

A frequência acumulada F = 73, correspondente à classe 5 a 7, é a primeira frequênciaacumulada com valor igual a superior a 60,0, que é a posição da mediana. Portanto, aclasse que contém a mediana será classe 5 a 7. Em outras palavras, a mediana terá umvalor entre 5 e 7 (valor que calcularemos a seguir).

A. F. Beraldo 91

Page 102: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

4o passo Uma vez encontrada a classe à qual pertence a mediana, podemos aplicar osdados na fórmula para encontrar o valor da mediana:

X = LIm +(Pos(X)− Fant

f

)Ampm = 5 +

(60− 5122

)2 = 5, 8

Outra maneira de calcular a mediana seria através do polígono de frequência acu-mulada. A partir do valor de 50% no eixo dos percentuais, trace uma horizontal atéencontrar a curva. Do ponto que esta horizontal encontrou a curva, trace uma retavertical até encontrar o eixo das classes. Onde esta vertical encontrar o eixo será oponto que contém o valor da mediana. Veja a figura a seguir:

Figura 5.2: Determinação gráfica da mediana

92 A. F. Beraldo

Page 103: Apostila estatística descritiva

5.3 Cálculo da Mediana

Comentários

Neste capítulo foram apresentadas fórmulas empíricas para o cálculo das Medidasde Tendência Central em distribuições de frequência. Assim, fizemos suposições a prioripara o cálculo destas medidas, uma vez que, como você deve estar lembrando, nãodispomos mais dos dados originais – e sim da distribuição de frequências.

• Para calcular a média, partimos da suposição que os valores pertencentes a cadaclasse poderiam ser substituídos pelo ponto médio x.

• Para calcular a moda, a premissa foi de que a distribuição possuía moda, e estapertencia à classe de maior frequência, chamada classe modal.

• Para calcular a mediana, a suposição foi que os valores dentro da classe da medianadistribuem-se linearmente. A fórmula do cálculo da mediana, na verdade, é umaespécie de “regra de três”.Assim, os valores que encontramos para estas medidas são valores estimados,mas que se aproximam bastante dos valores reais, pelo menos no caso da média eda mediana, como você pode conferir no quadro a seguir:

Quadro 1: Comparação entre valores estimados e reais das Medidas de Tendência CentralMedida Valor estimado Valor realMédia 6,97 6,92Mediana 5,8 5,8Moda 3,9 2,0

Para a média e a mediana, o erro foi desprezível ou nulo. Já no caso da moda, oerro foi muito grande. As fórmulas empíricas “funcionam” muito bem – têm umaprecisão muito boa – quando:√

No caso da média, quando o número de classes é grande (mais de 10 classes,p. ex.), o que acarreta intervalos de classe menores, com os pontos médiostornando-se valores característicos bem mais precisos das classes;

√No caso da mediana, quando o tamanho do conjunto é grande (mais de 100elementos, p. ex.);

√No caso da moda, quando a frequência modal (frequência da classe modal) forelevada (mais de 50%, p. ex.).

A. F. Beraldo 93

Page 104: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

5.4 Cálculo da Variância, do Desvio Padrão e doCoeficiente de Variação

O cálculo das Medidas de Dispersão para pequenos conjuntos é muito fácil, comovimos. Torna-se mais trabalhoso quando trabalhamos com amostras maiores, n > 30.Vamos continuar com a nossa planilha de cálculo, na qual estamos trabalhando desde ocálculo de Medidas de Tendência Central para grandes conjuntos (em distribuições defrequências). A distribuição de frequências com a qual estamos trabalhando é a seguinte:

Tabela 5.10: Distribuição de Frequências da Renda Familiar do Bairro X

Classes de Renda f

1 —| 3 233 —| 5 285 —| 7 227 —| 9 159 —| 11 1111 —| 13 813 —| 15 515 —| 17 417 —| 19 019 —| 21 221 —| 23 123 —| 25 1∑

120(*) em Salários Mínimos (SM)

Para pequenos conjuntos, o processo de cálculo da variância consistia em calcularos desvios di dos elementos xi dos conjuntos, para depois elevá-los ao quadrado1. Avariância foi definida como uma espécie de “média” dos quadrados dos desvios:

s2 =∑i=n

i=1 d2i

n− 1 (5.8)

Para o cálculo da variância em distribuições de frequência, assume-se que o pontomédio xi das classes representa (ou substitui) todos os valores originais da amostra,pertencentes àquela classe. Então, para a tabela 5.1, convenciona-se que a primeira

1Advertência: não prossiga no estudo deste Capítulo sem que o assunto “Dispersão em PequenosConjuntos” (Capítulo 3) esteja muito bem compreendido!

94 A. F. Beraldo

Page 105: Apostila estatística descritiva

5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação

classe, de 1 a 3 SM,contendo 23 elementos, possui todos os seus elementos iguais a 2 SM(ponto médio da classe)2.

Assim, na primeira classe teremos 23 elementos iguais a 2 SM, na segunda classeteremos 28 elementos iguais a 4 SM, na terceira classe teremos 22 elementos iguais a 6SM, e assim por diante. Dizendo de outra forma, assume-se que todos os 23 elementosda primeira classe se concentram em torno do valor 2 SM, os 28 elementos da segundaclasse se concentram no valor 4 SM, etc.

A frequência da classe é, por assim dizer, o número de repetições do ponto médio.Lembrando da definição básica de dispersão, a estatística desvio (di) passa a se referirnão mais aos elementos do conjunto, mas aos pontos médios das classes. Assim, o desviopassa a ser definido como o Desvio da Classe – distância do ponto médio da classe àmédia da distribuição de frequência:

di = xi −X (5.9)

Onde di é o Desvio da Classe, xi é o ponto médio da classe eX a média da distribuiçãode frequência. Então, os desvios dos elementos pertencentes a cada classe passam a sertantos quanto for a frequência de cada classe. Por exemplo, na primeira classe teremos23 elementos iguais a 2 SM, e 23 desvios iguais a –5 SM (di = xi −X3,di = 2− 7 = −5SM) na segunda classe teremos 28 elementos iguais a 4 SM, e 28 desvios iguais a –3 SM,na terceira classe teremos 22 elementos iguais a 6 SM, e 22 desvios iguais a –1 SM, eassim por diante.

Daí, que a fórmula da variância, para distribuições de frequência, é adaptada para

s2 =∑i=k

i=1 fid2i

n(5.10)

Onde di é o Desvio da Classe, fi é a frequência da classe e n o tamanho do conjunto4.2Esta mesma premissa é usada no cálculo da média em distribuições de frequência. Como você

deve estar lembrando, após montarmos uma distribuição de frequência para um coleção de dados, estesdados originais são abandonados e passamos a trabalhar apenas com a “imagem” da amostra, que é adistribuição de frequências.

3Lembrar que a média desta distribuição de frequências é igual a 7 SM (aprox.) – vide capítuloanterior.

4Lembrando que n =∑

fi

A. F. Beraldo 95

Page 106: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

Comentários

Note que o denominador da expressão de cálculo das variâncias é n, e nãon−1. Torna-se irrelevante, agora, uma vez que estamos trabalhando com conjuntos bemmaiores e tanto faz dividirmos o numerador, que será um número “bem grande”, por nou por n− 1.

O processo de cálculo é o seguinte:

1. Calculamos a média aritmética da distribuição de frequência, conforme descritono capítulo anterior. Vamos adotar o valor de X = 7, 0

2. Em seguida, montamos mais uma coluna, a dos desvios di:

Tabela 5.11: Cálculo da variânciaClasses de Renda f xi di

1 —| 3 23 2 −53 —| 5 28 4 −35 —| 7 22 6 −17 —| 9 15 8 19 —| 11 11 10 311 —| 13 8 12 513 —| 15 5 14 715 —| 17 4 16 917 —| 19 0 18 1119 —| 21 2 20 1321 —| 23 1 22 1523 —| 25 1 24 17∑

120

96 A. F. Beraldo

Page 107: Apostila estatística descritiva

5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação

3. A seguir, montamos a coluna dos quadrados dos desvios, d2i

Tabela 5.12: Cálculo da variânciaClasses de Renda f xi di d2

i

1 —| 3 23 2 −5 253 —| 5 28 4 −3 95 —| 7 22 6 −1 17 —| 9 15 8 1 19 —| 11 11 10 3 911 —| 13 8 12 5 2513 —| 15 5 14 7 4915 —| 17 4 16 9 8117 —| 19 0 18 11 12119 —| 21 2 20 13 16921 —| 23 1 22 15 22523 —| 25 1 24 17 289∑

120

4. Finalmente, multiplicamos os valores desta última coluna pelas frequências dasclasses(fd2

i ):

Tabela 5.13: Cálculo da variânciaClasses de Renda f xi di d2

i fd2i

1 —| 3 23 2 −5 25 5753 —| 5 28 4 −3 9 2525 —| 7 22 6 −1 1 227 —| 9 15 8 1 1 159 —| 11 11 10 3 9 9911 —| 13 8 12 5 25 20013 —| 15 5 14 7 49 24515 —| 17 4 16 9 81 32417 —| 19 0 18 11 121 019 —| 21 2 20 13 169 33821 —| 23 1 22 15 225 22523 —| 25 1 24 17 289 289∑

120 2584

Note o valor 2.584, da última célula à direita, embaixo, da tabela. Este valor éigual a ∑ fd2

i . A fórmula da variância, como vimos, é:

s2 =∑i=k

i=1 fid2i

n

A. F. Beraldo 97

Page 108: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

Já temos, portanto, o numerador da fórmula. Completando o cálculo, vem:

s2 =∑i=k

i=1 fid2i

n= 2584

120 = 21, 5

O desvio padrão é a raiz quadrada da variância:

s =√s2 (5.11)

s =√s2 =

√21, 5 = 4, 6

O coeficiente de variação é dado por

CV = s

X(5.12)

CV = s

X= 4, 6

7 = 0, 66 ou 66%

Comentários

1. Você deve ter notado que as fórmulas para o cálculo das Medidas de Dispersãomudaram muito pouco, de conjuntos pequenos para grandes conjuntos. Osconceitos são exatamente os mesmos: procuramos caracterizar a dispersão ouconcentração dos elementos amostrais em torno da média. E estas Medidas deDispersão vão nos informar sobre vários aspectos da distribuição dos elementosamostrais.

2. No cálculo da variância, o numerador da fórmula é mesmo “n”, uma vez que nãofaz sentido o substituirmos por n − 1, já que estamos trabalhando com grandesamostras, com n > 30.

3. Nos livros mais antigos, você encontrará uma série de artifícios matemáticos parao cálculo das Medidas de Tendência Central e de dispersão em distribuições de

98 A. F. Beraldo

Page 109: Apostila estatística descritiva

5.5 Exemplos Comentados

frequência. São bastante engenhosos e facilitam muito as operações, mas, atual-mente, com as planilhas de cálculo e pacotes estatísticos em microcomputadores,estes artifícios tornaram-se obsoletos. Por isso, não trataremos destes processosnesta apostila.

5.5 Exemplos Comentados

Exemplo 5.1. Vamos utilizar as seguintes distribuições de frequência para ilustrar ecomentar as Medidas de Dispersão:

DF AClasses f

0 —| 2 62 —| 4 124 —| 6 226 —| 8 358 —| 10 5010 —| 12 3512 —| 14 2214 —| 16 1216 —| 18 6∑

200

DF BClasses f

0 —| 2 12 —| 4 104 —| 6 206 —| 8 308 —| 10 7810 —| 12 3012 —| 14 2014 —| 16 1016 —| 18 1∑

200

DF CClasses f

0 —| 2 02 —| 4 34 —| 6 126 —| 8 258 —| 10 12010 —| 12 2512 —| 14 1214 —| 16 316 —| 18 0∑

200

Todas as DF’s possuem um tamanho n = 200, e média X = 9.

A análise será feita a partir dos histogramas de frequência, a seguir

Figura 5.3: Histograma da distribuição A

A distribuição A possui frequências em todas as classes. O desvio padrão é igual a3,6, e o CV é igual a 0,40, ou 40%.

A. F. Beraldo 99

Page 110: Apostila estatística descritiva

5. Estatística em Grandes Conjuntos: Medidas de Tendência Central eDispersão

Figura 5.4: Histograma da distribuição B

A distribuição B também possui frequências em todas as classes, mas note que houveum aumento na frequência da classe central, de 50 para 78, e uma consequente diminuiçãonas frequências das outras classes. O desvio padrão cai para 2,9 e o CV cai para 0,32(ou 32%).

Aumentando ainda mais a frequência da classe central, de 78 para 120, ocorre umaconcentração maior de valores nesta classe, e uma diminuição das frequências das classesmais afastadas, tanto à esquerda quanto à direita da classe central. Isto acarreta umadiminuição tanto no desvio padrão quanto no CV:

Figura 5.5: Histograma da distribuição C

O desvio padrão da distribuição C cai para 2,0, e o CV cai para 0,22.

Notar que o histograma da distribuição mostra a coluna da classe central com umadiferença cada vez maior, na altura (frequência da classe). Utilizando o polígono defrequência e colocando as três distribuições no mesmo gráfico, temos a figura seguinte:

100 A. F. Beraldo

Page 111: Apostila estatística descritiva

5.5 Exemplos Comentados

Figura 5.6: Polígonos de Frequência das distribuições A, B e C

Observar, na figura acima, que quanto maior a concentração na classe central, menoro desvio padrão e o CV.

A. F. Beraldo 101

Page 112: Apostila estatística descritiva
Page 113: Apostila estatística descritiva

6 Estatística em Grandes Conjuntos:Medidas de Posição

No decorrer dos últimos capítulos, vimos como obter informações sobre o conjunto,a partir dos dados das suas medidas. Já sabemos calcular as Medidas de TendênciaCentral (média, moda, mediana), já possuímos uma boa ideia de como está a dispersão(variância, desvio padrão , coeficiente de variação) e aprofundamos nosso conhecimentosobre grandes conjuntos, utilizando distribuições de frequências e os gráficos associados(Histograma, Polígonos de frequência simples e de frequência acumulada). Estasinformações são muito úteis quando os dados estão concentrados em torno da média,com baixos coeficientes de variação e quando a distribuição é unimodal, o que torna asMedidas de Tendência Central boas caracterizadoras da amostra.

No entanto, algumas distribuições não seguem esta configuração: são distribuiçõescujas amplitudes possuem intervalos muito extensos, o que produz médias e as outrasMedidas de Tendência Central não-características, além de fornecer elevados DesviosPadrões e Coeficientes de Variação. Nosso conhecimento, diante destes tipos de distri-buições, revela-se insatisfatório. Precisamos de mais informações sobre a amostra, parapoder tomar decisões. É o caso, por exemplo, de termos que lidar com a variável IDADEde uma população. Pesquisando esta variável de forma generalizada, em uma cidade,iremos descobrir que as idades variam desde o valor “zero ano” (os recém-nascidos), atéos 90 ou 100 anos (em alguns lugares, até bem mais que isso). Ao tabularmos os valoresdesta variável, as idades coletadas irão pertencer às classes de 0 a 10 anos, 10 a 20 anos,20 a 30 anos, e assim por diante, até uma última classe, digamos, dos 100 aos 110 anos.Em seguida, calcularíamos a média - por exemplo, 22,3 anos de idade. O que quer dizereste número? Apenas isto: a média de idade é de 22,3 anos. E mais nada. O desviopadrão e o coeficiente de variação, com certeza, iriam invalidar esta média como medidacaracterística da população. Mesmo a mediana e a moda seriam inócuas - por ter apopulação uma gama de idades que vai do 0 aos 110 anos.

Outro exemplo: a variável RENDA. Em um país como o nosso, em que a distribuiçãode renda era, em 2003, a segunda pior do mundo, falar-se de “renda média” ou de “rendamediana” não acrescenta nada ao conjunto de informações que necessitamos. No Brasil,temos casos até de “renda negativa”, e uma forte concentração de renda nas classeseconômicas mais abastadas.

A. F. Beraldo 103

Page 114: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

Para muitas outras variáveis, ocorre o mesmo problema. Variáveis tais como asestudadas em Educação Física, Economia, Ciências Sociais, Ciências Humanas, etc.,carecem que estudemos com maior profundidade o seu comportamento. Em síntese, sãovariáveis cuja evolução não é regular e existe pouca concentração de dados em tornoda média. Mais informações sobre estas variáveis podem ser obtidas com o cálculo dasSeparatrizes.

Uma Separatriz é uma estatística, ou seja, um número único, que divide umadistribuição de valores em duas partes. É como se fosse um limite, uma fronteira. Jáconhecemos uma separatriz, a mediana. A mediana é o valor que separa um conjunto devalores, dispostos em ordem crescente (ou decrescente) de forma que 50% da distribuiçãoestejam abaixo da mediana, e os outros 50% acima da mediana. Podemos dizer, então,que a mediana é o valor que divide uma distribuição de valores numéricos em duasmetades.

Existem outras separatrizes importantes para auxiliar a compreender e descrever ocomportamento de uma variável. Neste capítulo, estudaremos as separatrizes, a partirda Distribuição de Frequência da tabela 1.1 – Notas de um Concurso, a seguir:

Tabela 6.1: Notas de um concursoClasses de Notas f

0 —| 10 2110 —| 20 3620 —| 30 5030 —| 40 3040 —| 50 2850 —| 60 2660 —| 70 2070 —| 80 1780 —| 90 1290 —| 100 10

Σ 250

A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos emum concurso. Teoricamente, as notas vão de “mais de zero” até 100.

104 A. F. Beraldo

Page 115: Apostila estatística descritiva

Calculando as Medidas de Tendência Central e dispersão, temos:

Tabela 6.2: EstatísticasEstatísticaMédia 40,7

Mediana 36,0Moda 24,1

Desvio padrão 24,9CV 61%

Note que o desvio padrão de quase 25 pontos e um coeficiente de variação de 61%invalida a média como caracterizadora do conjunto. A frequência modal, em torno de20%, também é insuficiente para adotarmos a moda como valor característico. Pareceque ficamos no mesmo lugar, em termos de nível de informação sobre esta variável. OHistograma de frequência está na figura a seguir:

Figura 6.1: Histograma de Frequências das Notas do Concurso

A. F. Beraldo 105

Page 116: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

Continuando a nossa análise, observando o gráfico, verificamos que há uma região deconcentração em torno dos 25 pontos. Mas qual será o número de pontos que delimitaas 25% piores notas? E qual foi a “nota de corte” dos 10% primeiros colocados?

Todas estas informações são importantes para aumentarmos o nível de conheci-mento sobre este conjunto, e, em alguns conjuntos, informações mais significativas doque as medidas calculadas anteriormente. Estas estatísticas são as Separatrizes, cujoconceito é dado a seguir:

Uma Separatriz é um valor que divide um conjunto numérico ordenado de formacrescente, em duas partes complementares.

As Separatrizes mais utilizadas são os Quartis e os Percentis, que são definidos aseguir:

Quartis – um Quartil é um valor que divide o conjunto de valores da amostra emduas partes, sendo:

Quartil Nome Definição

Q1 Primeiro Quartil Divide os valores ordenados em duas partes: 25%da amostra está abaixo do Q1, 75% acima do Q1.

Q2 Segundo Quartil Divide os valores ordenados em duas partes: 50%da amostra está abaixo do Q2, 50% acima do Q2.

Q3 Terceiro Quartil Divide os valores ordenados em duas partes: 75%da amostra está abaixo do Q3, 25% está acima doQ3.

Veja a figura seguinte:

Figura 6.2: Quartis

106 A. F. Beraldo

Page 117: Apostila estatística descritiva

Outra separatriz muito utilizada é oPercentil. Percentis também dividem a amostraem duas partes, segundo a seguinte proporção (percentis mais utilizados):

Percentil Nome Definição

P10 DécimoPercentil

Divide os valores ordenados em duas partes: 10%da amostra está abaixo do P10,90% acima do P10.

P90 NonagésimoPercentil

Divide os valores ordenados em duas partes: 90%da amostra está abaixo do P90, 10% acima do P90.

Veja a figura abaixo:

Figura 6.3: Percentis

Por analogia, podemos definir qualquer percentil a partir do conceito:

Pn n-ésimo percentil: Divide a amostra ordenada em duas partes, n% da amostraabaixo do Pn

Comentários

Você pode entender a palavra “quartil” como “quarta parte”, assim como “percentil”como “centésima parte”. Assim, o primeiro quartil, Q1, pode ser considerado a “primeiraquarta parte”, o segundo quartil Q2, a “primeira mais a segunda quarta parte” e o Q3

como a “primeira mais a segunda mais a terceira quarta parte”. O décimo percentil P10,seria as “dez primeiras centésimas partes”, e assim por diante.

A. F. Beraldo 107

Page 118: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

As separatrizes têm uma fórmula única:

SEP = LIsep +(POS(sep)− Fant

fsep

)Ampsep (6.1)

Onde:

SEP Valor da separatriz

LIsep Limite inferior da classe que contém a separatriz

POS(sep) Posição da separatriz

Fant Frequência acumulada da classe anterior que contém a separatriz

fsep Frequência simples da classe que contém a separatriz

Ampsep Amplitude da classe que contém a separatriz

Pela fórmula acima, pode-se ver que o valor da separatriz depende da classe a quepertence, e da sua posição POS(sep). As posições das principais separatrizes são asseguintes:

Separatriz Posição

Q1 n/4

Q2 n/2

Q3 3n/4

P10 n/10

P90 9n/10

Onde n, tamanho da amostra, n = ∑f .

108 A. F. Beraldo

Page 119: Apostila estatística descritiva

6.1 Cálculo de Quartis e Percentis

6.1 Cálculo de Quartis e PercentisVamos calcular o Q1, primeiro quartil, das notas do concurso conforme a distribuição

da Tabela 6.3, que reproduzimos a seguir:

Tabela 6.3: Notas de um concurso

Classes de Notas f

0 —| 10 21

10 —| 20 36

20 —| 30 50

30 —| 40 30

40 —| 50 28

50 —| 60 26

60 —| 70 20

70 —| 80 17

80 —| 90 12

90 —| 100 10

Σ 250

O roteiro de cálculo é o seguinte:

1. Calcula-se a posição da separatriz:: a posição do Q1 é n/4, onde n é o tamanhodo conjunto (ou do total de candidatos). O valor de n é 250, donde calculamos aposição do Q1 como 250/4 = 62, 5

POS(Q1) = 62, 5

Atenção: não arredondar o valor da posição da separatriz – POS(sep).

A. F. Beraldo 109

Page 120: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

2. Montamos a coluna das Frequências acumuladas (F):

Tabela 6.4: Notas de um concurso

Classes de Notas f F

0 —| 10 21 21

10 —| 20 36 57

20 —| 30 50 107

30 —| 40 30 137

40 —| 50 28 165

50 —| 60 26 191

60 —| 70 20 211

70 —| 80 17 228

80 —| 90 12 240

90 —| 100 10 250

Σ 250

3. Na coluna das frequências acumuladas (F), localizamos a primeira frequênciaacumulada cujo valor seja maior ou igual ao da posição da separatriz:

Tabela 6.5: Notas de um concurso

110 A. F. Beraldo

Page 121: Apostila estatística descritiva

6.1 Cálculo de Quartis e Percentis

4. Localizada a classe que contém a separatriz, calculamos o seu valor, aplicando nafórmula:

SEP = LIsep +(POS(sep)− Fant

fsep

)Ampsep

Que, para o primeiro quartil, fica:

Q1 = LIQ1 +(POS(Q1)− Fant

fQ1

)AmpQ1

Em que, aplicando os valores dos termos da expressão, temos:

Q1 = 20 +(62, 5− 57

50

)10 = 21, 1

Efetuando os cálculos, obtemos Q1 = 21, 1 anos.

O mesmo procedimento pode ser aplicado para as demais separatrizes. Calculamossuas posições, sem arredondar os valores:

Separatriz Posição Cálculo da posição Posição da separatriz

Q2 n/2 250/2 = 125, 0 POS(Q2) = 125, 0

Q3 3n/4 3× 250/4 = 187, 5 POS(Q3) = 187, 5

P10 n/10 250/10 = 25, 0 POS(P10) = 25, 0

P90 9n/10 9× 250/10 = 225 POS(P90) = 225, 0

As classes que contém as separatrizes são:

Tabela 6.6: Notas de um concurso

A. F. Beraldo 111

Page 122: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

Em seguida, calculamos os valores estimados das separatrizes. Inicialmente, osquartis Q2 e Q3:

Q2 = 30 +(125− 107

30

)10 = 36, 0

Q3 = 50 +(187, 5− 165

26

)10 = 58, 6

Em seguida, os percentis P10 e P90:

P10 = 10 +(25− 21

36

)10 = 11, 1

P90 = 70 +(225− 211

17

)10 = 78, 2

Os valores das separatrizes, portanto, são os seguintes:

Separatriz Valor

Q1 21,1

Q2 36,0

Q3 58,7

P10 11,1

P90 78,2

Assim, 10% dos candidatos conseguiram até 11,1 pontos no exame; 25% dos candida-tos fizeram até 21,1 pontos; a metade dos candidatos conseguiu fazer até 36 pontos; 75%dos candidatos fizeram até 58,6 pontos, e 90% dos candidatos fizeram até 78,2 pontos.Veja a ilustração a seguir:

112 A. F. Beraldo

Page 123: Apostila estatística descritiva

6.1 Cálculo de Quartis e Percentis

Figura 6.4: Quartis e Percentis do conjunto

A. F. Beraldo 113

Page 124: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

6.2 Determinação Gráfica das SeparatrizesUtilizando o polígono de frequências acumuladas temos outra maneira de localizar a

posição e o valor de separatrizes. Veja a seguir:

No polígono de frequência acumulada a seguir, temos dois eixos verticais. O primeiro,à esquerda, contém as frequências acumuladas. O segundo eixo, à direita, é a divisãopercentual da população acumulada – o que pode ser entendido como percentis (divisãopor 100). Para se determinar o Q2, por exemplo, procura-se, no eixo da direita, o valorde 50%, que é a posição do Q2:

Figura 6.5: Determinação gráfica do Q2

A partir da marca “50%” no eixo das Fr, traçamos uma reta A que encontra a curva(a ogiva do polígono de frequências acumuladas) em P.

114 A. F. Beraldo

Page 125: Apostila estatística descritiva

6.2 Determinação Gráfica das Separatrizes

Figura 6.6: Determinação gráfica do Q2, ou “mediana”

Podemos ver que o valor determinado graficamente está bem próximo ao valorcalculado do Q2 (36,0). De forma análoga, determinamos os valores do Q1 e do Q3,a partir das posições 25% e 75%. Veja a seguir:

A. F. Beraldo 115

Page 126: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

Figura 6.7: Determinação dos quartis (Q1 e Q3)

116 A. F. Beraldo

Page 127: Apostila estatística descritiva

6.2 Determinação Gráfica das Separatrizes

Os passos foram os seguintes:

• A partir do eixo vertical à direita (Fr) e das posições percentuais das separatrizes(25% e 75%, respectivamente), traçamos linhas paralelas ao eixo horizontal dográfico;

• Estas linhas encontram a ogiva nos pontos A e B;

• A partir dos pontos A e B, traçamos outras retas verticais, até o eixo das classes(eixo horizontal). Onde estas retas encontrarem este eixo está os valores do Q1 eQ3.

A seguir, a determinação gráfica das separatrizes para os dados deste exemplo:

Figura 6.8: Separatrizes determinadas graficamente

No exemplo acima, localizamos a posição e o valor de diversas separatrizes, utilizandoo método descrito anteriormente. É claro que a precisão da determinação do valor da

A. F. Beraldo 117

Page 128: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

separatriz depende muito da acuidade do desenho e do traçado das linhas. Embora nãose consiga uma precisão absoluta, esta determinação gráfica fornece uma boa ideia dosvalores.

6.3 Determinação Gráfica de intervalosNa Ogiva de Galton encontramos outro recurso muito utilizado: a determinação

gráfica de intervalos. Por exemplo, neste conjunto que estamos estudando, qual será aquantidade de candidatos que obteve notas abaixo de 45? E o número de candidatoscom notas acima de 85? Veja a seguir como determinar estes valores:

Para determinar o número de candidatos com notas abaixo de 45: no eixo horizontaldo gráfico, a partir do valor 45, trace uma reta vertical até encontrar a curva:

Figura 6.9: Determinação Gráfica de intervalos

118 A. F. Beraldo

Page 129: Apostila estatística descritiva

6.3 Determinação Gráfica de intervalos

Em seguida, pelo ponto P, trace uma reta paralela ao eixo horizontal:

Figura 6.10: Determinação Gráfica de intervalos

Os valores encontrados são, aproximadamente, 148 candidatos, equivalentes a apro-ximadamente 59% do total.

A. F. Beraldo 119

Page 130: Apostila estatística descritiva

6. Estatística em Grandes Conjuntos: Medidas de Posição

E quantos candidatos tiraram notas acima de 85? Primeiro, utilizando o mesmométodo, encontre o número de candidatos com notas abaixo de 85:

Figura 6.11: Determinação Gráfica de intervalos

São, aproximadamente, 235 candidatos, cerca de 94% do total. Então, o número decandidatos com notas acima de 85 é igual a 250-235, ou seja, 15 candidatos.

120 A. F. Beraldo

Page 131: Apostila estatística descritiva

7 Estatística em Grandes Conjuntos:Medidas de Assimetria e Curtose

7.1 Simetria e AssimetriaAs Distribuições de Frequências podem ser analisadas também em relação à sua

simetria, que pode ser entendida como a comparação da densidade de frequência entreas duas partes, quando dividimos a distribuição pela média. Seja, por exemplo, adistribuição a seguir:

Tabela 7.1: Distribuição de Frequências

Classes f

00 —| 10 12

10 —| 20 18

20 —| 30 25

30 —| 40 15

40 —| 50 8

50 —| 60 5

60 —| 70 3

70 —| 80 2

Σ 88

A. F. Beraldo 121

Page 132: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

O Histograma de frequência correspondente é o seguinte:

Figura 7.1: Histograma

A média da distribuição é X = 28. Se dividirmos a distribuição em duas partes, aprimeira abaixo da média e a segunda acima da média, podemos considerar a distribuiçãodesta forma:

Tabela 7.2: Notas de um concurso

Temos, portanto, uma densidade de frequência maior na parte anterior à média.Ditos de outra forma existem mais elementos, na amostra, com valores inferioresà média. Veja a figura a seguir:

122 A. F. Beraldo

Page 133: Apostila estatística descritiva

7.1 Simetria e Assimetria

Figura 7.2: Histograma

Nesta situação diz-se que a distribuição é assimétrica positiva (mais elementosamostrais inferiores à média). Numa situação oposta, com mais elementos amostraissuperiores à média, diremos que a distribuição é assimétrica negativa. Podemos teruma situação de equilíbrio, com o mesmo número de elementos amostrais acima e abaixoda média: é um caso de simetria.

A. F. Beraldo 123

Page 134: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

Comentários

Figura 7.3: Histograma de distribuição simétrica

Você pode fazer uma analogia entre a assimetria de uma distribuição e o equilíbrioou desequilíbrio das densidades de freqüência representadas pelas barras do histogramada distribuição. Na figura 7.3, acima, temos uma distribuição simétrica, que equilibra-se perfeitamente sobre um balanço, sem pender para nenhum dos lados. As massas sedistribuem igualmente nos lados direito e esquerdo do histograma, simétricas em relaçãoà média.

Figura 7.4: Histograma de distribuição assimétrica positiva

Na figura 7.4, temos uma distribuição assimétrica positiva. O histograma “pesa”mais do lado esquerdo do balanço, e causa um desequilíbrio, representado pela seta.

124 A. F. Beraldo

Page 135: Apostila estatística descritiva

7.1 Simetria e Assimetria

Figura 7.5: Histograma de distribuição assimétrica negativa

Ocorre o contrário, na 7.5. As massas estão mais “pesadas” na direita do histograma,e o desequilíbrio é indicado pela seta. Temos então uma distribuição assimétricanegativa.

Na prática, para sabermos a assimetria da distribuição, verificamos o sinal da seguintediferença:

Sinal(Assimetria) = X − X (7.1)

As situações que podemos encontrar são as seguintes:

X − X > 0 Média maior que a mediana Assimetria positiva

X − X = 0 Média igual à mediana Simetria

X − X < 0 Média menor que a mediana Assimetria negativa

As situações são ilustradas nas figuras a seguir (utilizamos os pontos médios dasclasses para a construção dos polígonos de frequência):

A. F. Beraldo 125

Page 136: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

Figura 7.6: Assimetria Positiva (média maior que mediana)

Figura 7.7: Assimetria Negativa (média menor que mediana)

Figura 7.8: Simetria (média igual à mediana)

126 A. F. Beraldo

Page 137: Apostila estatística descritiva

7.1 Simetria e Assimetria

No caso de simetria, há uma coincidência entre média, moda e mediana. Paradistribuições unimodais, fortemente assimétricas, temos as seguintes relações entre asMedidas de Tendência Central:

Figura 7.9: Distribuição assimétrica positiva: X < X < X

Figura 7.10: Distribuição assimétrica negativa: X > X > X

A. F. Beraldo 127

Page 138: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

7.2 Medidas de AssimetriaA assimetria de uma distribuição pode ser medida, através de uma estatística cha-

mada coeficiente de assimetria, CA. Existem várias fórmulas para o seu cálculo. Naque adotaremos nesta apostila, o CA é chamado segundo coeficiente de assimetriade Pearson, e a fórmula é a seguinte:

CA =3(X − X

)s

(7.2)

O resultado é adimensional e assume o valor zero quando a distribuição é simétrica(X = X).Esta fórmula permite comparar duas distribuições, verificando qual é maisassimétrica. O CA apresenta, mais comumente, valores entre ±1. Valores máximos são:

−3 ≤ CA ≤ 3

Outra fórmula para calcular a assimetria de uma distribuição é dada por:

α3 = m3

s3 =∑n

1

(xi −X

)3(n− 1

)s3

(7.3)

Onde α3 (alfa-três) é o coeficiente de assimetria, m3 é o Momento Centrado na médiade terceira ordem e s3 é o cubo do desvio padrão. Não se preocupe, por enquanto, com oque seja este “momento de 3a ordem” - momentos são explicados na apostila EstatísticaVI - Tópicos Especiais em Estatística.

128 A. F. Beraldo

Page 139: Apostila estatística descritiva

7.2 Medidas de Assimetria

Exemplo 7.1.

Classes f0 —| 2 32 —| 4 74 —| 6 126 —| 8 178 —| 10 2710 —| 12 2412 —| 14 20

110

Figura 7.11: Histograma

Média = X =∑

fxi

n= 970

110 = 8, 82 ∼= 8, 8

Mediana = ?

Pos(X)

= n2 = 110

2 = 55

Classe da mediana => 8 |– 10

A. F. Beraldo 129

Page 140: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

X = LIX

+Pos

(X)− Fantf

AmpX

= 8 +(55− 39

27

)× 2

= 8 +(16

27

)(2) = 8 + 1, 185 = 9, 185 ∼= 9, 2

Cálculo do desvio padrão

Classes f x d d2 fd2

0 —| 2 3 1 −7, 8 61,1 183,42 —| 4 7 3 −5, 8 33,9 237,04 —| 6 12 5 −3, 8 14,6 174,96 —| 8 17 7 −1, 8 3,3 56,28 —| 10 27 9 0,2 0,0 0,910 —| 12 24 11 2,2 4,8 114,212 —| 14 20 13 4,2 17,5 349,8

110 1116,4s2 = 10, 1s = 3, 2

CV = 36, 1%

Cálculo do Coeficiente de Assimetria

CA =3(X − X

)S

=3(8, 8− 9, 2

)3, 2 =

3(− 0, 4

)3, 2 = −0, 375

130 A. F. Beraldo

Page 141: Apostila estatística descritiva

7.2 Medidas de Assimetria

Exemplo 7.2.

Classes f0 —| 2 32 —| 4 54 —| 6 96 —| 8 178 —| 10 2010 —| 12 2412 —| 14 32

110

Figura 7.12: Histograma

Média = X =∑

fxi

n= 1042

110 = 9, 473 ∼= 9, 5

Mediana = ?

Pos(X)

= n2 = 110

2 = 55

Classe da mediana => 10 |– 12

A. F. Beraldo 131

Page 142: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

X = LIX

+Pos

(X)− Fant

f

AmpX

= 10 +(55− 54

24

)× 2

= 10 +( 1

24

)(2) = 10 + 0, 083 = 10, 083 ∼= 10, 1

Cálculo do desvio padrão

Classes f x d d2 fd2

0 —| 2 3 1 −8, 5 71,8 215,42 —| 4 5 3 −6, 5 41,9 209,54 —| 6 9 5 −4, 5 20,0 180,06 —| 8 17 7 −2, 5 6,1 103,98 —| 10 20 9 −0, 5 0,2 4,510 —| 12 24 11 1,5 2,3 56,012 —| 14 32 13 3,5 12,4 398,1

110 1167,4s2 = 10, 6s = 3, 3

CV = 34, 4%

Cálculo do Coeficiente de Assimetria

CA =3(X − X

)S

=3(9, 5− 10, 1

)3, 3 =

3(− 0, 6

)3, 3 = −0, 545

Concluímos, portanto, que sendo as duas distribuições assimétricas negativas, a DF8.2 é mais assimétrica do que a DF 8.1.

132 A. F. Beraldo

Page 143: Apostila estatística descritiva

7.2 Medidas de Assimetria

Exemplo 7.3.

Classes F0 —| 2 62 —| 4 164 —| 6 206 —| 8 268 —| 10 2010 —| 12 1612 —| 14 6

110

Figura 7.13: Histograma

Pelo próprio formato do histograma, podemos perceber a simetria do conjunto. Defato, calculando as medidas média e mediana, temos:

Média = X =∑

fxi

n= 770

110 = 7, 0

Mediana = ?

Pos(X)

= n2 = 110

2 = 55

Classe da mediana => 6 |– 8

A. F. Beraldo 133

Page 144: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

X = LIX

+Pos

(X)− Fant

f

AmpX

= 6 +(55− 42

26

)× 2

= 6 +(13

26

)(2) = 6 + 1, 0 = 7, 0

CA =3(X − X

)S

=3(7, 0− 7, 0

)s

=3(0)

s= 0, 0

O que confirma nossa percepção.

Exemplo 7.4.

Classes f0 —| 2 252 —| 4 204 —| 6 186 —| 8 168 —| 10 1510 —| 12 1012 —| 14 6

110

Figura 7.14: Histograma

134 A. F. Beraldo

Page 145: Apostila estatística descritiva

7.3 Curtose

Média =X =∑

fxi

n= 610

110 = 5, 545 ∼= 5, 5

Mediana = ?

Pos(X)

= n2 = 110

2 = 55

Classe da mediana => 4 |– 6

X = LIX

+Pos

(X)− Fant

f

AmpX

= 4 +(55− 45

18

)× 2

= 4 +(10

18

)(2) = 4 + 1, 1111 = 5, 1111 ∼= 5, 1

Cálculo das Medidas de Dispersão:

Classes f x d d2 fd2

0 —| 2 25 1 −4, 5 20,7 516,52 —| 4 20 3 −2, 5 6,5 129,64 —| 6 18 5 −0, 5 0,3 5,46 —| 8 16 7 1, 5 2,1 33,98 —| 10 15 9 3, 5 11,9 179,010 —| 12 10 11 5,5 29,8 297,512 —| 14 6 13 7,5 55,6 333,4

110 1495,3s2 = 13, 6s = 3, 7

CV = 66, 5%

Cálculo do coeficiente de assimetria

CA =3(X − X

)S

=3(5, 5− 5, 1

)3, 7 =

3(0, 4

)3, 7 = 0, 32

7.3 CurtoseCurtose é o mesmo que “achatamento” de uma distribuição, representada pelo seu

polígono de Frequência. As distribuições, quanto à Curtose, podem ser leptocúrticas,mesocúrticas ou platicúrticas, como se vê na figura a seguir:

A. F. Beraldo 135

Page 146: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

Figura 7.15: Curtose

Como se pode ver na figura acima, dos polígonos de Frequência que representamtrês distribuições, a mais achatada é a platicúrtica (do grego platys, largo, achatado). Amenos achatada, ou mais pontiaguda é a leptocúrtica (do grego leptos, fino, delgado).Entre as duas, a distribuição mesocúrtica.

A Curtose de uma distribuição também pode ser medida, através da estatísticaCoeficiente de Curtose, CC. Uma de suas fórmulas é a empírica

CC = Q3 −Q1

2(P90 − P10

) (7.4)

Onde Q3 e Q1 são quartis e P90 e P10 são percentis. O CC também é adimensional,sendo que o valor de CC = 0,263 identifica uma distribuição mesocúrtica. Valoresde CC menores que 0,263 identificam distribuições leptocúrticas; valores de CCmaiores que 0,263 identificam distribuições platicúrticas.

Uma fórmula mais sofisticada para o cálculo do Coeficiente de Curtose de umadistribuição é dada por:

α4 = m4

s4 =∑n

1

(xi −X

)4(n− 1

)s4

(7.5)

136 A. F. Beraldo

Page 147: Apostila estatística descritiva

7.3 Curtose

Onde α4 (alfa-quatro) é o Coeficiente de Curtose, m4 é o Momento de Quarta Ordeme s4 é o desvio padrão, elevado à quarta potência. Como já foi dito, os momentos serãoexplicados na apostila Estatística VI. Veja os exemplos a seguir:

Exemplo 7.5.

Sejam as três distribuições de Frequência a seguir, calculadas sobre os conjuntos A, B eC:

Classes fA fB fC

0 —| 2 12 5 12 —| 4 20 18 34 —| 6 25 28 126 —| 8 31 43 1138 —| 10 25 28 1210 —| 12 20 18 312 —| 14 12 5 1

Σ 145 145 145

A. F. Beraldo 137

Page 148: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

Os polígonos de Frequência das distribuições são os seguintes:

Figura 7.16: Polígonos de frequência

As posições das separatrizes são:

Separatriz Posição Posição

P10 Pos(P10) = n10 14,5

Q1 Pos(Q1) = n4 36,25

Q3 Pos(Q3) = 3n4 108,75

P90 Pos(P90) = 9n10 130,5

Montando as colunas das Frequências acumuladas:

Classes fA FA fB FB fC FC

0 —| 2 12 12 5 5 1 12 —| 4 20 32 18 23 3 44 —| 6 25 57 28 51 12 166 —| 8 31 88 43 94 113 1298 —| 10 25 113 28 122 12 14110 —| 12 20 133 18 140 3 14412 —| 14 12 145 5 145 1 145

Σ 145 145 145

138 A. F. Beraldo

Page 149: Apostila estatística descritiva

7.3 Curtose

Cálculo das Separatrizes:

Conjunto A

P10 = 2 +(14, 5− 12

20

)× 2 = 2, 25

Q1 = 4 +(36, 25− 32

25

)× 2 = 4, 34

Q3 = 8 +(108, 75− 88

25

)× 2 = 9, 66

P90 = 10 +(130, 5− 113

20

)× 2 = 11, 75

Conjunto B

P10 = 2 +(14, 5− 5

18

)× 2 = 3, 1

Q1 = 4 +(36, 25− 23

28

)× 2 = 4, 95

Q3 = 8 +(108, 75− 94

28

)× 2 = 9, 05

P90 = 10 +(130, 5− 122

18

)× 2 = 10, 9

Conjunto C

P10 = 4 +(14, 5− 4

12

)× 2 = 5, 75

Q1 = 6 +(36, 25− 16

113

)× 2 = 6, 4

Q3 = 6 +(108, 75− 16

113

)× 2 = 7, 6

A. F. Beraldo 139

Page 150: Apostila estatística descritiva

7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose

P90 = 8 +(130, 5− 129

12

)× 2 = 8, 25

Coeficientes de Curtose

Conjunto A

CC = Q3 −Q1

2(P90 − P10) = 9, 66− 4, 342(11, 75− 2, 25) = 0, 28 Platicúrtica

Conjunto B

CC = Q3 −Q1

2(P90 − P10) = 9, 05− 4, 952(10, 9− 3, 1) = 0, 263 Mesocúrtica

Conjunto C

CC = Q3 −Q1

2(P90 − P10) = 7, 6− 6, 42(8, 25− 5, 75) = 0, 24 Leptocúrtica

140 A. F. Beraldo

Page 151: Apostila estatística descritiva

8 Introdução à Análise Exploratória deDados

8.1 Fundamentos da Análise ExploratóriaA Análise Exploratória de Dados é um conjunto de técnicas estatísticas de descrição

de conjuntos e teste de hipóteses1,elaborada, entre outros, por John Tukey, em 1977 -daí a associação que se faz com seu nome e esta parte da Estatística. A EstatísticaDescritiva, ao lidar com os elementos amostrais, procura separar a amostra em faixas,ou classes, e contar os valores que se encontram em cada classe, montando as tabelasde Distribuição de Frequências como foi estudado nos Capítulos 4 a 7. A partir daelaboração desta tabela, os dados amostrais originais são “abandonados”, e passamos aestudar a amostra a partir de sua “imagem organizada”, a Distribuição de Frequências.Esta técnica, apesar de bastante cômoda e eficiente, de alguma forma deixa escaparinformações importantes que, numa análise mais aprofundada, deveriam auxiliar emnossas conclusões. A proposta de Tukey, de larga utilização na atualidade, supre estasdeficiências. A Análise Exploratória de Dados, na parte da descrição de conjuntos, temas seguintes características:

1. Os dados amostrais coletados não são abandonados, mas sim dispostos em umanova forma de organização, chamada Diagrama Ramo-Folha. Este diagramaoferece muitas vantagens, como:

a Cálculo preciso das modas, medianas e Medidas de Posição reais, sem necessitarde fórmulas empíricas;

b Visualização imediata do histograma de Frequências da distribuição, apreen-dendo mais rapidamente as situações de Assimetria e Curtose;

c Maior clareza na redistribuição de dados nos intervalos de classes.

2. Há uma ênfase na apresentação visual das informações, com a utilização do Box-Plot2.

1Veja a apostila Estatística III2Utilizamos aqui a palavra na língua inglesa, uma vez que sua tradução para “Gráfico-Caixa”,

infelizmente, não conseguiu entrar para o jargão técnico da Estatística em nosso país.

A. F. Beraldo 141

Page 152: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

3. O enfoque é sobre a mediana e as Medidas de Posição (quartis e percentis), emdetrimento da média, como Medidas de Tendência Central.

4. Como Medidas de Dispersão, utilizamos mais a distância entre quartis, e outras,que serão definidas neste capítulo, ao invés da variância e do desvio padrão.

É claro que não deve deixar de lado as técnicas tradicionais da Estatística Descritiva,que continuam valiosas e indispensáveis para o entendimento do conjunto, principal-mente se este for de tamanho muito grande, com centenas e centenas de elementos.Consideramos a Análise Exploratória um formidável avanço na Estatística, e você deveestar preparado para se valer de todas as técnicas que puder dominar. Estudamos estanova técnica através do exemplo seguinte:

Para estudar a distribuição de idades dos moradores de um bairro, foi feita umaamostragem aleatória de 100 pessoas, e os resultados estão neste rol:

Figura 8.1: Rol

142 A. F. Beraldo

Page 153: Apostila estatística descritiva

8.1 Fundamentos da Análise Exploratória

Se fôssemos tratar esta coleção de dados com técnicas da Estatística Descritiva,iríamos dividir a amostra em classes, estabelecer os critérios de inclusão, computar asocorrências e montar a tabela da distribuição de Frequências. Não é o que se faz naAnálise Exploratória. Aqui, o processo é o seguinte:

1. Verifica-se o tipo de números da distribuição: se são valores discretos ou contínuos,se são expressos em dezenas, centenas ou milhares, se há decimais, etc. No nossoexemplo, são variáveis quantitativas não-contínuas, ou discretas (idade daspessoas), podendo ser tratadas como dezenas: dezena 01, dezena 34, dezena 86,etc.; .

2. Identificamos o menor e o maior valor da distribuição. No exemplo, a menor idadeencontrada foi 1, a maior foi 94.

3. A partir dessas considerações, montamos a seguinte “tabela”:

Figura 8.2: Diagrama Ramo-Folha

Estes valores 0, 10, 20, etc. significam o seguinte: na linha “0”, colocaremos asidades que vão de 0 a 9 anos; na linha “10”, colocaremos as idades de 10 a 19, eassim por diante. Este é a construção de um Diagrama Ramo-Folha, e estesvalores 0, 10, 20, etc., são os Ramos.

A. F. Beraldo 143

Page 154: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

4. Nas linhas dos ramos, colocaremos as idades constantes da amostra - não aFrequência, mas o próprio valor do conjunto, da seguinte forma: ao encontrarmosna amostra a idade 45, iremos escrever o valor 5 no ramo 40, uma vez que 45é igual a 40+5. Se encontramos a idade 18, escrevemos no ramo 10 o valor 8(18 = 10 + 8), e assim por diante. Estes valores são chamados de folhas, estandoligados aos “ramos”. O diagrama Ramo-Folha fica desta maneira:

Figura 8.3: Diagrama Ramo-Folha

Os dados dispostos no Diagrama Ramo-Folha são dados reais, os mesmos exis-tentes na amostra. Não há a necessidade de cálculo do ponto médio, nem de suporuma linearidade dos dados dentro das classes. Outra vantagem do diagrama é,como dissemos, a visualização imediata do histograma, cujas colunas são formadaspelas “folhas”. Veja a figura a seguir:

Figura 8.4: Diagrama Ramo-Folha

Na Análise Exploratória de Dados não há preocupação com médias ou com asMedidas de Dispersão em torno da média, como a variância e o desvio padrão. Asmedidas mais importantes são as medidas de posição - os quartis, que serãocalculadas a seguir.

144 A. F. Beraldo

Page 155: Apostila estatística descritiva

8.2 Determinação dos Quartis:

8.2 Determinação dos Quartis:Os quartis não são calculados, isto é, não há uma fórmula empírica para seu cálculo,

como foi feito no Capítulo 7. Os quartis são localizados no diagrama ramo-folha, apartir da suas posições, que são dadas pelas expressões:

Quartil Posição

Primeiro Quartil POS(Q1) = n+14

Segundo Quartil POS(Q2) = n+12

Terceiro Quartil POS(Q3) =3(

n+1)

4

Nas fórmulas acima, n é o tamnho do conjunto. No exemplo que estamos estudando,as posições serão:

Primeiro Quartil:

POS(Q1) =

(n+ 1

)4 = 101

4 = 25, 25

Segundo Quartil:POS(Q2) = n+ 1

2 = 1012 = 50, 5

Terceiro Quartil:

POS(Q3) =3(n+ 1

)4 = 303

4 = 75, 75

As posições são fracionárias. Isto indica que tanto o Q1 quanto o Q2 e o Q3 serãoas médias dos valores amostrais ocupando os postos anterior e posterior aos postoscalculados3. Veja a figura a seguir:

3Notar a preocupação no cálculo de valores reais. Define-se exatamente a posição do primeiroquartil como a metade da distância entre a posição do primeiro elemento amostral (1o) e a posição damediana que, por definição, ocupa a posição central do conjunto ordenado. Da mesma forma, a posiçãodo terceiro quartil é a metade da distância entre a posição da mediana e a posição do último elementoamostral.

A. F. Beraldo 145

Page 156: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

Figura 8.5: Quartis

Calculando a média dos valores, temos:

Q1 = 17 + 172 = 17, 0

Q2 = 31 + 322 = 31, 5

Q3 = 50 + 502 = 50, 0

Portanto, os valores das separatrizes são:

Q1 = 17, 0

Q2 = X = 31, 5

Q3 = 50, 0

Estes valores serão necessários para a construção do Box-Plot, um gráfico específicopara este tipo de análise.

146 A. F. Beraldo

Page 157: Apostila estatística descritiva

8.2 Determinação dos Quartis:

Comentários

1. Você pode entender melhor o cálculo das Separatrizes se visualizar a distribuiçãodesta forma: Imagine que os valores deste exemplo estejam colocados em ordemcrescente:

Figura 8.6: Postos

A mediana, tal como foi calculada, ocupa o 50,5o lugar, e tem o valor de 31,5. Tantoesta posição quanto este valor da mediana “não existem”, isto é são arbitrados emfunção da definição da mediana - valor que ocupa a posição central de um conjuntoordenado. A mediana, portanto, divide o conjunto em dois subconjuntos, cada umcom 50 elementos:

Figura 8.7: Postos

Se você imaginar que o Q1 seja uma espécie de “mediana” do subconjunto devalores abaixo da mediana, e que o Q3 seja a “mediana” do subconjunto de valoresacima da mediana, as posições do Q1 e do Q3 são facilmente deduzidas:

Para o Q1, temos: POS(Q1) =

(n+1

)2 = 50+1

2 = 25, 5 , ou seja, a posição doQ1 é também arbitrada, é a média dos valores que ocupam o 25o e o 26o lugar:Q1 = 17+17

2 = 17.De forma análoga, encontramos a POS(Q3), igual a 75,5. E o seu valor, Q3 = 50.

2. Pelo raciocínio acima, você pode deduzir que:Quando o conjunto possui um tamanho n par, as posições da mediana, do Q1 e doQ2 são arbitradas.

A. F. Beraldo 147

Page 158: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

Quando o tamanho n for ímpar, a posição mediana é “real” (e não arbitrada), umavez que n+1

2 é inteiro e par, se n é ímpar. Da mesma forma, as posições dos quartisserão “reais”.

8.3 Cálculo das Cercas e o Box-PlotPara completar a descrição do conjunto, e para o desenho do Box-Plot, precisaremos

calcular mais algumas medidas estatísticas

AIQ: Amplitude interquartílica (Distância entre quartis) = Q3 −Q1

CEI: Cerca externa inferior = Q1 − 3AIQ

CII: Cerca interna inferior = Q1 − 1, 5AIQ

CIS: Cerca interna superior = Q3 + 1, 5AIQ

CES: Cerca externa superior = Q3 + 3AIQ

No exemplo que estudamos, temos:

AIQ = 50,0 - 17,0 = 33,0 anos

CII = 17 - 1,5x33 = -32,5, ou seja, 0 (já que não existe idade negativa)

CEI = 17 - 3x33 = -82, ou seja, 0.

CIS = 50 + 1,5x33 = 99,5 anos

CES = 50 + 3x33 = 149 anos

Precisaremos, também, das seguintes medidas:

VAI: Valor adjacente inferior : é o menor valor do conjunto, que ainda é maiorou igual à CII = 1 ano

VAS: Valor adjacente superior: é o maior valor da amostra, que ainda é menorou igual à CIS = 94 anos

Verificamos se há valores discrepantes. Estes são os valores amostrais queestão entre as cercas. No exemplo estudado, não há valores discrepantes.

148 A. F. Beraldo

Page 159: Apostila estatística descritiva

8.3 Cálculo das Cercas e o Box-Plot

Verificamos se há valores mais que discrepantes (outliers): são os valoresamostrais abaixo da CEI ou acima da CES. Em nosso exemplo não há valoresmais que discrepantes. (Veja exemplo comentado)

Calculados estes valores, traçamos o box-plot, que tem o seguinte aspecto:

Figura 8.8: Box-Plot

A “caixa” é limitada pelo Q1 e pelo Q3. A linha dentro caixa é a mediana (Q2). Ostraços, superior e inferior, são ligados à caixa por uma linha vertical - estes traços são asmarcas dos valores adjacentes (VAI e VAS). Se houvessem valores discrepantes oumais que discrepantes, seriam representados individualmente por pontos acima e abaixodas marcas de valores adjacentes (veja o exemplo 8.1).

Com estas medidas, conseguimos descrever a disposição dos dados da amostra. Atendência central é medida pela mediana e os quartis.

A Amplitude Interquartílica (AIQ) é a distância entre Q1 e Q3, e indica a dispersãoda amostra, na região central da distribuição - contém 50% dos valores do conjunto.Divide-se em duas regiões: a primeira entre Q1 e a mediana, a segunda entre a medianae Q3. Comparando-se a área destas duas regiões (a área do “box” - retângulo) temosoutra boa indicação da dispersão. Esta ideia é complementada com a verificação daexistência de valores discrepantes e muito discrepantes (outliers).

A. F. Beraldo 149

Page 160: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

Valores discrepantes são os que pertencem à região entre a CEI e o VAI, ou entrea VAS e a CES.

Valores mais que discrepantes estão abaixo da CEI ou acima da CES. (acima dadistância Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ).

As regiões (intervalos de dados dentro do conjunto) são as seguintes

Figura 8.9: Regiões do Box-Plot

• Região Central: Entre o Q1 e o Q3.

• Região dos Dados Regulares: Entre o VAI e o VAS.

• Região dos Dados Discrepantes: Entre a CEI e o VAI , e entre o VAS e a CES

• Região dos Dados mais que discrepantes: abaixo da CEI ou acima da CES

150 A. F. Beraldo

Page 161: Apostila estatística descritiva

8.3 Cálculo das Cercas e o Box-Plot

As informações principais fornecidas pelo box plot são as seguintes:

Figura 8.10: Elementos do Box-Plot

Comentários

Os sinais que representam Valores Discrepantes ou mais que Discrepantes variammuito, de acordo com o software utilizado. Nesta apostila, adotamos a seguinteconvenção:

+ Valores Discrepantes (entre o VAI e a CEI, e entre o VAS e a CES)• Valores mais que Discrepantes (abaixo da CEI e acima da CES).

A. F. Beraldo 151

Page 162: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

Exemplo 8.1. Seja o conjunto a seguir:

Figura 8.11: Diagrama Ramo-Folha

O diagrama Ramo-Folha é o seguinte:

Figura 8.12: Diagrama Ramo-Folha

As posições dos quartis são as seguintes:

Primeiro Quartil:Pos(Q1) = n+ 1

4 = 994 = 24, 75

Segundo Quartil:Pos(Q2) = n+ 1

2 = 992 = 49, 5

Terceiro Quartil:Pos(Q3) = 3(n+ 1)

4 = 2974 = 74, 25

152 A. F. Beraldo

Page 163: Apostila estatística descritiva

8.3 Cálculo das Cercas e o Box-Plot

Localizando os quartis no diagrama Ramo-Folha, temos:

Figura 8.13: Quartis no Diagrama Ramo-Folha

Portanto, os valores dos Quartis e das demais estatísticas são:

Q1 = 39, 0 Q2 = X = 49, 0 Q3 = 59, 0

AIQ Cerca Externa Inferior Q3 −Q1 = 59, 0− 39, 0 = 20, 0

CEI Cerca Interna Inferior Q1 − 3AIQ = 39, 0− 3× 20 = 39, 0− 60 = −21

CII Cerca Interna Superior Q1 − 1, 5AIQ = 39, 0− 1, 5× 20 = 39, 0− 30, 0 = 9, 0

CIS Cerca Externa Superior Q3 + 1, 5AIQ = 59, 0 + 1, 5× 20 = 59, 0 + 30, 0 = 89, 0

CES Cerca Externa Superior Q3 + 3AIQ = 59, 0 + 3× 20 = 59, 0 + 60, 0 = 119, 0

VAI Valor adjacente inferior 12

VAS Valor adjacente superior 87

Outliers Valores discrepantes inferiores 1

Valores discrepantes superiores 91, 92, 95 e 100

A. F. Beraldo 153

Page 164: Apostila estatística descritiva

8. Introdução à Análise Exploratória de Dados

O Box-Plot é o seguinte:

Figura 8.14: Box-Plot

Notar o sinal “+” simbolizando os valores discrepantes (outliers).

154 A. F. Beraldo

Page 165: Apostila estatística descritiva

Diagramação em LATEX, composta em Latin Modern.

Versão 3 — 2013Gerado em 22 de outubro de 2013.