42
1 Universidade Federal do Piauí Campus Universitário “Prof a . Cinobelina Elvas” – Bom Jesus, PI Profa. Gisele ESTATÍSTICA III - ESTATÍSICA DESCRITIVA OU ANÁLISE EXPLORATÓRIA DOS DADOS 1. INTRODUÇÃO A estatística descritiva é a parte da estatística que lida com a organização, resumo (ou descrição) e apresentação de um conjunto de dados, podendo-se utilizar em tais análises dados provenientes de uma população finita ou de uma amostra aleatória. Em outras palavras, Dado um conjunto de elementos, podemos em relação a certo fenômeno estudar todos os seus elementos, classificando-os, fornecendo números indicativos que sumarizem certas características dos dados. São números sumarizados, que fornecem descrições de todo o conjunto sem a apresentação total dos elementos, ou mesmo medidas e relações do conjunto, não perceptíveis, com a pura apresentação do rol de dados. Daí a associação do termo estatística descritiva com o termo análise exploratória dos dados, ou seja, devido à caracterização e apresentação dos dados de forma resumida e elucidativa, visando, dentre outros objetivos, à detecção de padrões de interesse nos dados e a sua representação. A forma de tratar as variáveis na estatística descritiva depende da natureza (ou tipo) dessa variável: qualitativa (nominal ou ordinal) ou quantitativa (nominal ou ordinal). Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas ou operações são chamadas fases do trabalho ou método estatístico. Essas fases incluem os aspectos da estatística descritiva, em que serão abordados os seguintes: * Coleta ou levantamento dos dados; * Organização dos dados; * Representação e apresentação dos dados 2. COLETA OU LEVANTAMENTO DOS DADOS Refere-se à obtenção, reunião e registro sistemático de dados, com objetivo determinado.

Apostila 3 - Estatística descritiva

Embed Size (px)

DESCRIPTION

Estatística descritiva

Citation preview

Page 1: Apostila 3 - Estatística descritiva

1

Universidade Federal do Piauí

Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI

Profa. Gisele

ESTATÍSTICA

III - ESTATÍSICA DESCRITIVA OU ANÁLISE EXPLORATÓRIA DOS DADOS

1. INTRODUÇÃO

A estatística descritiva é a parte da estatística que lida com a organização, resumo (ou

descrição) e apresentação de um conjunto de dados, podendo-se utilizar em tais análises dados

provenientes de uma população finita ou de uma amostra aleatória. Em outras palavras,

Dado um conjunto de elementos, podemos em relação a certo fenômeno estudar todos os

seus elementos, classificando-os, fornecendo números indicativos que sumarizem certas

características dos dados. São números sumarizados, que fornecem descrições de todo o conjunto

sem a apresentação total dos elementos, ou mesmo medidas e relações do conjunto, não

perceptíveis, com a pura apresentação do rol de dados. Daí a associação do termo estatística

descritiva com o termo análise exploratória dos dados, ou seja, devido à caracterização e

apresentação dos dados de forma resumida e elucidativa, visando, dentre outros objetivos, à

detecção de padrões de interesse nos dados e a sua representação.

A forma de tratar as variáveis na estatística descritiva depende da natureza (ou tipo) dessa

variável: qualitativa (nominal ou ordinal) ou quantitativa (nominal ou ordinal).

Quando se pretende empreender um estudo estatístico completo, existem diversas fases do

trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas

ou operações são chamadas fases do trabalho ou método estatístico. Essas fases incluem os aspectos

da estatística descritiva, em que serão abordados os seguintes:

* Coleta ou levantamento dos dados;

* Organização dos dados;

* Representação e apresentação dos dados

2. COLETA OU LEVANTAMENTO DOS DADOS

Refere-se à obtenção, reunião e registro sistemático de dados, com objetivo determinado.

Page 2: Apostila 3 - Estatística descritiva

2

A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema,

objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos.

A forma como os dados serão coletados, e os procedimentos para organizá-los depende da

natureza da variável, ou seja, se qualitativa nominal ou ordinal, ou se quantitativa discreta ou

contínua.

3. ORGANIZAÇÃO DOS DADOS

Antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento

prévio, a fim de torná-los mais expressivos e organizados.

Os dados que chegam ao estatístico são, em geral, coletados de uma forma sem ordenação e

sem nenhum tipo de arranjo sistemático, sendo, nesse caso, chamados de DADOS BRUTOS. Isso

ocorre, muitas vezes, devido ao processo natural de trabalho da coleta dos dados, como por

exemplo, dados que devem ser coletados num curto período de tempo, fazendo com que não haja

tempo para coletá-los já de forma organizada.

Para facilitar a apresentação e representação dos dados, ou ainda, analisá-los em aplicativos

computacionais é necessária a organização dos mesmos em uma seqüência crescente ou decrescente

ou agrupá-los quanto às suas categorias ou atributos (classes). Os dados nessa forma são chamados

de DADOS ELABORADOS.

Exemplo 1. Variável qualitativa nominal (FERREIRA, 2005):

Tabela 1. Dados brutos obtidos de uma amostra de 14 plantas da geração F2 do cruzamento de uma

planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e

rugosas (VR).

AL AL VL AL AR VL VR AL VL AL AL AR AR AL

Tabela 2. Dados elaborados obtidos de uma amostra de 14 plantas da geração F2 do cruzamento de

uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e

rugosas (VR).

AL AL AL AL AL AL AL AR AR AR VL VL VL VR

Page 3: Apostila 3 - Estatística descritiva

3

Exemplo 2. Variável quantitativa contínua:

Tabela 3. Dados brutos referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa

Gertrudis.

175,34 217,23

129,98 211,07

109,94 196,43

177,75 180,12

Tabela 4. Dados elaborados referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa

Gertrudis.

109,94 180,12

129,98 196,43

175,34 211,07

177,75 217,23

Nota-se que nas Tabelas 1 e 3 os dados estão numa forma sem nenhum arranjo sistemático.

Na Tabela 2 os dados estão organizados em categorias de acordo com a cor da semente, enquanto

na Tabela 4 os dados estão organizados em ordem crescente de peso de abate. Portanto, o tipo de

arranjo sistemático a ser utilizado depende do tipo de variável em estudo.

4. APRESENTAÇÃO DOS DADOS

Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados

sob forma adequada, tornando mais fácil o exame daquilo que está sendo objeto de tratamento

estatístico e subseqüente obtenção de medidas típicas.

Diferentes representações podem ser utilizadas para apresentar um conjunto de dados, quais

sejam:

� Tabular (tabelas) e Gráfica (gráficos)

� Por meio de medidas de posição ou tendência central

� Por meio de medidas de dispersão e variabilidade

� Por meio de estatísticas descritivas da distribuição

Mais uma vez, vale lembrar que a forma de apresentar os dados depende do tipo de variável.

Page 4: Apostila 3 - Estatística descritiva

4

4. 1. Tabular e Gráfica

Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem

assumir para que se tenha uma visão global dessa ou dessas variáveis. Isso é possível apresentando

esses valores em tabelas e gráficos, que irão fornecer informações rápidas e seguras a respeito das

variáveis em estudo, permitindo determinações mais coerentes.

4. 1. 1. TABELA

Consiste em dispor os dados em linhas e colunas distribuídos de modo ordenado, segundo

algumas regras. As tabelas têm a vantagem de conseguir expor, sistematicamente em um só local,

os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo

que se pretende analisar.

As características de uma tabela são:

A tabela é um quadro que resume um conjunto de observações tratadas estatisticamente (série

estatística).

Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos

a uma mesma ordem de classificação. No sentido mais amplo, série é uma sucessão de números

referidos a qualquer variável. Se os números expressarem dados estatísticos, a série será chamada

de série estatística. Em sentido mais estreito, pode-se dizer que uma série estatística é uma sucessão

de dados estatísticos, ao passo que sucessão de dados estatísticos configurará uma seriação. Em

outros termos, a série é usada normalmente para designar um conjunto de dados dispostos de acordo

com caráter variável, residindo a qualidade serial na disposição temporal ou espacial dos

indivíduos.

A série estatística pode representar a distribuição de um conjunto de dados estatísticos em

função da época, do local ou da espécie (fenômeno). Conforme varie um desses elementos, a série

estatística classifica-se em TEMPORAL, GEOGRÁFICA, ESPECÍFICA e MISTA.

� Série temporal, histórica ou cronológica: é a série cujos dados variam com o tempo.

Exemplo:

Page 5: Apostila 3 - Estatística descritiva

5

Tabela 5. Peso de abate de suínos criados no setor de suinocultura do Departamento de Zootecnia

da UFPI, no período de 2003 - 2006. (dados hipotéticos).

Ano Peso (kg) 2003 27,60 2004 29,50 2005 30,00 2006 30,00

� Série geográfica, territorial ou de localidade: é a série cujos dados estão em correspondência

com a região geográfica, ou seja, o elemento variável é o fator geográfico (região).

Exemplo:

Tabela 6. Peso de abate de suínos (n = 30) criados no setor de suinocultura do Departamento de

Zootecnia da UFPI, UFV, UFLA e UFES. (dados hipotéticos)

Setor de suinocultura Peso (kg) UFPI 30,80 UFV 33,30

UFLA 30,00 UFES 30,60

� Série específica ou categórica: os dados estão em correspondência com a espécie do fato ou

fator especificativo que é descrito (fenômeno).

Exemplo:

Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos

(n = 30) criados no setor de suinocultura, do Departamento de Zootecnia, da

Universidade Federal de Lavras. (RUAS et al. Pesquisa Agropecuária Brasileira, v. 7, n.

3, p. 227-230, 2001)

Variável Total Peso de abate (kg) 30,70 Peso de carcaça (kg) 20,50 Peso de órgãos (kg) 8,10 Peso de corpo vazio (kg) 28,60

2Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés, cauda e sangue. 4Equivalente aos pesos: da carcaça, órgãos viscerais, cabeça, pés, cauda e sangue.

� Série mista: as combinações entre séries estatísticas constituem novas séries que são

denominadas séries compostas ou mistas e são apresentadas em tabelas de dupla entrada.

Exemplo:

Page 6: Apostila 3 - Estatística descritiva

6

Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos

(n = 30) criados no setor de suinocultura setor de suinocultura, do Departamento de

Zootecnia, da UFPI, UFLA, UFV e UFES. (dados hipotéticos)

Variável UFPI UFLA UFV UFES Peso de abate (kg) 33,30 30,70 30,00 30,60 Peso de carcaça (kg)1 19,00 20,50 20,20 21,09 Peso de órgãos (kg)2 7,98 8,10 8,00 9,44 Peso de corpo vazio (kg)3 26,98 28,60 28,20 30,53

2Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés, cauda e sangue. 4Equivalente aos pesos: da carcaça, órgãos viscerais, cabeça, pés, cauda e sangue.

Este é um caso de tabela apresentando série mista, ou seja, específica e de localidade.

4. 1. 2. DISTRIBUIÇÃO DE FREQUÊNCIAS

Freqüentemente, o estudo de um determinado fenômeno requer a coleta de uma grande

massa de dados numéricos, difícil de ser tratada se esses dados não forem organizados e

condensados em uma tabela. Acontece normalmente que, ao coletar os dados referentes ao

fenômeno objeto de estudo, o analista se defronta com valores que se repetem algumas vezes. Por

isso é necessário apresentar os dados em tabelas de distribuição de freqüências. Utilizando

distribuições de freqüências grandes conjuntos de dados podem ser resumidos, compreensão sobre a

natureza dos dados pode ser obtida e gráficos importantes podem ser construídos com base nas

distribuições.

Define-se a freqüência de um dado valor de uma variável (qualitativa ou quantitativa) como o

número de vezes que esse valor foi observado.

A apresentação dos dados em uma tabela de distribuição de freqüências constitui um tipo de

série estatística, chamada heterógrada, em que existe uma subdivisão ou gradação dos dados.

Quando não é feita essa subdivisão ou gradação a série estatística é chamada de homógrada.

Uma tabela de freqüências pode ser de dois tipos: PONTUAL (ou discreta) e INTERVALAR.

Qual tipo utilizar vai depender do tipo de variável em estudo. Se a variável for qualitativa (nominal

ou ordinal) ou ainda quantitativa discreta, pode-se obter uma tabela de distribuição pontual sem

muitos problemas, em que se faz correspondência dos valores da variável com sua respectiva

freqüência.

Se a variável em estudo for quantitativa contínua, não é possível efetuar o mesmo tipo de

tratamento dispensado aos dados qualitativos e quantitativos discretos. Para resolver o problema de

apresentar a distribuição de dados quantitativos contínuos de forma resumida e manter o máximo da

informação contida nela, faz-se uso da distribuição de freqüências intervalar. Neste caso,

inicialmente agrupam-se os valores da variável em intervalos de classes e faz-se a correspondência

dessas classes com suas respectivas freqüências.

Page 7: Apostila 3 - Estatística descritiva

7

Vale ressaltar que se a variável for quantitativa discreta e o número de valores observados for

muito grande recomenda-se agrupar os dados em classes intervalares, evitando-se, com isso, grande

extensão da tabela e a não interpretação dos valores de fenômeno.

Distribuição de freqüências pontual

Ex 1: Variável quantitativa discreta

Supondo que desejamos apresentar os dados hipotéticos de vinte valores da variável “número

de animais contaminados por determinada doença”, obtidos a partir de 20 propriedades, quais

sejam:

O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem crescente ou

decrescente, e proceder à contagem do número de ocorrência (freqüência) de cada dado.

0 0 0 0 1

1 1 1 1 1

1 2 2 2 2

2 3 3 4 5

Em seguida, apresentam-se os dados e suas respectivas freqüências absolutas através da

Tabela de Freqüências Pontual, a qual é constituída por uma coluna referente aos dados e outra

referente às freqüências associadas a cada valor observado (Fi) (Tabela 8).

Tabela 8. Número de animais contaminados para um grupo de 20

propriedades.

Animal contaminado Freqüência (Fi) 0 4 1 7 2 5 3 2 4 1 5 1

Total de observações (n) 20 Fonte: Fictícia

Além da freqüência absoluta (Fi), existem freqüências que são discutidos numa tabela de

distribuição de freqüências:

2 4 2 1 2

3 1 0 5 1 0 1 1 2 0

1 3 0 1 2

Page 8: Apostila 3 - Estatística descritiva

8

• Freqüência relativa (Fri), a qual é dada pela razão entre a freqüência do i-ésimo valor

observado, Fi, e o total de dados observados, n =∑ iF .

• Freqüência relativa expressa em porcentagem (Fpi%), resultado da multiplicação da

freqüência relativa Fri por 100.

• Freqüência acumulada, Fci, que é a informação de quantas observações apresentam

valores menores ou iguais a certo valor fixado.

• Freqüência acumulada expressa em porcentagem (Fci%).

Tabela 9. Tabela de freqüência da variável animal contaminado, para um

grupo de 20 propriedades.

Animal Fi Fri Fpi (%) Fci Fci (%)

0 4 0,20 20 4 20

1 7 0,35 35 11 55

2 5 0,25 25 16 80

3 2 0,10 10 18 90

4 1 0,05 5 19 95

5 1 0,05 5 20 100

Total (n) 20 1,00 100 - -

Fonte: Fictícia

A representação gráfica de uma tabela de distribuição de freqüências pontual pode ser por

meio dos vários tipos de gráficos, os quais serão discutidos no item 4.1.3.

Distribuição de freqüências intervalar

Ex 2: Variável quantitativa contínua

Como no caso discreto iniciaremos com um exemplo. O peso de 10 coelhos híbridos

NORFOLK, em kg, abatidos aos 90 dias:

2,61; 2,56; 2,47; 2,62; 2,59

2,56; 2,62; 2,70; 2,49; 2,62

Nota-se que os dados estão desorganizados (brutos), então o primeiro passo é organizá-los,

nesse caso, ordenando-os em ordem crescente (dados elaborados).

2,47; 2,49; 2,56; 2,56; 2,59

2,61; 2,62; 2,62; 2,62; 2,70

Page 9: Apostila 3 - Estatística descritiva

9

Em seguida, deve-se determinar o número de classes, o comprimento de cada classe

(amplitude de classe) e o limite inferior da primeira classe.

a) Determinação do número de classes:

Este é o principal fator que deve ser observado quando se faz uso da tabela de distribuição

intervalar para representar os dados. O numero de classes deve ser ideal, pois se esse número for

escasso, os dados originais ficarão tão condensados que pouca informação se poderá extrair da

tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula ou

muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do

fenômeno como um todo. |

Diferentes critérios podem se utilizados para definir o número de classes numa distribuição de

freqüências intervalar:

- Critério empírico em função do tamanho amostral (n),

- Critério proposto por Scott (1979),

- Fórmula de Sturges.

O critério empírico baseia-se numa função do tamanho amostral, em que:

Se, n < 100 → número de classes igual a n (inteiro mais próximo)

n > 100 → número de classes igual a 5log10 (inteiro mais próximo)

O critério proposto por Scott (1979) é para dados provenientes de uma amostragem de uma

distribuição de probabilidade denominada distribuição normal de probabilidade (a qual será vista

em outra parte da matéria). Embora esse critério tenha sido proposto e desenvolvido para essa

condição, ele tem bom desempenho em situações de distribuições não-simétricas ou distribuições

que tenham um maior ou menor grau de achatamento que a normal. O critério de Scott é dado pela

expressão:

σ̂49,3

.1

3 nAk +=

Em que:

k = número de classes; A = amplitude total; n = tamanho da amostra e σ̂ = desvio padrão amostral.

OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.

A fórmula de Sturges é dada por: nk log3,31+≅

OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.

Page 10: Apostila 3 - Estatística descritiva

10

Considerando-se os dados Ex 2, e utilizando o critério empírico em função do tamanho

amostral para determinar o numero de classes, tem-se que:

n = 10, logo k = n → k = 3~10 =

b) Determinação da amplitude de classe

Depois de determinado o número de classes, o passo seguinte é determinar o comprimento de

cada classe. Esse comprimento é denominado de amplitude de classe e é representado por c. Aqui,

será tratado apenas o caso de amplitudes de classes iguais, ou seja, o valor de c é constante para

todas as classes.

1−=

k

Ac

A razão para que o denominador seja k – 1 ao invés de k é explicada por uma correção que é

feita no limite inferior da primeira classe. Esse limite é considerado um valor menor que X1. Essa

escolha é justificada pela suposição de que a amostra de tamanho n tem grande chance de não

conter o valor mínimo da população. Em outras palavras, à medida que o tamanho da amostra

aumenta tem-se uma maior chance de obter elementos menores que o valor mínimo encontrado para

amostra de um tamanho menor.

Considerando-se os dados Ex 2, tem-se que:

kgclassesdenúmero

Amplitude

k

Ac 115,0

2

23,0

2

47,270,

1 - 3

X - X

11(min)(máx) ==

−==

−=

−=

2

c) Determinação do limite inferior da primeira classe (LI1a)

É definido por:

211

cXLI a −=

O limite superior da primeira classe é então obtido somando-se, ao limite inferior dessa classe, a

amplitude de classe. O limite inferior da segunda classe é igualado ao limite superior da primeira

classe. O limite superior dessa classe é obtido somando-se a amplitude de classe ao limite inferior.

O processo é repetido para formar as demais classes, devendo parar quando a última classe k for

formada. Os intervalos de cada classe são assim montados e, algumas simbologias são utilizadas nas

distribuições por freqüências intervalares. Como por exemplo:

Page 11: Apostila 3 - Estatística descritiva

11

Para o Ex 2, o limite inferior da primeira classe é:

413,22

115,047,2

211=−=−=

cXLI a

O ponto médio da classe i ( iX ) é calculado pela média dos limites de classe. Para

determinados cálculos estatísticos, todos os pontos de uma classe podem ser representados pelo

ponto médio da classe.

2

LILSX i

+=

Portanto, para o Ex 2, a tabela de distribuição de freqüências intervalar é:

Tabela 10. Distribuição de freqüência para o peso dos 10 coelhos abatidos aos 90 dias.

Classes Freqüência absoluta

(Fi)

Freqüência relativa

(Fri�)

Freqüência relativa (Fpi�%)

Freqüência acumulada

(Fci)

Freqüência acumulada

(Fci%)

Ponto médio

iX

2,413├ 2,528 2 0,20 20 2 20 2,471

2,528 ├ 2,643 7 0,70 70 9 90 2,586

2,643 ├ 2,758 1 0,10 10 10 100 2,791

∑ 10 1,00 100 - - - Fonte: Fictícia

Nota-se que, como na distribuição de freqüências pontual, é bastante útil apresentar as

freqüências relativa (Fri), relativa em termos de porcentagem (Fpi%), acumulada (Fci) e acumulada

percentual (freqüência acumulada percentual – Fci%).

A representação gráfica de uma tabela de distribuição de freqüências intervalar é feita por

meio do histograma e do polígono de freqüências, os quais serão discutidos logo adiante.

4. 1. 3. GRÁFICO

É um complemento importante da apresentação tabular. A vantagem de um gráfico sobre a

tabela está em possibilitar uma rápida impressão visual da distribuição dos valores ou das

freqüências observadas. Os gráficos propiciam uma idéia inicial mais satisfatória da concentração e

Page 12: Apostila 3 - Estatística descritiva

12

dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de

grandezas visualmente interpretáveis.

Requisitos fundamentais em um gráfico:

� Simplicidade: possibilitar a análise rápida do fenômeno observado. Deve conter apenas o

essencial.

� Clareza: possibilitar a leitura e interpretações correta dos valores do fenômeno.

� Veracidade: deve expressar a verdade sobre o fenômeno observado.

Tipos de gráficos quanto à forma:

Quanto à forma há diferentes tipos de gráficos: diagramas (gráficos geométricos dispostos em

duas dimensões), cartogramas (a representação e sobre uma carta geográfica, muito usados na

Geografia, História e Demografia), estereogramas (representam volumes e são apresentados em três

dimensões) e pictogramas (a representação gráfica consta de figuras representativas do fenômeno).

Aqui, apenas discutiremos os diagramas que são os mais usados na representação de séries

estatísticas.

Classificação dos gráficos quanto ao objetivo:

� Gráficos de informação

O objetivo é proporcionar uma visualização rápida e clara da intensidade das categorias ou

dos valores relativos ao fenômeno. São gráficos tipicamente expositivos, devendo ser o mais

completo possível, dispensando comentários explicativos.

� Gráficos de análise

Estes gráficos fornecem informações importantes na fase de análise dos dados, sendo também

informativos. Esses gráficos, geralmente, vêm acompanhados de uma tabela e um texto onde se

destaca os pontos principais revelados pelo gráfico ou pela tabela.

Alguns tipos de gráficos:

� Gráfico de colunas

É a representação de uma série estatística através de retângulos, dispostos em colunas (na

vertical). Este tipo de gráfico representa praticamente qualquer série estatística. As bases das

colunas são iguais e as alturas são proporcionais aos respectivos dados.

Page 13: Apostila 3 - Estatística descritiva

13

Ex:

Figura 1. Presença de Sarcocystis spp. em diferentes músculos de bovinos (305), da região sul do

Rio Grande do Sul; análises realizadas pela técnica de exame a fresco. . (RUAS, J. L. et

al. Pesquisa Agropecuária Brasileira, v. 7, n. 3, p. 227-230, 2001)

� Gráfico de colunas múltiplo

É um tipo de gráfico útil para estabelecer comparações entre as grandezas de cada categoria

dos fenômenos estudados. A modalidade de apresentação das colunas é chamada de Gráfico de

Colunas Remontadas.

Ex:

Figura 2. Presença de Sarcocystis spp. em diferentes músculos e bovinos (n = 57), clinicamente

sadios, abatidos na região sul do Rio grande do Sul; análises realizadas pelas técnicas de

exame a fresco e histopatológico. (RUAS, J. L. et al. Pesquisa Agropecuária Brasileira,

v. 7, n. 3, p. 227-230, 2001)

� Gráfico de barras

As alturas dos retângulos são iguais e arbitrárias e os comprimentos são proporcionais aos

respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espaço de forma que

as inscrições identifiquem as diferentes barras. O espaço entre as barras pode ser a metade (½) ou

dois terços (2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma

Page 14: Apostila 3 - Estatística descritiva

14

decrescente para facilitar a comparação dos valores. A categoria “outros” (quando existir) é

representada na barra inferior, mesmo que o seu comprimento exceda o de alguma outra.

Ex:

Figura 3. Distribuição de freqüências da resistência à ferrugem de híbridos de milho para a região

preferencial I, 1987/1988. (r = resistente, mr = muito resistente, ms = muito suscetível e

s = suscetível). (OGLIARI, P. J. & ANDRADE, D. F. Estatística básica para as ciências

agronômicas e biológicas - com noções de experimentação. Florianópolis – SC, 2005,

357p.)

� Gráfico de barras múltiplo

Geralmente útil quando as diretrizes das categorias a serem escritas são extensas.

Ex:

Figura 4. Distribuição de freqüências do tipo de grão e resistência à de híbridos de milho para a

região preferencial I, 1987/1988. (OGLIARI, P. J. & ANDRADE, D. F. Estatística

básica para as ciências agronômicas e biológicas - com noções de experimentação.

Florianópolis – SC, 2005, 357p.)

Page 15: Apostila 3 - Estatística descritiva

15

� Gráfico de linhas

São adequados para dados ordenados ao longo do tempo (séries temporais), principalmente

quando a série cobrir um grande número de períodos.

Ex:

Figura 5. Curva de eliminação de oocistos de Cryptosporidium baileyi oriundos de codornas

japonesas (Cotumix japonica) experimentalmente infectadas. (CARDOZO, S, V. et al.

Revista Brasileira de Parasitologia, v. 14 n. 3, p. 119-124, 2005)

Os gráficos de linha servem também para comparar distribuições.

Ex:

Figura 6. Comportamento da variável acidez em ácido lático (%) nos diversos tratamentos (P, PC,

PB e PA) durante a maturação de salame tipo italiano, UFSC, 1992. (OGLIARI, P. J. &

ANDRADE, D. F. Estatística básica para as ciências agronômicas e biológicas - com

noções de experimentação. Florianópolis – SC, 2005, 357p.)

� Gráfico de setores

Page 16: Apostila 3 - Estatística descritiva

16

É a representação gráfica de uma série estatística em um círculo de raio qualquer, por meio

de setores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende

comparar cada valor da série com o total. O total da série corresponde a 360° (total de graus de um

arco de circunferência). Os gráficos em setores representam valores absolutos ou porcentagens

complementares. As séries geográficas, específicas e as categorias em nível nominal são mais

representadas em gráficos de setores, desde que não apresentem muitas parcelas.

Ex:

Figura 7. Distribuição das proporções (%) da resistência à ferrugem, para o tipo de grão dentado,

para a região preferencial I, 1987/1988. (OGLIARI, P. J. & ANDRADE, D. F.

Estatística básica para as ciências agronômicas e biológicas - com noções de

experimentação. Florianópolis – SC, 2005, 357p.)

� Histograma e polígono de freqüências

O histograma e o polígono de freqüências são importantes para a determinação da forma de

distribuição dos dados quantitativos contínuos.

O histograma é um gráfico de colunas cujas bases são proporcionais aos intervalos de classe, e

a altura a uma medida denominada de densidade (f), que é dada por fi = Fi/c. No caso, como estão

sendo abordadas apenas amplitudes de classes iguais (c é constante para todas as classes), o valor de

c pode ser ignorado na construção do histograma. Ou seja, a largura da base de cada célula deve ser

proporcional à amplitude do intervalo da classe que ela representa e a área de cada célula deve ser

proporcional à freqüência da mesma classe. Como as classes têm igual amplitude, então as alturas

dos retângulos serão proporcionais às freqüências das classes que eles representam.

Esta ferramenta tem como objetivos:

- identificar o padrão de distribuição da característica medida, tal como, verificar se os dados

adquiridos num processo estão distribuídos mais a direita ou mais a esquerda de um ponto de

especificação;

Page 17: Apostila 3 - Estatística descritiva

17

- informar rápida e concisamente a variabilidade da distribuição de uma freqüência variável;

- permitir melhor visualização dos dados.

Cabe ressaltar que, para utilizar o histograma deve-se dispor de grande quantidade de dados,

pelo menos um número total de observações maior que 30.

O contorno externo de um histograma, isto é, a linha mais forte da figura seguinte, chama-se

Poligonal Característica do conjunto de dados obtidos num processo, fornecendo idéia da variação

do processo analisado. A área sob a poligonal característica corresponde à freqüência total, uma vez

que se compõe de retângulos cujas áreas equivalem às freqüências de cada classe.

O polígono de freqüências é uma linha poligonal que liga os pontos médios das classes

ordenadas correspondentes às suas freqüências (ou densidades se c não é constante).

Nota-se que o polígono de freqüência é fechado, tomando-se uma classe anterior à primeira

e uma classe posterior à última, já que ambas possuem freqüência zero.

A seguir encontram-se as instruções para a construção do histograma e do polígono de

freqüências:

1) Construir uma tabela de distribuição de freqüências. Para a construção do histograma,

bastam as informações do número das classes, intervalos de classe e freqüências absolutas.

2) Calcular os pontos médios referentes a cada classe, os quais devem constar na tabela de

distribuição de freqüências.

3) Traçar um gráfico com dois eixos: um horizontal e um vertical. Colocar no eixo horizontal

(eixo X) as bases dos retângulos que correspondem aos intervalos de classe. A descrição das

Page 18: Apostila 3 - Estatística descritiva

18

classes deve ser colocada neste eixo, e corresponder ao valor do ponto central de cada classe

(no centro da base de cada retângulo) ou dos próprios limites dos intervalos (em cada lado

do retângulo).

4) Estabelecer a medida de freqüência que será utilizada no histograma. Como se sabe, as áreas

dos retângulos têm que ser proporcionais às freqüências das classes, ou coincidir com suas

freqüências relativas, logo:

* Se todos os intervalos de freqüência tiverem a mesma amplitude, as alturas dos retângulos são

proporcionais às freqüências das classes, e podem ser consideradas as próprias freqüências

simples ou absolutas, como sendo os valores das alturas, sem nenhuma perda de informação.

* Se os intervalos de classes não tiverem a mesma amplitude, deverão se considerar as

densidades de freqüências como sendo os valores das alturas dos retângulos. Estas densidades

podem ser obtidas tomando-se as freqüências absolutas de cada classe e dividindo-a pela

respectiva amplitude de classe.

5) Colocar no eixo da vertical (eixo Y) a escala correspondente às freqüências ou densidades

de freqüências, abrangendo a menor e a maior freqüência ou densidade de freqüências

obtidas. Construir os retângulos, traçando linhas perpendiculares às classes (bases), eixo X,

até atingir as respectivas freqüências ou densidades de freqüências, eixo Y.

6) Determinar a curva Polígono de Freqüência, marcando e ligando os pontos médios

correspondentes a cada intervalo de classe.

7) Colocar o título no gráfico, contendo as informações necessárias, tais como, o estudo sob

avaliação e a unidade medida.

8) Verificar a estrutura dos dados quanto à condição de simetria.

Para o caso do Ex 2 (pág. 9), a representação do histograma e do polígono de freqüência

num mesmo gráfico fica assim definido:

Page 19: Apostila 3 - Estatística descritiva

19

Figura 8 – Histograma e polígono de freqüências do peso dos 10 coelhos (em gramas) abatidos aos

90 dias.

4. 2. Medidas de posição ou tendência central

Pela concentração de dados de um conjunto de mensurações nas proximidades de alguns

valores, verifica-se que esses valores podem ser usados para representar todos os dados. Em outras

palavras, é possível que esses valores sejam representativos do conjunto de mensurações. Esses

valores são denominados de medidas de posição ou medidas de tendência central. A escolha de um

tipo de medida de posição depende principalmente da natureza da distribuição das mensurações, do

tipo de dado e das propriedades dos valores escolhidos. O termo medida de posição é usado para

indicar, ao longo da escala de medidas, onde a amostra ou a população está localizada.

Dentre os vários tipos de medida de posição tem-se a média, mediana e a moda, mas outros

tipos também podem ser utilizados. Esses parâmetros são úteis por descreverem propriedades da

população.

As medidas de posição têm como objetivos:

• Representar o ponto central de um conjunto de dados;

• Dividir o conjunto de dados em partes iguais;

• Estabelecer em torno de que valores representativos os dados se distribuem.

As medidas de posição podem representar medidas de tendência central ou simplesmente

dividir os dados em partes iguais (separatrizes). Quando os valores das medidas de posição tendem

a se localizar em um ponto central, dentro de um conjunto de dados ordenados segundo suas

grandezas, elas também são denominadas de medidas de tendência central. É o caso da média,

mediana e moda. Quando as medidas de posição tendem simplesmente a dividir o conjunto de

dados em partes iguais, elas são denominadas de separatrizes (mediana, quantis, decis e centis).

Neste tópico serão abordados aspectos apenas inerentes à média, mediana e moda.

4.2.1. Média

Existem vários tipos de médias, cada uma delas apresentando vantagens e desvantagens.

� Média aritmética

É a medida de posição mais comum, intensa e extensivamente utilizada. Quando se tratar de

dados isolados, a média aritmética é a soma das observações (X1, X2, ..., Xn) dividida pelo número

delas (n = número de observações na amostra), ou seja:

n

XXXX

n

X

X n

n

i

i ++++==

∑= ...3211

Page 20: Apostila 3 - Estatística descritiva

20

Este é o mais eficiente, não viesado e consistente estimador da média populacional µ.

Ex: Determinar a média aritmética simples do seguinte conjunto de valores: 7, 9, 10, 14, 15 e 17.

126

17151410971 =+++++

==∑

=

n

X

X

n

i

i

Para dados agrupados em uma tabela de distribuição de freqüências pontual, a média

aritmética será a soma do produto dos valores pela freqüência absoluta com que esses ocorrem,

dividida pela soma das freqüências absolutas da distribuição, ou seja:

OBS: Utiliza-se este mesmo estimador para dados com pesos diferentes, bastando apenas que

troque as freqüências pelos pesos.

Ex: Num aprova para Auditor fiscal, temos que a prova P.1 (conhecimentos gerais) tem peso 1 e as

provas P.2 (conhecimentos específicos) e P.3 (conhecimentos especializados por área) têm peso 3,

cada. Considerando que um candidato tenha acertado: 55% da prova P.1; 75% da prova P.2 e 80%

da prova P.3, calcular a média aritmética.

Pela média aritmética simples teríamos: (50 + 75 + 80)/3 = 70% de acertos em média.

Usando a média aritmética ponderada, tem-se:

%73221

)2.80()2.75()1.50(=

++++

=X

Nota-se que, no exemplo, a média aritmética ponderada foi maior que a média aritmética

simples, porque houve um maior percentual de acertos nas matérias de maior peso. Caso contrário,

a média aritmética ponderada seria menor que a média aritmética simples. Conclui-se, então, que a

média aritmética ponderada é diretamente influenciada pelos pesos.

Para dados agrupados em uma tabela de distribuição de freqüências intervalar, a média

aritmética é dada por:

126

1715141097

1

1 =+++++

==

=

=n

i

i

i

n

i

i

F

FX

X

=

==k

i

i

i

k

i

i

F

XF

X

1

1

Page 21: Apostila 3 - Estatística descritiva

21

Em que, iX é o ponto médio do intervalo de classe e k = número de classes.

OBS: Sempre que estiverem disponíveis todos os dados, é preferível calcular a média

aritmética simples à média aritmética para dados agrupados em intervalos de classe, pois

geralmente a segunda perde em precisão por fazer uso apenas dos pontos médios das classes. Em

muitos casos, essa perda de precisão é mínima, podendo então utilizar o estimador da média para

dados agrupados em classes intervalares. Essa diferença entre esses estimadores é chamada de

Hipótese Tabular Básica.

As propriedades da média aritmética são:

a) A média de uma constante é a própria constante.

b) A soma, subtração, multiplicação ou divisão de uma mesma quantidade K a cada valor

observado do conjunto n de dados, resultará numa nova média somada, subtraída,

multiplicada ou dividida por essa quantidade K.

c) A soma dos desvios a partir da média X é nula: 0)(1

=−∑=

XXn

i

i , onde Xi é cada valor do

conjunto de n dados.

d) A soma dos quadrados dos desvios de um conjunto de dados em relação a qualquer número

K, é um mínimo quando K = X . Isto significa que a soma de quadrados (SQ) dos desvios

tomados em relação a um valor qualquer sempre excederá a SQ dos desvios tomados em

relação à média aritmética. Esta propriedade fornece um critério para obtenção de medidas

mais representativas de um conjunto de dados chamado de critério de mínimos quadrados.

As vantagens da média aritmética são facilidade de interpretação e cálculo, e apresenta

potencial de uso para propósito de inferências. A principal desvantagem é que deve ser usada

somente em distribuições simétricas ou ligeiramente assimétricas, visto que é influenciada por

valores discrepantes e mais que discrepantes de uma distribuição (“outliers”). A média tenderá a ser

grande se existirem alguns poucos valores que são maiores que a maioria das mensurações

realizadas, ou a ser pequena, se existirem na amostra alguns poucos valores menores que a maioria

das mensurações.

� Média geométrica

A aplicação da média geométrica deve ser feita quando os valores do conjunto de dados se

comportam segundo uma progressão geométrica (P. G.) ou dela se aproxima. É apropriada para

calcular médias de razões, de taxas de variações, de índices econômicos e de taxa de crescimento.

Page 22: Apostila 3 - Estatística descritiva

22

Para dados isolados a média geométrica é dada pela seguinte expressão:

n

n

i

in

ng XXXXX ∏=

==1

21 ..... Xi > 0, ∀ i=1, 2, ..., n

Para dados agrupados em tabelas de distribuição de freqüências pontual, tem-se que:

∑=∑= == ∏

=

n

i

i

n

n

i

ii

FF

n

FFF

n

i

F

ig XXXXX 1 211 ...... 211

Xi > 0, ∀ i=1, 2, ..., n

Para dados agrupados em tabelas de distribuição de freqüências intervalar, tem-se que:

=∑

=

n

XF

X

k

i

ii

g1

lnexp Xi > 0, ∀ i=1, 2, ..., k

� Média harmônica

É usada para dados inversamente proporcionais, em casos em que se deseja obter a medida de

posição que possui a maior estabilidade ou quando houver necessidade de um tratamento algébrico

ulterior. É aplicada para obter médias de razões.

A média harmônica de um conjunto n de valores observados X1, X2, ..., Xn é o resultado da

divisão da quantidade n de elementos do conjunto pelo somatório dos inversos dos valores

observados, ou seja:

∑=

=n

i i

h

X

nX

1

1 Xi > 0, ∀ i=1, 2, ..., n

Para dados agrupados em tabela de freqüências pontual, tem-se que:

n

n

n

n

i i

i

n

i

i

h

X

F

X

F

X

F

FFF

X

F

F

X

+++

+++==

=

=

...

...

2

2

1

1

21

1

1 Xi > 0, ∀ i=1, 2, ..., n

Para dados agrupados em tabela de freqüências intervalar, tem-se que:

n

n

n

K

i i

i

K

i

i

h

X

F

X

F

X

F

FFF

X

F

F

X

+++

+++==

=

=

...

...

2

2

1

1

21

1

1 Xi > 0, ∀ i=1, 2, ..., k

Page 23: Apostila 3 - Estatística descritiva

23

Relação entre as médias aritmética, geométrica e harmônica → a média geométrica de um

conjunto de números positivos X1, X2, ..., Xn é maior ou igual à média harmônica e menor

ou igual à média aritmética, ou seja: XgXhX ≤≤ .

4.2.2. Mediana

É uma medida típica de tendência central, sendo definida em um conjunto de dados ordenados

como o valor central, ou seja, o valor para o qual há tantas mensurações que o superem quanto são

superados por ele. A mediana é utilizada quando se deseja obter um ponto que divide a distribuição

em partes iguais ou quando há valores extremos que afetam de uma maneira acentuada a média.

A mediana amostral (md) é o melhor estimador da mediana populacional (µd). Nas

distribuições simétricas, a mediana também é um estimador não viesado e consistente de µ, embora

não seja tão eficiente como X . Por outro lado, se a distribuição é assimétrica, a mediana é um

pobre estimador de µ. Dessa forma, a mediana não deve ser usada como substituta de µ.

Para a estimação da mediana, é necessário inicialmente ordenar os dados (dados elaborados),

cuja ordem pode ser crescente ou decrescente. A definição do estimador da mediana populacional é

dada por:

Ex: No caso do peso dos coelhos (n =10) (Ex 2. pág. 9) a posição central esta entre o 5º e o 6º

elemento. Portanto, a mediana é a média aritmética destas duas posições.

md= (2,59+2,61)/2 = 2,60 kg

Para dados agrupados em uma tabela de distribuição de freqüências intervalar, a mediana

pode ser calculada de acordo com a seguinte expressão:

)2

1(

+nX

md =

Se n for PAR

Se n for ÍMPAR

2

)2

2()

2(

++ nn XX

Page 24: Apostila 3 - Estatística descritiva

24

md

md

ci

mdd hF

Fn

Lim ×

−+= 2

Em que,

Fmd: freqüência absoluta da classe mediana;

hmd: amplitude da classe mediana;

Fci: freqüência acumulada das classes anteriores à classe mediana;

Limd: é o limite inferior a classe.

A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de

freqüência.

Considerando-se os dados ta Tabela 4 (página 12), tem-se:

Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.

Classes (kg) Fi Fci

2,413 ├ 2,528 2 2

2,528 ├ 2,643 7 9

2,643 ├ 2,758 1 10

∑ 10

Posição da mediana = n/2 = 10/2 = 5 (contida na 2° classe)

Fci = 2

Limd = 2,528

Fmd = 7

hmd = 0,115

md = 2,528 +[(5-2)/7]×0,115= 2,577 kg

A mediana é um estimador menos informativo que a média, pois só considera os ranques

(postos ou posições) das observações e não os valores, como faz a média. No entanto, a mediana

pode, em algumas ocasiões, ser mais vantajosa que a média pelo fato de não ser afetada pelos

extremos. Assim, se as distribuições são simétricas, a mediana pode ser uma melhor medida de

tendência central.

Page 25: Apostila 3 - Estatística descritiva

25

Uma vantagem da mediana é que ela pode ser calculada para dados qualitativos ordinais. A

mediana ainda pode ser estimada em amostras em que alguns valores ainda não foram registrados.

Se, por exemplo, um investigador tem dados de tempos de vida de uma amostra de n = 18. Porém,

entre as dezoito árvores, existem duas delas cujos registros não forma feitos, por ainda estarem

vivas, os tempos de vida das mangueiras restantes são os dois maiores valores da amostra, pois ao

se iniciar a pesquisa tomou-se o cuidado de realizar o plantio na mesma data das dezoito árvores.

Dessa forma, não é preciso ter os dados das últimas unidades para calcular a mediana, que é obtida

pela média do 9o e 10o valor ordenado, o que não é possível para a média.

A mediana possui as seguintes propriedades e características:

a) A soma dos módulos dos desvios em relação a qualquer número K, é um mínimo quando

k = md.

∑=

−=n

i

i KXD1

)( , em que Xi é cada valor do conjunto de n dados.

b) A soma, subtração, multiplicação ou divisão de uma mesma quantidade a cada valor

observado do conjunto n de dados, resultará numa nova mediana somada, subtraída,

multiplicada ou dividida por essa quantidade.

c) A mediana não é influenciada por valores extremos.

4.2.3. Moda

A moda é o valor que mais aparece ou de maior freqüência simples (absoluta ou relativa)

numa distribuição de freqüências. Em outras palavras é aquele valor da variável em que há a mais

densa concentração de valores na sua proximidade. A moda amostral (mo) é o melhor estimador da

moda populacional µo.

Para dados qualitativos nominais ou ordinais e para dados quantitativos discretos a moda é

definida como sendo o valor de maior freqüência na amostra, enquanto que para dados quantitativos

contínuos a moda é o valor de maior densidade (ou freqüência, quando as classes tiverem a mesma

amplitude). Portanto, para estes dados, a moda é aquele valor da distribuição cuja freqüência é

máxima, ou ainda, o ponto de máximo do polígono de freqüências.

A moda pode não existir; existindo, pode não ser a única. Uma distribuição pode ser

AMODAL (não há moda, todos os valores observados aparecem o mesmo número de vezes),

UNIMODAL (há uma só moda), BIMODAL (há duas modas) ou MULTIMODAL (há mais de duas

modas).

Page 26: Apostila 3 - Estatística descritiva

26

Ex: Tabela de distribuição de freqüências pontual.

Notas de um aluno da disciplina de Biostatística da turma de Medicina Veterinária, 2007/I.

Moda = 6,5, Distribuição Unimodal

A moda para dados quantitativos contínuos, agrupados em tabela de distribuição de freqüência

intervalar, é definida através da seguinte expressão:

momo hLimo ×+

+=21

1

∆∆∆∆∆∆∆∆∆∆∆∆

Em que,

Limo= limite inferior da classe modal;

∆1 = diferença entre a freqüência da classe modal e a classe anterior;

∆2 = diferença entre a freqüência da classe modal e a classe posterior;

hmo = amplitude da classe modal.

OBS: A classe modal é a classe com maior freqüência.

Page 27: Apostila 3 - Estatística descritiva

27

Ex: Tabela de distribuição de freqüências intervalar.

Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.

Classes (kg) Fi

2,413 ├ 2,528 2

2,528 ├├├├ 2,643 7 Classe modal

2,643 ├ 2,758 1

∑ 10

kg580,2115,017)27(

27528,2mo =×

−+−−

+=

A moda é normalmente é utilizada quando se deseja obter uma medida rápida e aproximada de

posição ou quando a medida de posição dever ser o valor mais típico da distribuição.

A moda apresenta como propriedade e característica o fato que somando-se, subtraindo-se,

multiplicando-se ou dividindo-se uma mesma quantidade a cada valor observado do conjunto n de

dados, a moda se alterará de tal forma ficando adicionada, subtraída, multiplicada ou dividida por

essa quantidade.

Nota 1 – Posição relativa da média, mediana e moda numa distribuição:

Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria

torna-as diferentes e essa diferença é tanto maior quanto maior for a assimetria. Assim,

em uma distribuição temos:

X = dm <= →om curva simétrica

X < dm < →om curva assimétrica negativa

om < dm < →X curva assimétrica positiva

Page 28: Apostila 3 - Estatística descritiva

28

Nota 2 – Utilização da média, moda e mediana para diferentes tipos de variáveis:

A média só pode ser calculada para variáveis quantitativas. Para as variáveis

qualitativas nominais somente podemos trabalhar com a moda. Para as variáveis qualitativas

ordinais, além da moda, podemos trabalhar com a mediana.

4. 3. Medidas de dispersão e variabilidade

As diferenças entre os elementos de um conjunto de mensurações podem ser observadas para

a maioria desses conjuntos. Essas diferenças individuais em uma amostra ou população definem o

que os estatísticos chamam de variabilidade ou dispersão do conjunto de mensurações. É

conveniente enfatizar que a variabilidade entre os elementos é vista pela perspectiva da dispersão

em torno do centro de distribuição. As medidas dessa variabilidade são denominadas de medidas de

dispersão. Se aplicadas em uma população, são chamadas de parâmetros de dispersão da população

e, se aplicadas em amostras, são chamadas de estimadores de dispersão.

As medidas de posição são importantes para caracterizar um conjunto de mensurações, mas

não são suficientes para caracterizar completamente a distribuição dos dados. Outras medidas são

necessárias para isso, enquadrando-se aí as medidas de dispersão, que se aplicam na caracterização

de uma distribuição de mensurações.

Mas, como medir essa dispersão?

Uma vez anotados os dados referentes a uma determinada característica, calcula-se a média

desses dados, e a seguir, os desvios de cada dado em relação a essa estimativa. Esses desvios são, a

seguir colocados num gráfico para melhor visualização da dispersão espacial. Temos, assim, uma

idéia do grau de dispersão dos dados: quanto maior a dispersão, maior é a variação do acaso, ou

seja, maior é a presença dos fatores não controlados da variação.

Page 29: Apostila 3 - Estatística descritiva

29

Para exemplificar este fato, tem-se a seguir três amostras.

A = {8, 8, 9, 10, 11, 12, 12} 10XA =

B = {5, 6, 8, 10, 12, 14, 15} 10XB =

C = {1, 2, 5, 10, 15, 18, 19} 10XC =

Nota-se, que com base na média, não é possível caracterizar e diferenciar as distribuições dos

dados nas três amostras, uma vez que em todas as amostras a estimativa da média foi igual, porém,

com estas médias é possível obter os desvios em cada amostra.

Se chamarmos de yi os valores ou dados observados, de µ a média verdadeira dos dados e de

ei os desvios em relação à medi, podemos admitir o seguinte modelo matemático para representar

os dados: yi = m + ei. Uma vez que são dados amostrais, a estimativa da média é indicada por X ou

µ̂ e os desvios por êi. Assim, o os desvios em relação à média para a amostra A são -2, -2, -1, 0, 1,

2, 2, para a amostra B são -5, -4, -2, 0, 2, 4, 5 e para a amostra C são -9, -8, -5, 0, 5, 8, 9.

A forma de quantificar essa variabilidade é por meio das medidas de dispersão.

� Amplitude total de variação

É a diferença entre a menor e a maior observação de um conjunto de dados.

É uma medida simples e fácil de ser calculada, mas é uma pobre medida de dispersão, por não

considerar todas as mensurações, levando em conta apenas os valores extremos (máximo e

mínimo). Além disso, como é improvável que a amostra contenha os valores máximo e mínimo da

população, a amplitude geralmente subestima a amplitude populacional, sendo um estimador

viesado e ineficiente.

Ex: Litros de leite/vaca/dia (Y)

Y = 10,5; 10,2; 11,5; 11,9; 12,7; 12,6; 12,9

A = 12,9 – 10,2 = 2,7

Para dados em distribuição de freqüências o estimador da amplitude é dado por:

� Desvio médio

Uma vez que a amplitude é considerada ineficiente por não levar em conta todos os valores

amostrais, é possível expressar a variabilidade de um conjunto de dados em termos de desvios da

média.

1XXA n −=

1XXA n −=

Page 30: Apostila 3 - Estatística descritiva

30

Em virtude do 0)(1

=−∑=

XXn

i

i , usamos para calcular o desvio médio ∑=

−n

i

i XX1

)( .

Portanto, para dados isolados:

E para dados apresentados em tabela de distribuição de freqüências:

Apesar de seu aspecto atrativo, essa medida, em razão dos valores absolutos, conduz a sérias

dificuldades teóricas em problemas de inferência estatística, por isso é raramente usada.

� Variância

A variância é outra forma de contornar o problema de a soma dos desvios em relação à média

aritmética ser sempre igual a zero. Neste caso, a alternativa é usar a soma de quadrado dos desvios.

Por ser considerada como um valor médio dos desvios ao quadrado, é conhecida também como

QUADRADO MÉDIO.

A variância amostral de um conjunto de dados é, por definição, a média dos quadrados das

diferenças dos valores em relação à sua média, isto é,

11

/)(

1

)(ˆ 1 1

22

1

2

2

−=

−=

−=

∑ ∑∑= ==

n

SQ

n

nXX

n

XXX

n

i

n

i

ii

n

i

i

σ

Em que, SQx = Soma de quadrados de desvios de X.

Se os dados estiverem dispostos em uma tabela de freqüências, poderemos obter 2σ̂ por:

1

/)(

1

)(ˆ 1

2

2

1

1

2

2

−−=

−=

∑∑

∑=

=

=

n

nXF

XFn

FXXk

i

ii

i

k

i

i

i

k

i

i

σ

Em que, n-1 é denominado graus de liberdade, e k = número de classes.

OBS: No caso da variância populacional, o denominador é N, e não simplesmente N – 1. Usa-

se n – 1, no estimador da variância populacional, como fator de correção de modo a torná-lo não

viesado.

Page 31: Apostila 3 - Estatística descritiva

31

A unidade da variância é igual ao quadrado da unidade dos dados originais. Por isso, não tem

significado físico, todavia, é extremamente útil como medida de variabilidade, sendo igual a zero

quando todas as mensurações são iguais entre si e crescendo à medida que se aumentam as

diferenças (dispersão) entre os elementos do conjunto mensurado.

As propriedades da variância são:

a) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não se

alterará.

b) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância

ficará multiplicada ou dividida pelo quadrado dessa constante.

� Desvio padrão

Os desvio padrão é obtido pela extração da raiz quadrada da variância, tendo como vantagem

o fato de ser expresso na mesma unidade do conjunto de dados. Facilitando assim a leitura e análise

da dispersão.

2ˆˆ σσ =

No exemplo dos coelhos (página 9) temos:

n Xi Xi2

1 2 3 4 5 6 7 8 9 10

2,47 2,49 2,56 2,56 2,59 2,61 2,62 2,62 2,62 2,70

6,1009 6,2001 6,5536 6,5536 6,7081 6,8121 6,8644 6,8644 6,8644 7,2900

Σ 25,842 66,8116

22

2 003412,010

)842,25(8116,66

110

1ˆ kg=

−=σ

kg058481,0003412,0ˆ ==σ

Para os dados agrupados em distribuição de freqüência temos:

Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.

Page 32: Apostila 3 - Estatística descritiva

32

Classes (kg) Fi iX 2i

X ii XF × 2ii XF ×

2,413 ├ 2,528 2 2,471 6,1058 4,942 12,2116

2,528 ├ 2,643 7 2,586 6,7864 18,102 46,8118

2,643 ├ 2,758 1 2,701 7,2974 2,701 7,2974

∑ 10 - - 25,745 66,3188

22

2 004261,010

)745,25(3188,66

110

1ˆ kg=

−=σ

kg065279,0003412,0ˆ ==σ

A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a

variabilidade de amostras de médias diferentes e unidades de medidas ou grandezas diferentes, não

podem ser comparadas diretamente pela variância ou desvio padrão obtidas. Para temos uma melhor

visão deste fato os três conjuntos a seguir são ilustrados:

A = {1, 2, 3}; B={101, 102, 103}; C={1001, 1002, 1003}

Aσ̂ = 1, Bσ̂ = 1 e

Cσ̂ =1

As propriedades do desvio padrão são:

a) Somando ou subtraindo uma constante k aos dados o desvio padrão não se altera.

b) Multiplicando-se todos os dados por uma constante k o desvio padrão ficará multiplicado

por essa constante.

OBS: Quando o desvio padrão é pequeno, próximo de zero, existirá grande concentração dos dados

em torno da média. Por outro lado, se o desvio padrão for grande os valores não se concentrarão

com tal intensidade em torno da média.

� Coeficiente de variação

O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas

são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados.

Conjuntos de dados com diferentes unidades de medida não podem ter suas dispersões comparadas

pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem

medidas de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas

Page 33: Apostila 3 - Estatística descritiva

33

medidas de dispersão apresentadas. Fica evidente que um estimador que não seja dependente desses

fatores se faz necessário. Essa avaliação da variabilidade é conhecida por medida da variabilidade

relativa da amostra ou população, sendo usado para este fim o coeficiente de variação (CV).

O estimador do coeficiente de variação populacional é dado por:

CV = 100ˆ

×X

σ

No exemplo: A = {1, 2, 3}; B={101, 102, 103}; C={1001, 1002, 1003}, tem-se:

%501002

1CVA =×=

%1100102

1CVB =×=

%1,01001002

1CVC =×=

Portanto o conjunto A apresenta maior variabilidade em relação aos demais.

OBS: O coeficiente de variação é a expressão do desvio padrão como porcentagem da media

do conjunto de dados. Tem a vantagem de ser uma medida adimensional, ou seja, não possui

unidade de medida.

� Erro padrão da média

Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são

retiradas de uma população e que em cada amostra seja estimada a média. Se for computado o

desvio padrão da população formada por todas as estimativas de médias obtidas, o valor encontrado

é conhecido como erro padrão da média.

O erro padrão da média (X

σ ) é dado pela razão entre o desvio padrão populacional e a raiz

do tamanho amostral.

n n

n n

n

n

amostras (n)

Amostra 1 → 1X

Amostra 2 → 2X

Amostra m → mX

Page 34: Apostila 3 - Estatística descritiva

34

nX

σσ =

O estimador desse parâmetro é aprestado abaixo. As razões do estimador são: não se

conhece, em geral, o desvio padrão populacional; na maioria das situações reais não é possível

retirar todas as amostras de uma população e, em geral, apenas uma amostra é extraída da

população.

nX

σσˆ

ˆ =

O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média

da população. Quanto menor for seu valor, mais provável será a chance de obter a média da amostra

nas proximidades da média da população, e quanto maior o seu valor, menos provável se torna esse

evento.

4. 4. Estatísticas descritivas de distribuição

A forma de distribuição dos dados é extremamente importante na estatística. Os estatísticos

constroem modelos para dados, e esses servirão de base para a inferência. A construção desses

modelos envolve componentes de natureza aleatória. Esses componentes dos modelos estatísticos se

comportam e são descritos por meio de modelos denominados probabilísticos. Esses, por sua vez,

possuem diferentes formas, tornando essencial para os estatísticos e investigadores determinarem a

forma da distribuição dos dados amostrais, para realizarem escolhas acertadas do modelo

probabilístico ou daquele modelo que mais e aproxima da realidade.

As medidas de posição e distribuição oferecem importantes informações de locação e de

variabilidade da distribuição de referência, mas existem outros procedimentos que fornecem

informações da distribuição dos dados amostrais, tais como os coeficientes de assimetria e curtose.

� Medida ou coeficiente de assimetria

O coeficiente de assimetria mede a simetria ou assimetria de uma distribuição, ou seja, a

distribuição dos valores em torno do seu centro.

Uma distribuição de valores somente poderá ser representada por uma curva (gráfico). Essa

curva, conforme a distribuição pode apresentar várias formas. Se considerarmos o valor da moda da

distribuição como ponto de referência, vemos que esse ponto sempre corresponde ao valor da

ordenada máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada,

logo a curva será analisada quanto à sua simetria:

Page 35: Apostila 3 - Estatística descritiva

35

* Distribuição simétrica: X = om =

dm

* Distribuição assimétrica: om < dm < X ou X < dm < om

Podemos medir a assimetria de uma distribuição de diferentes formas: cálculo da assimetria

pelo método dos momentos centrado na média e

a) Cálculo da assimetria pelo MÉTODO DOS MOMENTOS centrado na média

Antes de iniciar a explicação sobre como obter o coeficiente de assimetria vamos discutir em

que consiste o método dos momentos centrado na média.

Método dos momentos centrado na média

Os momentos populacionais centrados na média (µr) são definidos pela seguinte expressão:

N

XX

m

N

i

r

i

r

∑=

−= 1

)(

O coeficiente r da expressão é a ordem do momento. Assim, para r = 1 tem-se o momento de

primeira ordem, o qual sempre será igual a zero; para r = 2 o momento de ordem 2, que é a

variância da população; para r = 3 o momento de assimetria de ordem 3; para r = 4 o momento

de curtose de ordem 4; e assim por diante. Ë importante salientar que essa definição refere-se à

população finita.

Os estimadores amostrais para o momento centrado de ordem r (mr) são apresentados na

seguinte expressão:

Page 36: Apostila 3 - Estatística descritiva

36

n

XX

m

n

i

r

i

r

∑=

−= 1

)(

Assim, o coeficiente de assimetria populacional ( 1β ) é uma forma padronizada do

estimador do momento de assimetria (r = 3). Seu estimador 1b é dado pela razão do momento

amostral de ordem 3 pelo momento amostral de ordem 2, ou seja:

23

2

33

2

23

1

)()(

)(

m

m

m

mb ==

Que corresponde à:

23

1

2

1

3

1

)(

)(

=

=

=

n

XX

n

XX

bn

i

i

n

i

i

- Se 1β > 0 ⇒ a distribuição será Assimétrica Positiva;

- Se 1β = 0 ⇒ a distribuição será Simétrica;

- Se 1β < 0 ⇒ a distribuição será Assimétrica Negativa.

b) Cálculo da assimetria em relação à mediana e à moda

Empiricamente, Pearson inferiu que para distribuições unimodais moderadamente

assimétricas, a distância entre a média e a moda é cerca de três vezes a distância entre a média e a

mediana. Essa identidade, expressa em números de desvios-padrão (para produzir coeficientes

puros ou absolutos), define os coeficientes de assimetria de Pearson (As) em relação à moda e à

mediana:

σ̂oMX

As−

= e σ̂

)(3 dMXAs

−=

- Se As > 0 ⇒ a distribuição será Assimétrica Positiva;

- Se As = 0 ⇒ a distribuição será Simétrica;

Page 37: Apostila 3 - Estatística descritiva

37

- Se As < 0 ⇒ a distribuição será Assimétrica Negativa.

OBS.: Quando não se dispõe da Moda e nem Mediana, pode-se calcular o coeficiente de

assimetria pela seguinte expressão: 2

1

()2)(1( ∑

=

−−−

=n

i

XXi

nn

nAs

σ

Nota: a distribuição simétrica ou em forma de sino está relacionada com a forma mais

notável do modelo probabilístico. Esse modelo é denominado de distribuição de

probabilidade normal. Os métodos estatísticos que são baseados nesse tipo de modelo

probabilístico apresentam facilidade de serem manuseados e implementados em situações reais.

� Medida ou coeficiente de curtose

O grau de achatamento de uma distribuição é chamado de curtose.

A medida de curtose ou achatamento nos mostra até que ponto a curva representativa e uma

distribuição é mais aguda ou mais achatada que uma curva de distribuição normal, de altura média,

utilizada como referência.

- Curva Mesocúrtica (Distribuição Normal): É considerada a curva padrão.

- Curva Leptocúrtica: É uma curva que apresenta o topo relativamente alto, ou seja, os

valores se acham mais agrupados em torno da moda. Ou ainda, apresenta uma concentração de

valores (mensurações) próxima ao valor central maior que a da distribuição normal.

- Curva Platicúrtica: É uma curva mais baixa que a normal. Apresenta o topo achatado,

significando que várias classes apresentam freqüências quase iguais.

A expressão do coeficiente de curtose (b2) também é determinada pelo MÉTODO DOS

MOMENTOS centrado na média da seguinte forma:

22

42 )(m

mb =

Que corresponde à:

Page 38: Apostila 3 - Estatística descritiva

38

2

1

2

1

4

2

)(

)(

=

=

=

n

XX

n

XX

bn

i

i

n

i

i

- Se b2 > 3 ⇒ a distribuição será Leptocúrtica;

- Se b2 = 3 ⇒ a distribuição será Mesocúrtica;

- Se b2 < 3 ⇒ a distribuiçãos será Platicúrtica.

OBS.: De outra forma o coeficiente de curtose (C) pode ser definido por:

)3)(2(

)1(3)

ˆ(

)3)(2)(1(

)1( 2

1

4

−−−

−−−−

+= ∑

= nn

nXX

nnn

nnC

n

i

i

σ

- Se C > 0,263 ou ∼ 3 ⇒ a distribuição será Leptocúrtica;

- Se C = 0,263 ou ∼ 3 ⇒ a distribuição será Mesocúrtica;

- Se C< 0,263 ou ∼ 3 ⇒ a distribuiçãos será Platicúrtica.

7. LITERATURA CONSULTADA

ARA, A. B.; MUSETTI, A. V.; SHNEIDERMAN, B. Introdução à estatística. São Paulo: Egard

Blucher: Instituto Mauá de Tecnologia, 2003.152p.

CARVALHO, S. Estatística básica. Rio de Janeiro: Campus/Elsevier, 2006. 464p.

FERREIRA, D. F. Estatística básica. Lavras: UFLA, 2005. 664p.

REGAZZI, A. Curso de iniciação à estatística (Apostila). Universidade Federal de Viçosa,

Viçosa – MG, 1997. 136p.

TRIOLA, M. F. Introdução à estatística. Rio de Janeiro: LTC, 2005. 656p.

Este conteúdo é resultado de pesquisas em vários livros e apostilas de estatística básica e aplicada,, portanto, ainda

deve ser revisado. Qualquer erro de digitação (ou outro qualquer), sugestões, críticas, etc., por favor, me comuniquem.

Obrigada.

Profa. Gisele

Page 39: Apostila 3 - Estatística descritiva

39

UNIVERSIDADE FEDERAL DO PIAUÍ Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI Lista de exercícios: Estatística descritiva ou Análise exploratória de dados 1. Cinqüenta amostras de arroz foram selecionadas e mediu-se a quantidade de selênio em cada uma delas. Os resultados estão colocados abaixo.

Quantidades de selênio medidas em 50 amostras de arroz, em µg/g. 0,08 0,07 0,07 0,06 0,09 0,07 0,07 0,07 0,08 0,06 0,08 0,08 0,07 0,08 0,07 0,07 0,06 0,09 0,07 0,08 0,07 0,07 0,06 0,08 0,07 0,10 0,07 0,07 0,07 0,08 0,08 0,04 0,08 0,07 0,09 0,09 0,08 0,07 0,09 0,07 0,07 0,07 0,10 0,08 0,07 0,08 0,07 0,06 0,08 0,09

a) Como é classificada a variável QUANTIDADE DE SELÊNIO EM ARROZ, quanto ao tipo de

variável? Justifique. b) Sabendo-se que os resultados foram apresentados na forma de dados brutos, apresente-os na

forma de dados elaborados. c) Obter uma tabela de distribuição de freqüências pontual da quantidade de selênio em arroz.

Inclua as freqüências absolutas (Fi), freqüências relativas (Fri), freqüências percentuais (Fpi%), freqüências acumuladas (Fci)e freqüências acumuladas percentuais (Fci%).

d) Construir um gráfico de colunas para os dados de freqüências percentuais. e) Calcular a média aritmética simples e a média aritmética para dados agrupados e comparar os

resultados. f) Calcular a média harmônica simples e para dados agrupados e comparar os resultados. g) Calcular a mediana simples e para dados agrupados e comparar os resultados. h) Calcular a moda simples, classificando-a. i) Calcular a amplitude total de variação, o desvio médio, a variância, o desvio padrão, o coeficiente

de variação e o erro padrão da média de selênio em arroz. 2. Complete os dados que faltam na seguinte distribuição.

Classes Fi Fri Fci 1 4 0,08 2 4 3 0,16 16 4 7 0,14 5 5 28 6 38 7 7 0,14 45 8

3. Em um experimento, um pesquisador calculou a altura média dos animais que sofriam de uma doença específica. O valor obtido foi igual a 156 cm e o desvio-padrão foi de 5 cm. Investigações posteriores, entretanto, revelaram que todas as medidas feitas estavam 2 cm maiores que os valores verdadeiros. Nessa situação, é correto afirmar que os valores corretos para a média e o desvio-padrão são 1,58 m e 0,05 m, respectivamente? Justifique. 4. Em um experimento o número de carrapatos, observados em cada um dos animais de um grupo, foram os seguintes: 19, 7, 4, 9, 7, 17, 13, 10, 17, 15, 11, 15, 15, 20, 19. Após terem sido calculadas a média aritmética, a mediana e a moda, um erro foi descoberto: um dos animais com 15 carrapatos tinha, na realidade, 17. É correto afirmar que nessa situação apenas a média aritmética se altera após a correção dos dados? Justifique.

Page 40: Apostila 3 - Estatística descritiva

40

Calcular também a amplitude, desvio médio, variância, desvio padrão, coeficiente de variação e erro padrão da média do número de carrapatos após a correção. 5. A tabela abaixo ilustra a classificação por peso, em gramas, de uma amostra com 35 peixes.

Considerando essas informações, é correto é afirmar que: a) Deve-se associar à quarta classe da tabela o valor de 0,015 kg? Justifique. b) A média aritmética dos valores agrupados é igual a 15,50 g? Justifique. c) Obtenha o histograma e o polígono de freqüência.

Classe (g) Freqüência 0 –| 5 8 5 –| 10 2

10 –| 15 6 15 –| 20 8 20 –| 25 5 25 –| 30 5 30 –| 35 0 35 –| 40 1

6. Os dados a seguir, referem-se à altura, em metros, de Pinnus elliottii var. elliottii, com 10 anos de idade, no espaçamento de 2,0 x 2,5m (Barbin, 2003).

8,46 7,50 8,84 10,85 8,97 7,28 9,00 8,77 9,08 11,73

13,60 9,06 9,21 10,09 10,23 10,38 11,00 8,03 10,83 6,45 10,27 8,00 5,20 10,94 7,76 12,37 10,17 9,58 6,68 12,39 9,89 9,60 5,90 9,13 8,01 9,92 9,15 12,06 11,63 8,22

11,65 6,30 10,08 8,73 7,02 10,72 10,97 7,53 10,46 8,89

a) Calcular a média aritmética, a mediana, a variância, o desvio padrão, o erro padrão da média

e o coeficiente de variação. b) Calcular os desvios em torno da média e coloca-los em um gráfico. c) Eliminar os dados 5,20 e 5,90 e repetir os cálculos dos itens a e b. d) Discutir os resultados obtidos nos itens b e c.

7. Considere a produção média (toneladas) por hectare de uma espécie vegetal após a utilização de adubos fosfatados e nitrogenados. Cinco doses de fósforo (i = 1, 2, 3, 4 e 5) e quatro doses de nitrogênio (j = 1, 2, 3 e 4) foram aplicadas.

Teor de nitrogênio (j) Teor de fósforo (i)

1 2 3 4 1 4,6 5,0 5,5 5,8 2 5,0 5,5 6,1 5,5 3 5,2 5,8 6,4 5,5 4 6,0 6,2 6,8 6,0 5 5,0 5,8 6,0 5,8

Page 41: Apostila 3 - Estatística descritiva

41

a) Como são classificadas as variáveis DOSES DE N e DOSES DE P, quanto ao tipo de variável?

b) A tabela acima apresenta os dados brutos ou elaborados? Justifique. c) Qual (is) tipo (s) de série estatística a tabela acima apresenta? d) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a

utilização de CADA dose de fósforo. e) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a

utilização de CADA dose de nitrogênio. f) Calcule a média aritmética geral do experimento. g) Calcule a mediana da produtividade após a utilização de CADA dose de fósforo. h) Calcule a mediana da produtividade após a utilização de CADA dose de nitrogênio. i) Calcule a mediana geral do experimento. j) Calcule a moda da produtividade após a utilização de CADA dose de fósforo. k) Calcule a moda da produtividade após a utilização de CADA dose de nitrogênio. l) Calcule a moda geral do experimento. m) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de

fósforo. n) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de

nitrogênio. o) Obtenha o erro padrão da média da produtividade após a utilização de CADA dose de

fósforo e de CADA dose de nitrogênio. Descreva como você diferencia o que mede o desvio padrão e o que mede o erro padrão da média.

p) Supondo que, em investigações posteriores, o pesquisador constatou que copiou um número errado, que na verdade X23 = 7,0. Após a correção, quais as novas estimativas de média aritmética, mediana e moda após a utilização da dose 2 de P? E após a utilização da dose 3 de N?

q) Considerando o que foi exposto na letra p, após a correção, quais as novas estimativas de amplitude total, desvio médio, variância e desvio padrão após a utilização da dose 2 de P? E após a dose 3 de N? Houve similaridade nos resultados dessas estimativas antes da correção?

r) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada dose de fósforo. Par qual dose houve maior cuidado do pesquisador quanto à precisão experimental, ou seja, maior uniformidade? Justifique.

s) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada dose de nitrogênio. Par qual dose houve maior cuidado do pesquisador quanto à precisão experimental, ou seja, maior uniformidade? Justifique.

8. Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na tabela abaixo:

Peso (g) iX Fi

960 980 970 60 980 1000 990 160

1000 1020 1010 280 1020 1040 1030 260 1040 1060 1050 160 1060 1080 1070 80

a) Qual a média da distribuição? b) Qual a variância da distribuição?

Page 42: Apostila 3 - Estatística descritiva

42

c) Construa o histograma e o polígono de freqüências. Determinar a natureza da distribuição quanto à simetria.

d) Obter a mediana e a moda. Compare a estimativa da moda com a classificação da moda visualizada no histograma e polígono de freqüências obtido anteriormente. Há coerência entre os resultados?

e) Obter a amplitude total, a variância, o desvio padrão, o desvio médio, o coeficiente de variação e o erro padrão da média para a mensuração.

f) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada, e também separar os animais como peso superior a um desvio e meio padrão acima da média para usá-los como reprodutores. Qual a percentagem de animas que serão separados em cada caso?

9. Considere as duas amostras dadas abaixo: Amostra A: 10, 9, 8, 7, 6, 10 e 6. Amostra B: 10, 6, 10, 6, 8, 10, 8 e 6.

a) Calcule a amplitude para ambas as amostras. Você concluiria que ambas as amostras exibem

a mesma variabilidade? b) Calcule o desvio-padrão de ambas as amostras. Essas quantidades indicam que ambas as

amostras têm a mesma variabilidade? c) Escreva um curto texto contrastando a amplitude da amostra com o desvio-padrão da

amostra, como medida de variabilidade.