220
FUNDAÇÃO OSWALDO CRUZ CENTRO DE PESQUISAS AGGEU MAGALHÃES INTRODUÇÃO À BIOESTATÍSTICA CARLOS FEITOSA LUNA RECIFE 2012

Apostila estatística

Embed Size (px)

Citation preview

Page 1: Apostila estatística

FUNDAÇÃO OSWALDO CRUZ

CENTRO DE PESQUISAS AGGEU MAGALHÃES

INTRODUÇÃO À BIOESTATÍSTICA

CARLOS FEITOSA LUNA

RECIFE

2012

Page 2: Apostila estatística

“A mente que se abre a uma nova idéia jamais voltará ao seu tamanho original”.

Albert Einstein

Page 3: Apostila estatística

SUMÁRIO

Introdução à Estatística............................................................................................................1 Estatística Descritiva .............................................................................................................21 Probabilidade.........................................................................................................................50 Distribuição de Probabilidade ...............................................................................................65 Estatística Descritiva .............................................................................................................76 Estimação ..............................................................................................................................94 Testes Paramétricos .............................................................................................................106 Testes Não-Paramétricos .....................................................................................................136 Regressão Linear Simples ...................................................................................................170 Tabelas e Figuras.................................................................................................................182

Page 4: Apostila estatística

1

Capítulo 1

INTRODUÇÃO À ESTATÍSTICA 1. CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA 1.1 CONCEITOS E OBJETIVOS

“Podemos considerar a Estatística como um conjunto de métodos e

processos quantitativos que serve para estudar e medir os fenômenos coletivos”.

O objetivo de reunir dados é o de fornecer informações sobre as características de

grupos de pessoas ou coisas. Essas informações têm por objetivo conhecer o problema e, desta forma, servir de base para a escolha dos método mais adequados para resolvê-lo.

Quando um cardiologista, por exemplo, solicita do seu paciente informações referentes ao seu histórico familiar sobre doenças cardiovasculares, DCV, está levantando um dado que já mostrou, a partir de dados referentes a outros pacientes, apresentar uma possível relação com o seu prognóstico cardiológico. Essa e outras informações, como tipo de alimentação, exposições a tensões e sedentarismo, irão auxiliar a compor um quadro dos fatores que podem contribuir para melhorar ou prejudicar a saúde do paciente. Essas informações são de natureza estatística, aplicas, neste caso, à medicina.

Evidentemente, trata-se de fornecer a informação da forma mais inteligível e completa possível. Desta forma, são utilizadas rotinas e meios que permitam um bom atendimento das informações, organizando os dados. A organização de vários grupos de dados dá origem aos bancos de dados.

Define-se como primeiro (porém não mais importante) objetivo da estatística tornar a informação clara e precisa ao receptor, valendo-se do ferramental disponível. Atualmente, os recursos automáticos e gráficos da microcomputação são ferramentas indispensáveis para o tratamento da informação e, por extensão, para a estatística. 1.2 HISTÓRICO

O desenvolvimento da estatística, como ciência, é relativamente recente. Entretanto,

algumas, tarefas do trabalho estatístico foram já realizadas pelo homem há milhares de anos. É o caso, por exemplo, dos levantamentos populacionais, ou Censos, cuja existência remonta às cidades estado gregas, e que tinham como principal objetivo a verificação da capacidade militar delas próprias. Deste modo, os primeiros registros estatísticos eram de pessoas (pela finalidade, inclusive, contavam-se somente as do sexo masculino e em idade adulta), animais (principalmente cavalos) e armas. Tempo depois os governantes descobriram que o registro do numero de habitantes do seu estado tinha importância do ponto de vista fiscal, pois, se cada habitante era taxado com um determinado tributo, para estimar a receita total do estado era necessário dispor de informações sobre a população total. Por esta razão, a etimologia do termo estatística está associada à raiz stat (ou “estat”), e o seu significado estrito seria “coisas do estado” ou “notícias do estado” sentido no qual o termo foi pela primeira vez utilizado documentalmente, em 1749, por Achenwall, referindo-se à coleção de informações acerca do Estado.

Page 5: Apostila estatística

2

Em termos de registros mais concretos, Schott cita a primeira estatística da população em Nüremberg, em 1449. No século XVI, surgem descrições estatísticas na Itália e Espanha. Entre 1624 e 1640 são publicadas as Descrições estatísticas de Jan de Laet, intituladas “Republicae Elzevirianae”. Mais próximo das estatísticas de saúde, e a primeira obra neste sentido que se tem registro é a obra “Natural und political observations upon the bills of mortality”, de John Graunt, no ano de 1662. Anos mais tarde, em 1693 é registrada a publicação da primeira tabela de mortalidade, por Halley. A partir do final da primeira metade do século XVIII, são efetuados censos em várias cidades alemãs e, em 1749, inicia-se, na Suécia, o trabalho de levantamento estatístico demográfico com caráter regular. Em 1741, o dinamarquês Anchersen faz a primeira exposição estatística utilizando tabelas, que irão permitir a reorganização do trabalho de descrição de dados. Em 1782, em Giessen, Crone emprega pela primeira vez as representações gráficas. Em 1790, por mandato da Constituição, os Estados Unidos realizam seu primeiro censo populacional, que será repetido de dez em dez anos. Nos anos seguintes as nações mais desenvolvidas utilizam a estatística com regularidade. Em 1834 é fundada a Statistical Society, em Londres. Na Alemanha, nos anos subseqüentes, são efetuados diversos tipos de censos (industriais, profissionais, comerciais, etc.). Em 1885 é fundado o Instituto Internacional de estatística. É necessário notar que em todos esses estudos, predomina a estatística de observação, ou estatística descritiva, que cuida basicamente da organização das informações.

A estatística ganha um novo status quando aliada ao ramo da matemática, conhecido como Teoria das Probabilidades, e passa então a tratar dos erros decorrentes da chamada ciência indutiva1. A partir desse momento, torna-se uma ferramenta importante nos ramos da ciência em que este mecanismo de conhecimento é empregado, e pode ser observada nos currículos de cursos diversos, tais como, Medicina, Engenharia, Economia, Administração, Física, Psicologia e outros. 1.3 BIOESTATÍSTICA

Bioestatística é a estatística aplicada às ciências que estudam aspectos vitais (referentes à vida), como a Medicina, Biologia, Odontologia ou Psicologia.

Na medicina, especificamente, pode ser entendida em dois ambientes. O primeiro, referente ao levantamento de informações, como registro de doenças, surtos, endemias, epidemias, e de registros de qualidade de vida, como condições de alimentação, sanitárias, habitacionais, de prevenção a doenças, educação, etc. Denomina-se este ambiente de Ambiente Macro, e tem a ver fundamentalmente com a identificação, a planificação e a execução de ações de Saúde Pública. Neste caso, constitui-se num ferramental fundamental para cadeiras do curso de medicina como Epidemiologia, Medicina Preventiva, Organização de Sistemas de Saúde, etc.

O segundo ambiente refere-se à elaboração de experiências e pesquisa científica, tais como testes de vacinas, avaliação de terapêuticas e tratamentos, testes de medicamentos etc. Denomina-se este ambiente de Ambiente Micro, e tem a ver, naturalmente, com a pesquisa laboratorial e científica. Relaciona-se principalmente por esse motivo com as disciplinas de Imunologia, Fisiologia e Farmacologia, dentro do ciclo de formação básica do médico, e com todas as demais áreas clínicas, em maior ou menor medida, como Pediatria, Cardiologia, Neurologia, Pneumologia, Psiquiatria, Gastroenterologia, etc., toda vez que

1 O método indutivo, que é a base de uma ciência indutiva, busca a construção de leis gerais a partir do conhecimento de uma parcela do universo. Por exemplo: observando algumas características de um grupo de fumantes, assumir que essas características são típicas de todos os fumantes.

Page 6: Apostila estatística

3

é indispensável à compreensão da grande maioria das publicações de artigos científicos nessas especialidades.

A Bioestatística, pela sua importância para a pesquisa médica, é disciplina obrigatória da maioria das especialidades de pós-graduação em medicina. No sentido de disciplina, a Estatística ensina métodos racionais para a obtenção de informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através de alguma(s) característica(s) de valores numéricos observados.

Desta forma, a Estatística pode ser dividida em duas grandes áreas: ESTATÍSTICA DESCRITIVA - é a parte da Estatística que tem por objetivo

descrever os dados observados. São atribuições da Estatística Descritiva:

a) A organização dos dados consiste na ordenação e crítica quanto à correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc.

b) Redução dos dados consiste no entendimento e compreensão de grande

quantidade de dados através de simples leitura de seus valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experimentado pesquisador, portanto deveremos tabular os dados.

c) A representação dos dados pode facilitar a compreensão quando apresentados

através de uma representação gráfica, a qual permite uma visualização instantânea de todos os dados. Os gráficos quando bem representativos, tornam-se importantes instrumentos de trabalho.

d) A obtenção de algumas informações que sumarizam os dados, facilitando a

descrição dos fenômenos observados. ESTATÍSTICA INFERENCIAL (ou Indutiva) - é a parte da Estatística que tem

por objetivo obter e generalizar conclusões para a população a partir de uma amostra.

Complementando o processamento estatístico, no caso de uma estimação, a Estatística

Indutiva estuda os parâmetros a partir do uso de estimadores usando o cálculo das probabilidades, elemento este que viabiliza a inferência estatística.

Em resumo, um estudo estatístico completo que recorra às técnicas de Estatística Inferencial irá envolver também, direta ou indiretamente, tópicos de Estatística Descritiva, Cálculo das Probabilidades e Amostragem. Logo, para se desenvolver um curso completo e razoável de Estatística, todos esses assuntos devem ser abordados.

Page 7: Apostila estatística

4

1.4 O PAPEL DA ESTATÍSTICA NA PESQUISA CIENTÍFICA 1.4.1 RELAÇÃO ENTRE O PROJETO DE PESQUISA E A ESTATÍSTICA

A estatística tem tido uma longa e estreita relação com a filosofia da ciência e sua epistemologia, embora a estatística, freqüentemente tem sido modesta na sua extensão e pragmática na sua atitude. Em stricto sensu a estatística é parte da filosofia da ciência, porém de fato, essas duas áreas são estudadas separadamente (Kuskal e Tuner, 1978).

Segundo Pereira (1997) a estatística é a tecnologia da ciência e, portanto, a estatística deve estar presente desde o início da pesquisa. A Figura 1.1 mostra a relação entre o projeto de pesquisa e o papel da estatística, a Figura 1.2, a produção do conhecimento científico e a Figura 1.3, as relações entre o mundo teórico e o mundo empírico.

O projeto de pesquisa O papel da estatística

Conceitualização do objeto de pesquisa 1) Definição do objeto de pesquisa 2) Situação dos conhecimentos 3) Modelo teórico e hipóteses ou questões

da pesquisa

A estatística ajuda a

operacionalizar as hipóteses ou questões de pesquisa

Escolha de uma estratégia de pesquisa 4.a) Modelo de pesquisa escolhido 4.b) Validade do modelo

Por estratégia de pesquisa entende-se a integração e articulação do conjunto das decisões a serem tomadas, para apreender de maneira coerente a realidade empírica, a fim de testar de maneira rigorosa as hipóteses ou questões de pesquisa

Planificação operacional da pesquisa 5) população estudada 6) definição das variáveis e coleta de dados7) Análise de dados 8) Cronograma e orçamento 9) Pertinência da pesquisa 10) Respeito às regras éticas

A estatística ajuda na definição da população a ser estudada, na definição das variáveis, na coleta de dados e na análise.

Figura 1.1: Esquema de um projeto de pesquisa

Page 8: Apostila estatística

5

A roda do conhecimento científico O papel da estatística

Teorias Parâmetros populacionais

Generalizações Hipóteses

Inferência Estatística

Hipóteses Amostras

Estimadores

Observações Dados Estimativas

Figura 1.2: A produção do conhecimento científico

Mundo conceitual teórico Mundo empírico observado

X1

Proposição

teórica

Operacionalização

Hipótese

X2

Figura 1.3: Relações entre o mundo teórico e o mundo empírico

Modelo teórico. Uma teoria é uma explicação sistemática dos fenômenos observados

e das leis relativas a eles. Uma teoria se expressa pelos enunciados das relações que existem entre os conceitos. O modelo teórico escolhido deve então propor uma solução original para a situação problemática que constitui o objeto do estudo projetado, caso já exista é possível que seja preciso adaptá-lo e modificá-lo. Quando não existe um modelo teórico o pesquisador deve propor um que integre a situação dos conhecimentos e as suas próprias observações.

A qualidade de um modelo teórico reside na sua capacidade de dar conta dos fenômenos observados no mundo empírico

1.4.2 FORMULAÇÃO DAS HIPÓTESES OU QUESTÕES DE PESQUISA

Hipóteses. Uma hipótese é um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente. Nas pesquisas exploratórias, as hipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretável.

X1

X2

Page 9: Apostila estatística

6

As hipóteses devem ser formuladas na forma de uma relação a ser verificada entre, pelo menos, duas variáveis e não em termo de uma hipótese nula, impossível de verificar, como no caso seguinte:

“Os programas de diagnóstico de câncer do pulmão por radiografia não diminuem a mortalidade por câncer de seio”

As hipóteses de uma pesquisa devem enunciar-se por propostas claras e específicas

quanto possível, como, por exemplo:

“Os programas de diagnóstico de câncer do seio por mamografia diminuem em um terço o risco de mortalidade por este câncer”

“A intenção de utilizar preservativo é associada positivamente à presença de

normas sociais aprovando a adoção desse comportamento”.

Em um mesmo estudo pode haver mais de uma hipótese e estas podem se relacionar de diferentes formas, conforme Figura 1.4. 1.4.3 PLANEJAMENTO OPERACIONAL DA PESQUISA

O planejamento operacional da pesquisa consiste em prever as ações que deverão ser efetuadas para aplicar a estratégia da pesquisa escolhida. Estas ações dizem respeito à seleção da população a ser estudada, à definição das variáveis e à coleta de dados, assim como à análise dos dados recolhidos.

População. Toda questão de pesquisa define um universo de objetos aos quais os resultados do estudo deverão ser aplicados. A população alvo, também chamada população estudada, é composta de elementos distintos possuindo um certo número de características comuns (pelo menos). Estes elementos, chamados de unidades populacionais, são as unidades de análise sobre as quais serão recolhidas informações.

“Uma população ou universo, no sentido geral, é um conjunto de elementos com pelo menos uma característica comum. Essa característica comum deve delimitar inequivocamente quais os elementos que pertencem à população e quais os que não pertencem” (Costa Neto, 1977)

Page 10: Apostila estatística

7

Figura 1.4: Tipos de hipóteses

As unidades populacionais podem estar constituídas por pessoas, famílias, turmas de

alunos, empresas, escolas, ou ainda fazer parte de um objeto mais complexo, como por exemplo, órgãos ou partes do corpo, ou, ainda, podem ser objetos, como, por exemplo, peças defeituosas, plantas, animais, entre outros.

Duas séries de critérios servem para definir os elementos que constituem a população alvo: os critérios de inclusão e, de exclusão. A conjunção desses critérios deveria ser tal modo que todo elemento pudesse ser classificado, sem equívoco, como fazendo ou não parte da população alvo. Teoricamente, a população alvo deveria ser definida com uma precisão tal que fosse possível estabelecer a lista de todos os elementos que a constituem, o que em alguns casos, é impossível.

Amostra. Uma amostra é um subconjunto de indivíduos da população alvo. Para que as generalizações sejam válidas, as características da amostra devem ser as mesmas da população.

Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e as amostras não probabilísticas, que tentam reproduzir o mais fielmente possível a população alvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar uma generalização estatística, apoiada no cálculo de probabilidades e permitir a utilização da potente ferramenta que é a inferência estatística.

Existem várias técnicas de amostragem, cada uma tem vantagens e desvantagens, e a escolha deverá ser feita pelo pesquisador de acordo aos objetivos propostos pela pesquisa.

Page 11: Apostila estatística

8

1.4.4 TÉCNICAS DE AMOSTRAGEM Amostragem probabilística: a) Amostragem aleatória simples b) Amostragem sistemática c) Amostragem por conglomerados d) Amostragem estratificada

Amostragem não probabilística:

a) Amostragem acidental b) Amostragem de voluntários c) Amostragem por escolhas racionais:

i) Julgamento do especialista ii) Julgamento por escolha deliberada

d) Amostragem por quotas

1.4.5 DEFINIÇÃO OPERACIONAL DAS VARIÁVEIS

Toda questão de pesquisa define um número de construções teóricas que o pesquisador quer associar. O grau de operacionalização destas construções não faz parte de um consenso. Porém, a seção que trata das definições das variáveis deve permitir ao leitor avaliar a adequação entre os instrumentos utilizados, as variáveis escolhidas e as construções teóricas descritas no quadro conceitual.

Variável é uma característica da população

Classificação funcional das variáveis Tipos de pesquisa Tipos de variáveis Pesquisa experimental

Variáveis independentes Variáveis dependentes As “outras” variáveis (variáveis de controle, fator de confusão, entre outras)

Pesquisa sintética Não é pertinente a classificação, pois as variáveis se relacionam em rede

Pesquisa de desenvolvimento Não é necessário distinguir as variáveis, pois o objetivo é estabelecer e validar uma intervenção ou um instrumento de medida de uma construção

Variáveis dependentes. São aquelas cujos efeitos são esperados de acordo com as

causas. Elas se situam, habitualmente, no fim do processo causal e são sempre definidas na hipótese ou na questão de pesquisa.

Variáveis independentes. São aquelas cujos efeitos queremos medir. Podem ser assinaladas às “causas” do fenômeno que se quer estudar.

Page 12: Apostila estatística

9

Quando um estudo tem mais de uma hipótese, podem ser definidas diversas variáveis dependentes. Elas podem ser independentes umas das outras ou constituir uma ordem hierárquica, na qual certas variáveis dependentes podem ter um efeito sobre outras variáveis dependentes. Por exemplo:

Hipótese 1: O consumo de álcool diminui o estado de alerta do cérebro Hipótese 2: O risco de acidentes de trânsito aumenta quando o estado de alerta do

cérebro diminui

consumo de álcool

estado de alerta do cérebro

risco de acidentes de

trânsito

variável independente

variável dependente

intermediária

variável dependente principal

Notação estatística:

X Y Z A variável dependente intermediária ou mediatriz representa o mecanismo que precisa

a relação entre a variável dependente principal e a variável independente. As informações ou dados característicos dos fenômenos ou populações são

denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas características particulares podem ser classificadas como:

QUANTITATIVAS - São aquelas que podem ser expressas em termos

numéricos. Em geral são as resultantes de medições, enumerações ou contagens. São subdivididas em contínuas e discretas.

- Contínuas - são aquelas que podem assumir qualquer valor num certo

intervalo de medida, podendo ser associados ao conjunto dos números reais, ou seja, seus valores possíveis formam um conjunto não enumerável. Entre outras, enquadram-se nesta categoria as medidas de tempo, comprimento, espessura, área, volume, peso e velocidade.

- Discretas (ou descontínuas) - quando só podem assumir determinados

valores num certo intervalo, podendo ser associadas ao conjunto dos números inteiros, ou seja, seus possíveis valores formam um conjunto finito ou enumerável. Em geral, representam números inteiros resultantes do processo de contagem, como o número de alunos por sala, de créditos por disciplinas, de pacientes atendidos diariamente num hospital, etc.

QUALITATIVAS - Nem sempre os elementos de uma população são

exclusivamente contáveis. Muitas vezes, eles podem ser qualificados também

Page 13: Apostila estatística

10

segundo algumas de suas características típicas. Nesses casos, as variáveis podem ser agrupadas em nominais ou ordinais (por postos).

- Nominais - quando puderem ser reunidas em categorias ou espécies com

idênticos atributos. Aqui se incluem os agrupamentos por sexo, área de estudo, desempenho, cor, raça, nacionalidade e religião.

- Ordinais - quando os elementos forem reunidos segundo a ordem em que

aparecem dispostos numa lista ou rol. São típicos desta forma de agrupamento, as listas classificatórias de concursos e as tabelas de campeonatos.

De modo geral, as medições dão origem as variáveis contínuas e as contagens ou enumerações, as variáveis discretas. Designamos estas variáveis por letras latinas, em geral, as últimas: X, Y, Z.

Em geral, uma mesma população pode ser caracterizada por mais de um tipo de variável. Assim os inscritos num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o sexo ou área de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.

Observa-se que uma variável quantitativa pode-se transformar em uma variável qualitativa e isso depende da descrição da variável 1.4.6 DESCRIÇÃO DAS VARIÁVEIS

A variável constitui um primeiro nível de operacionalização de uma construção teórica e, para cada uma, se deve dar, em seguida, uma descrição operacional. Para algumas variáveis a descrição é simples, porém, em outros casos, essa definição é mais complexa.

Idade Consumo de álcool Classe social Nominal Sim, Não Ordinal Criança, jovem, velho Pouco, médio, muito Baixa, média, alta

Discretas Número de anos completos

Número de copos de álcool ingeridos

Número de salários mínimos completos

Contínuas Idade em anos, meses, dias,...

Quantidade de álcool presente no sangue

Renda familiar em reais

No exemplo do consumo de álcool e o risco de acidente, pode-se definir a variável

consumo de álcool das seguintes formas: a) número de copos consumidos nas quatro horas que precedem o momento de dirigir,

segundo a declaração do motorista; b) concentração de álcool no sangue segundo o bafômetro; c) observação do motorista enquanto passa pelo teste de dirigir em marcha a ré em

linha reta; d) análise em laboratório de uma amostra sanguínea Outro exemplo é medir atitude em relação à matemática, pode-se perguntar:

Page 14: Apostila estatística

11

Você gosta de matemática?

a) ( )Não ( )Sim b) ( )Detesta ( )Gosta pouco ( )Mais ou menos ( )Gosta muito ( )Gosta muitíssimo c) De uma escala de 0 a 10 atribua uma nota para o quanto você gosta de

matemática: ______ d) Na escala a seguir, marque com um X o quanto você gosta de matemática:

0 1 2 3 4 5 6 7 8 9 10

Diante das dificuldades de operacionalizar as variáveis, recomenda-se descrever detalhadamente as condições operacionais de medida, assim como os instrumentos utilizados.

1.4.7 MÉTODOS DE COLETA DE DADOS

Existem três grandes fontes de dados: a utilização de documentos, a observação pelo pesquisador e a informação fornecida pelos indivíduos.

Oficiais Escritos

Utilização de Pessoais documentos

Mudos Experimental Sistemática Semi-experimental Ligada à entrevista Natural

Observação Livre Participante De exploração Livre Com informação chave

Informações Clínica fornecidas pelos

indivíduos Semi-estruturada Dirigida Questionário

Figura 1.5: Métodos de coleta de dados

Page 15: Apostila estatística

12

A coleta dos dados poderá ser feita de diversas formas. A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos e a precisão previamente estipulados. No seu planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes.

Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá ser realizada mediante respostas a questionários previamente elaborados. Esses questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados, devidamente treinados.

Os dados ou informações representativas dos fenômenos ou problema em estudo podem ser obtidos de duas formas:

Por via direta - quando feita sobre elementos informativos de registro obrigatório (p. ex.: nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os dados são coletados pelo próprio pesquisador através de entrevistas ou questionários. A coleta direta de dados, com relação ao fator tempo, pode ser classificada em:

a) contínua, também denominada registro, é feita continuamente, tal como a de

nascimentos, óbitos, etc.; b) periódica, quando feita em intervalos constantes de tempo, como os

censos(de 10 em 10 anos), os balanços de uma empresa comercial, etc.; c) ocasional, quando feita extemporaneamente, a fim de atender a uma

conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos

Por via indireta - quando é inferida de elementos conhecidos (coleta direta)

e/ou conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos via coleta direta.

1.4.8 CRÍTICA DOS DADOS

Os dados colhidos por qualquer via ou forma e não previamente organizados são

chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito, devem ser "criticados", visando eliminar valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo.

A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação de somas de valores anotados.

1.4.9 APURAÇÃO OU PROCESSAMENTO

Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao

processamento adequado aos fins pretendidos. A apuração ou processamento dos dados pode ser manual ou eletrônica. Os processos e métodos estatísticos a que um conjunto de dados pode ser submetido serão nosso objeto de estudo nas seções seguintes.

Page 16: Apostila estatística

13

1.4.10 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS

Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas.

No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria dos casos, à simples apresentação dos dados, assim entendida a exposição organizada e resumida das informações coletadas através de tabelas ou quadros, bem como dos gráficos resultantes. 1.4.11 QUALIDADE DOS INSTRUMENTOS

A qualidade de um instrumento de medida se aprecia pela sua fidelidade (ou confiabilidade) e pela sua validade. A confiabilidade é a capacidade de um instrumento medir fielmente um fenômeno. A validade é capacidade de um instrumento medir com precisão o fenômeno a ser estudado

Confiabilidade Medir fielmente

Validade Medir com precisão Recomenda-se pré-testar os instrumentos a fim de avaliar sua confiabilidade e

validade antes de trabalhar com a população alvo. 1.4.11.1 CONFIABILIDADE DE UM INSTRUMENTO DE MEDIDA

A confiabilidade de um instrumento de pesquisa é sua capacidade de reproduzir um resultado de forma consistente no tempo e no espaço, ou com observações diferentes quando for utilizado corretamente.

“por definição, a apreciação da confiabilidade se baseia na repetição da medida e na comparação dos resultados obtidos”

Existem três abordagens para avaliar a confiabilidade de um instrumento:

a comparação com resultados obtidos pela utilização de um mesmo instrumento,

em diferentes momentos, para avaliar sua estabilidade; a apreciação da equivalência dos resultados obtidos, quando um mesmo

fenômeno é medido por vários observadores ao mesmo tempo; quando um instrumento é composto por vários itens ou indicadores, sua

confiabilidade pode ser apreciada medindo a homogeneidade de seus componentes

A escolha do método estatístico para medir confiabilidade de um instrumento depende

do método de validação previsto e do tipo de dados por ele fornecidos. A confiabilidade se avalia de forma diferente: se a medida obtida for uma variável contínua (como é a inteligência ou o peso do indivíduo), uma variável ordinal (a pertença a um nível, como os da escala sócio-econômica), ou ainda, uma variável nominal (como um diagnóstico).

Page 17: Apostila estatística

14

A confiabilidade de um instrumento de medida é uma característica

independente da questão de pesquisa. Ela pode, no entanto, variar em função das populações

Os seguintes testes serão abordados para avaliar a confiabilidade dos instrumentos de

medida:

coeficiente de correlação de Pearson; coeficiente alfa de Cronbach coeficiente de correlação intra-classe coeficiente Kappa de Cohen

Validade da medida. A validade se define como a capacidade de um instrumento

medir com precisão o fenômeno em estudo, isto é, a adequação existente entre as variáveis escolhidas e o conceito teórico a ser medido. Existem três tipos de validade:

Validade de conteúdo Validade prática ou de critério Validade de construção

1.4.12 ANÁLISE DOS DADOS 1.4.12.1 ANÁLISES QUALITATIVAS

Não existe regra formal, no sentido estatístico, para a análise qualitativa dos dados. Porém, quando os dados se apresentam em forma de discurso, a análise pode compreender quatro etapas:

a preparação e a descrição do material bruto; A redução dos dados; a escolha e a aplicação dos modos de análise; a análise transversal das situações ou dos casos estudados.

1.4.12.2. ANÁLISES QUANTITATIVAS

O planejamento das análises deve ser feita em função de cada uma das questões ou hipóteses da pesquisa. Devem ser considerados dois níveis de análises: as descritivas e as ligadas às hipóteses. 1.4.12.3 DESCRITIVAS

As análise descritivas servem para descrever o comportamento de uma variável em uma população ou no interior de subpopulações. Todos os estudos utilizando dados quantitativos, independentemente das hipóteses da pesquisa, requerem análises descritivas.

Page 18: Apostila estatística

15

1.4.12.4. ANÁLISES LIGADAS ÀS HIPÓTESES

Cada uma das hipóteses formuladas no quadro conceitual deve ser verificada. Quando os dados coletados são de natureza quantitativa, esta verificação se faz com a ajuda de ferramentas estatísticas. A natureza da hipótese constitui o primeiro determinante da escolha da ferramenta estatística a ser utilizada, devendo ser levados em conta os seguintes pontos:

as características da estratégia da pesquisa; o modelo; as variáveis medidas.

Esta é a seção da análise estatística do projeto de pesquisa que será desenvolvida ao

longo da disciplina. Em resumo podemos claramente distinguir seis etapas no processo de análise da pesquisa, sendo essas: Planejamento, Coleta, Crítica, Apuração e Exposição dos dados, além da análise dos dados. 2. O USO DE COMPUTADORES EM ESTATÍSTICA

Foi mencionado anteriormente que o desenvolvimento da indústria de computadores deu grande impulso ao uso da Estatística. Vários programas computacionais de uso comum contém rotinas estatísticas incorporadas às suas funções básicas. É o caso das planilhas eletrônicas, usualmente pré-instaladas em computadores novos. Programas especificamente desenvolvidos para efetuar análises estatísticas são conhecidos como pacotes estatísticos. Existe um número considerável de pacotes, alguns voltados para análises mais comuns na área de humanidades, outros para a área de biomédicas; alguns são extremamente simples de se utilizar através de menus, outros pressupõem conhecimento de uma linguagem de programação específica ao programa. Qualquer que seja o programa a ser utilizado, três são as etapas que envolvem seu uso:

1. Entrada de Dados 2. Execução da Análise Estatística 3. Interpretação de Resultados A Entrada de Dados deve assumir certas convenções. Apesar de certos programas

terem rotinas desenvolvidas de forma a simplificar a criação do banco de dados, intrinsecamente o que se tem é a criação de uma matriz, em que cada linha corresponde a uma unidade experimental e cada coluna a uma variável.

Assim, quando estudamos uma única variável, consideramos a coluna correspondente. Se estamos interessados em saber o comportamento desta variável em dois grupos diferentes, precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informação dos grupos.

A fase da execução da análise estatística pressupõe o conhecimento de como o programa que está sendo utilizado trabalha as informações. Torna-se assim importante se ter acesso ao manual do programa. A maioria dos programas tem rotinas de ajuda on-line.

Após as informações terem sido trabalhadas, vem a fase da interpretação dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que houver dúvida se o que foi calculado relaciona-se, de fato, à análise estatística desejada. Em seguida, dá-se a interpretação das características observadas a fim de verificar se resultados absurdos não estão

Page 19: Apostila estatística

16

ocorrendo. Em caso positivo, releia o manual e certifique-se de ter executado a análise correta para os dados em questão. Em muitos casos, a fase de interpretação é a mais difícil e interessante, pois envolve o equacionamento das características apresentadas na análise com vistas a responder as questões inicialmente colocadas.

2.1 ACTION

Um software de estatística desenvolvido para você, com fácil utilização, abrangente e

confiável. O sistema Action foi desenvolvido sob plataforma R, um dos sistemas de estatística mais utilizados atualmente. O Sistema Action representa uma grande evolução em relação aos softwares de estatística:

Permite que você trabalhe junto com o Excel, de forma integrada; É fácil de instalar, criativo e contempla as principais necessidades do usuário de

estatística; Está cada vez mais intuitivo mais fácil de usar do que nunca, com uma grande

quantidade de funcionalidades.

Você pode baixar o sistema Action sem nenhum custo e pode usá-lo para qualquer propósito – em empresas privadas, entidades com ou sem fins lucrativos, escolas, governo e administração pública em geral. Você pode repassar cópias para seus familiares, amigos, alunos, empregados, etc. Ajude a difundir o sistema Action! O site para download é

<http://www.portalaction.com.br/content/sobre-o-action>. 2.2 O QUE HÁ DE IMPORTANTE SOBRE O SISTEMA ACTION?

O sistema Action é um sistema aberto e democrático para o uso da estatística: Este programa é um software livre; você pode utiliza-lo sob os termos da Licença

Pública Geral GNU; Sem barreira de idioma – está disponível em Português e Inglês; Primeiro sistema de estatística que utiliza a plataforma R e o Excel de forma

integrada, tudo para facilitar e agilizar suas análises estatísticas; 2.3 O SISTEMA ACTION É SINÔNIMO DE QUALIDADE

Suas raízes remontam a cerca de 10 anos, que resulta numa grande experiência acumulada;

Todas as análises estatísticas estão baseadas sob a plataforma R, o sistema de estatística que mais cresce no mundo, sendo o sistema oficial da maioria dos estatísticos e empresas de tecnologia;

Atualmente contamos com milhares de usuários dos mais diversos ramos da industria, governo e universidades;

Com um processo de desenvolvimento totalmente aberto, o sistema Action não tem nada a esconder – o produto se mantém devido aos esforços e reputação da Equipe Estatcamp no cenário da estatística brasileira;

Page 20: Apostila estatística

17

2.3 O ACTION É AMIGÁVEL

O programa se parece e se comporta de forma familiar e pode ser utilizado imediatamente por quem já usou um produto concorrente;

É fácil mudar para o sistema Action, ele se comporta como um suplemento do Excel e tem um manual detalhado com a descrição de todas as funcionalidades;

O sistema Action é suportado pela Estatcamp e uma comunidade de voluntários, com vasta experiência em Estatística e Computação, dispostos a ajudar tanto os usuários novos quanto os mais experientes;

2.4 O QUE TEM NO ACTION?

Estatística Básica: contempla as ferramentas básicas de análise exploratória de dados, distribuição de freqüências e os testes de média, variância, proporções e taxas. Além de testes de normalidade;

Distribuições: para as principais distribuições de probabilidade discretas e contínuas,

calculamos os quantis, percentis, densidade e também geramos amostras aleatórias; ANOVA: este módulo apresenta as principais ferramentas de comparação de fatores

na performance de produtos e serviços. Temos o modelo de ANOVA com efeitos fixo, misto e aleatório, os métodos clássicos de comparação múltipla (testes de Tuckey, Fisher, Dunnett e HSU) e os testes de variância (Levene e Bartlet). Também dispomos diversos gráficos (Gráfico de Efeitos Principais, Gráfico de Interações, Gráfico de Intervalo de Confiança) que simplificam suas análises e diagnósticos. Finalmente, dispomos o teste de Welch para o caso em que os dados não apresentam homogeneidade da variância e o teste não paramétrico de Kruskal-Wallis para o caso em que a hipótese de normalidade dos dados seja violada.

Modelos: as principais ferramentas de modelos lineares e modelos lineares

generalizados são contemplados neste módulo. Neste módulo, realizamos análise de regressão linear e não linear, regressão binomial e regressão multinomial. Também, fazemos diversos tipos de gráficos para facilitar a sua análise.

Não-paramétrico: as principais técnicas não paramétricas para análise de dados estão

disponíveis neste módulo. Entre elas, temos os testes de Wilcoxon e o teste de Kruskal-Wallis.

Gráficos: Uma variedade de gráficos estão disponíveis neste módulo. Temos os

tradicionais, histograma, Box-Plot, Pareto, Dot Plot e gráficos 3D. Tudo para tornar a sua apresentação dinâmica, fácil e compreensível.

Confiabilidade: as principais técnicas de confiabilidade e análise de sobrevivência

estão disponíveis neste módulo. Desde técnicas simples, como ajuste da distribuição Weibull e o estimador de Kaplan-Meier até às técnicas de testes de vida acelerada e os modelos de regressão locação-escala. Também apresentamos uma técnica para determinar o quantidade de itens necessários para atender às especificações do seu cliente, denominado plano de determinação.

Page 21: Apostila estatística

18

Ferramentas da Qualidade: contemplamos as principais ferramentas da qualidade,

como CEP, Análise de capacidade do processo, Análise dos sistemas de medição (MSA) e indicadores da qualidade. A ferramenta CEP contempla os principais tipos de gráficos, como o Xbar e R, Xbar e s, Valores individuais e amplitude móvel, entre outros. Também temos os principais gráficos por atributo. A ferramenta MSA apresenta todas as técnicas para análise de sistemas replicáveis e não replicáveis (ou destrutivos). Também temos um módulo para análise de sistemas atributivos. Nosso módulo de análise de capacidade e performance do processo é um dos mais completos. Inicialmente, temos um módulo para testar qual distribuição de probabilidade se adequa ao seu conjunto de dados. Caso seu conjunto de dados se ajusta a distribuição normal, você pode aplicar as técnicas tradicionais. Caso seu conjunto de dados não se ajuste a distribuição normal, temos uma gama de possibilidades que vão desde transformação de dados (Box-Cox), ajuste de outras distribuições (Weibul, Lognormal, etc.) até técnicas não paramétricas, como o método de Núcleo. Além disso, temos um módulo com indicadores da qualidade (DPU e DPMO) e gráficos como Ishikawa. Em resumo, um módulo completo para que você possa realizar suas análise e apresentar de forma fácil e compreensível.

DOE: este módulo contempla uma das mais poderosas ferramentas para melhoria de

processos, produtos e serviços. Aqui, fazemos o planejamento do seu experimento, as principais técnicas de análise e os gráficos adequados para que sua apresentação seja compreendida por todos. Este módulo também apresenta uma série de técnicas para que você possa realizar uma análise da superfície de resposta do processo e com isso, determinar quais são os níveis dos fatores de impacto que maximizam a performance de seu processo, produto ou serviço.

Análise Multivariada: temos técnicas simples para agrupamento de dados e formação

de cluster. Também, temos o recurso da MANOVA que lhe permite estudar fatores de impacto em processo, produtos ou serviços com múltiplas características da qualidade.

Poder e o tamanho da amostra: aqui utilizamos a técnica da função poder para

determinar o tamanho da amostra necessário para realizar o seu experimento. Neste módulo, aplicamos esta técnica em teste simples como o teste t até testes mais complexos como ANOVA e o teste qui-quadrado.

Page 22: Apostila estatística

19

EXERCÍCIOS

1. O que você entende por estatística?

2. Quais os dois conjuntos de dados fundamentais manipulados pela estatística?

3. Qual o conceito de amostra e suas principais características?

4. Como podemos garantir que uma amostra qualquer, extraída de uma população, serve

para um estudo?

5. Quais as vantagens de desvantagens de um censo e de uma amostra?

6. O que é um parâmetro?

7. O que você entende por variável?

8. Como se classificação as variáveis? Dê exemplos.

9. Quais as etapas de um trabalho estatístico? Explique cada uma.

10. Classifique em verdadeiro ou falso as seguintes afirmações:

a) Estatística é um conjunto de técnicas destinadas a organizar um conjunto de valores numéricos.

b) Sempre que estivermos trabalhando com números, deveremos utilizar a Inferência Estatística.

c) A Estatística Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou não, com a finalidade de conhecermos o fenômeno de interesse.

d) Qualquer amostra representa, de forma adequada, uma população. e) As técnicas estatísticas não são adequadas para casos que envolvam experimentos

destrutivos como, por exemplo, queima de equipamentos, destruição de corpos de provas, etc.

11. Para as situações descritas a seguir, identifique a população e a amostra correspondente e discuta a validade do processo de inferência estatística para cada um dos casos.

a) Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200

mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em São Paulo, foram perguntadas a respeito da última vez que vacinaram seus filhos.

b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados

por telefone com relação ao canal em que estavam sintonizados. d) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram

entrevistadas em Brasília.

Page 23: Apostila estatística

20

12. Discuta para cada um dos casos abaixo, os cuidados que precisam ser tomados para garantir uma boa conclusão a partir da amostra.

a) Um grupo de crianças será escolhido para receber uma nova vacina contra menigite. b) Uma fábrica deseja saber se sua produção de biscoitos está com o sabor previsto. c) Aceitação popular de um certo projeto do governo.

13. Classifique cada uma das variáveis abaixo em qualitativa (nominal/ ordinal) ou quantitativa (discreta/ contínua):

a) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são

as possíveis respostas para esta variável). b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos,

além de não sabe). c) Perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte). d) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente

(valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito).

Page 24: Apostila estatística

21

Capítulo 2

ESTATÍSTICA DESCRITIVA 1. DISTRIBUIÇÕES DE FREQUÊNCIAS

Os dados numéricos, depois de coletados são colocados em série e apresentados em

tabelas ou quadros. No estudo de uma variável (seja esta qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa idéia global sobre esses valores, ou seja, de sua distribuição.

Consideremos, para efeito de estudo, o quadro (banco de dados) apresentado abaixo, o qual apresenta indivíduos que foram contaminados pelo veneno de um certo tipo de inseto e submetidos a três tipos de tratamento. Neste está apresentado o número de identificação dos pacientes, a idade (em anos) do pacientes no momento da admissão, o tempo (em horas) gasto entre o contato com o inseto e a administração do tratamento, o tempo (em horas) entre a administração do tratamento e a recuperação, o tipo de tratamento administrado e a presença de coágulos no momento da admissão. QUADRO 2.1 – Indivíduos contaminados pelo veneno de um certo tipo de inseto e submetidos a

três tipos de tratamento.

No. idade Tempo Recuperação tratamento coágulos 2 9 42 39 I 0 3 33 53 46 I 1 4 30 52 45 I 0 5 11 46 42 I 0 6 34 59 51 II 0 7 27 53 46 I 1 8 10 44 40 I 1 9 21 58 50 II 1

10 36 54 47 I 1 11 35 55 47 I 0 12 31 10 4 II 1 13 32 9 3 II 0 14 21 3 2 II 0 15 31 9 3 II 0 16 40 20 11 III 1 17 39 12 5 II 1 18 31 9 3 II 1 19 28 7 3 II 0 20 24 3 1 II 0 21 21 1 2 II 1 22 39 17 8 III 1 23 38 30 22 III 1 24 46 13 11 III 1 25 47 13 12 III 1 26 54 18 16 III 0 27 56 30 23 III 1

Page 25: Apostila estatística

22

1.1 DISTRIBUIÇÕES DE FREQUÊNCIAS POR VALORES

É construída considerando-se todos os diferentes valores ou categorias, levando em consideração suas respectivas repetições. Por exemplo, a tabela 2.1 apresenta a distribuição de freqüência da variável TRATAMENTO, usando-se os dados do quadro 2.1. Tabela 2.1 - Freqüências e percentuais dos 26 pacientes segundo o tipo de tratamento

recebido.

Tratamento N % I 8 30,8 II 11 42,3 III 7 26,9 Total 26 100,0

FONTE: Quadro1.1 1.2 DISTRIBUIÇÕES DE FREQUÊNCIAS POR INTERVALOS OU CLASSES

Constroem-se classes de valores, quando a variabilidade dos dados é grande, levando

em consideração o número de valores que pertencem a cada classe. A construção de tabelas de freqüências para variáveis contínuas necessita de certos cuidados. Por exemplo, a tabela 1.2 apresenta a distribuição de freqüências da variável IDADE (em anos), usando-se os dados do quadro 1.1.

Tabela 2.2 - Freqüências e percentuais das IDADES dos 26 pacientes.

IDADE (em anos) N % 09,0 |-- 18,5 3 11,5 18,5 |-- 28,0 5 19,2 28,0 |-- 37,5 10 38,6 37,5 |-- 47,0 5 19,2 47,0 |-- 56,5 3 11,5 Total 26 100,0

FONTE: Quadro 2.1

OBSERVAÇÃO: 1) De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém

referindo-se a uma coleção de dados numéricos a uma determinada ordem de classificação):

i) Elementos essenciais:

Título: Indicação que precede a tabela e que contém a designação do fato observado, o local e a época em foi registrado.

Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas. Corpo da tabela: Conjunto de colunas e linhas que contém as informações sobre a

variável em estudo.

Page 26: Apostila estatística

23

ii) Elementos complementares:

Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.

Notas: Informações de natureza geral, estinadas a conceituar ou esclarecer o conteúdo das tabelas ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.

Chamadas: Informações de natureza específica sobre determinada parte da tabela, destinada a conceituar ou a esclarecer dados.

2) As tabelas apresentadas oficialmente devem atender às normas do IBGE. 1.3 TABELAS DE CONTIGÊNCIA

Uma tabela de contingência é um arranjo de números naturais, em forma matricial, com r linhas e k colunas, onde estes números representam quantidade ou freqüência. Assim, existem r totais em linha, c totais em colunas e um total geral n.Uma tabela de contingência pode ser usada para apresentar uma tabulação dos dados contidos em várias amostras onde os dados são apresentados numa escala no mínimo nominal.

Um outro uso da tabela de contingência kr é quando observa-se uma única amostra de tamanho n, onde cada elemento pode ser classificado em uma de r categorias, de acordo com um critério e em uma de c outras categorias de acordo com um segundo critério. Para o estudo de medidas de associação entre duas variáveis X e Y, apresentadas em tabelas de contingência, os dados são arrumados da seguinte forma:

Variável B

Variável A Categoria 1

Categoria 2

... Categoria k

Totais

Categoria 1 O11 O12 ... O1k A1 Categoria 2 O21 O22 ... O2k A2 ... ... ... ... ... ... Categoria r Or1 Or2 ... Ork Ar Totais B1 B2 ... Bk N N= A1+...Ar = B1+...+Bk

EXEMPLO 2.1: Quinhentos escolares de primeiro grau menor foram classificados em uma tabela criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:

Grupo sócio-econômico Defeito na fala

Superior Médio

superior Médio baixo

Baixo TOTAL

Presente 8 24 32 27 91 Ausente 42 121 138 108 409 Total 50 145 170 135 500

Page 27: Apostila estatística

24

2. APLICAÇÕES NO ACTION

Page 28: Apostila estatística

25

Page 29: Apostila estatística

26

EXERCÍCIOS

1. Em um experimento para verificar a relação entre crises de asma e incidência de gripe 150 crianças foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde do bairro. Os dados referentes há uma semana são apresentados na tabela abaixo. A partir desses você acha que a ocorrência de asma e a ocorrência de gripe estão associadas?

Asma \ Gripe Sim Não Total Sim 27 34 61

Não 42 47 89

Total 69 81 150

2. Responda certo ou errado, justificando. a) Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100 e

outra de tamanho 200. Então, a amostra de tamanho maior é mais representativa da população.

b) Duas variáveis diferentes podem apresentar histogramas idênticos. c) Duas variáveis com box-plot iguais não podem ter valores diferentes.

3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre

os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi o seguinte: 2, 3, 2, 1,2, 1,2, 1,2,3, 1, 1, 1,2,2,3, 1, 1, 1, 1,2, 1, 1,2,2, 1,2, 1,2 e 3.

a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Admitindo que essa amostra represente bem o comportamento do usuário paulistano, você

acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande? 4. Um novo medicamento para cicatrização está sendo testado e um experimento é feito para

estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.

a) Organize uma tabela de freqüência. b) Que porcentagem das observações estão abaixo de 16 dias? c) Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e como lenta as

demais. Faça um diagrama circular indicando as porcentagens para cada classificação.

5. O Posto de Saúde de um certo bairro mantém um arquivo com o número de crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 e 2.

a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Você identifica valores muito discrepantes? Que fazer com eles?

Page 30: Apostila estatística

27

3. MEDIDAS DE TENDÊNCIA CENTRAL E SEPARATRIZES

Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de freqüências. Aqui, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida.

Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as Medidas de Tendência Central, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos:

a Média aritmética ou Média; a Moda; a Mediana. As outras medidas de posição são as SEPARATRIZES, que englobam:

a própria mediana; os quartis; os decis. os percentis.

3.1 MÉDIA ARITMÉTICA

Dada uma população constituída de N elementos, X1, X2, ..., XN sua média, denotada

por , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e definida por:

X X X

NN1 2 ...

ou X

Ni ( Média populacional ) Eq. (1)

Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média, denotada

X , será definida por:

n

XXXX n 21 ou X =

X

ni ( Média amostral ) Eq. (2)

EXEMPLO 2.2: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8,

10, 11. Logo,

8,75

1110873X

n

X i

Page 31: Apostila estatística

28

PROPRIEDADES

É uma medida de tendência central que por uniformizar os valores de um conjunto de

dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos valores extremos (grandes) do conjunto.

Serve para compararmos conjuntos semelhantes. É particularmente indicada para séries (conjuntos) que possuem os valores simétricos

em relação a um valor médio e de freqüência máxima. Depende de todos os valores do conjunto de dados.

A soma dos desvios tomados em relação à média é nula, isto é, X Xii

n

1

0.

Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a média do conjunto fica aumentada ou diminuída dessa constante, isto é,

Y X c Y X ci i .

Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada ou dividida por essa constante, isto é,

Y X c Y X ci i ou Y X c Y X ci i , para c0. 3.2 MODA

Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre com maior freqüência, ou seja, é o valor mais frequente do conjunto de dados.

A moda de um conjunto de dados pode não existir (figura (a))

A moda de um conjunto de dados pode não ser única (figura (c))

EXEMPLO 2.3: Determine a moda dos seguintes conjuntos de dados abaixo a) 2, 2, 3, 3, 5, 5, 8, 8 Não existe moda. b) 2, 2, 3, 5, 5, 5, 8, 8 Mo = 5 c) 2, 2, 2, 3, 3, 5, 5, 5, 8 Mo = 2 e Mo = 5

Page 32: Apostila estatística

29

PROPRIEDADES

Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar com a modificação de alguns deles.

Não é influenciada por valores extremos (grandes) do conjunto de dados. 3.3 MEDIANA

Considere uma série (conjunto de dados) ordenada, constituída de n valores. A mediana, denotada Md, é o valor que divide o conjunto em duas partes iguais (isto é, em duas partes de 50% cada). EXEMPLO 2.4: Calcular a mediana do conjunto: 2, 3, 5, 8, 9, 11, 13.

Md = 8 (termo de ordem central) EXEMPLO 2.5: Calcular a mediana do conjunto: 2, 3, 5, 8, 9, 11, 13, 15.

5,82

98

Md (Média aritmética dos termos de ordens centrais)

Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e

sendo n o número de elementos da série, o valor mediano será:

o termo de ordem central n 1

2 ,

2

1 nXMd se n for ímpar;

a média dos termos de ordem n n

2 21e ,

2

122

nn XX

Md se n for par.

PROPRIEDADES

A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto de dados.

3.4 QUARTIL

Considere uma série (conjunto de dados) ordenada, constituída de n valores. Os quartis, denotados por Qi,, são os valores que dividem o conjunto em quatro partes iguais (isto é, em quatro partes de 25% cada). Podem ser obtidos através da aplicação da seguinte expressão:

2

1

4

nii XQ

EXEMPLO 2.6: encontre os quartis da seguinte série bruta de dados : 1, 3, 2, 6, 5, 9. Para encontrar os quartis, valores que dividem a série ordenada em quatro partes iguais, torna-se necessário a obtenção do Rol : 1, 2, 3, 5, 6, e 9. Temos então:

Page 33: Apostila estatística

30

2

2

1

4

611 XXQ

=> o primeiro quartil é igual segundo elemento da série ordenada, que é

igual a 2.

5,3

2

1

4

622 XXQ

=> o segundo quartil é igual ao elemento 3,5 (entre o elemento3 e o

elemento 4) da série ordenada, que é igual a média entre 3 e 5, que é igual a 4.

5

2

1

4

633 XXQ

=> o terceiro quartil é igual ao elemento 5 da série ordenada, que é

igual a 6.

3.5 DECIL

Considere uma série (conjunto de dados) ordenada, constituída de n valores. Os decis, denotados por Di,, são os valores que dividem o conjunto em dez partes iguais (isto é, em dez partes de 10% cada). Podem ser obtidos através da aplicação da seguinte expressão:

2

1

10

nii XD

3.6 PERCENTIL

Considere uma série (conjunto de dados) ordenada, constituída de n valores. Os percentis, denotados por Pi,, são os valores que dividem o conjunto em cem partes iguais (isto é, em cem partes de 1% cada). Podem ser obtidos através da aplicação da seguinte expressão:

2

1

100

nii XP

Page 34: Apostila estatística

31

EXERCÍCIOS

1) Os dados abaixo são referentes a taxa de glicose, em miligramas por 100 ml de sangue, em ratos machos da raça Wistar, com 20 dias de idade. Calcule a taxa média de glicose desse conjunto de ratos.

100,0 – 100,0 – 97,5 – 80,0 – 97,5 – 85,0 – 85,0 – 80,0

2) Os dados abaixo são referentes ao peso corporal, em gramas, de ratos machos com 25 dias

de idade. Determine mediana deste conjunto de dados.

76 – 84 – 91 – 87 – 81 – 78 - 83

3) Foram coletadas 150 observações de uma variável X, a qual representa o número de vestibulares FUVEST (um por ano) que um mesmo número de estudantes prestaram. Assim foi observado que 75 estudantes prestaram um vestibular, e assim por diante. Os dados estão na tabela abaixo:

X n 1 75 2 47 3 21 4 7

Total 150

Para este conjunto determine a média, moda e mediana. 4) Para o quadro abaixo calcule o peso médio ao nascer.

Quadro – Nascidos vivos segundo o Peso ao nascer, em quilogramas

CLASSE FREQÜÊNCIA1,5 |-- 2,0 3 2,0 |-- 2,5 16 2,5 |-- 3,0 31 3,0 |-- 3,5 34 3,5 |-- 4,0 11 4,0 |-- 4,5 4 4,5 |-- 5,0 1

Page 35: Apostila estatística

32

5) O quadro abaixo apresenta a distribuição de um grupo de indivíduos segundo o tipo de sangue. Para esta calcule a moda.

TIPO DE SANGUE FREQÜÊNCIA

O 547 A 441 B 123

AB 25

6) Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente as escolhas.

a) Estão disponíveis dados mensais sobre incidência de envenenamento por picada de cobras.

Deseja-se planejar a compra mensal de antídoto. b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi

anotado. Pretende-se utilizar esta informação para dimensionar a frota em circulação. c) Um laboratório deseja divulgar o tempo de efeito de um novo anestésico. Para isso aplicou

o anestésico em 100 pessoas e o tempo de efeito foi anotado. d) Num vôo internacional uma companhia serve dois tipos de pratos no jantar: peixe ou

frango. Um banco de dados contendo os pedidos feitos nos últimos 200 vôos é obtido. Pretende-se planejar o número de cada tipo de prato que deve se colocar à disposição dos passageiros.

7) Os níveis de ácido úrico, em (mg/ 100 ml), encontrados nos exames bioquímicos de sangue de 10 pacientes do Laboratório de Pesquisas Clínicas do Hospital Escola da FMIt, são os seguintes:

Paciente AJF CHJ WT APC MD SEG HS BET RM CR Ácido úrico (mg%) 4,0 5,2 6,5 5,0 4,5 9,0 5,5 4,5 6,0 7,0

Com base nessas informações, pede-se:

a) Calcular a taxa média de ácido úrico no sangue dos dez pacientes. b) Calcular a mediana dos valores referidos no quadro. c) Calcular a moda das taxas de ácido úrico. d) Qual das três medidas acima poderia ser convenientemente adotada com valor típico ou

referencial do grupo de pacientes. Por quê?

Page 36: Apostila estatística

33

8) As amostras de exames bioquímicos de sangue de três diferentes laboratórios

apresentaram os níveis de creatinina (mg%) mostrados no quadro abaixo. Pede-se:

Exame 1 2 3 4 5 6 7 Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 - Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3 Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9

a) Calcular a média, moda e mediana para os dados do laboratório A. b) Calcular a média, moda e mediana para os dados do laboratório B. c) Calcular a média, moda e mediana para os dados do laboratório C. d) Calcular a MÉDIA GLOBAL dos dados. e) Calcular a MEDIANA GLOBAL dos dados. f) Calcular a MODA GLOBAL dos dados. g) Os problemas verificados com a média, no caso dos dados do laboratório C, continuam no

caso da média de todos os dados?

Page 37: Apostila estatística

34

4. MEDIDAS DE DISPERSÃO

Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de

posição representativas de um determinado conjunto de dados, onde destacamos a média, a moda e a mediana.

Sejam quatro conjuntos A, B, C e D com os seguintes valores: Conjunto A => 7, 7, 7, 7, 7 Conjunto B => 5, 6, 7, 8, 9 Conjunto C => 4, 5, 7, 9, 10 Conjunto D => 0, 5, 10, 10, 10

Para representarmos cada conjunto, podemos calcular a sua respectiva média

encontrando X X X XA B C D 7 . Vemos assim que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética.

Observando-os mais detalhadamente, notamos que em cada grupo os valores se distribuem diferentemente em relação à média 7. Necessitamos assim de uma medida estatística complementar para melhor caracterizar cada conjunto apresentado.

As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. 4.1 VARIÂNCIA

A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação.

Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua

variância denotada 2, é definida por:

2

2

X

Ni

, onde X

Ni é a média populacional

Seja um conjunto (amostra) constituído de n elementos X1, X2, . . . , Xn. Sua

variância, denotada 2S , é definida por:

1

2

2

n

XXS i , onde X

X

ni

é a média amostral

A equação acima é utilizada quando nosso interesse não se restringe à descrição dos

dados, mas partindo da amostra, visamos tirar inferências válidas para sua respectiva

Page 38: Apostila estatística

35

população. No caso de estarmos interessados apenas na descrição dos dados, podemos usar no divisor n em lugar de n – 1. EXEMPLO 2.7: Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8.

De acordo com a equação (6) temos:

XX

ni

25

55

5,64

26

4

32023

15

5857555352 22222222222

S

4.2 DESVIO-PADRÃO

É uma outra medida de dispersão mais comumente empregada do que a variância, por

ser expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância.

Desvio Padrão = + Variância (Raiz quadrada positiva da Variância)

Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o

desvio padrão dado por:

População =>

X

Ni

2

Amostra =>

SX X

ni

1

2

EXEMPLO 2.8: Para o exemplo anterior, temos que o desvio padrão é dado por

55,25,6 S

4.3 COEFICIENTE DE VARIAÇÃO

É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de

dados de unidades diferentes. Mede a "DISPERSÃO RELATIVA" de um conjunto de dados. É expresso, usualmente, em percentagem (%).

População => CV

100 Amostra => CVS

X 100 .

EXEMPLO 2.9: Calcule o coeficiente de variação (dispersão relativa) os dados do exemplo

2. Temos que a média é 5X e o desvio padrão é 55,2S . Portanto,

0,5110000,5

55,2100

X

SCV , ou seja %0,51CV .

Page 39: Apostila estatística

36

5. APLICAÇÕES NO ACTION

Page 40: Apostila estatística

37

EXERCÍCIOS 1) Os resultados de 12 provas de coagulação, encontrados em exames hematológicos de

pacientes do HE-FMIt., são os seguintes:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Tempo de coagulação (min) 6 5 6 7 9 6 8 7 4 10 6 12

Com base nesses dados, pede-se que se calcule: a) a Variância. b) o Desvio Padrão. c) o Coeficiente de Variação dos tempos de coagulação.

2) Seja os dados abaixo referentes às alturas de 22 alunos do curso de Bioestatística.

1,73 – 1,68 – 1,64 – 1,55 – 1,60 – 1,65 – 1,60 – 1,72 – 1,55 – 1,75 – 1,63 1,65 – 1,80 – 1,75 – 1,84 – 1,73 – 1,80 – 1,80 – 1,74 – 1,70 – 1,79 – 1,77

Para estes: a) Construa uma tabela de distribuição de freqüência em intervalos de mesmo tamanho. b) Construa o histograma. c) Calcule a média, moda e mediana. d) Calcule a tabela de quartis. e) Calcule o coeficiente de variação. 3) Um hospital maternidade está planejando a ampliação dos leitos para recém nascidos.

Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o número de dias que os bebês permaneceram no hospital, antes de terem alta. Os dados, já ordenados, são apresentados a seguir.

Número de dias Freqüência

1 3 2 11 3 16 4 9 5 6 6 1 7 2 8 1 15 1

a) Calcule a média, moda e mediana. b) Determine o desvio padrão. c) Dentre as medidas de posição calculadas em (a), discuta quais delas seria mais adequada

para este conjunto. d) Você identificou algum valor excepcional dentre os que foram observados. Se sim,

remova-o e recalcule os itens (a) e (b). Comente as diferenças encontradas.

Page 41: Apostila estatística

38

6. REPRESENTAÇÃO GRÁFICA Uma forma lúdica e bastante interessante de apresentar dados consiste no uso de

gráficos. A seguir são apresentados alguns dos principais tipos de gráficos empregados na estatística. Uma maior explicação sobre gráficos e sua utilização pode ser visto nos livros indicados.

O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápidos que as séries (tabelas).

Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os termos da série e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional.

A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais:

a) Simplicidade - indispensável devido à necessidade de levar a uma rápida apreensão

do sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de importância secundária.

b) Clareza - o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo.

c) Veracidade - indispensável qualquer comentário, posto que, se não representa uma realidade, o gráfico perde sua finalidade.

Os principais tipos de gráficos estatísticos para as distribuições de freqüências são os DIAGRAMAS, os quais são gráficos geométricos de, no máximo duas dimensões. Para sua construção, em geral, fazemos uso do sistema cartesiano. Dentre os principais tipos de diagramas destacamos, segundo a variável em estudo:

- Variável Qualitativa - GRÁFICOS EM BARRAS - GRÁFICOS EM COLUNAS - GRÁFICOS EM SETORES

- Variável Quantitativa

- Distribuição por valores

- GRÁFICOS EM BARRAS - GRÁFICOS EM COLUNAS - BOXPLOT - DIAGRAMA DE DISPERSÃO - GRÀFICO DE LINHA OU CURVA - GRÁFICO EM ÁREA

- Distribuição por intervalos

- HISTOGRAMA - POLÍGONO DE FREQUÊNCIAS

Page 42: Apostila estatística

39

6.1 BOXPLOT

Representa a dispersão dos dados, revelando a mediana e os quartis (medidas de posição a serem apresentadas mais a seguir no texto). Infelizmente, este gráfico não é disponibilizado pelo Excel, embora esteja presente em quase todos os softwares estatísticos (como o R, SPSS, S-PLUS, Minitab, etc.).

Gráfico 2.1 – Notas de matemática de turmas de uma escola X.

0

2

4

6

8

10

12

14

16

18

20

Turma A Turma B

No

tas

de

mat

emát

ica

6.2 DIAGRAMA DE DISPERSÃO

Mostra a relação gráfica existente entre duas variáveis numéricas. Sua análise será aprofundada no segundo módulo de estatística.

Gráfico 2.2 – Relação entre concentração da substância e ganho de peso após 30 dias de 15

bois de uma dada região de Bocaina, SP.

0

5

10

15

20

25

30

0 1 2 3 4 5 6 7

Concentração da Substância (mL)

Gan

ho

de

Pes

o (

Kg

)

Page 43: Apostila estatística

40

6.3 GRÁFICO DE LINHA OU CURVA

Gráfico 2.3 - Incidência de Tuberculose (Todas as Formas). Pernambuco e Brasil, 1980 – 2000

Incidência de Tuberculose(todas as formas)

40,0

50,0

60,0

70,0

80,01

98

0

19

82

19

84

19

86

19

88

19

90

19

92

19

94

19

96

19

98

20

00

Anos

Tax

a (p

or

1000

00 h

ab)

Brasil

Pernambuco

6.4 GRÁFICO EM ÁREA Gráfico 2.4 - Proporção de casos de aids por ano de diagnóstico e subcategoria de exposição,

no Rio Grande do Norte, de 1990 a 1999.

0%

20%

40%

60%

80%

100%

90 91 92 93 94 95 96 97 98 99

Ano de diagnóstico

HTS HSH UDI Sangue Perinatal Ignorado

Page 44: Apostila estatística

41

6.5 GRÁFICO EM COLUNAS

É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas).

Gráfico 2.5 – Total de casos de meningites bacterianas em maiores de 15 anos,

Brasil, 1987-1991

0

200

400

600

800

1000

1200

87 88 89 90 91

6.6 GRÁFICO EM COLUNAS JUSTAPOSTAS

Gráfico 2.6 – Distribuição por tipo de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

0

100

200

300

400

500

600

87 88 89 90 91

HAEMOPHILUS DM PNEUMOCOCO OUTROS

Page 45: Apostila estatística

42

6.7 GRÁFICO EM COLUNAS SUPERPOSTAS

Gráfico 2.7 – Distribuição por tipo de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

0

200

400

600

800

1000

1200

87 88 89 90 91

HAEMOPHILUS DM PNEUMOCOCO OUTROS

6.8 GRÁFICO EM BARRAS

É a representação de uma série por meio de retângulos, dispostos horizontalmente

(em barras).

Gráfico 2.8 – Total de casos de meningites bacterianas em maiores de 15 anos,

Brasil, 1987-1991

0 200 400 600 800 1000 1200

87

88

89

90

91

Page 46: Apostila estatística

43

6.9 GRÁFICO EM BARRAS JUSTAPOSTAS

Gráfico 2.9 – Distribuição por tipo de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991.

0 100 200 300 400 500 600

87

88

89

90

91

HAEMOPHILUS DM PNEUMOCOCO OUTROS

6.10 GRÁFICO EM BARRAS SUPERPOSTAS

Gráfico 2.10 – Distribuição por tipo de casos de meningites bacterianas em

maiores de 15 anos, Brasil, 1987-1991.

0 200 400 600 800 1000 1200

87

88

89

90

91

HAEMOPHILUS DM PNEUMOCOCO OUTROS

Page 47: Apostila estatística

44

6.11 GRÁFICO EM SETOR OU SECTOGRAMA (PIZZA)

É o gráfico que representa as partes de um todo, por setores de um círculo, visando justamente comparar estas partes entre si e em relação ao todo.

Gráfico 2.11 – Distribuição por sexo de 96 recém-nascidos, HE-FMIt, 1996

6.12 HISTOGRAMA

É a representação gráfica de uma distribuição de freqüências de uma variável quantitativa (dados agrupados) por meio de retângulos justapostos centrados nos pontos médios das classes e cujas áreas são proporcionais às freqüências das classes. Gráfico 2.12 – Histograma de freqüência das idades em classes dos 26 pacientes apresentados

no quadro 1.1.

52,1%

47,9%

Masculino Feminino

0

2

4

6

8

10

12

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Fre

ênci

a ab

solu

ta

Page 48: Apostila estatística

45

6.13 GRÁFICO DA FREQUÊNCIA ACUMULADA CRESCENTE

Representa o histograma, com base em classes de freqüência ordenadas: da de menor freqüência para a de maior freqüência. Gráfico 2.13 – Distribuição da freqüência acumulada crescente das idades em classes dos 26

pacientes apresentados no quadro 1.1

6.14 GRÁFICO DA FREQUÊNCIA ACUMULADA DECRESCENTE

Representa o histograma, com base em classes de freqüência ordenadas: da de maior freqüência para a de menor freqüência. Exemplo Gráfico5. Gráfico 2.14 – Distribuição da freqüência acumulada decrescente das idades em classes dos

26 pacientes apresentados no quadro 1.1

0

5

10

15

20

25

30

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Fre

ênci

a ab

solu

ta

0

5

10

15

20

25

30

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Fre

ênci

a ab

solu

ta

Page 49: Apostila estatística

46

6.15 POLÍGONO DE FREQUÊNCIAS

É a representação gráfica de uma distribuição de freqüências por meio de uma linha poligonal fechada ou polígono, cuja área total é igual a do histograma. Gráfico 2.15 – Histograma e polígono de freqüência das idades em classes dos 26 pacientes

apresentados no quadro 1.1

0

2

4

6

8

10

12

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Fre

ênci

a ab

solu

ta

Page 50: Apostila estatística

47

7 APLICAÇÕES NO ACTION

Page 51: Apostila estatística

48

EXERCÍCIOS

1. Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de

meses previstos de fisioterapia, se haverá (S) ou não (N) seqüelas após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo:

Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fisoterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5 Seqüelas S S N N N S S N N S S N S N N Cirurgia A M A M M B A M B M B B M M A

a) Classifique cada uma das variáveis. b) Para cada variável, construa a tabela de freqüência e faça uma representação

gráfica. c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de

barras para a variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse grupo?

2. De acordo com o IBGE(1988), em 1986 ocorreram, em acidentes de trânsito, 27306

casos de vítimas fatais, assim distribuídos: 11712 pedestres, 7116 passageiros e 8478 condutores. Faça uma tabela para apresentar esses dados. Apresente as freqüências relativas e o total. Faça um gráfico de barras e um de setores para representar estes dados.

3. Represente graficamente:

Tabela 1 – Número e proporção de óbitos, segundo regiões. Brasil, 1996 e 1999.

Região N % Norte 16.117 4,9 Nordeste 69.811 21,4 Sudeste 170.050 52,0 Sul 48.921 15,0 Centro-Oeste 21.830 6,7

Tabela 2 – Número e proporção de óbitos, segundo sexo e regiões. Brasil, 1996 e 1999.

Masculino Feminino

Região N % N %

Norte 10.857 4,9 5.260 5,1 Nordeste 46.242 20,7 23.569 22,9 Sudeste 118.774 52,9 51.276 49,9 Sul 33.113 14,8 15.808 15,4 Centro-Oeste 14.958 6,7 6.872 6,7

Tabela 3 – Suicidas segundo o sexo. Brasil, 1986

Page 52: Apostila estatística

49

Sexo N % Masculino 3.562 74,9 Feminino 1.192 25,1

4. Faça um histograma e um polígono de freqüências para os dados apresentados no

quadro abaixo.

Quadro 1 – Cães adultos anestesiados e após laparotomia, segundo a pressão arterial, em milímetros de mercúrio

Classe Freq. 80 |-- 90 1 90 |-- 100 4 100 |-- 110 16 110 |-- 120 8 120 |-- 130 9 130 |-- 140 7 140 |-- 150 3 150 |-- 160 1

5. Os dados referem-se ao peso, em quilogramas, de cães. Para estes construa uma tabela de distribuição de freqüências completa. Depois construa o histograma de freqüências.

23,0 – 19,0 – 23,8 – 15,0 – 20,0 – 22,7 – 19,5 – 22,0 – 14,9 – 18,3 – 21,2 – 20,1 – 18,7 – 15,1 – 22,3 – 21,5 – 25,5 – 19,5 – 22,2 – 24,0 – 17,0 – 24,1 – 28,0 – 13,6 – 15,8 – 28,4 – 23,0 – 15,0 –

16,1 – 16,0 – 19,0 – 18,0 – 18,8 – 18,0 – 15,0 – 14,5 – 19,0 – 20,5 – 16,0 – 16,0 – 16,0

6. Um estudo pretende verificar se o problema da desnutrição (medida pelo peso, em quilos, das pessoas) em uma região agrícola (denotada região A), é maior que em uma região industrial (Região B). para tanto, uma amostra foi tomada em cada região, fornecendo a tabela de freqüências a seguir:

Região A Região B

Peso N % Peso N % < 40 46 43,0 < 40 10 3,1 40 |--50 22 20,6 40 |--50 34 10,7 50 |-- 60 18 16,8 50 |-- 60 109 34,2 60 |-- 70 12 11,2 60 |-- 70 111 34,8 70 e + 9 8,4 70 e + 55 17,2 Total 107 100,0 Total 319 100,0

Os dados apresentados sugerem que o grau de desnutrição é diferente nas duas regiões? (Note que o total de observações difere em cada região).

Page 53: Apostila estatística

50

Capítulo 3

PROBABILIDADE 1. CONCEITO

Embora o conceito de probabilidade esteja estreitamente relacionado à forma pela qual

esta é definida, é consensual interpretar a probabilidade como a possibilidade de um determinado fato vir a ocorrer, avaliada numericamente e em termos percentuais.

2. A MENSURAÇÃO DA PROBABILIDADE

Ao definir o conceito de probabilidade, foi visto que a idéia passa pela mensuração ou

avaliação das chances de um certo acontecimento. Existem duas maneiras pelas quais esta avaliação pode ser feita:

Pela observação e conhecimento completo dos fatores que influenciam o fato; Pela observação do comportamento passado do fato e das circunstâncias nas quais

ocorreu. O primeiro processo implica definir todos os fatores que de alguma forma poderiam

afetar o resultado final. Este processo conduz a definição de probabilidade dita a priori. Embora esta definição de probabilidade exija uma avaliação exata da probabilidade de uma ocorrência, sua aplicabilidade está restrita a situações muito particulares, como os jogos.

O segundo processo é de natureza completamente diferente.Consiste em trabalhar com o conceito de freqüência relativa, que é próprio da probabilidade dita a posteriori. A probabilidade baseada em freqüência relativa impõe, evidentemente, uma estimativa da verdadeira probabilidade de ocorrência de um determinado fenômeno.Contudo, é aquela que pode ser aplicada aos problemas do mundo real e, especificamente, à Medicina.

Para ilustrar as duas formas de pensar o conceito de probabilidade, suponha o seguinte exemplo: Imagine a avaliação da probabilidade de um individuo sofrer um infarto. Utilizando um critério a priori, seria necessário listar todos os fatores que poderiam conduzir ao infarto.Embora os estudos que existem sobre o assunto, no estágio atual da ciência médica, sejam razoavelmente completos – o que permitem indicar dezenas de fatores de risco, tais como: idade, sexo, hereditariedade, estresse, fumo, dieta, condição física etc.- ,dificilmente seria possível colocar numericamente a conjunção de todos esses fatores. Ainda mais, se a tolerância de cada indivíduo em particular a estes fatores não é conhecida. Em síntese, é praticamente impossível pensar, neste exemplo em avaliação a priori de probabilidade. Por outro lado, consultando arquivos de dados cardiológicos, é possível verificar o número de casos de infarto em indivíduos com características próximas daqueles cuja probabilidade quer-se avaliar e, assim, tomar este dado como um indicativo da possibilidade de o fato efetivamente vir a ocorrer. Por outro lado, tomando um determinado número de pacientes, é possível conhecer a freqüência com que determinados fatores estão associados com a ocorrência do infarto.Desta forma, conhecendo as características de um determinado paciente, seria possível verificar com qual intensidade estes fatores estão presentes e, dessa forma, chegar a um prognóstico sobre seu risco de infartar.

Page 54: Apostila estatística

51

3. PROBABILIDADE COMO UM NÚMERO

Quando o conceito de probabilidade foi definido, deixou-se claro que a probabilidade é expressa numérica e percentualmente. Assim, a probabilidade a priori de um acontecimento “A” vir a ocorrer pode ser posta:

Onde A é um subconjunto do conjunto universal de todas as possibilidades de

ocorrência, s. O conjunto s é também denominado espaço amostral e cada parte elementar ou elemento dele é um ponto amostral.

Como corolário imediato, vem que A estará sempre contido em s e, conseqüentemente, para qualquer A, 10 AP . De modo geral, denotando probabilidade por p, 10 p ou

%100%0 P . Em termos de probabilidade a posteriori, coloca-se:

As observações anteriores, referentes à probabilidade a priori, são também válidas para esse caso. EXEMPLO 3.1: Suponha o lançamento de uma moeda. A probabilidade a priori seria calculada da seguinte forma:

S = {c, k}, onde: s = espaço amostral = 2 elementos; c = cara = ponto amostral = 1 elemento; k = coroa = ponto amostral = 1 elemento.

O evento: A = resultado cara no lançamento de uma moeda é constituído por um único

elemento. Portanto, a probabilidade de A ocorrer é igual a:

%.505,02

1ouAP

O cálculo da probabilidade a posteriori implicaria ter efetuado um número n de

experiências de lançamento da moeda. Suponha-se que foram feitas 100 experiências. Então n = 100. Suponha-se ainda que destas 100 experiências, 48 resultaram “cara” e 52 resultaram “coroa”. Desta forma, pode-se concluir que a probabilidade de ocorrer o evento A, tal como foi definido anteriormente, é igual a:

%.4848,0100

48ouAP

Por extensão, conclui-se que o evento B = resultado coroa no lançamento de uma

moeda é de 52%. Ainda, definido o evento C = resultado “cair em pé” no lançamento de uma moeda, é possível concluir que P(C) = 0%.

s

A

adespossibiliddetotalnúmero

AafavoráveisidadesdepossibilnúmeroAP

""

n

A

realizadafoieriênciaaquevezesdenúmero

ocoreuAquevezesdenúmeroAP

exp

Page 55: Apostila estatística

52

4. PROBABILIDADE NA MEDICINA

Pelo exposto até agora, é possível perceber que os dois processos de mensuração não levam necessariamente a resultados iguais. Ainda, no exemplo da moeda, é possível intuir que o resultado obtido ao se fazer o cálculo pelo primeiro processo é correto, enquanto o cálculo a posteriori é tomado como algo estranho (afinal, todo mundo sabe que q chance de sair cara é 50%). De fato, a probabilidade verdadeira, ou real, naquele caso é de 50%. Ainda, se outras séries de experiências forem efetuadas com a mesma moeda, em condições absolutamente iguais, os resultados obtidos em termo de avaliação de probabilidade não terão por que ser coincidentes, podendo as diferenças (os erros) com respeito à probabilidade real serem maiores ou menores e estarem para baixo ou pra cima deste valor.

A pergunta que se faz, então, é por que não se utiliza sempre o primeiro processo e se descarta o segundo.Ocorre que na ciência de modo geral e, por extensão, na medicina, a relação entre causas e efeitos é extremamente complexa, de forma que os resultados são previsíveis com um grau variável de certeza e, desta forma, não é possível construir corretamente os espaços amostrais necessários ao cálculo da probabilidade a priori. Conseqüentemente, as probabilidades são avaliadas historicamente ou por experimentação e,os resultados,são estimativas de probabilidade sujeitas a erros de maior ou menor magnitude, dependendo da forma como a pesquisa científica é conduzida.

Conclui-se que, de modo geral, os resultados da ciência médica não são cem por cento exatos e que a presença de erro nas avaliações ou conjecturas é infelizmente, inevitável. A estatística, enquanto ciência que trata de como controlar estes erros, auxiliar a pesquisa médica na construção de toda a base de conhecimentos dedutivos da medicina, como é possível constatar em grande parte do material que promove a sua divulgação e difusão. 5. CÁLCULO DAS PROBABILIDADES

Foi visto que a estimativa de uma probabilidade é obtida como uma proporção, independentemente do seu critério de definição. Entretanto, uma vez estabelecida à probabilidade de um ou de vários eventos, existem diversos cálculos de probabilidades que podem ser feitos, combinando-se os resultados. Algumas situações clássicas são vistas a seguir. 5.1 LEI MULTIPLICATIVA

Dado um evento A, com probabilidade P(A), a probabilidade de que esses evento se repita n vezes é dada por:

nn APAPAPAAAP ....... 2121

A sentença acima pode ser lida: “A probabilidade de que ocorra o evento A na primeira vez e na segunda vez e assim por diante até a enésima vez é igual ao produto das probabilidades de ele ocorrer em cada uma das vezes”.

Se a ocorrência do evento A em cada uma das vezes não for afetada pelas ocorrências anteriores, diz-se que as ocorrências de A em cada uma das vezes são independentes, e a expressão anterior pode ser escrita:

nn APAAAP ...21

Page 56: Apostila estatística

53

5.2 LEI ASSOCIATIVA

Dados dois eventos, A e B, a probabilidade de que ocorra um destes dois eventos, isto é, que ocorra A ou B, é dada por:

BAPBPAPBAP

que pode ser lido: “A probabilidade de ocorrência de A ou B é dada pela soma das probabilidades de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de que ambos ocorram simultaneamente.”

Evidentemente, se A e B não tiverem elementos em comum, serão representados por conjuntos disjuntos, e a expressão anterior passa a:

BPAPBAP

Em um determinado momento, se forem definidos dois eventos cuja ocorrência

simultânea não é possível, diz-se que os eventos são mutuamente excludentes, ou seja, ocorre um ou ocorre o outro. É o caso, por exemplo, do lançamento de um dado e os eventos A = resultado 6 e B = resultado 5. Sabe-se que P(A) = 1/6 e P(B) = 1/6, mas a probabilidade de ocorrer A e B simplesmente não existe. 5.3 EVENTOS DEPENDENTES

Quando a ocorrência de um evento a depende da ocorrência prévia de um outro evento B, diz-se que o evento A depende de B, e denota-se (A|B). É comum ler a sentença (A|B) como “A dado B”.

Para que dois eventos sejam dependentes, basta verificar a desigualdade

BPAPBAP .

Em outras palavras, a probabilidade do número de ocorrências que satisfazem ambas as condições (A e B) é diferente do produto das probabilidades dos eventos A e B tomadas isoladamente. Obviamente, os eventos serão independentes se BPAPBAP . .

EXEMPLO 3.2: Suponha que um levantamento estatístico efetuado em certa população verificou que 23% de indivíduos do sexo masculino e 18% do sexo feminino são hipertensos. Se nessa mesma população o número de casais hipertensos é de 7,2%, então existe dependência (ou associação) entre o fato de o homem e a mulher do casal apresentarem hipertensão, pois, denotando H = homem hipertenso e M = mulher hipertensa, ter-se-ia

P(HM)=P(H).P(M)

P(HM)=0,23 . 0,18 = 0,0414 = 4,14% 7,2%

Observe-se que não estão sendo nem procuradas nem analisadas as razões por que se o primeiro membro do casal é hipertenso, o outro tem mais chances de ser hipertenso do que se o primeiro não for hipertenso. Simplesmente apresenta-se este fato a partir das estatísticas do número de homens, mulheres e casais hipertensos. Quanto aos motivos para esta dependência,

Page 57: Apostila estatística

54

eles devem ser procurados, analisando-se outras variáveis ligadas ao sexo e à hipertensão. Num estudo de campo, poder-se-ia sugerir que sejam verificadas características do casal no que diz respeito ao tipo de alimentação, teor diário ingerido de NaCl, ambiente familiar, ambiente de trabalho, etc.

6. PROBABILIDADE CONDICIONADA

Quando existem dois eventos dependentes, a probabilidade de ocorrência de um deles é afetada pelo fato de outro ter ou não ter ocorrido. Se estes eventos são os eventos A e B, quando se diz que a probabilidade de ocorrência de A está condicionada à ocorrência de B, está-se querendo dizer que as chances de ocorrer A dependem de B.

De modo geral, a probabilidade de A condicionada a B é dada por:

BP

BAPBAP

|

Onde P(A|B) = probabilidade de A dado ou condicionada a B. A relação anterior pode ser compreendida, observando-se a Figura 3.1.

Figura 3.1: Probabilidade condicionada

Na Figura 3.1, os eventos A e B possuem elementos comuns. A probabilidade de

ocorrer A dado B implica a ocorrência prévia de B. Desta forma, o espaço amostral se reduz de U para B e as ocorrências favoráveis ao evento Apara a interseção de A com B, resultando a expressão mostrada anteriormente.

As probabilidades condicionadas podem ocorrer, associando-se dois eventos, ou quando um mesmo evento é repetido e os seus resultados são o afetados pelos resultados anteriores.

Como por exemplo do primeiro caso, imagine dois eventos associados a um conjunto de indivíduos.O primeiro evento, A, seria “cirrose”; o segundo, B, “alcoólatra”. È possível estimar, de acordo a esses dados, a probabilidade de um indivíduo ter cirrose dado que é alcoólatra.Para isto, de acordo à definição dada, basta verificar o número de indivíduos que apresentam simultaneamente as duas características P(AB) e dividir pelo número total de indivíduos que apresentam a segunda característica P(B).

Este tipo de problema costuma ser colocado em forma de tabelas conjuntas ser colocado em forma de tabelas conjuntas de freqüências, ou tabelas conjuntas de

Page 58: Apostila estatística

55

probabilidades, dependendo e os dados são valores absolutos (primeira denominação) ou relativos (segunda denominação). Uma tabela conjunta simples (Tabela 3.1), de dimensão 2x2, é mostrada a seguir:

Tabela 3.1 - Associação de eventos dependentes.

Eventos B B’ Totais A AB AB’ A A ‘ A’B A’B’ A’ Totais B B’ T

No exemplo que vem sendo analisado, ter-se-ia:

A = cirrose A’= não-cirrose B = alcoólatra B’= não-alcoólatra

Evidentemente, os eventos associados são:

AB = cirrose e alcoólatra; AB’ = cirrose e não-alcoólatra; A’B = não-cirrose e alcoólatra; A’B’ = não-cirrose e não-alcoólatra; T = total de indivíduos, ou probabilidade total.

De modo geral, se o evento A pode ocorrer de k maneiras diferentes A={a1, a2,..., ak}

e cada um destes resultados está condicionado à ocorrência do evento B, tem-se

P(A1\B) + P(A2\B) + ... + P(Ak\B) = 1

Particularmente, se k = 2, então P(A1\B) =1- P(A2\B) e P(A2\B) = 1- P(A1\B)

O risco relativo pode ser calculado a partir das tabelas conjuntas de freqüência ou de probabilidades que foram apresentadas para definir a probabilidade condicionada. É um conceito bastante empregado em medicina e pode ser entendido como risco adicional de estar em uma determinada condição patológica (A) devido ao fato de apresentar uma característica particular (B). No exemplo em que A = cirrose e B = alcoólatra, o risco relativo de um alcoólatra em relação à cirrose representa a probabilidade adicional de um alcoólatra desenvolver cirrose em relação a um indivíduo não-alcoólatra.

Genericamente, empregando a notação da Tabela 1 pode-se escrever:

Page 59: Apostila estatística

56

EXEMPLO 3.3: Suponha que os valores para o exemplo da Tabela 3.1, num estudo efetuado com 80 pacientes, sejam os mostrados na Tabela 3.2.

Tabela 3.2 - Associação entre cirrose e alcoolismo

Alcoolismo (B)

Cirrose (A) Sim Não

Presente 9 2 Ausente 26 43

Empregando a notação sugerida, o risco de um alcoólatra apresentar cirrose é de

2571,0269

9'|

BAP

O risco de cirrose entre os não-alcoólatras resulta

0444,0432

2'|

BAP

O risco relativo resulta então

79,50444,0

2571,0RR

Este valor indica que o risco de um alcoólatra desenvolver cirrose, em comparação a

um indivíduo não-alcoólatra, é 4,79 (5,79 – 1) vezes maior. 7. TEOREMA DE BAYES

Suponha que a ocorrência (ou não) de um determinado evento A possa ter sido originado de “k” diversas maneiras c1, c2,..., ck (Fig. 3.2).

Fig. 3.2 Causas d evento A.

Figura 3.2: Causas do evento A

Page 60: Apostila estatística

57

Observe que as causas c1, c2, ..., ck são eventos mutuamente exclusivos, ou kccc ...21 . Desta forma, o conjunto A pode ser escrito como

)(...)()( 21 kcAcAcAA . Em termos de probabilidades

)(...)()()( 21 kcAPcAPcAPAP . Lembrando a definição de probabilidade

condicional, pode-se escrever:

)(

)()|(

i

ii cP

cAPcAP

de onde vem

)|().()( iii cAPcPcAP

Então, a probabilidade do evento A, P(A), resulta igual à expressão

)|().(...)|().()|().()( 2211 kk cAPcPcAPcPcAPcPAP

ou

k

iii cAPcPAP

1

)|().()(

Então, a probabilidade de que o evento A tenha sido originado pela causa ci, )|( AcP i , é dada por:

k

iii

iii

iii

cAPcP

cAPcPAcPou

AP

cAPcPAcP

1

)|().(

)|().()|(

)(

)|().()|(

Esta é a expressão final do Teorema de Bayes, também chamada de Teorema das

Causas. Possui aplicação direta em vários problemas relacionados ao diagnóstico de doenças. EXEMPLO 3.4: Suponha que em um levantamento de dados uma determinada população foi classificada de acordo com uma das características abaixo:

P1 Heterossexuais 63% P2 Homossexuais 18% P3 Hemofílicos 5% P4 Usuários de drogas injetáveis 14%

Ainda, imagine que levantamentos estatísticos anteriores permitam presumir que o

risco de transmissão de HIV entre os heterossexuais é de ordem de 2,3%; entre a população homossexual 9,3%; entre os hemofílicos 12% e entre os usuários de drogas 17,1%.

Page 61: Apostila estatística

58

Como estas informações seria possível determinar, por exemplo, a probabilidade de transmissão do HIV e, também, a chance de um HIV+ ser proveniente do grupo de heterossexuais. No primeiro caso: Seja A = HIV+ e A’= HIV– então,

P(A) = P(P1).P(A|P1) + P(P2).P(A|P2) + P(P3).P(A|P3) + P(P4).P(A|P4) P(A) = 0,63.0,023 + 0,18.0,093 + 0,05.0,12 + 0,14.0,171 = 0,0617 ou 6,17%

Então, o risco HIV+ é de 6,17%. A chance de HIV+ pertencer ao grupo heterossexual pode ser posta:

)(

)|().()|( 11

1 AP

PAPPPAPP

2163,0067,0

01449,0

067,0

023,0.63,0)|( 1 APP ou 21,63%

Então, dado um caso de HIV+, a probabilidade de ele pertencer ao grupo heterossexual

é de 21,63%. Este resultado é interesse (!), pois o valor calculado é aparentemente alto diante da pequena taxa de risco dos heterossexuais (2,3%).

Page 62: Apostila estatística

59

EXERCÍCIOS

1. Um casal tem dois filhos. Qual a probabilidade de: a) o segundo filho ser homem? b) o segundo filho ser homem, dado que o primeiro é homem? 2. A probabilidade de determinado teste para AIDS dar resultado negativo em portadores de

anticorpos contra o vírus é 10%. Supondo que falsos negativos ocorrem independentemente, qual é a probabilidade de um portador de anticorpos contra o vírus da AIDS, que se apresentou três vezes para o teste, ter tido, nas três vezes, resultado negativo?

3. Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é de 40%, ser A é de

30% e ser B é de 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e o fator Rh independe do tipo sangüíneo. Nestas condições, qual é a probabilidade de uma pessoa tomada ao acaso da população ser:

a) O+? b) AB-? 4. Em um artigo apresentado na XIV Semana Médica da FMIt, Pinotti, A.L. relata 527

acasos operados de Colecistectomia no SCG do HE-FMIt no período de 1987 a 1993 e os resultados em termos de detecção de Tumores da Vesícula. Dentre as análises realizadas, foi efetuado um cruzamento entre o número de tumores encontrados e o sexo, como está sintetizado na tabela abaixo.

Tabela – Pacientes submetidos à Colecistectomia – Serviço de Cirurgia Geral do HE-FMIt.

Tumores da Vesícula Biliar

Sexo Presente Ausente

Total

Masculino 5 274 279 Feminino 20 228 248 Total 25 502 527

Definindo os eventos: A={TVB presente} e B={sexo masculino}, estimar, com base nos dados apresentados:

a) P( A ) b) P( A | B) c) )B|A(P d) P( B ) e) P( B | A) f) )A|B(P g) Qual o significado da relação entre os resultados dos itens (b) e (c)?

Page 63: Apostila estatística

60

5. Acredita-se que numa certa população, 20% de seus habitantes sofrem de algum tipo de

alergia e são classificados como alérgicos para fins de saúde pública. Sendo alérgico, a probabilidade de ter reação a um certo antibiótico é de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de:

a) Ser do grupo não alérgico? b) Ser do grupo alérgico? 6. Estatísticas dos últimos 2 anos do departamento estadual de estradas são apresentadas na

tabela a seguir, contendo o número de acidentes com vítimas, fatais ou não, e as condições do principal motorista envolvido, sóbrio ou alcoolizado.

Vítimas

Motoristas Não Fatais Fatais

Sóbrio 1228 275 Alcoolizado 2393 762

Você diria que o fato do motorista está ou não alcoolizado interfere na ocorrência de vítimas fatais?

EXERCÍCIOS RESOLVIDOS 7. O Distúrbio de Hiperatividade com Déficit de Atenção, DHDA, é uma desordem que afeta

entre 3 a 10% das crianças em atividade escolar. Assumindo que esta probabilidade seja 6,6%, estimar.

a) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, as duas

apresentem DHDA. b) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso,

nenhuma das duas apresentem DHDA. c) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, pelo

menos uma apresente DHDA. SOLUÇÃO: a) Seja o evento A = “criança em idade escolar com DHDA”. Então, P(A) = 6,6% ou 0,066, e

%4356,0004356,0066,0)()2().1()21( 22 ouAPAPAPAAP Resposta: 0,004356 ou 0,4356% b) Denotando o evento “não-A” por A’, tem-se: P(A1’A2’) = (1 – 0,066)2 = (0,934)2 =0,872 Resposta: 0,872 ou 87,2%

Page 64: Apostila estatística

61

8. Ainda no tema da questão 7, imagine que em um dia de consultas, um neurologista tem na sua agenda 8 pacientes, dos quais 2 possuem DHDA. Calcular a probabilidade de:

a) O primeiro paciente apresentar distúrbio. b) O segundo ter DHDA dado que o primeiro não tinha. c) O terceiro não ter DHDA dado que os dois primeiros tinham. Solução: Mantendo a notação usada no problema 1, tem-se:

a) %2525,08

2)1( ouAP Resposta: 0,25 ou 25%.

b) %1,27271,07

2)'1\2( ouAAP Resposta: 0,271 ou 27,1%.

c) %10016

6)21'\3( ouAAAP Resposta: 1 ou 100%.

9. Sabendo que o DHDA ocorre cerca de dez vezes mais em crianças do sexo masculino, e

lembrando os dados do exercício 7,

a) Qual a prevalência do DHDA no sexo feminino? E no sexo masculino? b) Com base na letra a do problema 1, calcular a probabilidade pedida sendo os dois

casos, um do sexo masculino e outro do sexo feminino. c) Construa uma tabela 2x2, cruzando a presença ou ausência de DHDA e o sexo, para

um total hipotético de 1.000 crianças, usando todos os dados apresentados nos itens anteriores.

Solução 1. Graficamente, é possível colocar o problema da seguinte forma (Fig. 3.3):

Page 65: Apostila estatística

62

Onde: Am = DHDA no sexo masculino; Af = DHDA no sexo feminino; A’m = não-DHDA no sexo masculino; A’f = não-DHDA no sexo feminino. Da Fig. 3.3, vê-se que:

P(Am)+P(Af) = P(A) Sabe-se ainda que

P(Am) = P(A).P(m)

P(Af) = P(A).P(f)

De forma que P(A) = P(A).P(m) + P(A).P(f)

Ainda, pelos dados do problema, tem-se que P(Am) = 10.P(Af). Então, considerando as proporções iguais de crianças do sexo masculino e do sexo

feminino, é possível escrever:

%6,62

)()(

,6,6)(2

1)(

2

1

AfPAmP

ouAfPAmP

Então

%2,111

%6,6.2)(%6,6

2

)()(.10

AfP

AfPAfP

A probabilidade para o sexo masculino será:

P(Am) = 10.P(Af) = 10.1,2% = 12% Resposta: A probabilidade de uma criança do sexo feminino apresentar DHDA é de 1,2%. Para o sexo masculino, esta probabilidade é de 12%.

c) A tabela conjunta de freqüências resulta em (Tabela 3.5):

Page 66: Apostila estatística

63

Tabela 3.5

DHDA Sexo

Presente AusenteTotais

Masculino 60 440 500 Feminino 6 494 500 Totais 66 934 1.000

10. Para detectar a presença do vírus Z no organismo é efetuado o teste X. Sabe-se que o vírus Z está presente em 0,1% da população, enquanto o teste X acusa + em 99% dos casos de pessoas com o vírus e em 5% dos casos em pessoas sadias. Considerando essas informações:

a) Qual seria a probabilidade de ocorrer um falso-positivo? b) E de ocorrer um falso-negativo?

SOLUÇÃO: a) Adotando a notação:

V = vírus; V’ = não-vírus; R+ = exame positivo; R- = exame negativo. Pelos dados do problema, têm-se P(V) = 0,001, P(R+|V) = 0,99 e P(R+|V’) = 0,05. O falso-positivo, de acordo com a notação que foi convencionada, pode ser escrito como P(V’|R+). Então, pelo Teorema de Bayes:

O cálculo da probabilidade de um exame positivo pode ser feito empregando-se o teorema da multiplicação de probabilidades. Assim

)'|().'()|().()( VRPVPVRPVPRP 05094,005,0.999,099,0.001,0)( RP

Finalmente,

%05,989805,005094,0

05,0.999,0)|'( ouVP

Resposta: Falso-positivo = 98,05%. A chance de um falso-positivo é surpreendentemente grande! Explicação: Se o teste fosse perfeito, detectaria um em cada mil casos, que é a incidência verdadeira do vírus. Entretanto, o teste acusa cinco em cada cem pessoas testadas. Portanto, dos indivíduos que o teste declara positivos, a maioria efetivamente não tem o vírus. b) O falso-negativo, de acordo com a notação que foi convencionada, é dado por P(V|R-). Dos dados do problema, é possível inferir P(R-|V) = 0,01; P(R-|V’) = 0,95. Pelo Teorema de Bayes:

)(

)'|().'()|'(

RP

VRPVPRVP

Page 67: Apostila estatística

64

)(

)|().()|(

RP

VRPVPRVP

Então )'|().'()|().()( VRPVPVRPVPRP

94906,095,0.999,001,0.001,0)( RP

%00105,00000105,094906,0

01,0.001,0)|'( ouVP

Resposta: Falso-negativo = 0,001%, aproximadamente. A chance de um indivíduo efetivamente ter o vírus e o teste falhar é mínima. O teste, clinicamente é muito bom.

Page 68: Apostila estatística

65

Capítulo 4

DISTRIBUIÇÃO DE PROBABILIDADE 1. CONCEITO

Seja a variável aleatória (v.a.) X, que pode assumir os valores correspondentes ao conjunto

X = {x1, x2,..., xn}. A relação

ii xfx

define uma correspondência entre todos os valores que a variável aleatória pode assumir, xi e suas respectivas probabilidades de ocorrência f(xi). Esta relação é a função de probabilidade da variável aleatória X.

EXEMPLO 4.1: Suponha que o número máximo de leitos que uma unidade de terapia intensiva comporte seja 4. Definido a variável aleatória X como “número de óbitos (na UTI)”, os valores que a v.a. pode assumir, num certo período de tempo, são:

X = {0, 1, 2, 3, 4}

onde: X = 0 significa nenhum óbito (quatros pacientes vivos); X = 1 (um) óbito (três pacientes vivos) e assim por diante. Supondo que as probabilidades associadas a cada um destes possíveis resultados sejam1

f(0) = 0,3164 f(1) = 0,4219 f(2) = 0,2109 f(3) = 0,0461 f(4) = 0,0039

é possível construir a função mostrada no quadro 1,

Quadro 4.1

X 0 1 2 3 4 Soma f(x) 0,3164 0,4219 0,2109 0,0461 0,0039 1

que é a função de probabilidade do número de óbitos, tomando quatro leitos (n = 4). Note que a soma

11

k

iixf

Page 69: Apostila estatística

66

é o resultado esperado, uma vez que estão sendo consideradas todas as possibilidades de ocorrência para a v.a. X. Veja a Fig. 1.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 1 2 3 4

densidade

Figura 4.1: Distribuição de probabilidades.

Note que a soma das áreas sob a curva que representa a função de probabilidade é igual a 1 ou 100%. Fica assim estabelecida uma correspondência entre a área sob a função e a probabilidade de ocorrência da v.a. X. 2. CONSTRUÇÃO DA FUNÇÃO DE PROBABILIDADE DADA A PROBABILIDADE DE UMA OCORRÊNCIA

Suponha que a probabilidade do óbito de um paciente, ao dar entrada na terapia intensiva de 25% (risco de vida).

Definindo a v.a. X como no exemplo anterior (número de óbitos), se um paciente de

entrada no CTI (n = 1), tem-se

25,01

75,001,0

f

fX

Se dois pacientes ingressarem no CTI (n = 2),

0625,025,0.25,0.2

3750,01875,075,0.25,0.

1875,025,0.75,0.1

5625,075,0.75,0.0

2,1,0

21

21

21

21

opopf

vpop

opvpf

vpvpf

X

o índice indica o paciente (1 ou 2), p(o) e p(v) são as probabilidades de óbito e de sobrevida.

Evidentemente, a construção de f(x) para um número maior de casos é uma tarefa

repetitiva e trabalhosa. Uma forma sistemática de se calcular a probabilidade de um

Page 70: Apostila estatística

67

determinado número de ocorrências em n casos pode ser feita a partir da distribuição binomial. 3. DISTRIBUIÇÃO BINOMIAL

Seja uma variável aleatória definida em termos binários.Então a v.a.X tem duas possibilidades de ocorrência. Denominando a probabilidade de ocorrência de X de p e a de não ocorrer X de q, tem-se p + q = 1.

A probabilidade de k ocorrências da v.a.X em n casos é dada por:

knk qpk

nkXP

)(

lembrando que e 0! = 1

Os parâmetros da distribuição de probabilidade gerada por esta função são Média = valor esperado =E [X] = µ = n.p

Variância = σ2 n.p.q = n.p.(1- p)

Desvio padrão = σ =

Observe que o formato da distribuição binomial depende de p e de n exclusivamente.

EXEMPLO 4.2: Suponha que a probabilidade de um indivíduo do sexo masculino, com mais de 60 anos, vida sedentária e fumante ativo de desenvolver uma doença cardiovascular nos próximos 8 anos seja de 40%. A partir de um estudo controle com dez indivíduos com essas características, a probabilidade de que nenhum destes indivíduos sofra doenças cardiovasculares no período determinado pode ser calculada da seguinte forma: X = indivíduo, masculino, +60, sedentário, fumante, DCV n = 10 p = 0,4

Então a probabilidade de nenhuma DCV resulta

O número esperado de casos de DVC no estudo final é igual a µ = 10.0,4 = 4 casos,

com um desvio padrão de σ = . 

A probabilidade de se ter menos de três indivíduos com DVC seria calculada:

Page 71: Apostila estatística

68

A probabilidade de mais de dois indivíduos afetados por DVC no período seria,

analogamente,

Contudo, como é possível escrever

Então,

4. DISTRIBUIÇÃO POISSON

A função de probabilidade de Poisson é dada por

lembrando e = 2,71828...

Substituindo por µ vem

Esta última expressão dá uma aproximação da distribuição binomial, tanto mais

precisa quanto menor o valor de p .Desta forma, sua aplicação em Medicina está relacionada a patologias raras (valor de p baixo).

Os parâmetros da função de probabilidade de Poisson são os seguintes:

Média = valor esperado =E [X] = µ = λ Variância = σ2 λ

Desvio padrão = σ = \

EXEMPLO 4.3: Suponha que uma a cada mil pessoas que utilizam determinado anestésico sofra uma reação negativa (choque). Num total de 500 cirurgias em que se empregou esse anestésico, a probabilidade de que 1 pessoa sofra a reação pode ser calculada

µ = λ= n.p = 500.0,001 = 0,5

Page 72: Apostila estatística

69

0,3033 = 30,33%

A probabilidade de nenhuma reação seria

0,6065 = 60,65%

A probabilidade de mais de uma reação:

5. DISTRIBUIÇÃO NORMAL OU DE GAUSS 5.1. CONCEITO

A distribuição Normal ou de Gauss é dada pela função

Como a distribuição de Gauss é uma distribuição de probabilidade, a área sob a curva normal deve ser igual a 1 ou 100%, ou seja

5.2. CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL

Assintótica em relação ao eixo das abscissas. Simétrica em torno ao seu valor central (média = mediana = moda). Valores concentrados em torno da tendência central. As áreas (probabilidades) para

um, dois e três desvios padrões em torno da média são, respectivamente:

1. .

2. .

3.

Para caracterizar a distribuição normal basta a média e o desvio padrão. Por esta razão,

quando se quer informar que uma variável se distribui normalmente, costuma-se escrever: N[µ,σ].

Page 73: Apostila estatística

70

5.3. VARIÁVEL ALEATÓRIA PADRONIZADA

Para calcular probabilidades associadas à distribuição normal, costuma-se converter a variável original do problema, X, em unidades reduzidas ou padronizadas, z. Esta transformação é efetuada por meio da relação:

A variável aleatória padronizada, VAP, tem média e desvio padrão a 0 e 1, respectivamente. Desta forma N[0,1] indica a VAP da distribuição normal. As áreas sob a distribuição normal, em função da VAP, encontram-se na Tabela da Normal Padrão (tabela1/ver Apêndice), como mostra a Fig. 4.2.

Figura4.2 - Área sob a curva normal de acordo com a tabela da normal padrão (Tabela 1).

Pela figura 4.2 pode-se notar que a tabela fornece a área sob a curva normal para valores menores ou iguais a z (área sombreada). Para encontrar áreas è direita de determinada valor da VAP, ou entre dois valores de Z, devem ser efetuadas composições de áreas, como é mostrado no exemplo a seguir.

EXEMPLO 4.4: Suponha que o comprimento de recém-nascidos do sexo feminino não-portadores de anormalidade congênitas seja uma variável aleatória com distribuição aproximadamente normal de média 48,54cm e desvio padrão 2,5cm.

A probabilidade estimada de um recém-nascido, escolhido ao acaso de ter

comprimento superior à média, 48,54cm, é de 50%, uma vez que a distribuição normal é simétrica e a média corresponde ao eixo de simetria da curva. A VAP, neste resulta igual a zero:

Page 74: Apostila estatística

71

05,2

54,4854,48

x

z

Na Tabela 1, para z = 0, a área sob a curva é igual a 0,5 ou 50%. A probabilidade do comprimento ser inferior a 44,79cm pode ser encontrada da

seguinte forma

5,15,2

54,4879,44

x

z

Na Tabela 1, para z = -1,5, a área sob a curva é igual a 0,0668. Portanto,

%68,6)79,44( XP . A probabilidade de o comprimento ser superior a 47,29cm, por exemplo, pode ser

encontrada

5,05,2

54,4829,47

z

Na mesma tabela, para -0,5z , a área sob a curva é igual a 0,3085. Este valor corresponde à área à esquerda de -0,5z , o que representa valores menores do que 47,29cm. Como se deseja a probabilidade de uma criança com comprimento maior que 47,29cm, a área desejada está à direita de z = -0,5. Como a área total sob a curva é igual a 1 ou 100%, basta fazer

%.15,696915,03085,0129,47 XP

Para calcular a probabilidade entre 46,04 e 51,04cm, deve-se fazer

15,2

54,4804,46

z 1

5,2

54,4804,51

z

Para z = -1, a área sob a curva é igual a 0,1587. Para z = +1, a área resulta 0,8643.

Então: %.56,707056,01587,08643,004,5104,46 XP

Um outro cálculo que pode ser efetuado a partir da normal é determinar o limite

inferior de, por exemplo, as 5% das crianças de maior comprimento. Este valor corresponde, no caso, ao percentil 95. Este cálculo é útil na construção de curvas de crescimento ou pôndero-estaturais (peso, estatura, perímetro cefálico etc.).

No caso, deve-se procurar no interior da tabela 1 até encontrar o valor 0,9500 (95%). Este valor corresponde a um valor correspondente a um valor de z igual a +1,65 (aproximadamente). Então:

cmxx

67,5254,485,2.65,15,2

54,4865,1

Este limite que apenas 5% das crianças nascem com comprimento superior a 52,67cm.

Page 75: Apostila estatística

72

6. DISTRIBUIÇÃO T-STUDENT

O uso da distribuição de t-Student, ou simplesmente distribuição t, está associado a estudos com pequenas amostras. Considera-se uma pequena amostra, uma amostra com n < 30. Em medicina, este tipo de situação é bastante freqüente, pelas limitações muitas vezes encontradas na obtenção de dados clínicos. Quando a amostra é grande, a distribuição de t-Student se aproxima da distribuição Normal. Na prática, para n > 100, as distribuições são quase iguais. De modo geral, a distribuição de Student depende de

função de probabilidade = f(t, v)

onde t é o valor de abscissa (assim como z na distribuição normal) e v é o que se denomina de graus de liberdade. Quanto maior o valor de v, mais achatada se torna a curva de t-Student. Para valores de v próximos a cem, a curva de t-Student é quase igual à curva de Gauss.

7. DISTRIBUIÇÃO DE FISHER

A distribuição de Fisher, ou distribuição F, está geralmente associada a estudos relacionados à variância de dados. Como será visto mais adiante, ao se desejar provar uma hipótese referente à comparação de conjuntos numéricos, a determinação de relação entre as variâncias desses conjuntos é fundamental.

De modo geral, a distribuição de Fisher, ou distribuição F, depende de

função de probabilidade F = f(u, v1,v2) onde u é o valor de abscissa da distribuição de Fisher , v1 e v2 são os graus de liberdade da distribuição.

Assim como ocorre com a distribuição de t-Student, a distribuição de Fisher às aplicações diretas, como no caso da distribuição Normal, não são interessantes. Suas aplicações estão relacionadas com testes estatísticos.

8. DISTRIBUIÇÃO QUI-QUADRADO

A distribuição de Qui-quadrado, ou χ2, corresponde à distribuição de probabilidade da soma dos quadrados de n variáveis aleatórias independentes, distribuídas normalmente e padronizadas(média 0 e desvio padrão 1).Ou seja,

22

221

2 ... nxxx

A distribuição de Qui-quadrado é função de função de probabilidade

χ2 = f(x,v)

onde x é o valor de abscissa e v os graus de liberdade. Assim como as distribuições t e F, a distribuição e Qui-Quadrado tem aplicações nas

realizações de teste de hipóteses, que serão desenvolvidos posteriormente. Os valores da distribuição de χ2 estão no final da apostila.

Page 76: Apostila estatística

73

9. APLICAÇÕES NO ACTION

Page 77: Apostila estatística

74

Page 78: Apostila estatística

75

EXERCÍCIOS 1. Um estudo na área de Medicina Ocupacional (MO) revelou que um em cada quatro motoristas de

ônibus apresentavam algum grau de lombalgia. Tomando para uma experiência um grupo de 12 motoristas, quais são as chances de:

a) Nenhum motorista apresentar a doença. b) Menos de dois apresentarem a doença. c) Mais de quatro apresentarem a doença.

2. As pacientes diagnosticadas com câncer de mama precocemente têm 80% de probabilidade de

serem completamente curadas. Para um grupo de 12 pacientes nessas condições, calcule:

a) O número esperado de pacientes que devem ser curadas. b) A probabilidade de exatamente oito ficarem completamente curadas. c) A probabilidade de no máximo duas permanecerem com a doença.

3. Suponha que o tempo de coagulação (TC) em seres humanos seja uma variável aleatória com

distribuição normal, de média 7 minutos e desvio padrão de 1 minuto. Em um exame hematológico qualquer, determine a probabilidade de que um indivíduo apresente (TC):

a) Menor que 8 minutos. b) Maior que 10 minutos. c) Entre 4 e 10 minutos.

4. Doentes sofrendo de uma certa moléstia são submetidos a um tratamento intensivo, cujo tempo de

cura foi modelado por uma densidade Normal de média 15 e desvio padrão de 2 (dias). Para esta calcule:

a) A probabilidade de um paciente, escolhido ao acaso, apresentar tempo de cura superior a 17

dias para se recuperar. b) A probabilidade de um paciente, escolhido ao acaso, apresentar tempo de cura inferior a 20

dias. c) O tempo necessário para recuperar 25% dos pacientes. d) Considere que 100 pacientes são escolhidos ao acaso. Assim qual seria o número esperado de

pacientes curados em menos de 11 dias.

Page 79: Apostila estatística

76

Capítulo 5

ESTATÍSTICA DESCRITIVA 1. NOÇÕES ELEMENTARES

Dizemos que em determinadas ocasiões, há de se proceder a coleta de dados diretamente da origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo. Entretanto, quando é impossível se observar toda a população em que desejamos estudar o fenômeno, recorremos às técnicas de amostragem, em que nos limitamos a uma amostra do Universo.

Damos início a determinação de uma fração da população, que irá fornecer informações que serão generalizadas para a população. Para que esta generalização seja possível, os integrantes da amostra devem ser escolhidos adequadamente.

Existe a necessidade de definirmos o conjunto de elementos para os quais devem ser observadas e/ou mensuradas as variáveis de interesse dentro da questão ou problema estabelecido. Vamos, então, definir alguns termos necessários. 1.1 POPULAÇÃO E AMOSTRA

Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos

nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a "população" e a "amostra".

Chamamos de POPULAÇÃO o conjunto dos seres, objetos ou informações que interessam ao estudo de um fenômeno coletivo segundo alguma(s) característica(s). É, portanto, um conjunto definido de informações relativas a qualquer área de interesse, podendo, quanto ao número de elementos, ser: finita (tamanho N) ou infinita. Assim, a população do bairro da Cidade Universitária é exemplo de uma população finita, já o número e pacientes internados no Hospital das Clínicas da Universidade Federal de Pernambuco é exemplo de uma população considerada infinita ou impossível de enumerar.

Na maioria das vezes, não é conveniente, ou mesmo possível realizar o levantamento dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da população, isto é amostramos.

Já a AMOSTRA é um subconjunto não vazio ou parte da população. Duas considerações devem ser feitas sobre o estudo amostral dos fenômenos. Uma diz respeito aos cuidados que se deve tomar para assegurar que a amostra seja representativa da população. Para atender a essa exigência, deve-se selecionar os elementos de forma aleatória, de modo que todo e qualquer elemento da população tenha a mesma chance de participar da amostra. A outra exigência diz respeito à precisão dos dados coletados, buscando minimizar os erros que poderiam induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado o tamanho da amostra, e denotado por n. 1.2 PARÂMETRO, ESTIMADOR E ESTIMATIVA

Uma característica numérica estabelecida para toda uma população é denominada

parâmetro. Uma característica numérica estabelecida para uma amostra é denominada estimador.

Page 80: Apostila estatística

77

O valor numérico assumido pelo estimador numa determinada amostra é denominada estimativa.

EXEMPLO 5.1: no fenômeno coletivo eleição para prefeito do município de João Pessoa, a população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 1.000 eleitores selecionados em todo o município. Um estimador é a proporção de votos do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa.

Em aplicações efetivas, onde aplica-se o processo de amostragem, o número de

elementos componentes de uma amostra é, geralmente, bastante reduzido em relação ao número de elementos componentes da população.

1.3 PROCESSOS ESTATÍSTICOS DE ABORDAGEM

Quando solicitados a estudar um fenômeno coletivo podemos optar entre os seguintes

processos estatísticos:

CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes da população. Admite erro processual zero e tem confiabilidade 100%, caro, lento, quase sempre desatualizado e nem sempre é viável.

AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base em

um estimador através do cálculo das probabilidades. Admite erro processual positivo e tem confiabilidade menor que 100%, barato, rápido, atualizado e sempre viável.

1.4 VANTAGENS E DESVANTAGENS DA AMOSTRA EM RELAÇÃO AO CENSO

Vantagens:

a) Economia: É evidente que ao utilizarmos apenas uma fração de uma população, estaremos economizando dinheiro, material, pessoal, etc.

b) Rapidez: Quando desejamos urgência nas informações a economia de tempo será indiscutível.

c) Maior amplitude do Universo: Com o mesmo custo do CENSO, temos condições de pesquisar uma área muito maior.

d) Maior exatidão: Num planejamento em que utilizamos amostragem, consideramos que o pessoal a ser utilizado é mais treinado e especializado, concorrendo para que os resultados encontrados sejam mais detalhados, o que não ocorre com o CENSO.

Desvantagens:

a) Utilização em populações pequenas. Ou seja, em populações menos de 100

elementos. b) Não proporciona informação sobre todos os elementos da população.

Page 81: Apostila estatística

78

1.5 CONCEITOS BÁSICOS EM AMOSTRAGEM

População Objeto: É a população total de interesse sobre a qual desejamos obter informações. Por exemplo, as peças produzidas por uma fábrica.

População de Estudo: É o conjunto de indivíduos de interesse específico. Ex: as peças

que permanecem no estoque.

Característica Populacional: Este é o aspecto da população que interessa ser medido. Ex: O diâmetro das peças.

Unidade Amostral: Deve ser definida de acordo com o interesse do estudo, podendo

ser uma peça, um indivíduo, uma família, uma fazenda, etc. A escolha deve ser feita no início da investigação.

Estrutura Amostral: É a fonte do nosso estudo, ou seja, é o conjunto de unidades

amostrais. Ex: O conjunto das peças selecionadas. 1.6 TIPOS DE AMOSTRAGEM

Amostragem Probabilística: É o procedimento através do qual existe uma probabilidade conhecida e diferente de zero para cada elemento da população vir a ser selecionado para constituir a amostra. Também é dita amostragem aleatória.

Amostragem Não Probabilística (ou Não Aleatória): Quando, no processo de

seleção, não existe nenhum mecanismo de probabilidade associado. 1.7 PROCEDIMENTOS AMOSTRAIS PROBABILÍSTICOS SIMPLES

Segundo a definição de amostragem probabilística, existe a suposição de sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. Essa amostragem probabilística é a melhor garantia da representatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre a população e a amostra.

População Finita: É um conjunto de elementos, onde é um número natural inteiro.

Amostragem Sem Reposição: É um procedimento de amostragem tal que cada

elemento selecionado não retorna à população até que o tamanho pré-definido para a amostra tenha se completado.

Page 82: Apostila estatística

79

1.8 PRINCIPAIS PROCEDIMENTOS AMOSTRAIS 1.8.1 AMOSTRAGEM ALEATÓRIA SIMPLES

Dada uma população finita com elementos consideremos a seleção de n

elementos para constituir uma amostra, sem reposição. Pode-se demonstrar que o número total de amostras possíveis, nestas circunstâncias é:

CNn N

n

N

n N n

!

!( )! ,Definição 1.1: Um procedimento de amostragem é dito CASUAL

SIMPLES, SEM REPOSIÇÃO, se cada uma das possíveis amostras têm a mesma probabilidade de seleção.

A partir da definição acima, é possível demonstrar que, cada elemento, na população,

tem a mesma probabilidade de ser selecionada na amostra. Por isso, tal fato tem sido utilizado para caracterizar uma amostragem casual simples.

EXEMPLO 5.2: Para poder distribuir, a cada elemento na população, a mesma probabilidade de ser selecionado, sem reposição, é necessário, inicialmente, estabelecer a identificação de cada elemento através de um rótulo. Isto constitui a operação de listagem da população de estudo. Em geral, a listagem é estabelecida identificando, cada elemento na população, por um número. Por exemplo, se a população tem tamanho 350 então, os elementos são identificados pelos números: 001; 002; 003; . . . . .; 348; 349; 350. Uma vez listada a população poder-se-ia utilizar procedimentos mecânicos para selecionar a amostra, digamos, de tamanho n = 10. Poderíamos utilizar, por exemplo, uma roleta (não viciada) com números de 001 a 350 e girá-la 10 vezes anotando os números de parada da roleta (e excluindo as possíveis repetições). Os elementos populacionais rotulados com tais números seriam os componentes da amostra. Alternativamente, poderíamos colocar 350 bolas numeradas de 001 a 350, em uma urna e selecionar 10 bolas numeradas. Outros procedimentos mecânicos poderiam ser imaginados.

1.8.2 AMOSTRAGEM SISTEMÁTICA

É realizada quando os elementos da população estão ordenados e a retirada dos elementos da amostra é feita periodicamente, ou sistematicamente.

Suponhamos que se deseja selecionar uma amostra de tamanho n de uma população finita de tamanho . Suponhamos que o quociente ( / n) seja um número inteiro. Uma amostra sistemática, de intervalo , consiste em selecionar 1 a cada elementos da população de interesse. O caráter aleatório ou casual é dado pela seleção do INÍCIO CASUAL. Este é determinado selecionando-se, aleatoriamente, um número entre 1 e . Este número corresponde ao primeiro elemento selecionado para compor a amostra. Os demais são obtidos adicionando-se ao início casual. Por exemplo: . Início casual 3. Então, os elementos selecionados serão os elementos numerados pelos números 3, 8, 13, 18, ... A amostragem sistemática é extremamente simples para ser operacionada em trabalho de campo, razão pela qual, em muitas circunstâncias é utilizada em substituição da amostragem aleatória simples.

Page 83: Apostila estatística

80

EXEMPLO 5.3: De uma população de N = 500 elementos ordenados, retirar uma amostra sistemática de 100.

5100

500

k

Seja 1 k 5. Suponhamos que k = 3. Logo temos: 1º elemento da amostra: 3º 2º elemento da amostra: 3 + 5 = 8º 3º elemento da amostra: 8 + 5 = 13º . . . 100º elemento da amostra: 493 + 5 = 498º 1.8.3 AMOSTRAGEM ESTRATIFICADA

A estratificação de uma população correspondente a uma subdivisão da mesma, em

subpopulações, de tal forma que haja a maior homogeneidade possível dentro e a maior heterogeneidade possível entre tais subpopulações. Cada uma destas subpopulações constitui um estrato.

Um exemplo prático disso ocorre ao supor que um tipo de opinião pública de uma cidade pudesse depender da renda do opinante, isto é, ser influenciado pelo bairro de residência do opinante. Uma amostra casual simples, entre a grande quantidade de amostras possíveis, poderia favorecer o aparecimento de todos os opinantes de um bairro só e nenhum dos demais, produzindo um viés nos resultados. Para evitar tal fato e garantir a presença de elementos de todos os bairros ligados à área de influência em questão, podemos subdividir a população por bairro de residência e, então, selecionar uma amostra aleatória simples ou uma amostra sistemática, dentro de cada bairro. Dizemos, neste caso, que o bairro é a VARIÁVEL DE ESTRATIFICAÇÃO, ou que a POPULAÇÃO foi ESTRATIFICADA POR BAIRROS.

Sempre que em uma investigação existe uma ou mais variáveis que podem interferir nos resultados da variável sob análise é conveniente controlar o efeito de tais variáveis tomando-as como variáveis de estratificação.

1.8.4 AMOSTRAGEM POR CONGLOMERADOS

Uma amostragem por conglomerado é uma amostra aleatória simples na qual cada

unidade amostral é um grupo, ou conglomerado, de elementos. Este esquema amostral é utilizado quando há uma subdivisão da população em grupos que sejam bastante semelhantes entre si, mas com fortes discrepâncias dentro dos grupos, de modo que cada um possa ser uma pequena representação da população de interesse específico. A esses grupos dar-se o nome de CONGLOMERADOS.

O primeiro passo para se usar este processo é especificar conglomerados apropriados. Os elementos entre os conglomerados devem ter características similares. Como regra geral, o número de elementos em um conglomerado deve ser pequeno em relação ao tamanho da população, e o número de conglomerados razoavelmente grande.

Tanto no caso da amostragem estratificada, como no da amostragem por conglomerado, a população deve está dividida em grupos. Na amostragem estratificada,

Page 84: Apostila estatística

81

entretanto, seleciona-se uma amostra aleatória simples dentro de cada grupo (estrato), enquanto que na amostragem por conglomerado selecionam-se amostras aleatórias simples de grupos (conglomerados), e todos os itens dentro dos conglomerados selecionados farão parte da amostra.

Para o exemplo da amostragem nos bairros da cidade, teríamos os bairros como ESTRATOS e as CASAS como CONGLOMERADOS. Uma vez feita a escolha do Bairro, seleciona-se ao acaso as casas que farão parte da amostra. Uma vez escolhida a casa, todos os seus moradores devem fazer parte da amostra. Desta forma, existe uma homogeneidade entre as casas do mesmo bairro, devido às condições sócio-econômicas que levaram seus moradores para lá, e uma heterogeneidade entre os moradores da casa em termos de idade, sexo, renda, nível de instrução, etc.

A amostragem por conglomerado é recomendada quando: a) Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; b) O custo da obtenção de informações cresce com o aumento da distância entre os elementos.

A inferência estatística é embasada em conceitos e resultados da Teoria da

Probabilidade. Por outro lado, antes de iniciar qualquer análise dos dados através dos métodos estatísticos da estatística indutiva, é preciso organizá-los, o que é feito com as técnicas da estatística descritiva. Um outro problema que surge paralelamente é o da escolha da amostra, pois nossas conclusões, referentes à população, vão basear-se nos resultados dessa amostra. Certos cuidados devem ser tomados no processo de obtenção dessa amostra, ou seja, no processo de “amostragem”, pois muitas vezes erros grosseiros e conclusões falsas ocorrem devido à falhas nesse processo. 1.9 CÁLCULO AMOSTRAL

Para se fazer inferência faz-se necessário saber o número mínimo de elementos (unidades amostrais) que devem ser selecionados na população para dar seguimento ao estudo. Dessa forma, pode-se utilizar fórmulas desenvolvidas para o cálculo do tamanho da amostra de acordo com o tipo de estudo ou parâmetros a serem estimados. A seguir temos alguns exemplos para cálculo do tamanho de uma amostra se estimar um parâmetro.

1.9.1 CÁLCULO AMOSTRAL PARA AVALIAR UMA MÉDIA

Suponha, por exemplo, que queiramos estimar a renda média de pessoas que concluíram um curso superior, no primeiro ano após a formatura. QUANTAS rendas devemos incluir em nossa amostra? A determinação do tamanho de uma amostra é problema de grande importância, porque:

amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro; e amostras excessivamente pequenas podem levar a resultados não confiáveis.

Em muitos casos é possível determinar o tamanho mínimo de uma amostra para

estimar um parâmetro estatístico, como por exemplo, a MÉDIA POPULACIONAL ( ).

Page 85: Apostila estatística

82

A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da MÉDIA POPULACIONAL ( ) é dada por:

2

22

0 d

zn

onde:

n = número de elementos na amostra

= desvio padrão populacional da variável em estudo (no exemplo, renda)

d = margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre média amostral e a verdadeira média populaconal.

z = nível de confiança.

Os valores de confiança mais utilizados e os valores de z correspondentes podem ser

encontrados na Tabela 1:

Tabela 5.1 – Valores críticos associados ao grau de confiança na amostra

Grau de Confiança z 90% 0,10 1,65 95% 0,05 1,96 99% 0,01 2,58

EXEMPLO 5.4: Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista deseja ter 95% de confiança em que a média amostral esteja a menos de R$500,00 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para tais rendas, =R$6250,00

SOLUÇÃO: queremos determinar o tamanho n da amostra, dado que = 0,05 (95% de confiança). Desejamos que a média amostral seja a menos de R$ 500,00 da média populacional, de forma que d = 500. Supondo = 6250, aplicamos a equação, obtendo:

601500

250.696,12

22

2

22

0

d

zn

Devemos, portanto, obter uma amostra de ao menos 601 rendas de primeiro ano,

selecionadas aleatoriamente, de bacharéis de faculdades que tenham feito um curso de direito. Com tal amostra teremos 95% de confiança em que a média amostral difira em menos de R$500,00 da verdadeira média populacional .

E se não for conhecido?

Page 86: Apostila estatística

83

A equação acima exige que se substitua por algum valor o desvio-padrão populacional , mas se este for desconhecido, devemos poder utilizar um valor preliminar obtido por processos como os que se seguem:

Utilizar a aproximação 4

amplitude .

Realizar um estudo piloto, iniciando o processo de amostragem. Com base na primeira coleção de pelo menos 31 valores amostrais selecionados aleatoriamente, calcular o desvio-padrão amostral S e utilizá-lo em lugar de . Este valor pode ser refinado com a obtenção de mais dados amostrais.

1.9.2 CÁLCULO AMOSTRAL PARA DETECTAR UMA PROPORÇÃO

Enquanto a amostragem probabilística viabiliza a validade interna do estudo, a precisão na estimativa da prevalência obtida depende do tamanho de amostra. Assim, a amplitude do intervalo de confiança (estimativa por intervalo da prevalência populacional) reflete o grau de precisão decorrente do tamanho da amostra fixado. O cálculo do tamanho da amostra é dado por:

2

2

0

)1(

d

ppzn

onde:

p = prevalência esperada da variável de interesse na população

d = margem de erro ou precisão

z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)

A correção para população finita é

N

n

nn

0

0

1

E se “p” e “q” não forem conhecidos?

A equação acima exige que se substituam os valores populacionais p e q, por valores amostrais p e q . Mas se estes também forem desconhecidos, substituímos p e q por 0,5.

EXEMPLO 5.5: Para se estimar a soropositividade ao vírus da dengue em uma população de aproximadamente 1.000.000 habitantes tendo como parâmetro uma prevalência esperada de 15% (p=0,15), com amplitude do IC de 95% de 12% (d=0,06), o número de pessoas a serem investigadas seria:

SOLUÇÃO: p = 0,15, d = 0,06 e z = 1,96 (IC 95%)

Page 87: Apostila estatística

84

13606,0

)15,01(15,096,1)1(2

2

2

2

0

d

ppzn

Na maioria dos estudos, será necessário aumentar cerca de 10% o tamanho da amostra, para levar em consideração os não respondedores, isto é, indivíduos não selecionados que se recusaram a participar.

EXEMPLO 5.6: Em um estudo para determinar a sensibilidade de um novo teste diagnóstico para malária, espera-se que 80% dos pacientes com malária tenham teste positivo (resultado de um estudo piloto). Quantos indivíduos com malária deverão ser incluídos no estudo para se estimar um intervalo de 95% de confiança para a sensibilidade do teste com uma margem de erro de 0,04?

SOLUÇÃO: p = 0,8, d = 0,04 e z = 1,96 (IC 95%)

38504,0

)8,01(8,096,1)1(2

2

2

2

0

d

ppzn

Se mais de 10% da população é amostrada é necessário fazer uma correção. Esta correção consiste em multiplicar a variância por (1-f)½ onde f = n/N (1-f Correção para a população finita). A correção para a população finita também pode ser aplicado a n, assim a fórmula passa a ser:

N

n

nn

0

0

1

Se no exemplo 1, tivéssemos a informação que o número de pessoas na população onde será aplicado o teste é de 1.000 pessoas. O tamanho de amostra agora passaria a ser de:

278

000.1

3851

385

1 0

0

N

n

nn

EXEMPLO 5.7: Para encontrar o tamanho da amostra capaz de determinar a especificidade do teste utiliza-se a mesma metodologia. Por exemplo, se o investigador espera que 90% dos indivíduos sem malária tenham teste negativo, para a determinação de uma especificidade de 90% com margem de erro de 0,04 e um intervalo de confiança de 95%, temos que aproximadamente 216 indivíduos sem malária deveriam ser incluídos no estudo.

2. DISTRIBUIÇÃO AMOSTRAL Como já sabemos, o problema de Inferência Estatística é fazer uma afirmação sobre os parâmetros da população através da amostra. Digamos que nossa afirmação deva ser feita sobre um parâmetro da população (édia, variância ou qualquer outra medida). Decidimos que será usada a amostragem aleatória simples (a.a.s.), de n elementos sorteados dessa população. Também decidimos que nossa decisão será baseada na estatística T, que será uma

Page 88: Apostila estatística

85

função da amostra ( , , ... , )X X X n1 2 . Colhida uma amostra, teremos observado um particular

valor de T, digamos to, e baseado nesse valor é que faremos a afirmação sobre , o parâmetro populacional. A validade de nossa afirmação seria melhor compreendida se soubéssemos o que acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado. Isto é, qual a distribuição de T quando ( , , ... , )X X X n1 2 assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da estatística T e desempenha papel fundamental na teoria de Inferência Estatística. Esquematicamente, teríamos o procedimento representado na figura abaixo, onde temos: i. Uma população X, com um certo parâmetro de interesse. ii. Todas as amostras retiradas da população, de acordo com um certo procedimento. iii. Para cada amostra, calculamos o valor t da estatística T. iv. Os valores de t formam uma nova população, cuja distribuição recebe o nome de

distribuição amostral de T.

Figura 5.1: Distribuição amostral de um certo parâmetro populacional.

Page 89: Apostila estatística

86

2.1. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA

Vamos estudar agora a distribuição amostral da estatística X , a média amostral. Consideremos uma população identificada pela variável X, cujos parâmetros média populacional e variância populacional 2 , são supostamente conhecidos. Vamos retirar todas as possíveis amostras casuais simples de tamanho n dessa população, e para cada uma

calcular a média X . Em seguida, construamos a distribuição amostral e estudemos suas propriedades.

Seja uma população composta por 200 recém-nascidos. Para estes foram mensurados os pesos ao nascer. A distribuição dos pesos dos recém-nascidos segue segundo apresentado no gráfico abaixo.

0

10

20

30

40

50

60

70

80

90

<= 2250 2250 - 2550 2550 - 2850 2850 - 3150 3150 - 3450 3450 - 3750 >3750

Peso (kg)

N

Figura 5.2: Polígono de freqüência dos 200 recém-nascidos.

Para esta população temos que o peso médio é de 2982 ± 311 gramas. Assim vamos

retirar todas as possíveis amostras de tamanhos 5, 10, 15, 20 e 40 e ver o que acontece com a distribuição amostral da média.

n=5 3183 2666 3131 3174 2933 2667 2857 2936 2856 3392 3012 3143 2547 2902 2861 2903 3124 2889 3017 2631 2953 2312 3046 2996 2510 3103 2783 3585 3024 2394 3255 2896 2937 3079 3123 2312 2547 2547 2969 3161 3422 2558 3125 3454 2995 3014 2699 2837 3123 3351 Média 3.165 2.715 2.957 3.121 2.884 2.800 2.802 2.959 2.998 2.986 DP 189,0 318,4 242,3 211,6 230,4 317,8 213,7 381,4 97,0 448,7

Page 90: Apostila estatística

87

n=10 2589 2471 2963 3222 3189 2631 3360 3189 3222 3764 3177 3161 3617 2510 2847 2891 2207 3764 2979 2948 3140 2837 2967 3048 2861 2889 2559 2882 3319 2903 3617 3141 2798 3265 3130 3161 3433 3473 2848 2823 2847 2773 3351 2755 3143 3177 2682 3022 3806 3145 2798 3048 3422 2640 2759 2798 3108 2953 2965 2819 2594 2722 2896 3130 3433 2961 3152 3143 3121 3095 2631 2877 3585 2722 2807 3088 2649 2525 2883 3079 3122 3174 3143 2783 2370 3594 3183 2963 2961 2906 2979 3165 3046 2965 2903 3319 3124 3070 2699 3522 Média 2949 2937 3179 2904 2944 3051 2946 3098 3080 3100 DP 325,8 239,5 294,6 258,6 293,2 278,2 397,1 335,9 312,9 312,1

n=15 2948 3108 3319 2948 3419 2737 2837 2234 3041 3039 3161 3210 3174 3473 3222 2883 2666 3594 2967 2649 3145 2953 3130 2889 3255 2234 3351 3176 2821 3108 3270 3376 2967 2471 3145 2370 2767 2414 3226 2909 2495 3041 3056 2661 3376 2821 2635 3177 3058 3210 2965 2891 3567 2821 3639 2763 3394 3178 3319 3329 3143 2847 3641 3012 3174 3222 2838 3210 3567 3246 2617 3048 3360 2967 2759 3152 3255 3108 3123 2823 3394 2889 3546 3293 2776 3268 2873 2877 3346 3046 2631 2423 3806 3070 3072 2819 3012 2682 2423 3376 3346 2883 2414 3329 2661 2953 2805 3165 3433 2861 3070 2666 3041 3015 2595 3210 3070 2635 2672 3764 3121 3319 2902 2883 3024 2995 2902 2631 3183 2819 3546 2776 3103 3106 2856 2525 2394 2823 3230 3301 2903 3130 3376 3246 2856 3394 3641 3015 2979 2312 Média 3.05 2.971 3.227 3.012 3.055 2.89 2.963 2.928 3.093 3.053 DP 298,3 248,6 348,3 260,4 302,3 335,6 329,6 358,5 296,9 347,5

Page 91: Apostila estatística

88

n=20 2903 3246 3058 2279 3061 3131 3346 3276 3473 3123 2547 3088 3298 2414 2722 3210 3255 2635 3106 2995 2984 2547 2776 2965 2414 2763 3174 2810 2595 2965 2778 2783 2903 3319 2312 3058 3594 2996 2889 2948 3481 2933 2961 3070 3130 3048 3268 2873 3123 2837 3222 3152 3068 3456 3070 3233 3293 2539 2882 3065 3070 2661 3072 2837 2234 3456 2857 2961 3639 3124 2847 3061 3226 3265 3140 2672 3030 2778 3124 3070 2798 2423 2805 3230 3639 3319 3061 2891 2967 3268 3088 3451 3473 2967 2924 2902 2558 2902 3222 3050 3585 2891 3177 3124 2423 2764 3319 2661 3376 2823 3329 3022 3143 2975 3419 2857 3276 2889 2778 2672 2877 3046 3222 3012 2975 3014 2952 2882 2807 2889 2882 3546 2975 3108 3125 3124 2894 2821 2279 2819 2969 3265 2924 3293 3022 3030 2937 3293 3265 3246 3015 2856 2414 2933 2495 2755 3360 2798 2821 3178 2649 3178 2234 3123 3124 2510 3567 2763 2759 3106 2559 2778 3617 2952 2767 2783 2882 3301 2370 2589 2558 2838 3433 2623 3145 3226 2936 2819 2798 3079 3454 2773 2782 3125 3456 2635 3143 3246 2963 3177 Média 2.98 2.977 3.028 3.004 2.93 2.975 3.135 2.907 2.962 3.001 DP 308,9 286,1 333,5 292,3 392,1 252,9 258,1 219,1 342,8 183,3

Page 92: Apostila estatística

89

n=40 3178 2547 3346 2933 2857 2394 2902 2821 3014 3419 2847 2894 2937 3130 2996 2737 3806 2967 3070 2847 3268 3165 3130 2969 3106 3222 3022 3454 3050 3319 3226 2782 2965 2794 3396 3070 2810 2933 3046 2967 3270 2984 2821 2963 2279 2312 3176 2285 2821 2495 2778 3293 3068 3161 3041 2906 3594 3130 2963 3070 3385 3015 3140 2798 2810 3145 3088 3015 2759 2471 2794 2969 2667 3017 2394 2967 2423 3394 3385 2635 3617 3255 2640 2894 3178 2525 3079 2903 3103 3130 3124 3329 3046 3079 2471 3522 2234 2672 3177 2525 3301 2394 3210 2617 2722 3276 3183 3246 2783 2953 3233 2856 2975 3189 3222 3268 2995 2937 2207 3255 3046 3806 2848 2623 2582 2370 3177 2773 2937 2207 3764 2856 2953 2856 2763 3070 3061 2967 3143 3124 2595 3183 2948 3639 2495 3210 2936 2819 2995 2953 3174 3265 3106 2471 3072 2649 2967 2716 3130 3276 2924 2889 2279 2857 2767 3141 3106 2701 2672 2823 2882 2764 3351 3360 2863 3451 2819 2759 2856 2794 2995 2883 2495 3061 3145 3079 3639 3268 2961 3265 2617 3122 3293 2961 2755 2701 2699 2883 2279 3641 2807 3056 3639 2996 2666 3270 3617 2279 3639 3177 2894 2539 2672 3022 3130 3056 2682 2953 3065 2778 3017 2820 3422 2495 2847 3124 2963 2882 2882 2782 2776 2776 3072 2783 2891 3419 3014 2810 2967 3039 2969 3174 3454 2394 3070 2525 3048 3056 2617 2961 3140 2810 2207 2312 2820 2965 3141 3124 3124 3178 2221 3161 2861 2856 2877 2207 3451 3594 3176 2863 3106 3168 3022 2861 2782 3106 2783 2776 3268 3233 3103 2781 3451 3226 2594 2782 3121 2722 2819 3210 3068 2975 2764 2781 3276 2558 2807 3161 3276 3079 3022 3143 2856 2667 2889 2883 3246 3222 2883 2948 3806 2961 3456 3121 2631 3594 2394 3050 2838 3210 3061 2794 2953 2906 3265 3454 2312 3422 3641 3176 2666 2737 2778 2906 2781 3124 2539 3108 3121 2525 2965 2722 2819 2221 2821 2471 3293 3070 2936 2539 3546 2471 2595 3123 3168 2896 2755 2649 2525 3293 3070 3270 2370 3301 2924 2909 3070 2906 2471 3268 2967 2896 3617 3058 2547 2547 2805 3319 2896 2883 2234 2967 3298 2847 3293 3125 3255 2539 3764 2821 2963 2837 2889 2995 3015 2821 3585 2906 2764 2640 Média 3.035 2.958 2.985 2.906 2.880 2.946 3.015 2.955 2.976 2.969 DP 333,6 268,3 346,0 284,3 265,5 355,5 363,0 287,5 322,7 2.958

Page 93: Apostila estatística

90

Figura 5.3: Convergência da média amostral.

A diminuição da variabilidade da distribuição da média amostral não acontece por acaso, pois é fácil mostrar que:

Isso implica que a medida que o tamanho da amostra tende ao tamanho da população a

variância da média amostral tende para zero. No caso extremo quando amostramos a população inteira, não existe variação. Logo, o desvio padrão da média amostral é igual ao desvio padrão da população dividido pela raiz quadrada do tamanho da população, chamado de erro padrão:

Quando a população segue uma distribuição normal, então, a média amostral segue

exatamente uma distribuição normal com a mesma média e com a variância dividida pelo tamanho da amostra.

Logo, podemos calcular probabilidades e valores muitos úteis para construção dos

intervalos de confiança e teste de hipóteses. Mas, o que acontece se a população segue uma distribuição uniforme, exponencial, binomial, Poisson, ou simplesmente desconhecida?

n=1 n=5 n=10

n=40 n=20n=15

Erro padraonx

_

x n

N n

N

1

Para populações finitas ou amostragem sem reposição

X Xi=1

n

i n/ V(X)n

2

E(X)=

X

nN

~ ( , )0 1 Se X ~ N (2) X ~ N (2/n)

Page 94: Apostila estatística

91

Se X ~ ? (2) X ~ N (2/n) ? 2.2. O TEOREMA CENTRAL DO LIMITE

Neste caso, apelamos para o Teorema Central do Limite, que garante que a distribuição da média amostral tende para uma distribuição normal, a medida que o tamanho da amostra tende para infinito, ou no jargão estatístico, quando o tamanho da amostra for suficientemente grande (n 30): Se X ~ ? (2) então lim X ~ N (2/n)

A convergência para normalidade será mais rápida se a distribuição dos dados for simétrica, já quando a distribuição for muito assimétrica ou bimodal, a convergência será mais lenta.

Em outras palavras temos que:

1. Se a população de onde se retira uma amostra possui distribuição normal, a

distribuição das médias amostrais será também normal para qualquer que seja o tamanho da amostra.

2. Se a população de onde se retira uma amostra possui distribuição não-normal, a

distribuição das médias amostrais será praticamente normal para grandes amostras. Entendam-se por grandes amostras, aquelas com mais de 30 elementos.

Este teorema é de fundamental importância, uma vez que independentemente da

distribuição de probabilidade contínua que a variável aleatória estudada assume, normal ou não, para amostras grandes, a distribuição das médias amostrais tem distribuição normal. Isto é de grande valor para muitos casos em estatística.

n

)1,0(~ Nn

X

Page 95: Apostila estatística

92

Figura 5.4: Histogramas correspondentes à distribuição amostral de algumas populações.

Page 96: Apostila estatística

93

EXERCÍCIOS 1. Uma repórter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira proporção

de todos os universitários que têm computador pessoal, e quer ter 95% de confiança de que seus resultados tenham uma margem de erro de 0,04. Quantos universitários devem ser pesquisados?

a) Suponha que tenhamos uma estimativa da proporção, obtida em estudo anterior, revela

uma percentagem de 27% (com base em dados de America Passage Media Corporation).

b) Suponha que não temos qualquer informação anterior que sugira um possível valor da proporção.

2. Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagem das que

estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de 97% de confiança em que sua percentagem amostral tenha uma margem de erro de dois pontos percentuais. Admita também que nada se sabe sobre a percentagem de residências sintonizadas para qualquer show de TV após 11 horas da noite.

3. A Nielsen Media Research deseja estimar o tempo médio (em horas) que os estudantes

universitários de tempo integral passam vendo televisão em cada dia da semana. Determine o tamanho da amostra necessário para estimar essa média com uma margem de erro de 0,25 h (ou 15 minutos). Suponha que se exija um grau de 96% de confiança. Suponha também que um estudo piloto tenha indicado que o desvio-padrão populacional é de 1,87 horas.

4. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos

empregados de uma grande empresa. A gerência da empresa deseja ter 95% de confiança de que a média da amostra está no máximo com uma margem de erro de ±$50 da média real das despesas médicas familiares. Um estudo-piloto indica que o desvio-padrão pode ser calculado como sendo igual a $400.

a) Qual o tamanho de amostra necessário? b) Se a gerência deseja estar certa em uma margem de erro de ±$25, que tamanho de

amostra será necessário? 5. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para

adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio dos instrutores de estatística. Queremos ter 99% de confiança em que nossa média amostral esteja a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é obviamente superior a 100, e o desvio-padrão é provavelmente inferior a 15, porque se trata de um grupo com menor variação do que um grupo selecionado aleatoriamente da população geral; portanto, se tomamos = 15, estaremos sendo conservadores, por utilizarmos um valor que dará um tamanho de amostra no mínimo tão grande quanto necessário. Suponha = 15 e determine o tamanho da amostra necessário.

Page 97: Apostila estatística

94

Capítulo 6

ESTIMAÇÃO 1. INTRODUÇÃO

O problema de estimação é informalmente definido por: Assuma que alguma característica dos elementos da população possa ser representada por uma variável aleatória X, a qual tem densidade f xX ( ; ) , onde a forma da densidade é conhecida, mas o parâmetro é

desconhecido (se fosse conhecido, a função de probabilidade seria completamente especificada, e não haveria necessidade de fazer inferência). Assuma que os valores x x xn1 2, , ... , de uma amostra aleatória X X X n1 2, , ... , de f xX ( ; ) possa ser observada. Em base dos valores amostrais observados x x xn1 2, , ... , é desejável estimar o valor do parâmetro

desconhecido ou o valor de alguma função do parâmetro desconhecido. Esta estimação pode ser feita de duas maneiras. A primeira, chamada de estimação pontual, é o valor que alguma estatística, digamos T X X X n( , , )1 2 ... , , assume ou estima, o

desconhecido . Tal estatística é chamada de estimador pontual. A segunda, chamada de estimação por intervalo, é definida por duas estatísticas, digamos T X X X n1 1 2( , , ) ... , e T X X X n2 1 2( , , ) ... , , onde T X X X T X X Xn n1 1 2 2 1 2( , , . . . , ) ( , , . . . , ) , tal que

T X X X T X X Xn n1 1 2 2 1 2( , , . . . , ), ( , , . . . , ) constitua um intervalo com probabilidade conhecida

de conter o desconhecido . 2. ESTIMAÇÃO PONTUAL Lembrando o que já foi dito na primeira unidade, chama-se estimador, à quantidade calculada em função da amostra, que sendo uma função amostral, é considerada uma estatística, e como tal é uma variável aleatória, caracterizada por uma distribuição de probabilidade e seus respectivos parâmetros próprios. Estimativa é um particular valor númerico assumido por um estimador. Notação: é o parâmetro de interesse. T é um estimador de To é uma estimativa de Quando falamos em um estimador queremos frisar que podem existir vários estimadores para o mesmo parâmetro, determinado por algum método estatístico. Sendo, portanto, a escolha do melhor, feita através de critérios que satisfazem propriedades de um bom estimador. A seguir descrevemos algumas das principais propriedades. 2.1. PROPRIEDADES DOS ESTIMADORES No exemplo abaixo, procuraremos mostrar como as propriedades de um estimador podem ajudar-nos a analisá-lo. EXEMPLO 6.1.: Desejamos comprar um rifle e, após algumas seleções, restou-nos 4 alternativas que chamaremos de rifles A, B, C e D. Foi-nos permitido fazer um teste com cada

Page 98: Apostila estatística

95

rifle. Este teste consistiu em fixar o rifle num cavalete, mirar o centro do alvo e disparar 15 tiros. Repetiu-se o procedimento para cada rifle e os resultados estão ilustrados na figura abaixo.

Figura 6.1: Resultados de 15 tiros dados por 4 rifles.

Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o critério de “em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de “não ser muito dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C é aquela que reúne as duas propriedades e, segundo esses critérios, essa seria a melhor arma. Mas, se outro critério fosse introduzido (por exemplo, preço), talvez essa não fosse a arma mais interessante. Às vezes, a solução deve ser um compromisso entre todas as propriedades. Esse exemplo nos permite introduzir alguns conceitos informalmente. Diremos que um estimador é não tendencioso se “em média acerta o alvo”. Chamaremos de precisão à proximidade de cada observação de sua própria média. Acurácia mede a proximidade de cada observação ao valor alvo que se procura atingir. Desse modo, podemos descrever cada arma do seguinte modo: Arma A: Não tendenciosa, baixa precisão e pouco acurada. Arma B: Tendenciosa, baixa precisão e pouco acurada. Arma C: Não tendenciosa, boa precisão e muito acurada. Arma D: Tendenciosa, alta precisão e pouco acurada. Do exposto acima, notamos a importância de se definir propriedades desejáveis para estimadores. O primeiro critério que iremos abordar é o de não tendenciosidade.

Page 99: Apostila estatística

96

a) Não-Tendenciosidade (Sem Vício): Diz-se que um estimador T é não viciado (ou ainda não tendencioso) de , quando seu valor esperado é o próprio parâmetro populacional que ele pretende estimar .

b) Consistência: Diz-se que uma sequência de estimadores Tn é consistente se, além de

ser não viciado, sua variância tende a zero, quando o tamanho da amostra (n) é suficientemente grande. Isto significa que, sendo T um estimador consistente, pode-se aumentar significativamente o tamanho da amostra, de modo a tornar o erro de estimação tão próximo a zero quanto se deseje.

c) Eficiência: Sejam T1 e T2 dois estimadores não viciados de , e ainda a Var T Var T( ) ( ),1 2 então, T1 é dito mais eficiente que T2.

Por exemplo, pode-se mostrar que a média e a mediana são estimadores não tendenciosos para a média de uma população Normal, mas X é mais eficiente, pois a sua variância é menor. 2.2. ESTIMADORES PONTUAIS Para se proceder à estimação pontual, deve-se escolher o melhor estimador possível, colher a amostra e, em função de seus elementos, verificar a estimativa obtida, a qual corresponderá a um ponto sobre o eixo de variação da variável. MÉDIA: O melhor estimador da média populacional, , é a média amostral, X . É fácil provar que este estimador satisfaz as propriedades de um bom estimador. Pela distribuição amostral da média observa-se facilmente que este é um estimador não-tendencioso e consistente. Além disso, podemos provar que também é eficiente. VARIÂNCIA: Quando a média é desconhecida, que é a situação mais comum na prática,

deve-se substituir o valor de por X , a média amostral, e estimar a variância amostral. Embora para grandes amostras seja indiferente o uso de n ou n-1. Estes estimadores também satisfazem algumas propriedades de um bom estimador: É não tendencioso, consistente e eficiente para 2 . Observe a distribuição amostral da variância para se convencer que este é um estimador não-tendencioso e consistente. PROPORÇÃO: O estimador da proporção populacional, p é dado pela proporção amostral. Observando-se a distribuição amostral da proporção, verifica-se que é um estimador não-tendencioso e consistente. 3. ESTIMAÇÃO POR INTERVALO Assuma que uma amostra aleatória X X X n1 2, , ... , , que tem densidade f xX ( ; ) possa ser observada. Com base nos valores amostrais observados, estimamos o valor do parâmetro desconhecido , ou o valor de alguma função do parâmetro desconhecido. Entretanto, por melhores que sejam as qualidades do estimador utilizado, não devemos esperar que essa estimativa coincida com o verdadeiro valor do parâmetro. Na verdade, a probabilidade de que isto aconteça é extremamente pequena, sendo igual a zero, quando T for uma variável aleatória

Page 100: Apostila estatística

97

contínua. Então, é desejável que a estimativa pontual seja acompanhada por alguma medida do erro possível da estimativa. É nesse sentido que a estimação por intervalo complementa a estimação pontual. Na verdade, procuramos um intervalo em torno da estimativa, onde este intervalo é produzido pelo estimador pontual acompanhado de uma medida de confiabilidade de que o verdadeiro valor do parâmetro pertença ao intervalo encontrado. Então, a amplitude desse intervalo é uma medida natural da precisão da estimativa. Esses intervalos são chamados Intervalo de Confiança, e a probabilidade de que esse intervalo contenha o verdadeiro valor do parâmetro, denomina-se Nível de Confiança ou Grau de Confiança, sendo representado por (1- ). Logo, será a probabilidade de erro ao se afirmar que o intervalo contém o verdadeiro valor do parâmetro.

Por exemplo, se retomarmos a população composta por 200 recém-nascidos para os quais foram mensurados os pesos ao nascer, podemos verificar que as estimações intervalares de modo geral “sempre” contém o parâmetro verdadeiro. Assim, considerando que a média populacional é de 2982g e o desvio padrão populacional é de 311g temos:

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

1 2 3 4 5 6 7 8 9 10

Amostra (n=1)

Pe

so (

em

gra

ma

s)

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

3500

1 2 3 4 5 6 7 8 9 10

Amostra (n=5)

Pe

so (

em

gra

ma

s)

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

3500

1 2 3 4 5 6 7 8 9 10

Amostra (n=10)

Pe

so (

em

gra

ma

s)

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

3500

1 2 3 4 5 6 7 8 9 10

Amostra (n=15)

Pe

so (

em

gra

ma

s)

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

1 2 3 4 5 6 7 8 9 10

Amostra (n=20)

Pe

so (

em

gra

ma

s)

2400

2500

2600

2700

2800

2900

3000

3100

3200

1 2 3 4 5 6 7 8 9 10

Amostra (n=40)

Pe

so (

em

gra

ma

s)

Figura 6.2: Intervalos de confiança para as amostras de tamanhos 1, 5, 10, 15, 20 e 40. 3.1. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO

Page 101: Apostila estatística

98

Duas situações são consideradas quando desejamos estabelecer um Intervalo de Confiança para , a média da população: Quando a variância populacional é ou não

conhecida. Vamos considerar também que a distribuição de X é Normal, sendo esta suposição feita ou a partir da distribuição dos elementos da população ou através de grandes amostras, isto é, estamos considerando que a população que origina X é Normal ou que, o tamanho da amostra, n > 30.

3.1.1 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL COM VARIÂNCIA POPULACIONAL 2 CONHECIDA.

Ao nível de 95% de confiançao intervalo é dado por:

I.C.( ) =

nX

96,1 ;

nX

96,1

EXEMPLO 6.2: Num certo grupo de pacientes, o nível de colesterol é uma variável aleatória com distribuição normal, de média desconhecida e variância 2 = 64(mg/ml)2. a) Para uma amostra de 46 indivíduos, a qual teve nível médio de colesterol de 120 mg/ml,

construa o intervalo de confiança de 95%. b) Se você desejasse diminuir a amplitude do intervalo encontrado em (a) quais seriam suas

alternativas. SOLUÇÃO: n = 46, 120X , = 8

a) 31,122;69,11746

8*96,1120;

46

8*96,1120)(

IC

Isto significa dizer que, com probabilidade 0,95 o verdadeiro valor da taxa média de colesterol pertence ao intervalo (117,7mg/ml;122,3mg/ml). b) Aumentar o tamanho da amostra, diminuir o nível de confiança ou aumentar o nível de significância. 3.1.2 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL COM

VARIÂNCIA POPULACIONAL 2 DESCONHECIDA.

Para um nível de significância qualquer o intervalo é dado por: .

I.C.( ) =

n

StX ;

n

StX e P(t(n-1) < t)

2

Page 102: Apostila estatística

99

EXEMPLO 6.3: Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72,9 batidas por minuto (bpm) e um desvio padrão de 11,0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a pulsação média em repouso de pessoas sadias com base nesses dados. SOLUÇÃO: n = 920, 11 e 9,72 SX , com 1- = 0,95

96,1 0,0252 05,0 )025,0;920( t

)6,73;2,72(920

11*96,19,72;

920

11*96,19,72)(

IC

Logo, com 95% de confiança o número de batidas médias por minuto deste grupo de pessoas está entre 72 e 74. 3.2. INTERVALO DE CONFIANÇA PARA A PROPORÇÃO DA POPULAÇÃO O intervalo de confiança para uma proporção p, ao nível de 95% de confiança, é dado por:

I.C.(p) =

n

ppp

n

ppp

ˆ1(ˆ96,1ˆ;

ˆ1(ˆ96,1ˆ (otimista)

ou

I.C.(p) =

np

np

4

196,1ˆ;

4

196,1ˆ (conservador).

EXEMPLO 6.4: Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 350 como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.

SOLUÇÃO: n = 1000, ,p 350

10000 35 e 1- = 0,95

IC p( ) , , *, ( , )

; , , *, ( , )

( , ; , )

0 35 1 96

0 35 1 0 35

10000 35 1 96

0 35 1 0 35

10000 32 0 38

Então, a proporção de eleitores do candidato está entre 32% e 38% com 95% de confiança. EXEMPLO 6.5: Num experimento científico, doentes contaminados com cercaria, que é uma das formas do verme da esquistossomose, recebem um certo medicamento e observa-se a proporção p de cura. Em 200 pacientes verifica-se que 160 são curados. Determine com 95% de confiança a verdadeira proporção de cura do medicamento.

SOLUÇÃO: n = 200, 8,0200

160ˆ p e 1- = 0,95

Page 103: Apostila estatística

100

)855,0;745,0(200

)8,01(8,0*96,18,0;

200

)8,01(8,0*96,18,0)(

pIC

Então, a proporção de cura do medicamento está entre 75% e 86% com 95% de confiança. 3.3. INTERVALO DE CONFIANÇA PARA DUAS MÉDIAS 3.3.1. AMOSTRAS INDEPENDENTES

O intervalo de confiança associado a um determinado grau de confiança (1-α)%, para a diferença entre duas médias populacionais A e B, é dado por:

B

B

A

ABABA n

S

n

StXXIC

22

)( e P( 2nn BAt <t)=

2

EXEMPLO 6.6: Imagine que se deseja determinar se as taxas médias de creatinina dos grupos A=pacientes com insuficiência renal aguda (IRA) e B=pacientes sem IRA, são iguais. Sejam as médias, variâncias e o número de indivíduos em cada grupo:

Grupo N Média Variância A=IRA 7 2,47 1,13 B=não-IRA 5 0,76 0,13

Determine um intervalo com 95% de confiança.

SOLUÇÃO: Isto equivale, de certa forma, a verificar se existe associação entre IRA e as

taxas de creatinina. O valor da estatística 2nn BAt para 95% de confiança e 10

(7+5-2) graus de liberdade é 2,23. Assim o intervalo de confiança é dado por:

67,2;75,043,023,271,15

13,0

7

13,123,2)76,047,2()(IC BA

Observe que o limite inferior do intervalo de confiança das diferenças, para este nível de confiança é 0,75>0. Desta forma, poder-se-ia dizer que a este nível de confiança não é possível admitir que a média das taxas de creatinina do grupo IRA seja igual a do grupo sem IRA. 3.3.2. AMOSTRAS PAREADAS

Amostras pareadas ou pares de amostras são dados referentes a um mesmo conjunto de indivíduos (elementos), tomados em duas situações diferentes. Genericamente, estas duas situações são denominadas antes e depois. De modo geral, deseja-se verificar se estas duas situações podem ser consideradas iguais ou não. Por exemplo, se ao mesmo grupo de pacientes foi administrado um antitérmico, as situações antes e depois seriam caracterizadas pelos conjuntos de temperaturas corporais verificadas antes e depois da administração do antitérmico. O objetivo, naturalmente, é o de comprar ambos os conjuntos de dados para determinar se são diferentes, o que equivaleria a verificar se o antitérmico está tendo alguma

Page 104: Apostila estatística

101

influência (e quanto) na temperatura corporal. Esta situação pode ser generalizada do seguinte modo:

Antes Depois di

1,Ax 1,Bx 1,Ax - 1,Bx

2,Ax 2,Bx

2,Ax - 2,Bx

n,Ax n,Bx

n,Ax - n,Bx

Ax Bx d

onde

i,Ax representa um valor genérico da variável X na situação “antes”, enquanto i,Bx se

refere à situação “depois”. O intervalo de confiança, associado a um determinado grau de confiança (1-α), resulta neste caso:

n

Std

n

Std dd ;= )- I.C.( BA ,

com n

dd

i

n

i

id n

ddS

1

2

2

1 e P(t(n-1) < t)

2

É interessante notar que, empregando-se os mesmo dados, o intervalo para amostras

pareadas possui amplitude menor que o intervalo para amostras independentes. Tal situação decorre do fato de que, ao se empregarem amostras aos pares, eliminam-se eventuais fontes de variação dos dados, já que os resultados do experimento provêm dos mesmos indivíduos. Em pesquisa médica, quando é possível montar experiências aos pares, suas conclusões são preferidas às de outro tipos de desenho experimental. EXEMPLO 6.7: A Amiodarona é um antirrítmico empregado para o tratamento dos distúrbios do ritmo de origem ventricular em pacientes com Insuficiência Cardíaca. Apesar de seus vários efeitos colaterais, é considerado como o melhor antirrítmico, além de ser uma substância que age sobre a musculatura lisa dos vasos de resistência, provocando vasodilatação e diminuição da pressão arterial, bem como a diminuição do ritmo cardíaco. A insuficiência cardíaca é uma das principais causas de mortalidade, atingindo 70% ao cabo de dois anos. A taquiarritmia ventricular mata de forma súbita um terço desses pacientes, o que explica a importância do pronto diagnóstico e tratamento adequado.Uma experiência hipotética, baseada em um estudo publicado nos Anais da Academia nacional de Medicina, tem por objetivo avaliar os efeitos da Amiodarona sobre uma das manifestações clínicas da Insuficiência Cardíaca de pacientes portadores de prótese valvar normofuncional: a freqüência cardíaca. Abaixo estão os resultados de 6 pacientes de ambos os sexos e variadas faixas etárias.

Antes Depois 128 83 106 72 113 80 135 86 92 68 140 85

Page 105: Apostila estatística

102

Com base nesses dados, elabore uma estimativa comentada para a alteração do ritmo cardíaco provocada pela Amiodarona, com um grau de confiança de 95%. SOLUÇÃO: Construa inicialmente o vetor de diferenças

Antes Depois di 128 83 45 106 72 34 113 80 33 135 86 49 92 68 24 140 85 55

Depois calcule a sua média e desvio padrão: 40id

59,11

11

2

n

i

id n

ddS

E por fim substitua na fórmula:

6

59,1140;

6

59,1140 ttIC BA

73,457,240;73,457,240

16,52;84,27

Page 106: Apostila estatística

103

EXERCÍCIOS 1. A cadeia de hotéis American Resort dá um teste de aptidão aos candidatos a emprego, e

considera fácil uma questão do tipo múltipla escolha se ao menos 80% das respostas são corretas. Uma amostra aleatória de 6503 respostas a determinada questão apresenta 84% de respostas corretas. Construa o intervalo de confiança de 99% para a verdadeira percentagem de respostas corretas. É admissível que a questão seja realmente fácil?

2. Os valores relacionados são tempos de espera (em minutos) de clientes no Jefferson Valley

Bank, onde os clientes entram em uma fila única que é atendida por três guichês. Construa um intervalo de 95% de confiança para o tempo médio de espera.

6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7

3. Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 450 como favoráveis a

certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.

4. Uma pessoa jogou uma moeda 100 vezes e dessas apareceram 64 caras. A moeda é honesta?

(Use o nível de confiança de 95%) 5. Em uma experiência sobre percepção extra-sensorial (P.E.S.) um indivíduo, em uma sala, é

solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de um baralho. Se o sujeito identifica corretamente 32 cartas, há alguma evidência de que este possua percepção extra-sensorial? (Use o nível de confiança de 95%)

6. Em testes de colisão feitos em 15 minivans Honda Odyssey, os custos de conserto

apresentam uma distribuição aproximadamente em forma de sino, com média de $1786 e desvio-padrão de $937 (com base em dados do Highway Loss Data Institute). Construa um intervalo de confiança de 99% para o custo médio de conserto para as colisões de todos os veículos desse tipo.

7. Em um estudo sobre aplicação do tempo, constatou-se que 20 administradores,

selecionados aleatoriamente gastam uma média de 2,40 horas por dia com trabalho burocrático. O desvio padrão amostral foi de 1,30 horas. Os dados aparentam ter uma distribuição normal. Construa o intervalo de confiança de 95% para o tempo médio gasto em trabalho burocrático por todos os administradores.

8. Construa um intervalo de 98% de confiança para a renda média de todos os empregados de

tempo integral que têm grau de bacharel. Uma amostra de 25 desses empregados revelou que a distribuição das rendas é aproximadamente normal, com média de $39.271 e desvio-padrão de $18.933 (com base em dados do Ministério do Trabalho dos EUA).

9. O tempo de reação de um novo medicamento, por analogia a produtos similares, pode ser

considerado como tendo distribuição normal com média desconhecida () e desvio padrão , também desconhecido. Vinte pacientes foram sorteados, receberam o medicamento e tiveram o seu tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9 –

Page 107: Apostila estatística

104

3,4 – 3,5 – 4,1 – 4,6 – 4,7 – 4,5 – 3,8 – 5,3 – 4,9 – 4,8 – 5,7 – 5,8 – 5,0 – 3,4 – 5,9 – 6,3 – 4,6 – 5,5 e 6,2. Obtenha um intervalo com 95% de confiança que contenha o verdadeiro tempo médio de reação dessa população.

10. Repita a questão anterior ao nível de confiança de 95% e utilizando o desvio padrão

populacional, o qual é de 0,8 minutos. 11. Um experimento com 6 pacientes que apresentaram o diagnóstico de rubéola e em estado

febril proporcionou as temperaturas corpóreas sublinguais apresentadas abaixo:

Paciente 1 2 3 4 5 6 Temperatura (ºC) 38,6 37,5 38,0 37,3 38,6 39,0

Encontre o intervalo de confiança paras as temperaturas corpóreas de todos os pacientes com diagnóstico de rubéola e em estado febril. (Use o nível de confiança de 95%)

12. São apresentados no quadro abaixo os valores de Amilase encontrados em esxames

químicos de urina de um grupo de 10 pacientes com insuficiência renal, em (u/ml):

Paciente 1 2 3 4 5 6 7 8 9 10 Amilase (u/ml) 6 12 8 4 5 9 3 4 5 4

Calcule o intervalo com 95% de confiança para a taxa média populacional de Amilase.

13. Em uma pesquisa sobre Doenças Sexuais Transmissíveis (DST), foi perguntado aos

entrevistados do sexo masculino se sentiam alguma dificuldade no uso de preservativos. Na amostra de 150 indivíduos do sexo masculino, escolhidos aleatoriamente na população, 68 responderam afirmativamente a essa questão. Determine o intervalo de 95% de confiança para a proporção de indivíduos com dificuldades no uso de preservativos.

14. A prescrição de anticoncepcionais orais deve ser efetuada após uma avaliação completa da

paciente, uma vez que seu uso pode alterar diversas funções normais do organismo. Suponha que uma experiência, com dois grupos de mulheres, apresentou os seguintes dados relativos à pressão arterial sistólica (PAS):

Grupo N Média

(PAS, mmHg)Desvio

(PAS, mmHg) Tratamento 19 120,4 8,31 Controle 25 115,6 16,22

Com base nos dados experimentais apresentados: a) Construa o intervalo de confiança de 95% para as diferenças das médias da PAS dos

grupos Tratamento e Controle. b) A experiência para testar o Anticoncepcional Oral poderia ter sido formulada de

maneira diferente? (Justifique).

Page 108: Apostila estatística

105

15. Para se avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram

escolhidos e sua pulsação foram mensuradas antes e após o exame. Segundo os valores estão apresentados abaixo:

Estudante

Instante da Medição 1 2 3 4 5 6 7 8 9 10 11 12

Antes 87 78 85 93 76 80 82 77 91 74 76 79 Depois 83 84 79 88 75 81 74 71 78 73 76 71

Verifique ao nível de 95% de confiança se existe maior tensão (isto é, maior pulsação) antes da realização dos exames.

Page 109: Apostila estatística

106

Capítulo 7

TESTES PARAMÉTRICOS 1. INTRODUÇÃO Estudaremos uma forma de tratar o problema de fazer uma afirmação sobre o parâmetro desconhecido associado a uma variável aleatória X, baseado em uma amostra aleatória simples, extraída da população. Em vez de procurarmos uma estimativa pontual do parâmetro ou um intervalo de confiança deste parâmetro, freqüentemente nos parecerá conveniente admitir um valor hipotético para o parâmetro , e depois utilizar a informação da amostra para confirmar ou rejeitar esse valor hipotético. Antes de falarmos de testes de hipóteses, precisamos introduzir algumas notações e darmos algumas definições. 2. CONCEITOS FUNDAMENTAIS Define-se por H0 a hipótese existente, chamada hipótese nula, a ser testada e por H1 a hipótese alternativa. O teste irá levar a aceitação ou rejeição de H0 , o que corresponde à rejeição ou aceitação de H1 , respectivamente. Entretanto, para manter a uniformidade enuncia-se o resultado final sempre em termos da hipótese H0 , ou seja aceitar ou rejeitar H0 . Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. Para facilitar a linguagem, necessitamos das seguintes definições: Erro tipo I: rejeitar a hipótese nula, quando esta é verdadeira. Chamamos de a

probabilidade de cometer esse erro, isto é, = P(erro tipo I) = P(rejeitar H0 / H0 é verdadeira) Erro tipo II: não rejeitar H0 quando H0 é falsa. A probabilidade de cometer esse erro é

indicada por , logo, = P(erro tipo II) = P(não rejeitar H0 / H0 é falsa) Nossas decisões em um teste de hipótese podem ser resumidas na seguinte tabela:

Tabela 1 - Acertos e Erros nas decisões tomadas em um teste de hipótese

Realidade H0 é Verdade H0 é Falsa (=H1) Aceita H0 Decisão Correta (1-) Erro tipo II () Decisão Rejeita H0 Erro tipo I () Decisão Correta (1-)

A probabilidade de cometer um erro de primeira espécie é um valor arbitrário e recebe o nome de Nível de Significância do teste. O resultado da amostra é cada vez mais

População Amostra

Page 110: Apostila estatística

107

significante para rejeitar H0 quanto menor for esse nível. Usualmente, esses valores são fixados em 10%, 5% ou 1%. A probabilidade é uma função que depende dos valores do parâmetro sob H1 e 1- é denominado de Potência do Teste, ou seja é a capacidade de rejeitar H0 quando H0 é falsa, é uma medida de qualidade do teste. Um teste de hipótese que fornece uma regra de decisão com uma função potência maior que outro é dito mais poderoso. Note que na prática não conhecemos a realidade. Jamais saberemos se a decisão tomada foi certa ou errada. O certo é que podemos cometer dois tipos de erro: o erro tipo I quando nossa decisão é rejeitar H0 sendo H0 verdadeira e o erro tipo II quando nossa decisão for aceitar H0 sendo H0 falsa. Pensamos então que um teste de hipótese ideal é aquele em que a regra de decisão que ele oferece torna mínimo os erros tipo I e II. Isto não é possível, pois ao tentar minimizar o erro tipo I estamos aumentando o erro tipo II e vice-versa. No entanto, quando fixamos o erro tipo I, conseguiremos diminuir o erro tipo II aumentando o tamanho da amostra o máximo possível, dentro das limitações, de tempo e custo, permitidas. Sendo um teste de hipótese uma regra de decisão, e esta é Aceitar ou Rejeitar H0 , o conjunto de valores que levam a rejeitar H0 é chamado de Conjunto Crítico ou Região Crítica, denotado por RC. O complemento de RC é chamado de Conjunto de Aceitação ou Região de Aceitação. 3. PASSOS PARA CONSTRUÇÃO DE UM TESTE DE HIPÓTESES Vimos, na seção anterior, o procedimento que se deve usar para realizar um teste de hipótese, discutindo as notações técnicas. Daremos abaixo uma seqüência que pode ser usada sistematicamente para qualquer teste de hipóteses. Primeiro Passo: Formule as hipóteses nula e alternativa. No nosso caso: A alternativa mais geral seria:

01

00

:

:

H

H (a)

Poderíamos ainda ter alternativas da forma:

01

00

:

:

H

H (b)

ou

01

00

:

:

H

H (c)

dependendo das informações que o problema traz. Segundo Passo: Especifique o nível de significância . Em geral, 0,01; 0,05 ou 0,10. Terceiro Passo: Use a teoria estatística e as informações disponíveis para decidir qual

estatística será usada para julgar H0 . Não se esqueça de identificar a distribuição amostral adequada.

Page 111: Apostila estatística

108

Quarto Passo: Determine a região crítica do teste, RC. Quinto Passo: Use as informações fornecidas pela amostra para encontrar o valor da

estatística do teste do terceiro passo. Sexto Passo: Se o valor da estatística observada da amostra não pertencer à região crítica,

aceite H0 ; caso contrário, rejeite. Sétimo Passo: Concluir a respeito do problema em estudo. 4. TESTES DE SIGNIFICÂNCIA PARA UMA AMOSTRA 4.1 TESTES PARA UMA MÉDIA Vejamos agora uma aplicação dos sete passos, definidos na seção anterior, para testar a hipótese de que a média de uma população é igual a um número fixado 0 . Vamos dividir este estudo em duas partes: a) 2 conhecida ou n > 30: 1. Hipóteses:

01

00

:

:

H

H (a)

01

00

:

:

H

H (b)

01

00

:

:

H

H (c)

2. Fixar . 3. Estatística do teste X tem distribuição Normal. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

a)

01

00

:

:

H

H

b)

01

00

:

:

H

H

-z

z

-z z

Page 112: Apostila estatística

109

c)

01

00

:

:

H

H

5. Calcular a Estatística Zx

nc

0

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se Z RCc , rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão EXEMPLO 7.1: Para estudar o efeito de uma certa substância em seres vivos, um experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a um estímulo elétrico e têm seus tempos de reação (em segundos) anotados. Obtivemos os valores: 9,1 9,3 7,2 7,5 13,3 10,9 7,2 9,9 8,0 10,4. Admite-se que o tempo de reação segue o modelo Normal com média 8 e desvio padrão de 2 segundos. O pesquisador desconfia que o tempo médio sofre alteração influência da substância. Teste ao nível de significância de 0,01. SOLUÇÃO: n = 10 28,9x segundos, = 2,0 e 0 = 8,0 1. 0,8:0 H

0,8:1 H 2. 0 01 2 0 005, ,

3. Estatística do teste X tem distribuição Normal. 4. Da tabela da distribuição Normal, obtemos que: -z = -2,58 e z = 2,58.

5. Calcular a estatística: 02,2

10

20,828,9

cZ

6. Como RCZ c )02,2( , a nossa decisão será não rejeitar H0 .

7. Ao nível de significância de 1%, não podemos afirmar que o tempo de reação foi alterado por influência da substância.

-2,58 +2,58

Page 113: Apostila estatística

110

b) 2 desconhecida e n < 30: 1. Hipóteses:

01

00

:

:

H

H (a)

01

00

:

:

H

H (b)

01

00

:

:

H

H (c)

2. Fixar . 3. Estatística do teste X tem t-Student com n-1 graus de liberdade. 4. A Região Crítica irá depender da hipótese alternativa. Então,

a)

01

00

:

:

H

H

b)

01

00

:

:

H

H

c)

01

00

:

:

H

H

5. Calcular a Estatística txS

nc

0

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se t RCc , rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão

-t

t

-t t

Page 114: Apostila estatística

111

EXEMPLO 7.2: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma amostra de 25 cigarros forneceu média de 31,5mg e desvio padrão de 3mg. Ao nível de 5%, os dados refutam ou não a afirmação do fabricante? SOLUÇÃO: n = 25, x mg S mg 315 3, e , = 0,05 1. 30:0 H

H1 30: 2. 0 05,

3. Estatística do teste X tem distribuição t-Student com 24 graus de liberdade 4. Da tabela da distribuição t-Student, obtemos que t(24;0,05) = 1,71.

Logo, RC = { t tc c / , }1 71

5. tc

315 30

3 252 5

,,

6. Como ( , )t RCc 2 5 , a nossa decisão será de rejeitar H0 .

7. Ao nível de significância de 5%, há evidência de que os cigarros contenham mais que 30mg

de nicotina. 4.2. TESTES PARA UMA PROPORÇÃO Vamos usar os passos descritos na seção 3 para mostrar a construção do teste para proporções. Temos uma população, e temos uma hipótese sobre a proporção p de indivíduos portadores de uma certa característica. Essa hipótese afirma que essa proporção é igual a um certo número p0. Então, o problema deve fornecer informações sobre a forma da alternativa. Que terá uma das três formas abaixo: 1. Hipóteses:

01

00

:

:

ppH

ppH (a)

01

00

:

:

ppH

ppH (b)

01

00

:

:

ppH

ppH (c)

2. Fixar . 3. Estatística do Teste p tem distribuição Normal. 4. A Região Crítica irá depender da hipótese alternativa. Então,

1,71

Page 115: Apostila estatística

112

a)

01

00

:

:

ppH

ppH

b)

01

00

:

:

ppH

ppH

c)

01

00

:

:

ppH

ppH

5. Calcular a Estatística

n

pp

ppZc

)1(

ˆ

00

0

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se Z RCc , rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão EXEMPLO 7.3: Entre milhares de casos de pneumonia não tratados com sulfa, a porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o emprego das sulfas diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações. Admitindo que os pacientes são comparáveis em tudo, exceto quanto ao tratamento, teste a hipótese de que a proporção de casos com complicações entre os pacientes tratados com sulfas é significativamente menor que os não tratados (considere 0 05, ). SOLUÇÃO: n = 120 1. 10,0:0 pH

10,0:1 pH 2. 0 05, 3. Estatística do Teste p tem distribuição Normal. 4. Da tabela da distribuição Normal, obtemos que z = -1,65.

z

-z

-z z

Page 116: Apostila estatística

113

5. 05,0120

6ˆ p

83,1

120

9,01,0

10,005,0

)1(

ˆ

00

0

n

pp

ppZc

6. Como RCZ c )83,1( , a nossa decisão será rejeitar H0 .

7. Ao nível de 5% de significância, podemos dizer que há evidências de que a proporção de casos de pneumonia com complicações tratados com sulfa seja menor que os não tratados.

5. TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS

Suponhamos a seguinte situação: Um pesquisador acredita que existe alguma diferença entre os níveis de um marcador bioquímico sangüíneo de homens que moram em uma região (RA) quando comparado à outra (RB), sem indicar qual grupo teria maior ou menor. Como ele pode fazer para testar sua hipótese? A resposta a princípio parece simples: toma-se uma amostra de tamanho nA da população A e de tamanho nB da população B, faz-se o exame de sangue e calcula-se a média para cada região. A questão é, certamente uns indivíduos da amostra da região RA terão valores diferentes da RB, uns maiores e outros menores, assim como haverá, também, variação entre os indivíduos de uma mesma região. Sendo assim, é muito provável que as médias não sejam exatamente iguais. A pergunta é: as médias não são iguais por que as populações realmente apresentam valores diferentes ou por causa das variações casuais intrínsecas à amostragem? Lembre-se de que as médias amostrais tendem a diferir uma da outra! 5.1 TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS INDEPENDENTES

Lembremos do conceito de distribuição de médias amostrais e suas relações com distribuição normal e distribuição t. Se agora pensarmos em uma distribuição para a diferenças entre as médias amostrais, poderíamos definir uma curva de distribuição para essas diferenças, e, então, estipularmos um intervalo de confiança para a diferença ser nula. Isto significa dizer que dentro de uma faixa de valores consideraremos nossa “diferença” como “igual” e fora da faixa, como “diferente”. Quem define se a diferença de médias está dentro ou fora da faixa é o índice de significância (). Se a nossa diferença de médias pode ser considerada como tendo distribuição normal podemos recorrer a esta estatística z ou mesmo à estatística t para fazer nosso teste.

-z =-1,65

Page 117: Apostila estatística

114

A figura a seguir ilustra o que falamos. A nossa variável aleatória 21 xx tem

distribuição normal e podemos calcular a probabilidade de 21 xx assumir valores que consideraremos “zero”. A região em cinza na curva mostra a região de aceitação para a nossa hipótese nula ao compararmos as médias de A e B. Fora da região, consideraremos que as médias são diferentes. Observe que é a probabilidade que estamos admitindo para cometer o erro tipo I (dizer que as médias são diferentes quando na verdade elas são iguais). Como a hipótese alternativa é a de médias diferentes temos que considerar metade para cada lado.

Figura 7.1: Distribuição de probabilidade da variável 21 xx .

5.1.1 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS CONHECIDAS 1. Hipóteses:

211

210

:

:

H

H

2. Fixar . 3. Estatística do Teste: 21 XX tem distribuição Normal. 4. A Região Crítica:

4. Calcular a Estatística

2

22

1

21

21

nn

xxZc

-z z

Page 118: Apostila estatística

115

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se Z RCc , rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão

EXEMPLO 7.4: Suponha que a freqüência cardíaca de uma amostra de 45 mulheres tenha média de 70 bpm, e de 50 homens tenha média 72 bpm. Considerando que o desvio padrão populacional de mulheres é de e 8 bpm e, de homens, 5 bpm. Podemos afirmar que, para o grupo estudado existe diferença entre as FC basais de homens e mulheres com 5% de chance de erro? SOLUÇÃO: 1. Hipóteses:

211

210

:

:

H

H

2. Fixar =0,05. 3. Estatística do Teste: 21 XX tem distribuição Normal. 4. Da tabela da distribuição Normal, obtemos que Z = 1,96.

5. Calcular a estatística: 04,1

45

8

50

5

707222

2

22

1

21

21

nn

xxZc

6. Como RCZ c )04,1( , a nossa decisão será não rejeitar H0 .

7. Isto significa dizer que, neste exemplo hipotético, não existe diferença significativa entre a freqüência cardíaca basal de homens e mulheres.

5.1.2 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS NÃO CONHECIDAS

O teste z exige que conheçamos o desvio padrão populacional, e isto não ocorre na maioria dos casos. Se não conhecemos o desvio padrão populacional devemos recorrer à distribuição t. Realizaremos então o teste t (na verdade, o teste t será o mais utilizado, pois raramente se conhece o desvio padrão populacional).

-z = -1,96 z = 1,96

Page 119: Apostila estatística

116

1. Hipóteses:

211

210

:

:

H

H

2. Fixar . 3. Estatística do Teste: 21 XX tem distribuição t-Student com (n1+n2–2) graus de liberdade 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

5. Calcular a Estatística

2121

2221

21

21

11

2

)1()1(

nnnn

nsns

xxTc

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se RCTc ,

rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão EXEMPLO 7.5: Para o VO2max de uma amostra de 12 mulheres encontrou-se o VO2max de 52,8 ml/kg para a média e de 3,2 ml/kg para o desvio padrão, e, de uma amostra de 12 homens, um valor de 58,2 para média, e de 4,4 para o desvio padrão. Testar a hipótese de que homens têm VO2max maior que mulheres para uma significância de 5%. SOLUÇÃO: 1. Hipóteses:

211

210

:

:

H

H

2. Fixar =0,05. 3. Estatística do Teste: 21 XX tem distribuição t-Student com (n1+n2–2) graus de liberdade

4. Da tabela da t-student com (12 + 12 - 2) temos que t = 2,07

-t t

t = 2,07 -t = 2,07

Page 120: Apostila estatística

117

5. Calcular a Estatística 44,3

12

1

12

1

21212

)112(2,3)112(4,4

8,522,5822

cT

6. Como RCTc )44,3( , a nossa decisão será rejeitar H0 .

7. Podemos dizer que Homens têm VO2max maior que mulheres ao nível de significância de 5%.

5.2 TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS RELACIONADAS

No exemplo acima, as amostras são independentes, ou seja não existem, por pressuposto, características comuns a ambas as amostras. Na verdade, para amostras independentes queremos saber se as médias provêm de uma única população.

Suponhamos agora o caso do teste do efeito de um medicamento. Mensuramos os valores da nossa amostra antes e depois de tomar o medicamento. Devemos agora aplicar um teste que leve em consideração a dependência entre os resultados obtidos, uma vez que as características que não queremos avaliar da nossa amostra “não variaram”, ou seja, nossas amostras são dependentes. Neste caso, utilizamos o teste t para amostras dependentes.

Este teste calcula a estatística T, baseado na média e no desvio padrão das diferenças entre os valores medidos antes e depois. Matematicamente, significa expressar que, dada uma amostra de tamanho n, medida antes e depois de uma intervenção, para saber se houve efeito da intervenção na nossa variável. Assim, temos:

1. Hipóteses:

0:

0:

1

0

dif

dif

H

H

2. Fixar . 3. Estatística do teste difX tem distribuição t-Student com n-1 graus de liberdade.

4. A Região Crítica será:

5. Calcular a Estatística

n

S

xt

dif

difc

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se t RCc , rejeita-se H0 . Caso contrário, aceita-se H0 .

7. Conclusão

-t t

Page 121: Apostila estatística

118

EXEMPLO 7.6: Suponha que um laboratório tenha encontrado uma substância que pode reduzir o colesterol (LDL) sangüíneo. Para tanto submeteu 29 indivíduos ao teste do medicamento. Mediu o colesterol antes e depois de dar o medicamento. Os resultados estão na tabela a seguir (próxima página). Testar se o medicamento reduziu o colesterol para um nível de significância de 1%.

Individuo LDL (antes) LDL (depois) Diferença (Antes -

Depois) 1 142 131 11 2 149 143 6 3 160 122 38 4 142 137 5 5 138 147 -9 6 151 139 12 7 152 154 -2 8 158 136 22 9 145 119 26 10 151 130 21 11 147 153 -6 12 151 141 10 13 170 146 24 14 145 152 -7 15 137 121 16 16 158 136 22 17 142 135 7 18 153 132 21 19 145 140 5 20 159 157 2 21 159 142 17 22 150 154 -4 23 128 135 -7 24 154 142 12 25 171 134 37 26 164 148 16 27 134 140 -6 28 151 147 4 29 144 149 -5

Média 150,00 140,07 9,93 Desvio 10,05 9,98 13,11

Page 122: Apostila estatística

119

SOLUÇÃO: 1. Hipóteses:

0:

0:

1

0

dif

dif

H

H

2. Fixar =0,01. 3. Estatística do teste difX tem distribuição t-Student com 28 graus de liberdade.

4. Da tabela da t-student temos que t = 2,76

5. Calcular a Estatística 078,4

29

11,1393,9

ct

6. Como RCtc )078,4( , a nossa decisão será rejeitar H0 .

7. Logo temos que o medicamento produziu redução significativa do colesterol para um índice de significância de 0,01.

6. TESTE QUI-QUADRADO Apresentamos aqui um teste de hipóteses estatística que utiliza o modelo Qui-Quadrado e por esta razão são denominados, de testes Qui-Quadrado. O objetivo dos teste para dados categorizados é determinar, segundo algum critério válido de decisão, se o fator discriminante exerce alguma influência sobre o fator discriminado. As hipóteses são construídas como de costume, H0: pA1 = pA2 = ... = pAr, ou seja, que as categorias de A exerçam a mesma influência sobre as categorias de B, contra H1 de que pelo menos uma categoria apresenta diferenças em relação a B. Neste caso particular, é importante salientar que as tabelas do tipo 2x2 (duas classificações para cada variável) são as que apresentam resultados mais claros, uma vez que, provada a existência de uma diferença, ela somente pode existir entre as duas categorias de A.

t = 2,76 -t = -2,76

Page 123: Apostila estatística

120

Tabela 7.1 - Valores Observados

Variável B

Variável A Categoria 1

Categoria 2

... Categoria k

Totais

Categoria 1 O11 O12 ... O1k A1 Categoria 2 O21 O22 ... O2k A2 ... ... ... ... ... ... Categoria r Or1 Or2 ... Ork Ar Totais B1 B2 ... Bk N

Partindo da tabela de contingência gerada através do cruzamento das duas variáveis

em estudo (Tabela 1), o primeiro passo consiste em construir a tabela de valores esperados, de dimensões kr . Os valores desta tabela são calculados da seguinte forma:

kjrin

BAE ji

ij ,...,1 e ,...,1,

Assim podemos formar a seguinte tabela:

Tabela 7.2 - Valores Esperados

Variável B

Variável A Categoria 1

Categoria 2

... Categoria k

Totais

Categoria 1 E11 E12 ... E1k A1 Categoria 2 E21 E22 ... E2k A2 ... ... ... ... ... ... Categoria r Er1 Er2 ... Erk Ar Totais B1 B2 ... Bk n

Posteriormente, calcula-se a estatística de teste:

r

i

k

j ij

ijijc E

EO

1 1

2

2

Essa expressão corresponde ao teste Qui-Quadrado de independência clássico. Sua

utilização, contudo, não pode ser indiscriminada. O teste Qui-Quadrado clássico pode ser usado quando o número total de observações é maior que 40. Se o número de dados estiver entre 20 e 40, e o valor esperado das células for maior do que 5, o teste Qui-Quadrado pode ser empregado utilizando-se a expressão:

r

i

k

j ij

ijij

c E

EO

1 1

2

25,0

Page 124: Apostila estatística

121

denominada correção de Yates. O valor obtido é comparado com o valor Qui-quadrado referência (tabelado ou obtido computacionalmente), 2

c versus 2TAB . O valor tabelado está associado a um determinado

número de graus de liberdade e de nível de significância. Os graus de liberdade são calculados fazendo G.L. = (r-1)(k-1). Aplica-se, então, a seguinte regra de decisão:

Se 2

c RC, então, H0 deve ser rejeitada, caso contrário aceito H0.

EXEMPLO 7.7: A tabela abaixo mostra os resultados de um ensaio com 154 pacientes que apresentavam dor abdominal, tratada pela administração de brometo de pinavério (dois comprimidos/ dia), grupo tratamento. Ao grupo controle foi administrado um placebo.

Ingestão de brometo de pinavério e alívio da dor abdominal

Dor abdominal Grupo

Sim Não Total

Tratamento 6 57 63 Controle 30 61 91 Total 36 118 154

Para testar a eficiência do uso do sal no tratamento da dor abdominal, pode ser

efetuado o teste Qui-Quadrado Clássico. (n>40) 1º passo: Hipóteses

Nesse caso, as hipóteses seriam,

TC

TC

PPH

PPH

:

:

1

0

A hipótese nula refere que os resultados dos grupos tratamento e controle são iguais.

Dessa forma, do ponto de vista clínico, interessa rejeição de H0 (aceitação de H1), que indicaria a eficiência da droga.

RC

Page 125: Apostila estatística

122

2º passo: Construção da matriz de valores esperados

Dor abdominal Grupo

Sim Não Total

Tratamento 14,73 48,27 63 Controle 21,27 69,73 91 Total 36 118 154

73,14154

366311

E , 27,48

154

1186312

E , 27,21

154

369121

E e 73,69

154

1189122

E

3º passo: Quantificação das diferenças entre as tabelas de valores Observados e Esperados:

4290,11

73,69

)73,6961(

27,21

)27,2130(

27,48

)27,4857(

73,14

)73,146( 222

1 1

22

2

r

i

k

j ij

ijijc E

EO

4º passo: Decisão estatística O número de graus de liberdade para uma tabela 2x2 é igual a 1. para estes graus de liberdade, os níveis clássicos de significância têm valores:

6354,62

TAB

Como o valor calculado é maior que o valor tabelado ao nível de significância de 1%, então, H0 deve ser rejeitada. Assim fica comprovado o efeito terapêutico do brometo de pinavério no alívio das dores abdominias. 7. TESTES DE SIGNIFICÂNCIA PARA MAIS DE DUAS AMOSTRAS

Geralmente, é comum o pesquisador se deparar com situações em que se deseja avaliar a diferença entre mais de duas médias. Por exemplo, suponha que alguém suspeite que a população brasileira, em termos de altura, não é homogênea ao se comparar às regiões: sul (1), sudeste (2) e nordeste (3). Tomaríamos uma amostra de cada região e mensuraríamos a altura. Por fim, o que faríamos para testar se a região influência na altura?

Inicialmente, parece razoável fazer testes t, dois a dois para verificar as diferenças. Entretanto, lembre-se de que quando definimos a significância ou região de rejeição para o teste t, o fazemos, baseados na probabilidade de cometer o erro do tipo I. Cada teste teria um

Page 126: Apostila estatística

123

índice de significância . Ou seja, não podemos estabelecer um índice de significância único para testar a hipótese H0: 321 baseado nas hipótese formuladas nos testes t.

Portanto, usar testes t dois a dois não resolve nosso problema, pois não saberemos quando aceitar ou rejeitar a hipótese nula original que é 321 .

7.1 TESTES DE SIGNIFICÂNCIA PARA MÚLTIPLA MÉDIAS

Não existe um teste para a diferença entre mais de duas médias baseadas apenas nas médias. O teste a ser empregado então é a análise de variância ou ANOVA (do inglês, analysis of variance). A esta altura pode-se perguntar: como que vou testar as médias baseados nas variâncias? Em primeiro lugar, lembre-se de que um dos pressupostos à utilização dos testes paramétricos é que as variâncias sejam iguais. Se H0 é verdadeira, conceitualmente, é como se todas as amostras tivessem sido tiradas de uma mesma população, se falsa vêm de populações diferentes, mesmo assim, devem ter variâncias iguais. Vamos então entender como avaliar a diferença entre as médias baseado nas diferenças entre as variâncias de nossas amostras.

Para estudarmos a situação apresentada anteriormente consideramos um modelo estatístico, onde cada observação Yi pode ser decomposta em duas componentes: sistemática e aleatória, esta última representando variações individuais e todos os fatores que não são explicados pela parte sistemática. Matematicamente, temos

ii eY , .,,1 ni

Assim, se Yi representa a observação associada ao i-ésimo indivíduo, a parte sistemática pode ser vista como a média populacional que é fixa e a parte aleatória ei como a informação referente ao indivíduo e outros fatores que podem influir nas observações e não são modelados por . Assim, suponha que estamos interessados em comparar as médias de K populações, isto é, queremos testar:

ji um menos pelo para H

H

ji ,:

:

1

3210

Para tanto, obtemos K amostras independentes, com nk indivíduos cada. Nesta

situação, temos que de um modo geral, o modelo estatístico para o j-ésimo indivíduo, da i-ésima população é dado por:

Modelo 1: ijiij eY , ki ,,1 ; .,,1 knj

Caso a hipótese H0 seja verdadeira, então teremos que todas as médias para as K

populações serão iguais, digamos, a , e o modelo pode então ser escrito como: Modelo 0: *

ijij eY , ki ,,1 ; .,,1 knj

Note que, em ambos os modelos, temos alguma informação que não está sendo explicada pela parte sistemática que, para o j-ésimo indivíduo do grupo i está sendo deixada em ije no Modelo 1 e em *

ije no Modelo 0. Uma forma de levar em conta estas quantidades

para todos os indivíduos é através das somas de quadrados:

Page 127: Apostila estatística

124

K

i

n

jiij

K

i

n

jij

ii

Ye1 1

2

1 1

2 e

K

i

n

jij

K

i

n

jij

ii

Ye1 1

2

1 1

2* )(

]Essas expressões envolvem as quantidades desconhecidas i, ki ,,1 e .

Utilizaremos os dados para obter as estimativas correspondentes. Levando-se em conta que no Modelo 1 estamos supondo diferentes médias paras as K populações, consideremos os dados oriundos de cada uma dessas populações para estimar a correspondente média. Assim, segundo o Modelo 1 temos:

ii

n

jij

i Yn

Yi

1 com ki ,,1

e para o Modelo 0:

YYn

K

i

n

jij

i

1 1

1 com .1 knnn

Assim, definimos as quantidades SQD, SQT e SQE, dadas por:

K

i

n

j

K

i

n

j

K

iiiijiij

K

i

n

jiij

i ii

YnYYYYSQD1 1 1 1 1

222

1 1

2

K

i

n

jij

K

i

n

jij

ii

YnYYSQT1 1

22

1 1

2

K

iii

K

iiji YnYnYYnSQDSQTSQE

1

22

1

2.

As siglas SQT, SQD e SQE baseiam-se na seguinte interpretação. SQT corresponde à

variação total dos dados; SQD é uma combinação da variabilidade presente dentro dos grupos e SQE a variabilidade entre os grupos.

Cada uma das somas de quadrados definidas envolve um certo número de quantidades que estão sendo estimadas. Por exemplo, SQT contém Y , SQD contém iY , ki ,,1 , etc. A

fim de levar este fato em consideração, definimos os correspondentes quadrados médios:

1

n

SQTQMT ; quadrado médio total;

Kn

SQDQMD

; quadrado médio dentro; e

1

K

SQEQME ; quadrado médio entre.

O teste estatístico para testar a hipótese H0 deve envolver estas quantidades. Se a

hipótese H0 não for verdadeira, então, o Modelo 1 deve ser mais adequado aos dados do que o Modelo 0. Em outras palavras, os resíduos produzidos pelo Modelo 1 serão menores que os do Modelo 0. Dessa forma podemos interpretar QME como sendo a quantificação da informação contida nos dados que é captada pelo Modelo 1 e QMD a quantificação da parte que não é explicada pelo Modelo 1. Portanto, se QME for grande quando comparado a QMD,

Page 128: Apostila estatística

125

a parte sistemática do Modelo 1 estará captando grande parte da informação dos dados e a hipótese H0 deverá ser rejeitada. Assim temos a estatística de teste:

QMD

QMEF

Quanto maior for o valor de F, maior será QME comparado a QMD e assim maiores as evidências contra H0. Por fim, precisamos encontrar a distribuição de probabilidade da estatística F.

Supondo as seguintes condições: ijY são variáveis aleatórias independentes,

Todas as K populações têm variâncias iguais a 2, ijY tem distribuição Normal.

Pode ser mostrado que a estatística de teste F tem distribuição de Fisher-Snedecor com

(K-1) graus de liberdade no numerador e (n-K) graus de liberdade no denominador. Das três suposições a mais importante é a de homocedasticidade, ou seja, de que as

variâncias são iguais, e a suposição de normalidade pode ser relaxada se n for grande. Passos para aplicação do teste de ANOVA 1. Hipóteses:

ji um menos pelo para H

H

ji ,:

:

1

3210

2. Fixar . 3. Estatística do Teste: F tem distribuição de Fisher com K-1 graus de liberdade no numerador

e n-K graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

5. Calcular a estatística de teste: Fonte de Variação

Graus de Liberdade

Soma de Quadrados

Quadrado Médio

FC

Entre K –1 SQE QME QME/QMDDentro n – K SQD QMD - Total n-1 SQT QMT -

F

Page 129: Apostila estatística

126

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se RCFc ,

rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão EXEMPLO 7.8: Três treinadores de voleibol discutiam sobre as suas formas diferentes de melhorar a altura do salto vertical de atletas. Para testar a eficiência de um método sobre o outro, cada um treinou 5 indivíduos com o seu método particular. Depois do treinamento, mediram a altura que cada indivíduo saltava. A resposta está apresentada na tabela abaixo. Considerando a variável altura do salto vertical como tendo distribuição normal, verificar se existe um método melhor que outro para uma significância de 5%. A seguir a tabela contendo a altura atingida pelos atletas em metros nos três métodos de treinamento.

Atleta Método 1 Método 2 Método 3Média geral

1 43,4 46,6 46,1 2 45,1 47,2 47,5 3 45,3 44,5 46,4 4 45,2 45,8 48,5 5 46,1 45,7 46,6

Média 45,0 46,0 47,0 46,0 SOLUÇÃO: 1. Hipóteses:

ji um menos pelo para H

H

ji ,:

:

1

3210

2. Fixar =0,05. 3. Estatística do Teste: F tem distribuição de Fisher com 2 graus de liberdade no numerador e

12 graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

6. Calcular a estatística de teste:

F

Page 130: Apostila estatística

127

Fonte de Variação

Graus de Liberdade

Soma de Quadrados

Quadrado Médio

FC

Entre 2 10,01 5,01 5,04 Dentro 12 11,91 0,99 - Total 14 21,92 - - 7. Decisão: Como FC > F�, então rejeitamos H0. A altura do salto vertical dos atletas diferem em função dos métodos 1, 2 e 3. Uma pergunta a seguir seria: Qual é o melhor método?

Realmente desejamos saber qual método produziu saltos mais altos. Sem entrar em

detalhes, existem testes post hoc para nos dar tal informação. Um deles é o de Tukey. Se olharmos para as médias, parece que a média do método 3 é a maior. Basicamente, o teste de Tukey calcula a diferença mínima a ser considerada significativa a partir de uma estatística que se utiliza da variância total, e a compara com as diferenças entre as médias, calculadas duas a duas. Se a diferença for maior que a mínima, considera-se que a diferença é significativa. Podemos perguntar então, por que não fazemos direto o teste de Tukey? Lembremos que o teste de Tukey só faz sentido se a diferença for significativa pela ANOVA.

7.2 TESTE DE TUKEY Após concluirmos que existe diferença significativa entre tratamentos, por meio do

teste F, podemos estar interessados em avaliar a magnitude destas diferenças utilizando um teste de comparações múltiplas.

O teste de Tukey permite testar qualquer contraste, sempre, entre duas médias de tratamentos, ou seja, não permite comparar grupos entre si. E baseia-se na Diferença Mínima Significativa (DMS).

A estatística do teste para grupos de mesmo tamanho é dada da seguinte forma:

in

QMDqDMS

onde q é a amplitude total studentizada, tabelada (Tabela 13), QMD é o quadrado médio dentro dos grupos e ni é o número de observações em cada grupo. O valor de q depende do número de tratamentos e do número de graus de liberdade dentro dos grupos.

A estatística do teste para grupos de tamanhos diferentes é dada da seguinte forma:

QMDnn

qDMSji

11

2

1

Page 131: Apostila estatística

128

Serão consideradas significativas ao nível de significância pré determinado aquelas diferenças entre médias cujo valor absoluto for maior que o DMS calculado.

Deve-se lembrar que o teste de Tukey é, de certa forma, independente do teste F, e assim é possível que, mesmo sendo significativo o valor de F calculado, não se encontrem diferenças significativas entre contrastes de médias.

EXEMPLO 7.9: Para o exemplo acima, calculando as diferenças entre as médias dos três grupos encontramos :

1464521 XX

2474531 XX

1474632 XX

A estatística do teste de Tukey para grupos de mesmo tamanho é dada da seguinte

forma:

68,15

99,077,3

in

QMDqDMS .

Assim podemos dizer que ao nível de significância de 5% há diferença entre os

métodos 1 e 3, ou seja, o método 3 foi melhor que o método 1, e que não houve diferenças entre os métodos 2 e 1 e os métodos 2 e 3.

Page 132: Apostila estatística

129

8. APLICAÇÕES NO ACTION

Page 133: Apostila estatística

130

Page 134: Apostila estatística

131

Page 135: Apostila estatística

132

Page 136: Apostila estatística

133

EXERCÍCIOS 1. Para um certo tipo de lesão da coluna vertebral, a recuperação completa é quase certa. O

Dr. Vertebroni, suspeita que o tempo de recuperação está relacionado à terapia administrada. De 50 pacientes que ele tratou por métodos físicos, somente 38 recuperaram-se durante o primeiro ano e 12 recuperaram-se durante o segundo ano. De 75 pacientes que ele tratou com uma combinação de drogas e repouso, 43 recuperaram-se durante o primeiro ano e 32 durante o segundo ano. Estes resultados dão suporte à teoria do Dr. Vertebroni com nível de significância de 1%?

2. O tempo de permanência de psicólogos recém formados no 1º emprego, em anos, foi

estudado considerando um modelo Normal com média e variância desconhecidas. Por analogia com outras categorias profissionais, deseja-se testar se o tempo médio é superior a 2 anos. Para uma amostra de 15 psicólogos, a média obtida foi de 2,7 anos e o desvio padrão de 1,4 anos. Ao nível de significância de 1%, qual a conclusão do teste?

3. Uma empresa de informática lança um novo software no mercado. Com o objetivo de

estimar o tempo médio para aprender a usar o software, a empresa utiliza uma amostra aleatória com 12 usuários, registrando o tempo (em horas) gasto por cada um dos selecionados para aprender a usar o novo produto:

1,75 2,25 2,40 1,90 1,50 2,75 2,15 2,25 1,80 2,20 3,25 2,60

Supondo que o tempo de aprendizado tem distribuição normal, teste a hipótese de que o tempo médio de aprendizado do novo software é menor que 2,5 horas, ao nível de 4% de significância.

4. Suponha que um laboratório alegue que uma determinada droga que ele comercializa é eficiente em pelo menos 80% dos casos em que é utilizada. Suponha que, para comprovar a alegação do laboratório, um organismo de controle testou em 180 pacientes, verificando a ação da droga em 147 casos. O teste a eficiência alegada pelo laboratório, ao nível de significância de 10%.

5. Uma vacina que se supõe eficaz para prevenir os resfriados, foi testada em 500 indivíduos

e os resultados foram comparados, durante um ano, com os correspondentes a 500 indivíduos não vacinados. Os resultados foram os seguintes:

Freqüências Observadas

Nenhum Resfriado

Um resfriado

Mais de umResfriado

Total

Vacinados 252 145 103 500 Não vacinados 224 136 140 500 476 281 243 1.000

Há evidências quanto à eficiência da vacina ao nível de significância de 5%?

Page 137: Apostila estatística

134

6. A cada elemento de uma amostra de 250 homens de uma população de suspeitos de

possuírem enfermidade nas articulações foi perguntado qual de três sintomas o incomodava mais. A mesma questão foi perguntada a uma amostra de 300 mulheres com a mesma suspeita de enfermidades. Os resultados foram os seguintes:

Sintoma que mais incomodava Homens Mulheres Rigidez matinal 111 102 Dor noturna 59 73 Articulação inchada 80 125 TOTAL 250 300

Os sintomas diferem entre os sexos?

7. Quinhentos escolares de primeiro grau menor foram classificados em uma tabela criada,

por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:

Grupo Sócio Econômico

Defeito da Fala Superior Médio Superior

Médio Baixo

Baixo TOTAL

Presente 8 24 32 27 91 Ausente 42 121 138 108 409 TOTAL 50 145 170 135 500

Então estes dados compatíveis com a hipótese que o defeito na fala é não correlacionado com o status sócio-econômico?

8. Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor

expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de acordo com um curso televisionado. As notas alcançadas pelos alunos no final de um único teste foram:

Sala de aula 68 69 74 79 80 84 Pela TV 60 64 65 66 67 70 72 73 76 77 78 81

O ensino televisionado é mais proveitoso que o ensino ao vivo? (Use =0,05).

9. Os dados da tabela a seguir são escores de autoritarismo de uma amostra aleatória de 14 estudantes de uma escola pública e de 14 estudantes de uma escola da rede particular de ensino. Suponha que um estudante que tem um escore, digamos 93, é mais autoritário do que um estudante que tem um escore, digamos 88:

Pública 60 80 65 100 95 88 70 104 75 85 110 55 40 45 Particular 98 87 133 115 93 140 67 134 106 81 111 56 41 42

Page 138: Apostila estatística

135

É razoável assumir a um nível de significância de 1% que os estudantes da escola particular são mais autoritários que os estudantes das escolas públicas?

10. Uma loja de departamentos está interessada em saber se existem diferenças entre as

quantias faturadas em três formas de pagamento: dinheiro(D), cheque(C) e cartão de crédito(CC). Um levantamento das vendas em um dado período de tempo foi feito, produzindo os dados apresentados na tabela a seguir que representam o valor de algumas vendas em reais. Existe diferença entre os tipos de vendas? (Use o nível de significância de 5%).

Formas de pagamento

D C CC 52,10 80,90 73,25 20,99 54,29 56,65 32,38 40,95 126,21 28,64 72,65 56,50

132,47 39,29 65,32 44,65 60,00 39,64

11. Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de que o tratamento empregado não contribui para a diminuição do peso. O advogado de defesa contratou um estatístico, que selecionou aleatoriamente 12 prontuários que continham informação a respeito dos pesos dos pacientes, tomados no início e no final do tratamento. Os dados obtidos foram (em kg):

1 2 3 4 5 6 7 8 9 10 11 12 Início 82 104 94 63 70 80 103 56 79 84 81 78 Final 78 93 87 61 71 82 94 65 79 80 81 82

Verifique se alegação procede ao nível de significância de 5%.

Page 139: Apostila estatística

136

Capítulo 8

TESTES NÃO-PARAMÉTRICOS 1. INTRODUÇÃO

A estatística Não-Paramétrica pode ser definida como uma coleção de métodos estatísticos aplicada a conjuntos de dados onde as suposições distribucionais necessárias para aplicação de uma técnica clássica (Intervalo de Confiança, Teste de Hipótese) não são satisfatoriamente atendidas. É também bastante útil no tratamento de dados onde o nível de mensuração das observações não é dos melhores.

Tais procedimentos são usados desde há muitos anos atrás embora não com o mesmo nome atual. Por exemplo, o rei Nabucodonossor aplicou informalmente o teste da permutação, 600 anos AC. Cálculos da probabilidade binomial foram feitos em 1710 pelo médico inglês Arbuthnott. O primeiro livro-texto denotado aos métodos Não-Paramétricos foi escrito por Siegel (1956) e é usado até hoje pela facilidade de leitura.

No entanto, Savage designa o ano de 1936 como o verdadeiro início da Estatística Não-Paramétrica, marcado pela publicação do artigo de Hotelling e Pabst sobre correlação por postos. O seu maior crescimento ocorreu nos últimos 40 anos e atualmente esta área da estatística está bastante desenvolvida e os tópicos modernos são Estimação de Densidade, Regressão Não-Paramétrica e Semi-Paramétrica. Em 1991 foi lançado o Journal of Nonparametric Statistics.

O tema central em estatística é a chamada Inferência Estatística que aborda dois tipos de problemas fundamentais: a estimação de parâmetros de uma população e o teste de hipóteses. Este último é será tratado nesse capítulo. Na Inferência Estatística procuramos tirar conclusões sobre um grande número de eventos com base na observação de apenas parte deles. Os testes relacionados a Inferência Estatística nos dizem qual a margem de diferença que deve ser encontrada na amostra para que possamos afirmar que elas representam realmente diferenças nos tratamentos (grupos). Como nesses procedimentos, na verdade são testadas hipóteses a respeito dos parâmetros populacionais, esses são chamados de “Paramétricos”.

Algumas técnicas não são tão rigorosas na especificação de condições acerca dos parâmetros da população da qual a amostra foi obtida. Consequentemente as conclusões não são tão poderosas quanto as obtidas por técnicas paramétricas. Essas técnicas são chamadas de “distribuição livre” ou “não–paramétricas”. 2. MÉTODOS ESTATÍSTICOS NÃO-PARAMÉTRICOS 2.1 VANTAGENS

Dispensam Normalidade dos dados; O p-valor é exato (no caso paramétrico o cálculo do p-valor se baseia na distribuição

Normal); São testes mais simples; São úteis quando é difícil estabelecer uma escala de valores quantitativa para os dados; São mais eficientes que os paramétricos quando não existe Normalidade.

2.2 DESVANTAGENS

Page 140: Apostila estatística

137

Proporcionam um desperdício de informações, já que em geral não consideram a magnitude dos dados;

Quando as suposições do modelo estatístico são atendidas são menos eficientes que os paramétricos;

A utilização das tabelas dos testes é mais complicada. 2.3 DEFINIÇÃO DE POSTOS

Toda a estatística não-paramétrica é baseada no cálculo dos postos. Quando atribuímos às observações, números correspondentes às suas posições na classificação (ranking em ordem crescente). Cada número é chamado de posto. 2.4 DISCUSSÃO GERAL DOS TESTES ESTATÍSTICOS

Mostraremos aqui, em forma de exemplo, os problemas que surgem ao utilizarmos testes paramétricos quando as suposições não são atendidas. Considere por exemplo um experimento onde foram observadas concentrações de partículas em 28 amostras de solo após aplicação de um pesticida. O histograma para o conjunto de dados observado é dado abaixo:

Gráfico 8.1: Distribuição de freqüência para a concentração de partículas das 28 amostras de solo após a

aplicação do pesticida.

Sendo a média amostral de 0,314g/cm3 com desvio padrão de 0,264g/cm3 ao testarmos a afirmação do fabricante de que a concentração média de pesticida se dará na ordem de 0,35g/cm3, não rejeitaremos a hipótese nula. Assim a afirmação do fabricante estará comprovada ao usarmos um teste de hipótese paramétrico. Porém:

Podemos notar uma grande assimetria na distribuição dos dados, o que causou um

aumento do valor da média em favor da hipótese nula;

Page 141: Apostila estatística

138

Observamos que 8 amostras apresentaram alto teor de concentração de inseticida (>0,60) e a grande maioria (71%) não passou de 0,40;

Essas amostras de solo foram obtidas perto de um rio (parte baixa da área) para onde

provavelmente “desceu” o pesticida levado pela ação das chuvas;

O que notamos na verdade é que o produto parece não ter se espalhado homogeneamente;

Neste caso talvez se tivéssemos testado a mediana (0,19) ao invés da média teríamos

obtido resultados diferentes;

Essas 8 amostras com alto teor de concentração não podem simplesmente ser eliminadas do estudo, pois constituem um número considerável de informações além de apontar o fato do pesticida se espalhar de forma desigual na área considerada.

É interessante, no momento oportuno, que retornemos a este exemplo, aplicando a

técnica adequada e comparando com o resultado obtido no teste paramétrico (testando a média e a variância).

2.5 ESCOLHA DO TESTE ESTATÍSTICO ADEQUADO

É importante a definição de critérios que nos ajudem a decidir qual o teste ideal para

determinado problema. Um desses critérios, sem dúvida é o Poder do Teste 1. O teste que apresenta uma maior probabilidade de rejeitar H0 quando H0 é falsa, entre todos os testes de nível deve ser escolhido. Mas só isto não basta e nem sempre é simples de ser obtido, portanto precisamos de outras informações para escolher o teste mais adequado:

Como foi obtida a amostra, ou seja, o plano experimental; Natureza da População (pessoas, objetos, áreas, animais, etc.); Tipo de Mensuração dos dados (escala de mensuração).

Quando se usa um teste paramétrico existe uma série de pressupostos a serem

verificados, além do nível mínimo de mensuração exigido ser a escala intervalar. Quando essas suposições não são verificadas é possível que o teste nos leve a resultados errôneos. No caso não-paramétrico, o primeiro critério a ser verificado deve ser o nível de mensuração dos dados. 2.6 NÍVEL DE MENSURAÇÃO Escala Nominal

É o mais baixo nível de mensuração. Utiliza símbolos ou números simplesmente para distinguir elementos em diferentes categorias (como um nome), não havendo entre eles, geralmente, possibilidade de comparação do tipo maior-menor, melhor-pior. Ex: Masculino, Feminino. Escala Ordinal

Page 142: Apostila estatística

139

Utiliza números apenas para classificarmos elementos numa ordem crescente ou

decrescente. Existe assim algum tipo de relação entre as categorias embora a diferença entre elas seja de difícil quantificação. EXEMPLO: Classes sócio-econômicas (A, B, C, D, E). Escala Intervalar (Intervalo de medida)

Ocorre quando a escala tem as características da escala ordinal e ainda é possível quantificar a diferença entre dois números desta escala. EX: Temperatura, Peso, Altura, Rendimentos, etc. obs: Alguns autores apontam ainda a existência de outra escala: a Escala de Razão, equivalente a escala intervalar porém, o valor zero é o verdadeiro ponto de origem. 3. TESTES PARA UMA AMOSTRA 3.1 TESTE DE KOLMOGOROV-SMIRNOV

Este teste de aderência proposto em 1933 avalia a concordância entre a distribuição observada da amostra e uma determinada distribuição teórica. Avalia se os dados amostrais se aproximam razoavelmente de uma determinada distribuição. Para isso utilizamos a função distribuição acumulada observada, compara-se com a teórica, determina-se o ponto em que estas distribuições mais divergem, e testamos se essa divergência é aleatória ou não.

O teste de Kolmogorov-Smirnov, abreviadamente K-S não se aplica a dados qualitativos nem a variáveis discretas, pois a tabela disponível para este teste só é exata caso a distribuição em teste seja contínua. No entanto, tem a vantagem de não estar dependente de classificações dos dados, que além de serem sempre algo arbitrárias envolvem perdas de informação. O teste K-S só pode ser aplicado quando a distribuição indicada na hipótese nula está completamente especificada.

No caso de pretendermos, por exemplo, efetuar um ajustamento de uma distribuição normal, sem especificar e , podemos recorrer a outro teste, neste caso o teste desenvolvido por Lilliefors (teste de normalidade de Lilliefors) que será abordado mais adiante. O teste K-S é aplicável a pequenas amostras. Exigência do Teste

Os dados devem seguir ao menos uma escala ordinal. O Método

Seja )( iEsp xF uma distribuição teórica acumulada e )( iObs xF uma distribuição

observada em uma amostra de n observações (distribuição empírica). Encontra-se a seguir o maior valor das diferenças entre )( iEsp xF e )( iObs xF , ou seja,

)()( iObsiEsp xFxFmáxD e )1()( iObsiEsp xFxFmáxD

Então, DDmáxD ,

Page 143: Apostila estatística

140

Compara-se o valor observado com o valor crítico apresentados na tabela 5 no final da

apostila. Se D > Dcrítico então conclui-se que a distribuição teórica não é válida, com certo nível de significância. EXEMPLO 8.1: Verifique se os dados abaixo podem ser ajustados por uma distribuição de Poisson com média igual a 1,2 ao nível de significância de 5%.

Xi fi

0 15 1 25 2 10 3 5 4 4 5 1

SOLUÇÃO:

,2om média 1 Poisson cibuição de uma distrnão seguem:Os dados H

édia 1,2sson com mção de Poi distribuiseguem uma:Os dados H

1

0

xi )( iEsp xF )( iObs xF )1( iObs xF D+ D-

0 0,3012 0,250 0,233 0.0512 0.0682* 1 0,6626 0,666 0,650 0.0034 0.0126 2 0,8794 0,833 0,817 0.0464 0.0624 3 0,9661 0,917 0,900 0.0491 0.0661 4 0,9921 0,983 0,967 0.0091 0.0251 5 0,9983 1,000 0,983 0.0017 0.0153

Conclusão: 0682,0, DDmáxD e Dcrítico = 0,1756. Então como D é menor que Dcrítico não podemos rejeitar a hipótese nula. EXEMPLO 8.2: Um certo Politécnico do país efetuou um contrato com uma determinada empresa que ficou responsável pelo abastecimento da carne que compunha as refeições na cantina dessa Escola. O contrato refere uma média de 290 gramas de carne por refeição, por estudante. No entanto, alguns alunos queixaram-se acerca da comida, em particular acerca da quantidade de carne servida por refeição. Os alunos falaram com o cozinheiro chefe, que lhes disse que a quantidade de carne servida por refeição a cada estudante tinha aproximadamente distribuição normal de média 290 gramas com um desvio padrão de 56 gramas. Após esta conversa com o cozinheiro, alguns alunos concordaram em recolher as suas refeições ao longo de vários dias, resultando assim uma amostra de 10 refeições, que foram levadas para um laboratório afim de serem pesados os pedaços de carne nelas contidos. Os dados obtidos são os seguintes:

198 254 262 272 275 278 285 287 287 292

Page 144: Apostila estatística

141

Ao nível de significância de 5%, há evidência para rejeitar a hipótese de que o cozinheiro seguia as regras que afirmou em relação à quantidade de carne servida? SOLUÇÃO: Denote-se por X a quantidade, em gramas, de carne servida por refeição a cada estudante. As hipóteses a testar são, neste caso são:

gramasvio de 56 amas e des de 290 gr com médiação Normal distribuinão seguem:Os dados H

asde 56 gram e desvio 290 gramas média de Normal comtribuição seguem dis:Os dados H

1

0

Note-se que a função de distribuição proposta em H0, F0, é a função de distribuição

normal com média 290 gramas e desvio padrão de 56 gramas. Assim, sendo uma distribuição contínua completamente especificada, podemos usar o teste de Kolmogorov-Smirnov. A estatística de teste é DDmáxD , e o ponto crítico da estatística de teste para α=0.05 é 0.410.

A função de distribuição empírica definida para a amostra dada foi calculada conforme apresentado na tabela abaixo:

xi 56

290ix )( iEsp xF )( iObs xF )1( iObs xF D+ D-

198 -1,64 0,0505 0,10 0,00 0,0495 0,0505 254 -0,64 0,2611 0,20 0,10 0,0611 0,1611 262 -0,50 0,3085 0,30 0,20 0,0085 0,1085 272 -0,32 0,3745 0,40 0,30 0,0255 0,0745 275 -0,27 0,3936 0,50 0,40 0,1064 0,0064 278 -0,21 0,4168 0,60 0,50 0,1832 0,0832 285 -0,09 0,4641 0,70 0,60 0,2359 0,1359 287 -0,05 0,4801 0,90 0,80 0,4199 0,2199 292 0,04 0,5160 1,00 0,90 0,4840* 0,3840

Conclusão: 4840,0, DDmáxD e Dcrítico = 0,410. Então como D é maior que Dcrítico podemos rejeitar a hipótese nula. Ou seja, os dados não seguem uma distribuição normal com média de 290 gramas e desvio padrão de 56 gramas. 3.2 TESTE DE LILLIEFORS

No caso em que se deseja testar normalidade e a média e a variância não são previamente especificadas, mas sim estimadas através dos dados da amostra, deve-se utilizar o teste de Lilliefors. Este teste tem procedimento análogo ao Kolmogorov–Smirnov porém utiliza uma tabela própria e mais adequada a este tipo de situação.

Assim, sejam X1, X2,...,Xn uma amostra aleatória de uma população X com distribuição F desconhecida. Pretende-se testar se X tem distribuição N(, 2) sem especificar e , isto é, para algum e algum . As hipóteses a testar são:

e desvio com médiação Normal distribui:X não temH

e desvio m média Normal costribuição: X tem diH

1

0

Page 145: Apostila estatística

142

Foi dito anteriormente que a aplicação do teste de Kolmogorov-Smirnov carece da

especificação completa da função de distribuição proposta em H0, o que não sucede no problema. É proposto então o teste de normalidade Lilliefors. Este teste processa-se como o teste de Kolmogorov-Smirnov, mas os dados originais são padronizados, usando estimativas de e :

n,1,i ,

s

xxZ i

i

Assim as hipóteses em teste passam a ser:

padrãoção Normal distribui:X não temH

drão Normal pastribuição: X tem diH

1

0

O Método

Seja )( iEsp xF uma distribuição teórica acumulada e )( iObs xF uma distribuição

observada em uma amostra de n observações (distribuição empírica). Encontra-se a seguir o maior valor das diferenças entre )( iEsp xF e )( iObs xF , ou seja,

)()( iObsiEsp xFxFmáxD e )1()( iObsiEsp xFxFmáxD

Então, DDmáxD ,

Compara-se o valor observado com o valor crítico apresentados na tabela 5 no final da

apostila. Se D > Dcrítico então conclui-se que a distribuição teórica não é válida, com certo nível de significância. EXEMPLO 8.3: Um distribuidor pretende estimar o tempo médio de entrega dos seus produtos a um cliente bastante importante. Foi recolhida uma amostra aleatória de cinco tempos:

29, 33, 35, 36 e 36.

O distribuidor quer estimar o tempo médio pretendido através de um intervalo de

confiança, mas não sabe nada acerca da distribuição do tempo de entrega X, e além disso, a dimensão da amostra é muito pequena (n=5). Poderá fazê-lo? SOLUÇÃO: Sabemos que caso X tenha distribuição normal o intervalo pode ser calculado

usando a fórmula:

n

StX ;

n

StX

Assim, interessa testar, em primeiro lugar, as hipóteses:

Page 146: Apostila estatística

143

ção Normal distribui:X não temH

Normalstribuição: X tem diH

1

0

Uma vez que nada sabemos acerca de e , podemos utilizar o teste de Lilliefors,

recorrendo às estimativas 8,33x e 95,2s . O valor crítico da estatística de teste, ao nível de significância de 0.05 é Dcrítico= 0,337, e assim a distribuição normal é rejeitada se D > 0,337.

xi 95,2

8,33ix )( iEsp xF )( iObs xF )1( iObs xF D+ D-

29 -1,63 0,0516 0,2 0,0 0,1484 0,0516 33 -0,27 0,3936 0,4 0,2 0,0064 0,1936 35 0,41 0,6591 0,6 0,4 0,0591 0,2591* 36 0,75 0,7734 1,0 0,8 0,2266 0,0266

Conlusão: Observamos que 2591,0, DDmáxD e Dcrítico= 0,337. Então como D é menor que Dcrítico não rejeitamos a hipótese de a população em estudo ter distribuição normal ao nível se significância de 5%. O cálculo do intervalo de confiança pretendido fica como exercício. 4. TESTES PARA DUAS AMOSTRAS INDEPENDENTES

Estes testes se aplicam a planos amostrais onde se deseja comparar dois grupos independentes. Esses grupos podem ter sido formados de duas maneiras diferentes:

Extraiu-se uma amostra da população A e outra amostra da população B; Indivíduos da mesma população foram alocados aleatoriamente a um dos dois

tratamentos em estudo.

Diferente do caso de dados pareados, não se exige que as amostras tenham o mesmo tamanho. Quando as suposições paramétricas são atendidas, o teste t de Student para amostras independentes é mais adequado para comparação das médias dos grupos. Quando estas não são atendidas, deveremos aplicar alguma das provas não-paramétricas. 4.1 TESTE EXATO DE FISHER

A prova de Fisher constitui uma técnica não-paramétrica extremamente útil para analisar dados discretos (nominais ou ordinais), quando o tamanho das duas amostras independentes é pequeno. É utilizado quando os escores das duas amostras aleatórias independentes se enquadram todos em uma ou outra de duas classes mutuamente excludentes. Em outras palavras, a cada indivíduos em ambos os grupos é atribuído um entre dois escores possíveis.

Este teste faz uso de tabelas de contingência 2x2, para se comparar 2 grupos. É indicado quando o tamanho das duas amostras independentes é pequeno e consiste em determinar a probabilidade exata de ocorrência de uma freqüência observada, ou de valores mais extremos.

Page 147: Apostila estatística

144

Exigência do Teste

Amostras aleatórias e independentes; Duas classes mutuamente exclusivas; Nível de Mensuração em escala nominal ao menos.

O Método

Considere a definição de duas amostras I e II, agrupadas em duas classes positivo e negativo.

Grupos + - Total I a b a+b II c d c+d Total a+c b+d n

As hipóteses a serem testadas são:

III

III

PPH

PPH

:

:

1

0

Calculamos, em seguida, a probabilidade de interesse. Por exemplo, a probabilidade

de ocorrência das freqüências observadas nas caselas acima, e isso se faz com o uso da distribuição hipergeométrica, ou seja:

!!!!!

!!!!

ndcba

dbcadcba

ca

n

c

dc

a

ba

Pa

+ - Total I a – 1 b + 1 a+b II c + 1 d – 1 c+d Total a+c b+d n

!)!1()!1()!1()!1(

!!!!111 ndcba

dbcadcba

ca

n

c

dc

a

ba

Pa

Page 148: Apostila estatística

145

+ - Total I a – 2 b + 2 a+b II c + 2 d – 2 c+d Total a+c b+d n

!)!2()!2()!2()!2(

!!!!222 ndcba

dbcadcba

ca

n

c

dc

a

ba

Pa

+ - Total I 0 b + a a+b II c + a d – a c+d Total a+c b+d n

!)!()!()!(!0

!!!!00 nadacab

dbcadcba

ca

n

ac

dcab

P

Assim o P final será dado por:

021 PPPPP aaa

Se P for inferior ao nível de significância que escolhermos para o nosso teste,

devemos rejeitar a hipótese de independência ou a hipótese de homogeneidade que estipulamos. Assim, o Teste Exato de Fisher é a alternativa ao caso de duas amostras independentes, quando o tamanho da amostra é pequeno, pois nesse caso o teste 2 não se aplica.

EXEMPLO 8.4: De uma maneira geral os doentes psiquiátricos podem ser classificados em psicóticos e neuróticos. Um psiquiatra realiza um estudo sobre os sintomas suicidas em duas amostras de 20 doentes de cada grupo. Os resultados tabelados são:

Tipo de Doente Sintomas suicidas Psicótico Neurótico

Total

Presente 2 6 8 Ausente 18 14 32 Total 20 20 40

A nossa hipótese é de que a proporção de psicóticos com sintomas suicidas é igual a proporção de neuróticos com estes sintomas (em um teste de independência, a hipótese nula

Page 149: Apostila estatística

146

seria, a presença ou ausência de sintomas suicidas é independente do tipo de doente envolvido).

SOLUÇÃO: As hipóteses a serem testadas são:

NSPS

NSPS

PPH

PPH

:

:

1

0

Calculamos, em seguida, a probabilidade de interesse que é dada por:

012 PPPP .

095760,0!40!!14!18!6!2

!20!20!32!8

!!!!!

!!!!2

ndcba

dbcadcbaP

020160,0!40!)!114()!118()!16()!12(

!20!20!32!8

!)!1()!1()!1()!1(

!!!!1

ndcba

dbcadcbaP

001638,0

!40)!214()!218()!26(!0

!20!20!32!8

!)!()!()!(!0

!!!!0

nadacab

dbcadcbaP

E portanto a aplicação do teste exato de Fisher, resultaria em calcular:

117558,0001638,0020160,0095760,0012 PPPP ,

que nos dá a probabilidade de observar que, entre os 8 doentes com sintomas suicidas, 2 ou menos são psicóticos, quando a hipótese de igualdade da proporção de psicóticos e neuróticos com sintomas suicidas é verdadeira. Verificamos que a probabilidade da discrepância maior ou igual do que a observada ter ocorrido por acaso é de 0,117558, ou seja, consideravelmente elevada. Logo não existe evidência de que os psicóticos difiram dos neuróticos no que diz respeito aos sintomas suicidas.É claro que este teste que realizamos foi um teste unilateral, enquanto que se tivéssemos usado o teste Qui-Quadrado tínhamos realizado um teste bilateral que media as diferenças relativamente à igualdade de proporções nos dois sentidos. Mas o teste de Fisher também pode ser realizado bilateralmente. Duas propostas podem ser feitas nesse sentido.

Como neste exemplo, as duas amostras têm a mesma dimensão, podemos multiplicar o valor de P por 2, e decidir do mesmo modo por comparação com o valor de .

Caso as amostras sejam muito diferentes (ou os totais de coluna, num teste de independência), poderíamos ainda calcular a probabilidade de ter a freqüência mais discrepante do que a observada, mas, no outro sentido, isto é, no nosso exemplo, medindo os casos mais extremos em que a proporção de ausência de sintomas suicidas dos neuróticos é muito maior do à proporção de ausência de sintomas suicidas dos psicóticos. Neste caso, as tabelas seriam:

Tipo de Doente Sintomas

suicidas Neurótico Psicótico Total

Presente 6 2 8 Ausente 14 18 32 Total 20 20 40

Page 150: Apostila estatística

147

Tipo de Doente Sintomas suicidas Neurótico Psicótico

Total

Presente 7 1 8 Ausente 13 19 32 Total 20 20 40

Tipo de Doente Sintomas

suicidas Neurótico Psicótico Total

Presente 8 0 8 Ausente 12 20 32 Total 20 20 40

E 235116,0876012 PPPPPPP , logo as conclusões seriam do mesmo

tipo. (Experimente a fazer o teste Qui-Quadrado mesmo admitindo as frequências esperadas inferiores a 5 e a aplicar a correção de Yates).

4.2 TESTE U DE MANN-WHITNEY

Esta prova se aplica na comparação de dois grupos independentes, para se verificar se pertencem ou não à mesma população. Na verdade, verifica-se se há evidências para acreditar que valores de um grupo A são superiores aos valores do grupo B. Trata-se de uma das mais poderosas provas não-paramétricas, e constitui uma alternativa extremamente útil ao teste t-Student, quando o pesquisador deseja evitar as suposições exigidas por este último, ou quando a mensuração atingida é inferior á da escala de intervalos. Exigência do Teste

Nível de Mensuração em escala nominal ao menos. Amostras independentes.

O Método

Seja n1 = o número de casos no menor dos dois grupos independentes, e n2 = o número de casos no maior grupo. Para aplicar o teste U, em primeiro lugar combinamos as observações ou escores de ambos os grupos, relacionando-os em ordem ascendente.

Primeiramente ordenam-se os valores misturados dos dois grupos, em ordem crescente indicando sempre a que grupo cada valor pertence. Em seguida, fixando-se nos valores referentes ao menor dos grupos (I), contamos o número de vezes que um valor no grupo (I) precede um valor no grupo (II).

Para não restar dúvidas sobre qual o grupo que deve ser fixado para o cálculo da estatística U, é conveniente calcular-se para cada grupo. U será o menor deles. O maior será U’.

Page 151: Apostila estatística

148

EXEMPLO 8.5: Suponha um grupo experimental de 3 casos e um grupo controle de 4 casos. Aqui, n1 = 3 e n2 =4. Admitamos observados os seguintes escores:

Escores E 9 11 15 Escores C 6 8 10 13

Para determinar U, relacionamos primeiro esses escores em ordem ascendente tendo o

cuidado de reter a identidade de cada escore (E ou C):

6 8 9 10 11 13 15 C C E C E C E

Consideremos agora o grupo de controle, e contemos o número de escores E que

precedem cada escore do grupo de controle. Nenhum escore E precede o escore C de 6. Isto também é verdade para o escore C de 8. O próximo escore C (10) é precedido por um escore E, e o escore C final (13) é precedido por dois escores E. Assim,

U = 0 + 0 + 1 + 2 = 3

e U’ = 2 + 3 + 4 = 9.

Empates

Quando dois ou mais valores são semelhantes atribui-se como posto a média dos postos que seriam atribuídos a eles caso não ocorresse empate. Amostras muito pequenas (n1, n2 8)

Quando nem n1 nem n2 é superior a 8, pode-se utilizar as tabelas 7A, 7B ou 7C para determinar a probabilidade exata associada à ocorrência, sob H0, de qualquer U tão extremo quanto valor observado de U. Para determinar a probabilidade, sob H0, associada a seus dados, o pesquisador precisa conhecer somente n1, n2 e U. Então se a probabilidade encontrada for inferior ou igual ao nível de significância a hipótese nula H0 deverá ser rejeitada, caso contrário, aceita-se H0.

Pode, entretanto, ocorrer que o valor observado de U seja tão grande que não conste da subtábua correspondente ao valor observado de n2. Tal situação surge quando o pesquisador focaliza o grupo “errado” na determinação de U. Por exemplo, suponha que no caso acima tivéssemos contado o número de escores c que precedem cada E, ao invés de contar os escores E que precedem cada C. Teríamos encontrado U = 2 + 3 +4 = 9. A subtábua para n2 = 4 não vai até 9. Nosso valor observado será então U’ = 9. Podemos transformar qualquer U’ em U mediante

'21 UnnU .

Em nosso exemplo, por esta transformação, 3943 U . Naturalmente, este é o

próprio valor de U que obtivemos quando contamos o número de escores que precediam cada C.

Page 152: Apostila estatística

149

Amostras pequenas (9 n2 20)

Quando o tamanho da maior amostra n2 é superior a 8 deveremos utilizar as tabelas 7D, 7E, 7F ou 7G, que dá valores críticos de U para níveis de significância 0,001, 0,01, 0,025 e 0,05 para uma prova unilateral. Para provas bilaterais os níveis de significância dados são 0,,002, 0,02, 0,05 e 0,10.

Assim as tabelas 7D, 7E, 7F ou 7G fornecem valores críticos de U, e não probabilidades exatas. Isto é, se um valor observado de U para um dado n1 20 e 9 n2 20, não supera o valor dado na tabela, podemos então rejeitar H0 ao nível de significância indicado no cabeçalho da tabela.

O valor da estatística de teste U é calculado por:

111

21 2

)1(R

nnnnU

ou equivalentemente,

2221

21 2

)1(R

nnnnU

onde R1 = a soma dos postos atribuídos aos valores do grupo cujo o tamanho da amostra é n1 e R2 = a soma dos postos atribuídos aos valores do grupo cujo o tamanho da amostra é n2. Amostras grandes (n2 > 20)

Nenhumas das tabelas podem ser utilizadas nesse caso. Todavia, Mann e Whitney mostraram (1947), que, na medida que n1, n2 aumentam, a distribuição amostral de U tende rapidamente para a distribuição normal, dada por:

221nn

U ,

12

12121

nnnnU e

U

UUZ

que tem distribuição praticamente normal com média zero e variância unitária. Ou seja, a probabilidade associada à ocorrência, sob H0, de valores tão extremos quanto um Z observado pode ser determinada com o auxílio das tabelas 1ª e 1B. EXEMPLO 8.6: Num experimento onde se comparavam ratos treinados e ratos sem treinamento (controle), com relação a um teste de aprendizado, registraram-se os seguintes valores:

Ratos treinados (E) 78 64 75 45 82 Ratos controle (C) 110 70 53 51

Page 153: Apostila estatística

150

SOLUÇÃO: n1= 4, n2 = 5, U = número de escores E que precedem cada escore C.

As hipóteses são:

CEH

CEH

:

:

1

0

E os dados ordenados são:

45 51 53 64 70 75 78 82 110 E C C E C E E E C

E a estatística de teste U é

95211 U e 1133320' U

Conclusão: Pela Tabela 7A verificamos que para n2 = 5 e U = 9 temos para um teste unilateral um p-valor = 0,452, portanto não podemos rejeitar a hipótese nula H0. EXEMPLO 8.7: Dois tipos de solução química, A e B, foram ensaiadas para a determinação do pH. As análises de 10 amostras de cada solução estão apresentadas na tabela que segue..

A 7,49 7,35 7,54 7,48 7,48 7,37 7,51 7,50 7,52 7,56 B 7,28 7,35 7,52 7,50 7,38 7,48 7,31 7,22 7,41 7,45

Verifique, com um teste bilateral, se há diferença entre elas ao nível de significância de 5%. SOLUÇÃO: n1=n2=10.

As hipóteses são:

BA

BA

pHpHH

pHpHH

:

:

1

0

E os dados ordenados são:

Valores 7,22 7,28 7,31 7,35 7,35 7,37 7,38 7,41 7,45 7,48 Grupo B B B A B A B B B A Posto 1 2 3 4,5 4,5 6 7 8 9 11

Valores 7,48 7,48 7,49 7,50 7,50 7,51 7,52 7,52 7,54 7,56 Grupo A B A A B A A B A A Posto 11 11 13 14,5 14,5 16 17,5 17,5 19 20

O valor da estatística de teste U é calculado por:

Page 154: Apostila estatística

151

5,225,1322

)110(101010

2

)1(1

1121

R

nnnnU

e 5,775,221010' 21 UnnU

O valor crítico para n1 = n2 = 10 em que = 0,05 (teste bilateral) será Uc =23.

Conclusão: Não temos evidências de que existam diferenças entre as soluções químicas. 5. TESTES PARA DUAS AMOSTRAS PAREADAS

Muitas vezes estamos interessados na comparação de dois tratamentos. No entanto é muito comum ocorrer uma grande disparidade entre os elementos dos grupos. Para evitar que um grupo de indivíduos seja naturalmente superior ao outro, é comum proceder algum tipo de pareamento entre os indivíduos. O tipo mais comum de pareamento é utilizando cada indivíduo como seu próprio controle, submetendo-o aos dois tratamentos em ocasiões diferentes. Outro tipo de pareamento é tentar selecionar, para cada par, indivíduos que sejam tão semelhantes quanto possível. Por exemplo: Gêmeos, órgãos (ouvidos, braços, pés, etc).

5.1 TESTE DE WILCOXON

O teste de Wilcoxon é extremamente útil para os cientistas do comportamento. Este

teste para dados pareados, ao invés de considerar apenas o sinal das diferenças entre os pares, considera o valor dessas diferenças, sendo assim um teste Não-Paramétrico dos mais poderosos e “populares”. Exigência do Teste

Os pares (Xi,Yi) são mutuamente independentes; As diferenças di são variáveis contínuas, com distribuição simétrica; Nível de mensuração em escala intervalar.

O Método

Considere, as diferenças di’s onde di = Yi - Xi. Devemos ordenar os di’s, porém sem considerar o sinal da diferença (em módulo). Empates

Consideremos duas situações:

Quando Xi = Yi, ou seja, a informação pré eqüivale a informação pós para um mesmo indivíduo, descarta-se este par da análise e redefinimos n como sendo o número de pares tais que Xi Yi para i = 1, 2, 3, ... , n.

Quando duas ou mais di’s tem o mesmo valor atribui-se como posto a média dos postos que seriam atribuídos a eles caso não ocorresse empate.

Page 155: Apostila estatística

152

Pequenas Amostras

Considere T sendo a menor soma dos postos de mesmo sinal. Ou seja, T é a soma dos postos positivos, ou a soma dos postos negativos (a que for menor). A Tabela 8 apresenta diversos valores de T tabelados e respectivos níveis de significância associados. Compara-se então o valor de T calculado com aqueles tabelados e o objetivo é verificar se a mediana é nula, ou seja,

0:

0:

1

0

MdH

MdH

Grandes Amostras (n>25)

Neste caso T tem distribuição aproximadamente Normal e podemos usar a aproximação considerando:

4

)1(

nnT e

24

)12)(1(

nnnT

Calcula-se assim a estatística T

TTZ

e compara-se com os valores tabelados da

distribuição normal padrão apresentados nas tabelas 1A e 1B. EXEMPLO 8.8: Num experimento estudando a prevalência de oclusão normal em crianças do sexo masculino e feminino de 11 escolas, obtiveram-se os seguintes resultados:

% de oclusão Normal Escola

Masculino (X) Feminino (Y) di Posto

1 8,7 7,7 1,0 4 2 18,6 9,6 9,0 9 3 8,0 16,0 -8,0 6 4 12,9 13,4 -0,5 2 5 10,9 9,6 1,3 5 6 13,4 13,0 0,4 1 7 11,9 23,7 -11,8 11 8 14,3 6,2 8,1 7 9 20,0 9,6 10,4 10 10 14,4 13,8 0,6 3 11 6,6 15,1 -8,5 8

Verifique se há influência do sexo na % de ocorrência de oclusão normal ao nível de

significância de 5%. SOLUÇÃO: n = 11. As seguintes hipóteses a serem testadas são:

0:

0:

1

0

MdH

MdH

Page 156: Apostila estatística

153

Pela Tabela 8, T = 27 e considerando 0,05 (bilateral) o valor crítico TC=11.

Conclusão: Não podemos rejeitar H0, ou seja, a porcentagem de oclusão normal não sofre influência do sexo. EXEMPLO 8.9: Considere o quadro de notas abaixo referente a estudo para comparar a eficiência de um novo método de aprendizagem. Teste a eficiência do novo método ao nível de significância de 5%.

Aluno Nota 1 Nota 2 di Postos 1 5.1 5.8 0.7 10.5 2 4.2 4.7 0.5 7.5 3 3.3 6.1 2.8 18.5 4 6 7.4 1.4 14 5 7.1 6.5 -0.6 9 6 3.2 3.2 0 - 7 2.8 4.5 1.7 15.5 8 1.4 3.5 2.1 17 9 0.8 4 3.2 20 10 5.6 5.5 -0.1 1.5 11 3.8 3.9 0.1 1.5 12 4.7 4.5 -0.2 3 13 6.2 5 -1.2 13 14 5.4 5.4 0 - 15 1.2 6 4.8 23 16 2.2 5 2.8 18.5 17 1.9 2.2 0.3 5 18 5.4 1.8 -3.6 22 19 5.5 5.2 -0.3 5 20 5.2 6 0.8 12 21 3.8 4.5 0.7 10.5 22 4.2 4.7 0.5 7.5 23 1.8 5.1 3.3 21 24 2.6 2.9 0.3 5 25 4.3 2.6 -1.7 15.5 26 1.4 6.5 5.1 24

SOLUÇÃO: Utilizaremos uma aproximação para a normal dado que a amostra aqui considerada é grande. E as hipóteses a serem testadas são:

eficiente foi método novo O:H

eficiente é não método novo O:H

1

0

1504

)124(24

4

)1(

nnT , 35

24

492524

24

)12)(1(

nnnT e 69T .

Page 157: Apostila estatística

154

Calcula-se assim a estatística 31,235

15069

T

TTZ

Conclusão: Como Z < -1,96 então rejeitamos H0. Ou seja, existem evidências para se acreditar que o novo método é eficiente. 6. TESTES PARA MAIS DE DUAS AMOSTRAS INDEPENDENTES

Neste capítulo serão abordados testes não-paramétricos de comparação de 3 ou mais grupos independentes entre si, úteis quando as suposições paramétricas não forem atendidas. Consideremos então, a seguinte estrutura de dados:

Tratamentos 1 2 3 ... k

X11 X21 X31 ... Xk1 X12 X22 X32 ... Xk2 X13 X23 X33 ... Xk3 ... ... ... ... ... X1l X2m X3n ... Xkp

Onde as informações do tratamento i não estão relacionadas às informações do tratamento j, e os tamanhos das amostras em cada tratamento não necessariamente são iguais. A prova que será apresentada é equivalente ao teste de Análise de Variância (ANOVA). 6.1 TESTE DE KRUSKAL-WALLIS

O teste de Kruskal-Wallis é uma prova extremamente útil para decidir se k amostras independentes provêm de populações diferentes. Os valores amostrais quase que invariavelmente diferem entre si, e o problema é decidir se essas diferenças entre as amostras significam diferenças efetivas entre as populações, ou se representam apenas variações casuais, que podem ser esperadas entre amostras aleatórias de uma mesma população. A técnica de Kruskal-Wallis comprova a hipótese de nulidade, de que k amostras provenham da mesma população ou de populações idênticas em relação a médias.

É um teste útil na comparação de k tratamentos independentes. Nos indica se há diferença entre pelo menos dois deles. E é na verdade uma extensão do teste de Mann-Whitney para duas amostras independentes e se utiliza dos postos atribuídos aos valores observados. Exigência do Teste

Nível de mensuração em escala ordinal (pelo menos).

-1,96 1,96

Page 158: Apostila estatística

155

O Método

Primeiramente deve-se atribuir a cada valor observado, um posto, sempre atribuindo o menor posto ao menor valor e o maior posto ao maior valor. Após se efetuar a soma dos postos para cada tratamento (Rj) calcula-se a estatística H, onde

)1(3)1(

12

1

2

nn

R

nnH

k

j j

j

onde k = número de amostras, nj = número de observações na amostra j, n = o número de observações de todas as amostras combinadas e Rj = soma dos postos na amostra j.

A estatística de teste tem distribuição aproximadamente Qui-quadrado com k - 1 graus

de liberdade para tamanhos de amostras (nj) suficientemente grandes. Empates

Quando ocorrem empates entre dois ou mais escores, atribui-se a cada um deles a média dos postos respectivos. Como o valor de H é influenciado de certo modo pela ocorrência de empates a fórmula anterior deve ser corrida. Assim a estatística de teste passa a ser:

nn

T

nn

R

nnH

i

k

j j

j

3

1

2

1

)1(3)1(

12

onde k = número de amostras, nj = número de observações na amostra j, n = o número de observações de todas as amostras combinadas, Rj = soma dos postos na amostra j, t = o número de observações empatadas em um grupo de escores empatados, iii ttT 3 e

iT indica somatório sobre todos os grupos de empates.

Regra de decisão quando k = 3 e n1, n2 e n3 5

Quando k =3 e o número de observações em cada uma das três amostras é menor ou igual a 5, a aproximação pela Qui-quadrado para a distribuição de H, não é suficiente. Para tais casos, tabelaram-se probabilidades exatas para a partir da estatística de H e essas probabilidades estão apresentadas nas tabelas 9A e 9B. A primeira coluna da tabela fornece os possíveis tamanhos de n1, n2 e n3. A segunda coluna fornece diversos de H calculados. E a terceira coluna dá a probabilidade associada à ocorrência, sob H0, de valores tão grandes quanto um H observado.

Page 159: Apostila estatística

156

Regra de decisão quando k >3 ou há pelo menos um nj > 5 Quando k > 3 ou há pelo menos um nj > 5, o valor crítico para a decisão de rejeição ou

não da hipótese nula pode Sr obtido na tabela 2. Assim, se o valor observado de H é igual ou superior ao valor crítico para o nível de significância previamente fixado e para k - 1 graus de liberdade, então H0 deve ser rejeitada. 6.2 COMPARAÇÕES MÚLTIPLAS

Este teste é útil para complementar a análise do teste de Kruskal-Wallis e verificar entre que pares de tratamentos existem diferença significativa. O Método Amostras pequenas

Para nj iguais

Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos postos dos tratamentos:

ji RR .

Em seguida obtém-se a Diferença Mínima Significativa (DMS) na tabela 10A. As diferenças observadas entre as somas de postos, superiores a DMS indicam diferenças significativas entre aqueles tratamentos.

Para nj diferentes

Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos postos dos tratamentos:

ji RR

onde i

ii n

RR .

Em seguida obtém-se a Diferença Mínima Significativa (DMS) pela fórmula:

hnn

nnDMS

ji

11

12

)1(

onde h é obtido nas tabelas 10B, 10C e 10D. As diferenças observadas entre ji RR ,

superiores a DMS indicam diferenças significativas entre aqueles tratamentos.

Page 160: Apostila estatística

157

Amostras grandes

Para nj iguais

Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos postos dos tratamentos:

ji RR

onde i

ii n

RR .

Em seguida obtém-se a Diferença Mínima Significativa (DMS) pela fórmula:

12

)1(

nkQDMS

onde Q é obtido na tabela 10E. As diferenças observadas entre ji RR , superiores a

DMS indicam diferenças significativas entre aqueles tratamentos.

Para nj diferentes

Primeiramente, calcula-se para cada par de tratamentos a diferença entre a soma dos postos dos tratamentos:

ji RR

onde i

ii n

RR .

Em seguida obtém-se a Diferença Mínima Significativa (DMS) pela fórmula:

ji nn

nnzDMS

11

12

)1(

onde )1(

kk

zz obtido nas tabelas 1A e 1B. As diferenças observadas entre ji RR ,

superiores a DMS indicam diferenças significativas entre aqueles tratamentos.

Page 161: Apostila estatística

158

EXEMPLO 8.10: Suponha-se que um pesquisador resolva investigar o grau de autoritarismo do pessoal de escolas, usando a escala de autoritarismo de Adorno e colegas. Os escores estão apresentados abaixo. Verificar se há diferença entre os grupos ao nível de significância de 5%.

Professores de E.F.

Outros professores

Administradores

96 82 115 128 124 149 83 132 166 61 135 147 101 109

SOLUÇÃO: As hipóteses a serem testadas são:

grupos 3 os entre diferença alguma Há:H

diferem não grupos 3 Os:H

1

0

Os postos calculados são:

Professores de E.F.

Outros professores

Administradores

4 2 7 9 8 13 3 10 14 1 11 12 5 6

Como não há empates a estatística de teste é dada por:

406,6)114(34

46

5

37

5

22

)114(14

12)1(3

)1(

12 222

1

2

nn

R

nnH

k

j j

j

Como k = 3 e n1, n2 e n3 5 o valor crítico será obtido na tabela 9B. Assim como o H

observado é maior que o Hcrítico = 5,643, rejeitamos H0 ao nível de significância de 5%. Ou seja, há diferença estatisticamente significante entre os três grupos. Por esta razão teremos que realizar o teste de comparações múltiplas entre os grupos:

35

37

5

2221 RR e 28,6643,5

5

1

5

1

12

151411

12

)1(

21

h

nn

nnDMS

Page 162: Apostila estatística

159

1,74

46

5

2231 RR e 66,6643,5

4

1

5

1

12

151411

12

)1(

31

h

nn

nnDMS

1,44

46

5

3732 RR e 66,6643,5

4

1

5

1

12

151411

12

)1(

31

h

nn

nnDMS

Dessa verificamos diferenças significantes apenas entre Professores de E.F. e Professores de E.F., pois, é a única diferença superior à DMS. EXEMPLO 8.11: Considere um experimento de alimentação de suínos, em que se usaram 4 rações (A, B, C, D), cada uma fornecida a 5 animais. Os aumentos de peso observados, em Kg, após 1 anos foram os seguintes:

A B C D

n Posto n Posto n Posto n Posto 35 14,5 40 17 39 16 27 6,5 19 4 35 14,5 27 6,5 12 1 31 12 46 20 20 5 13 2 15 3 41 18 29 9 28 8 30 10,5 33 13 45 19 30 10,5 44 82,5 55,5 28

Verifique se existe diferenças entre as rações ao nível de significância de 5%.

SOLUÇÃO: Observa-se pela tabela acima 3 empates. Considere agora t1, t2, t3, o número de casos em cada empate. Assim temos dois valores empatados em 6,5, dois em 10,5 e mais dois em 14,5. Então, 2321 ttt .

As hipóteses a serem testadas são:

grupos 4 os entre diferença alguma Há:H

diferem não rações de grupos 4 Os:H

1

0

Assim a estatística de teste é dada por:

058,9

2020

2222221

)120(35

28

5

5,55

5

5,82

5

44

2120

12

1

)1(3)1(

12

3

333

2222

3

1

2

nn

T

nn

R

nnH

k

j j

j

Page 163: Apostila estatística

160

Ao nível de significância de 5% o hcrítico = 5,66, logo, como h > 5,66, rejeitamos a hipótese nula. Então podemos dizer que há diferença entre os 4 tipos de ração. Por esta razão teremos que realizar o teste de comparações múltiplas entre os grupos:

7,75,168,8 BA RR

3,21,118,8 CA RR

2,36,58,8 DA RR

4,51,115,16 CB RR

9,106,55,16 DB RR

5,56,51,11 DC RR

Pela tabela 10E verificamos que ao nível de significância de 5% 633,3h e

61,912

)120(4633,3

DMS . Assim verificamos diferença significante apenas entre B e D,

pois é a única diferença superior a 9,61.

7. TESTES PARA MAIS DE DUAS AMOSTRAS PAREADAS

Neste capítulo serão abordadas técnicas não-paramétricas de comparação de 3 ou mais grupos relacionados entre si. Imagine então a seguinte estrutura de dados:

Tratamentos Blocos

1 2 3 ... k Bloco 1 X11 X21 X31 ... Xk1 Bloco 2 X12 X22 X32 ... Xk2 Bloco 3 X13 X23 X33 ... Xk3 ... ... ... ... ... ... Bloco n X1l X2m X3n ... Xkp

Onde os blocos representam as unidades amostrais utilizadas no experimento e os

tratamentos são as k condições de avaliação (tempo, dietas, distância, etc). 7.1 TESTES DE FRIEDMAN

Este teste é útil quando deseja-se comprovar a hipótese de que as k amostras relacionadas provém da mesma população. Neste tipo de estudo observa-se o mesmo grupo de indivíduos sob cada uma das k condições, ou então se formam conjuntos de indivíduos homogêneos entre si, e estes são alocados aleatoriamente a cada uma das condições. Como as k amostras são pareadas o número de observações em cada uma delas é o mesmo.

Para o teste de Friedman os dados se dispõem em uma tabela de dupla entrada com n linhas e k colunas. As linhas representam os vários indivíduos ou unidades de análise, e as

Page 164: Apostila estatística

161

colunas representam os diversos momentos nos quais os indivíduos foram avaliados. Aos escores de cada linha atribuem-se postos separadamente. Isto é, com k condições em estudo, os postos em qualquer linha vão de 1 a k.O teste de Friedman determina se é provável que as diferentes colunas de postos (amostras) provenham da mesma população. Exigência do Teste

Nível de mensuração em escala ordinal (pelo menos). O Método

Considera-se aqui a mesma disposição dos dados observada anteriormente, com n linhas e k colunas. Para cada linha da tabela atribui-se postos de 1 a k. Calcula-se em seguida a estatística 2

r de Friedman, que é dada por:

)1(3)1(

12

1

22

knRknk

k

iir

onde n = número de linhas, k = número de colunas, iR = soma dos postos na coluna j e

k

iiR

1

2 indica o somatório dos quadrados das somas de postos sobre as k condições.

A estatística de teste tem distribuição aproximadamente Qui-quadrado com k - 1 graus de liberdade para tamanhos de amostras suficientemente grandes. Pequenas amostras

Note que a estatística 2r tem distribuição Qui-quadrado somente quando o número de

linhas ou colunas não é muito pequeno. Quando o número de linhas ou de colunas é inferior ao mínimo, existem tabelas de probabilidades exatas, que devem ser utilizadas. Assim se k = 3 e n tiver valores entre 2 e 9 deve ser utilizada a tabela 11A. Já se k = 4 e n tiver valores entre 2 e 4 a tabela 11B deverá ser utilizada. Para a regra de decisão deve-se verificar se o valor de

2r calculado é superior ao valor observado nas tabelas, para um dado nível de significância.

Se ocorrer a hipótese nula deverá ser rejeitada caso contrário aceite-a. Grandes amostras

A estatística de teste tem distribuição aproximadamente Qui-quadrado com k - 1 graus de liberdade para tamanhos de amostras suficientemente grandes. Para a regra de decisão deve-se verificar se o valor de 2

r calculado é superior ao valor observado na tabela 2, para um dado nível de significância. Se ocorrer a hipótese nula deverá ser rejeitada caso contrário aceite-a.

Page 165: Apostila estatística

162

7.2 COMPARAÇÕES MÚLTIPLAS

Com a finalidade de complementar a análise do teste de Friedman, quando a hipótese H0 é rejeitada, devemos proceder ao teste de comparações múltiplas para identificar as diferenças entre pares de tratamentos. O método Amostras pequenas (k e n 15)

Primeiramente, calcula-se para cada par de tratamentos a diferença Ri - Rj onde Ri

é a soma de postos atribuída ao tratamento i. Em seguida obtém-se a Diferença Mínima Significativa (DMS) na tabela 12. As diferenças observadas entre as somas de postos, superiores a DMS indicam diferenças significativas entre aqueles tratamentos. Amostras grandes (k ou n > 15)

Primeiramente, calcula-se para cada par de tratamentos a diferença ji RR onde Ri é

a soma de postos atribuída ao tratamento i. Em seguida obtém-se a Diferença Mínima Significativa (DMS) através da formula:

12

)1(

knkQDMS

onde Q é obtido na tabela 10E. As diferenças observadas entre ji RR , superiores a DMS

indicam diferenças significativas entre aqueles tratamentos EXEMPLO 8.12: Um teste de consumo de combustível envolvendo carros produzidos por três fabricantes foi realizado e os resultados, em quilômetros por litro de combustível estão apresentados na tabela abaixo. Verifica se existe diferença entre os grupos de fabricantes ao nível de significância de 5%.

Fabricante Modelo

G F C Pequeno 9,0 11,3 10,6 Médio-6 cil. 9,4 10,9 10,2 Médio-8 cil. 8,1 8,6 9,1 Grande-8 cil. 8,3 8,6 8,8 Esporte 8,2 9,2 9,5

SOLUÇÃO: k = 3 e n = 5.

As hipóteses a serem testadas são:

Page 166: Apostila estatística

163

grupos 3 os entre diferença alguma Há:H

diferem não grupos 3 Os:H

1

0

Os postos calculados são:

Fabricante Modelo

G F C Pequeno 1 3 2 Médio-6 cil. 1 3 2 Médio-8 cil. 1 2 3 Grande-8 cil. 1 2 3 Esporte 1 2 3

iR 5 12 13

Calcula-se em seguida a estatística 2r

de Friedman, que é dada por:

6,745313125435

12)1(3

)1(

12 222

1

22

knRknk

k

iir

Pela tabela 11A verificamos que o p-valor = 0,024. Ao nível de significância de 5%

rejeitamos a hipótese nula. Então podemos dizer que há diferença entre os 3 fabricantes. Por esta razão teremos que realizar o teste de comparações múltiplas entre os grupos. Como n 15 utilizamos o método para pequenas amostras e a tabela 12A, assim temos:

7125 FG RR ,

8135 CG RR , p-valor=0,039

11312 CF RR .

Assim com base na tabela só podemos afirmar diferenças significantes entre os

fabricantes G e C.

EXEMPLO 8.13: Uma pesquisa foi delineada para determinar a eficácia de um programa de grupo para a redução do estresse baseado em meditação para pacientes com problemas de ansiedade. Os sujeitos foram selecionados dentre os encaminhados para programas de redução do estresse e de relaxamento. Foram coletados dados da Escala Hamilton de Ansiedade em quatro momentos diferentes: recrutamento (IR), pré-tratamento (Pré), pós-tratamento (Pós) e três meses após o pós-tratamento (3M). Os dados estão apresentados abaixo. O tratamento teve algum resultado?

Sujeito IR Pré Pós 3M

1 21 21 16 19 2 30 38 10 21 3 38 19 15 6

Page 167: Apostila estatística

164

4 43 33 30 24 5 35 34 25 10 6 40 40 31 30 7 27 15 11 6 8 18 11 4 7 9 31 42 23 27 10 21 23 21 17 11 18 24 16 13 12 28 8 5 2 13 40 37 31 19 14 35 32 12 21

SOLUÇÃO: k = 4 e n = 14.

As hipóteses a serem testadas são:

momentos 4 os entre diferença alguma Há:H

momentos 4 nos diferem não indivíduos Os:H

1

0

Os postos calculados são:

Sujeito IR Pré Pós 3M 1 3,5 3,5 1 2 2 3 4 1 2 3 4 3 2 1 4 4 3 2 1 5 4 3 2 1 6 3,5 3,5 2 1 7 4 3 2 1 8 4 3 1 2 9 3 4 1 2 10 2,5 4 2,5 1 11 3 4 2 1 12 4 3 2 1 13 4 3 2 1 14 4 3 1 2

iR 50,5 47 23,5 19

Calcula-se em seguida a estatística 2r

de Friedman, que neste caso é dada por:

11,335143195,23475,505414

12)1(3

)1(

12 2222

1

22

knRknk

k

iir

O valor crítico, ao nível de significância de 5%, na tabela 2 da Qui-quadrado para 3

graus de liberdade é de 7,815. Dessa rejeitamos a hipótese nula e podemos dizer que há diferença significante entre os quatro momentos. Por esta razão teremos que realizar o teste de

Page 168: Apostila estatística

165

comparações múltiplas entre os grupos. Como n 15 utilizamos o método para pequenas amostras e a tabela 12A, assim temos:

5,3475,5021 RR ,

275,235,5031 RR *,

5,31195,5041 RR *,

5,235,234732 RR *,

28194742 RR *,

28194742 RR .

Assim as diferenças indicadas com * são sigificantes.

Page 169: Apostila estatística

166

8. APLICAÇÕES NO ACTION

Page 170: Apostila estatística

167

EXERCÍCIOS

1. Num ensaio pareado sobre adubação nitrogenada de alface, compararam-se 4 tratamentos: Tratamento 1 - controle, Tratamento 2 - 5 g de salitre/10 litros de água, Tratamento 3 - 10g de salitre/10 litros de água e Tratamento 4 - 20g de salitre/10 litros de água. Os resultados de produção se encontram abaixo. Verifique a existência de diferenças entre os tratamentos ao nível de significância de 5%.

Blocos Trat.1 Trat.2 Trat.3 Trat.4

I 3640 4200 4700 5300 II 4890 4550 6020 5900 III 4800 5320 5250 5150 IV 4460 5500 5580 5560

2. Numa pesquisa sobre qualidade de vinho, foram provados três tipos por cinco degustadores. Cada degustador provou 12 amostras (4 de cada tipo) e atribuiu a cada uma delas uma nota de zero a dez. As médias das notas atribuídas pelos 5 degustadores a cada uma das amostras estão apresentadas abaixo. Verifique se há preferência dos degustadores por algum dos tipos de vinho ao nível de significância de 5%.

Tipo 1 Tipo 2 Tipo 3

5,0 8,3 9,2 6,7 9,3 8,7 7,0 8,6 7,3 6,8 9,0 8,2

3. Numa pesquisa sobre desquites, realizada entre as classes média e alta, foram obtidos

os resultados abaixo apresentados. Ao nível de significância de 5% você acredita que a proporção de desquites amigáveis é maior na classe alta?

Classe Amigável Não-Amigável Total Alta 6 4 10 Média 2 8 10 Total 8 12 20

4. Num ensaio sobre competição de variedades de tomates foram considerados as

produções individuais (em kg) de 15 plantas de uma variedade A e dez de uma variedade B, obtendo-se os resultados abaixo apresentados. Verifique se as variáveis A e B diferem em produtividade ao nível de significância de 5%.

Var. A 4,3 3,8 5,2 2,5 3,5 4,1 5,1 4,0 2,2 1,8 4,5 1,7 3,6 4,5 5,0 Var. B 4,2 4,8 4,7 6,5 6,3 5,9 7,2 5,1 6,2 6,8

Page 171: Apostila estatística

168

5. Um grupo de 8 indivíduos se submete a um estímulo. A tabela abaixo apresenta as

medidas de pressão sangüínea (mm/Hg) antes e depois do estímulo. O pesquisador desconfia que os estímulos aumentem a pressão sangüínea. Teste esta afirmação ao nível de significância de 5%.

Paciente Antes Depois1 118 127 2 120 128 3 128 136 4 124 131 5 130 135 6 136 138 7 128 125 8 140 136

6. Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de que

o tratamento empregado não contribui para a diminuição do peso. O advogado de defesa contratou um estatístico, que selecionou aleatoriamente 12 prontuários que continham informação a respeito dos pesos dos pacientes, tomados no início e no final do tratamento. Os dados obtidos foram (em kg):

1 2 3 4 5 6 7 8 9 10 11 12 Início 82 104 94 63 70 80 103 56 79 84 81 78 Final 78 93 87 61 71 82 94 65 79 80 81 82

Verifique se alegação procede ao nível de significância de 5%.

7. Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor

expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de acordo com um curso televisionado. As notas alcançadas pelos alunos no final de um único teste foram:

Sala de aula 68 69 74 79 80 84 Pela TV 60 64 65 66 67 70 72 73 76 77 78 81

O ensino televisionado é mais proveitoso que o ensino ao vivo? (Use =0,05).

8. Os dados da tabela a seguir são escores de autoritarismo de uma amostra aleatória de

14 estudantes de uma escola pública e de 14 estudantes de uma escola da rede particular de ensino. Suponha que um estudante que tem um escore, digamos 93, é mais autoritário do que um estudante que tem um escore, digamos 88:

Pública 60 80 65 100 95 88 70 104 75 85 110 55 40 45 Particular 98 87 133 115 93 140 67 134 106 81 111 56 41 42

Page 172: Apostila estatística

169

É razoável assumir a um nível de significância de 1% que os estudantes da escola particular são mais autoritários que os estudantes das escolas públicas?

9. Uma loja de departamentos está interessada em saber se existem diferenças entre as

quantias faturadas em três formas de pagamento: dinheiro(D), cheque(C) e cartão de crédito(CC). Um levantamento das vendas em um dado período de tempo foi feito, produzindo os dados apresentados na tabela a seguir que representam o valor de algumas vendas em reais. Existe diferença entre os tipos de vendas? (Use o nível de significância de 5%).

Formas de pagamento

D C CC 52,10 80,90 73,25 20,99 54,29 56,65 32,38 40,95 126,21 28,64 72,65 56,50

132,47 39,29 65,32 44,65 60,00 39,64

Page 173: Apostila estatística

170

Capítulo 9

REGRESSÃO LINEAR SIMPLES 1. INTRODUÇÃO

Estamos interessados em saber se existe relação entre duas variáveis, mas, além disso, temos interesse em verificar sua relação de casualidade, isto é, queremos quantificar qual é a mudança observada em uma das variáveis quando variamos os valores da outra.

O termo correlação significa relação em dois sentidos (co + relação), e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores. A verificação da existência e do grau de relação entre as variáveis é o objeto de estudo da correlação.

Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de uma função. A estimação dos parâmetros dessa função matemática é o objeto da regressão.

Os pares de valores das duas variáveis poderão ser colocados num diagrama cartesiano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de dispersão está em que, muitas vezes sua simples observação já nos dá uma idéia bastante boa de como as duas variáveis se relacionam.

Uma medida do grau e do sinal da correlação é dada pela covariância entre as duas variáveis aleatórias X e Y que é uma medida numérica de associação linear existente entre elas, e definida por:

n

yxxy

nYXCov

1, .

Porém é mais conveniente usar para medida de correlação, o coeficiente de correlação

linear de Pearson, como estimador de xy , definido por:

n

yy

n

xx

n

yxxy

rxy2

2

2

2

.

O diagrama de dispersão mostrará que a correlação será tanto mais forte quanto mais

próximo estiver o coeficiente de –1 ou +1, e será tanto mais fraca quanto mais próximo o coeficiente estiver de zero:

a) Correlação perfeita negativa ( xyr = -1): Quando os pontos estiverem perfeitamente

alinhados, mas em sentido contrário, a correlação é denominada perfeita negativa; b) Correlação negativa (-1 < xyr < 0): A correlação é considerada negativa quando

valores crescentes da variável X estiverem associados a valores decrescentes da variável Y, ou valores decrescentes de X associados a valores crescentes de Y;

Page 174: Apostila estatística

171

c) Correlação nula ( xyr = 0): Quando não houver relação entre as variáveis X e Y, ou

seja, quando os valores de X e Y ocorrerem independentemente, não existe correlação entre elas;

d) Correlação positiva (0 < xyr < 1): Será considerada positiva se os valores crescentes

de X estiverem associados a valores crescentes de Y;

e) Correlação perfeita positiva ( xyr = 1): A correlação linear perfeita positiva

corresponde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados;

f) Correlação espúria: Quando duas variáveis X e Y forem independentes, o

coeficiente de correlação será nulo. Entretanto, algumas vezes, isto não ocorre, podendo, assim mesmo, o coeficiente apresentar um valor próximo de –1 ou +1. Neste caso a correlação é espúria.

2. TESTE DO COEFICIENTE DE CORRELAÇÃO LINEAR

O coeficiente de correlação xyr é apenas uma estimativa do coeficiente de correlação

populacional xy e não devemos esquecer que o valor de xyr é calculado com base em de n

pares de dados constituindo amostras aleatórias. Muitas vezes os pontos da amostra podem apresentar uma correlação e, no entanto a população não, neste caso, estamos diante de um problema de inferência, pois xyr 0 não é garantia de que xy 0.

Podemos resolver o problema aplicando um teste de hipóteses para verificarmos se o valor de xyr é coerente com o tamanho da amostra n, a um nível de significância , que

realmente existe correlação linear entre as variáveis. Assim, 1. Hipóteses:

0:

0:

1

0

H

H

2. Fixar . 3. Estatística do teste T tem distribuição t-Student com n-2 graus de liberdade. 4. A Região Crítica será: -t t

Page 175: Apostila estatística

172

5. Calcular a Estatística 21

2

xy

xyc

r

nrt

6. Decisão: Rejeita-se ou não H0 ? Depende da Região Crítica do passo 4. Se t RCc ,

rejeita-se H0 . Caso contrário, aceita-se H0 . 7. Conclusão EXEMPLO 9.1: Em uma dada Região Bocaina, SP, acredita-se que o gado que permanece em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada para melhorar o ganho de peso dos bovinos, Foram escolhidos 15 bois de uma mesma raça e idade. Cada animal recebeu uma determinada concentração de substância X (em ml/l) e o ganho de peso G, em kg, após 30 dias foi anotado. Os dados obtidos foram:

X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 G 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 25,5 24,7 23,1

Observando a tabela de dados notamos que, de fato, à medida que aumenta a

concentração da substância, ocorre um aumento no ganho de peso. Calculando o coeficiente de correlação linear entre a concentração de X e o ganho de peso, obtemos 0.98 de forma que a variação de uma das variáveis é sensivelmente influenciada pela variação da outra, confirmando a relação entre elas.

Para observarmos como as variáveis se relacionam, construímos um gráfico de dispersão apresentado na Figura 9.1, onde nota-se que os pontos tendem a se alinhar sobre uma reta. Como mencionamos anteriormente, a figura mostra que a medida que aumenta a concentração de X ocorre aumento no ganho de peso dos animais, o que é confirmado pelo sinal positivo do coeficiente de correlação.

0.0

5.0

10.0

15.0

20.0

25.0

30.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

Concentração da Substância (mL/l)

Gan

ho d

e P

eso

(kg)

Figura 9.1: Relação entre concentração da substância e peso.

Page 176: Apostila estatística

173

Utilizando o desenvolvimento da Análise de Variância apresentada na seção anterior, iremos estudar situações como a apresentada no último exemplo. Dado o conjunto de valores representado por (Xi, Yi), i = 1,...,n, o modelo estatístico que iremos utilizar é dados por

Yi = g(Xi) + ei isto é, o comportamento de Yi é explicado em parte por Xi, através da função g(Xi) e o que não é captado por essa função, é representado por ei . Várias opções para g(Xi) podem ser utilizadas mas a que define o modelo de regressão linear simples é

g(Xi) = + Xi

Portanto, dado um valor pré-fixado xi para Xi, o modelo pode ser reescrito como

Yi = + Xi + ei

Além disso, assumimos que os termos ei , i = 1,..., n, são independentes e distribuídos

conforme um modelo Normal de média 0 e variância 2. Em modelos de regressão, a variável Yi é comumente denominada de variável resposta ou variável dependente, ao passo que cada variável Xi é chamada de variável independente, explicativa ou ainda covariável.

Como conseqüência da definição, temos que para Xi = xi , i = 1,...,n, as variáveis Yi são independentes e

Yi ~N( + Xi , 2), i = 1,…,n.

Os parâmetros do modelo sobre em que temos o maior interesse e . Além de dar a

forma matemática do modelo, eles têm interpretações muito úteis na prática. O parâmetro é o valor esperado par a variável dependente Yi quando Xi é igual a zero. Para melhor interpretar o parâmetro , considere dois valores para Xi , dados por x e x + 1 e represente por E(Y | X = x) ao valor esperado da variável resposta quando X = x. Então,

E(Yi | X = x + 1) = + (x + 1)

= ( + x) + = E(Yi | Xi = x ) +

Assim, vemos que = E(Yi | X = x + 1) - E(Yi | Xi = x ) representa o acréscimo esperado na variável resposta, quando a covariável é acrescida em uma unidade. Isto nos fornece uma idéia a respeito da intensidade com a qual a covariável atua na resposta.

Temos agora que dois procedimentos a desenvolver: a estimação dos parâmetros do modelo e o desenvolvimento de testes de hipótese de interesse.

A estimação de e pode ser feita através do método dos mínimos quadrados, que consiste em minimizar a soma de quadrados dos resíduos obtidos através da diferença entre valores observados y e valores esperados E(Y | X = x ) calculados para cada X = x. A Figura_2 ilustra essas quantidades. Note que caso o ajuste fosse perfeito, todos os pontos estariam alinhados sobre a reta e os resíduos e seriam todos iguais a zero.

Page 177: Apostila estatística

174

Figura 9.2: Resíduos mo modelo de regressão linear simples.

Portanto, dado que em geral os pontos estão perfeitamente alinhados, escolhemos a

“melhor” reta possível no sentido de minimizar, com relação a e a , a soma de quadrados SQ(, ), dada por

2

1

|),(

n

iiiii xXYEySQ

n

ii

n

iii exy

1

22

1

Matematicamente, temos que resolver o sistema de equações envolvendo as derivadas SQ(,) em relação a e . Deixemos as contas a cargo do leitor, apresentando aqui a solução para o sistema, que fornecerá os estimadores de mínimos quadrados para e , dados por

n

ii

n

iii

xnx

yxnyxexy

1

22

1ˆˆˆ

EXEMPLO 9.2: Vimos no exemplo anterior que uma reta pode ser utilizada para representar a o efeito da concentração X no ganho de peso. Para obtermos essa reta, utilizamos as

estimativas e . Temos que n = 15,

n

i

n

iiii xxyx

1 1

2 70,2;39,163;35,790 e

.21,16y Logo,

48,270,21539,163

21,1670,21535,790ˆ2

1

22

1

n

ii

n

iii

xnx

yxnyx

e assim,

52,970,248,221,16ˆˆ xy

Portanto, dado X = xi , temos que a reta ajustada fornece valores iy dados por

Page 178: Apostila estatística

175

iii xxy 48,242,9ˆˆˆ

A Figura 9.3 mostra os dados originais e a reta ajustada que foi obtida. Observe que o

modelo de regressão linear simples apresenta um ajuste adequado aos dados apresentados.

Figura 9.3: Reta ajustada aos dados de ganho de peso em bovimos.

A interpretação dos valores estimados é feita da seguinte forma. O ganho de peso esperado em bovinos que não recebem a substância X é 9,52kg (obtido substituindo Xi = 0 na equação calculada acima). Por outro lado, um aumento de 1mg/l na concentração de X implica em um ganho esperado de 2,48kg.

Teste de hipóteses envolvendo os parâmetros do modelo de regressão linear simples baseiam-se na decomposição da variação total discutida na seção anterior. O principal teste de interesse é se a covariável influencia na resposta, o que é equivalente a testar a hipótese: H0: = 0

Caso está hipótese não seja rejeitada, temos o modelo dado por: Modelo 0: Yi = + ei i = 1,..., n

Por outro lado, caso a hipótese seja rejeitada, o modelo é: Modelo 1: Yi = + Xi + ei i = 1,...,n

O Modelo 0 gera a soma de quadrados total, dada por

,1

2

n

Ii yySQT

que contém a variação total contida os dados. Por outro lado, o Modelo 1 gera a soma de quadrados residual, dada por

Page 179: Apostila estatística

176

,ˆˆRe2

1

n

iii yysSQ

que contém a variação dos dados que não é explicada pelo modelo. A diferença entre as duas fornece a chamada soma de quadrados da regressão, dada por

n

ii xx

sSQSQTgSQ

1

22ˆ

ReRe

Note que SQT envolve a média y , e assim, temos n-1 graus de liberdade associados a

essa quantidade; sSQ Re envolve duas estimativas, e , e assim temos n-2 graus de liberdade. Logo, para gSQ Re temos n – 1 – (n - 2) = 1 grau de liberdade. Conseqüentemente, definimos quadrados médios por

2

ReRe,

12

n

sSQsQMS

n

SQTQMT e

1

ReRe

gSQgQM

Onde, dessa forma, a razão dada por

sQM

gQMF

Re

Re

é a estatística de teste para verificar a hipótese de interesse. Pode ser mostrado que F tem distribuição de Fisher com 1 e n-2 graus de liberdade. Em resumo, construímos a tabela de ANOVA para o modelo iii eXY , dada por:

Fonte de Variação

Grau de Liberdade

Soma de Quadrados

Quadrado Médio

F

Regressão 1 gSQ Re gQM Re sQMgQM ReReResidual 2n sSQ Re sQM Re -

Total 1n SQT QMT - EXEMPLO 9.3: Para o Exemplo1, que estuda o ganho de peso de bovinos, a evidência estatística a respeito da influência da concentração de X no ganho de peso é obtida através do teste de hipótese: 0:0 H contra 0:1 H .

Para obter os valores de gQM Re e sQM Re pode-se usar a planilha eletrônica.

Temos,

37,33204,5448,2ˆRe 2

1

22

n

ii xxgSQ

Page 180: Apostila estatística

177

;34,12ˆˆRe2

1

n

iii yysSQ

em que as contas intermediárias são apresentadas na tabela a seguir.

i 2ˆˆ ii yy 2xxi

1 0,25 6,25 2 0,58 4,84 3 1,92 4,41 4 0,95 4,00 5 0,00 2,89 6 0,24 1,44 7 0,02 0,49 8 0,39 0,04 9 0,40 0,09 10 0,18 0,64 11 0,34 1,69 12 0,40 3,24 13 2,68 5,29 14 2,54 7,84 15 1,46 10,89

Total 12,34 54,04

A tabela da variância para o modelo de regressão proposto fica

Fonte de Variação

Grau de Liberdade

Soma de Quadrados

Quadrado Médio

F

Regressão 1 332,37 332,37 349,86 Residual 13 12,34 0,95

Total 14 344,71 24,62

O valor crítico é obtido da distribuição de Fisher com 1 e 13 graus de liberdade. Nesse caso, considerando um nível de significância = 0,01 obtemos f = 9,07.

Como 86,349obsF pertence a RC, então, rejeitamos a hipótese nula e concluímos

que existem evidências estatísticas de que a concentração da substância X altera o ganho de peso.

f = 9,07

Page 181: Apostila estatística

178

3. APLICAÇÕES NO ACTION

Page 182: Apostila estatística

179

Page 183: Apostila estatística

180

EXERCÍCIOS 1. Um estudo deseja avaliar o efeito de determinado treinamento no tempo de reação de

atletas. O treinamento consiste na repetição de certo movimento e uma amostra de 37 atletas foi utilizada no experimento. Para cada atleta, um certo número de repetições foi atribuído, denotado por X e o tempo de reação denotado por Y, foi medido (em ms). Uma reta de mínimos quadrados foi ajustada aos dados, fornecendo a equação.

nixy ii ,,190,05,80

Interprete as estimativas, dos parâmetros do modelo, obtidas.

2. Para verificar o efeito da variável X sobre a variável Y, foi realizado um experimento, que forneceu os pares ii yx , dados por 9,15;5,3,24;7,3,13;3 ,

.6,4;1,0,12;2,6,32;8,3,23;5,5,14;3,5,29;7,6,29;9,8,12;2 Obtenha a reta ajustada. Faça o diagrama de dispersão baseando-se nos pares de valores fornecidos e sobreponha à reta ajustada. Baseando-se apenas no gráfico você diria que o ajuste é adequado?

3. Para verificar se existe relação entre a renda familiar (em salários mínimos) e o número de filhos, foi coletada uma amostra de 8 famílias em uma cidade. Os resultados obtidos estão na tabela a seguir:

Renda Familiar 12 14 15 17 23 27 34 43 Filhos 3 2 2 1 1 0 0 0

a) Que conclusões podem ser tiradas baseando-se em um diagrama de dispersão e no

coeficiente de correlação? b) Calcule a reta de mínimos quadrados e interprete os parâmetros. Realize o teste

estatístico para verificar se a renda influi no número de filhos, considerando = 5%. 4. Um estudo foi conduzido para verificar se as pessoas estimam os prórpios pesos

corretamente. No experimento realizado, 15 pessoas foram selecionadas ao acaso e a cada uma delas perguntou-se os pesos, que depois foram aferidos em balanças devidamente calibradas. Os resultados são apresentados a seguir:

Indivíduo

Peso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Estimado 82 58 69 70 54 62 92 75 45 81 78 65 56 63 70 Real 83 57 73 76 55 60 98 74 44 82 76 67 54 60 71

O que pode ser concluído a partir dos dados?

Page 184: Apostila estatística

181

5. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).

Massa muscular (Y) Idade (X)

82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 105.0 49.0 77.0 78.0 73.0 73.0 78.0 68.0

a) Construa o diagrama de dispersão e interprete-o. b) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular

(dependente) e X: idade (independente). c) Considerando a reta estimada dada no item (c), estime a massa muscular média de

mulheres com 50 anos

6. Um pesquisador deseja verificar se um instrumento para medir a concentração de

determinada substância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo:

X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0 Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1

a) Construa o diagrama de dispersão para esses dados. b) Trace no gráfico a reta com 45º de inclinação passando pela origem. Como essa reta

pode ser útil na avaliação do instrumento? c) Obtenha a reta de regressão da variável Y em função de X. d) Com base nos itens anteriores tire conclusões sobre a eficiência do instrumento.

Page 185: Apostila estatística

182

Capítulo 10

Tabelas e Figuras

A seguir estão todas as tabelas apresentadas nos capítulos anteriores necessárias a

aplicação dos diversos métodos estatísticos de análise de dados.

Page 186: Apostila estatística

183

Tabela 1 – Valores tabulados da distribuição Normal

(continua)

z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0

...

-3,7 ... etc <0,00010 0,0001 0,00011

-3,6 0,00011 0,00012 0,00012 0,00013 0,00013 0,00014 0,00014 0,00015 0,00015 0,00016

-3,5 0,00017 0,00017 0,00018 0,00019 0,00019 0,0002 0,00021 0,00022 0,00022 0,00023

-3,4 0,00024 0,00025 0,00026 0,00027 0,00028 0,00029 0,0003 0,00031 0,00032 0,00034

-3,3 0,00035 0,00036 0,00038 0,00039 0,0004 0,00042 0,00043 0,00045 0,00047 0,00048

-3,2 0,0005 0,00052 0,00054 0,00056 0,00058 0,0006 0,00062 0,00064 0,00066 0,00069

-3,1 0,00071 0,00074 0,00076 0,00079 0,00082 0,00084 0,00087 0,0009 0,00094 0,00097

-3,0 0,001 0,00104 0,00107 0,00111 0,00114 0,00118 0,00122 0,00126 0,00131 0,00135

-2,9 0,00139 0,00144 0,00149 0,00154 0,00159 0,00164 0,00169 0,00175 0,00181 0,00187

-2,8 0,00193 0,00199 0,00205 0,00212 0,00219 0,00226 0,00233 0,0024 0,00248 0,00256

-2,7 0,00264 0,00272 0,0028 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 0,00347

-2,6 0,00357 0,00368 0,00379 0,00391 0,00402 0,00415 0,00427 0,0044 0,00453 0,00466

-2,5 0,0048 0,00494 0,00508 0,00523 0,00539 0,00554 0,0057 0,00587 0,00604 0,00621

-2,4 0,00639 0,00657 0,00676 0,00695 0,00714 0,00734 0,00755 0,00776 0,00798 0,0082

-2,3 0,00842 0,00866 0,00889 0,00914 0,00939 0,00964 0,0099 0,01017 0,01044 0,01072

-2,2 0,01101 0,0113 0,0116 0,01191 0,01222 0,01255 0,01287 0,01321 0,01355 0,0139

-2,1 0,01426 0,01463 0,015 0,01539 0,01578 0,01618 0,01659 0,017 0,01743 0,01786

-2,0 0,01831 0,01876 0,01923 0,0197 0,02018 0,02068 0,02118 0,02169 0,02222 0,02275

-1,9 0,0233 0,02385 0,02442 0,025 0,02559 0,02619 0,0268 0,02743 0,02807 0,02872

-1,8 0,02938 0,03005 0,03074 0,03144 0,03216 0,03288 0,03362 0,03438 0,03515 0,03593

-1,7 0,03673 0,03754 0,03836 0,0392 0,04006 0,04093 0,04182 0,04272 0,04363 0,04457

-1,6 0,04551 0,04648 0,04746 0,04846 0,04947 0,0505 0,05155 0,05262 0,0537 0,0548

-1,5 0,05592 0,05705 0,05821 0,05938 0,06057 0,06178 0,06301 0,06426 0,06552 0,06681

-1,4 0,06811 0,06944 0,07078 0,07215 0,07353 0,07493 0,07636 0,0778 0,07927 0,08076

-1,3 0,08226 0,08379 0,08534 0,08692 0,08851 0,09012 0,09176 0,09342 0,0951 0,0968

-1,2 0,09853 0,10027 0,10204 0,10383 0,10565 0,10749 0,10935 0,11123 0,11314 0,11507

-1,1 0,11702 0,119 0,121 0,12302 0,12507 0,12714 0,12924 0,13136 0,1335 0,13567

-1,0 0,13786 0,14007 0,14231 0,14457 0,14686 0,14917 0,15151 0,15386 0,15625 0,15866

-0,9 0,16109 0,16354 0,16602 0,16853 0,17106 0,17361 0,17619 0,17879 0,18141 0,18406

-0,8 0,18673 0,18943 0,19215 0,19489 0,19766 0,20045 0,20327 0,20611 0,20897 0,21186

-0,7 0,21476 0,2177 0,22065 0,22363 0,22663 0,22965 0,2327 0,23576 0,23885 0,24196

-0,6 0,2451 0,24825 0,25143 0,25463 0,25785 0,26109 0,26435 0,26763 0,27093 0,27425

-0,5 0,2776 0,28096 0,28434 0,28774 0,29116 0,2946 0,29806 0,30153 0,30503 0,30854

-0,4 0,31207 0,31561 0,31918 0,32276 0,32636 0,32997 0,3336 0,33724 0,3409 0,34458

-0,3 0,34827 0,35197 0,35569 0,35942 0,36317 0,36693 0,3707 0,37448 0,37828 0,38209

-0,2 0,38591 0,38974 0,39358 0,39743 0,40129 0,40517 0,40905 0,41294 0,41683 0,42074

-0,1 0,42465 0,42858 0,43251 0,43644 0,44038 0,44433 0,44828 0,45224 0,4562 0,46017

0 0,46414 0,46812 0,4721 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 0,5

z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0

Page 187: Apostila estatística

184

Tabela 1 – (continuação)

(conclusão)

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0 0,5 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,5279 0,53188 0,53586

0,1 0,53983 0,5438 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535

0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409

0,3 0,61791 0,62172 0,62552 0,6293 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173

0,4 0,65542 0,6591 0,66276 0,6664 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793

0,5 0,69146 0,69497 0,69847 0,70194 0,7054 0,70884 0,71226 0,71566 0,71904 0,7224

0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,7549

0,7 0,75804 0,76115 0,76424 0,7673 0,77035 0,77337 0,77637 0,77935 0,7823 0,78524

0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327

0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214

1,1 0,86433 0,8665 0,86864 0,87076 0,87286 0,87493 0,87698 0,879 0,881 0,88298

1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147

1,3 0,9032 0,9049 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774

1,4 0,91924 0,92073 0,9222 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189

1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408

1,6 0,9452 0,9463 0,94738 0,94845 0,9495 0,95053 0,95154 0,95254 0,95352 0,95449

1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,9608 0,96164 0,96246 0,96327

1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062

1,9 0,97128 0,97193 0,97257 0,9732 0,97381 0,97441 0,975 0,97558 0,97615 0,9767

2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,9803 0,98077 0,98124 0,98169

2,1 0,98214 0,98257 0,983 0,98341 0,98382 0,98422 0,98461 0,985 0,98537 0,98574

2,2 0,9861 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,9884 0,9887 0,98899

2,3 0,98928 0,98956 0,98983 0,9901 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158

2,4 0,9918 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361

2,5 0,99379 0,99396 0,99413 0,9943 0,99446 0,99461 0,99477 0,99492 0,99506 0,9952

2,6 0,99534 0,99547 0,9956 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643

2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,9972 0,99728 0,99736

2,8 0,99744 0,99752 0,9976 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807

2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,999

3,1 0,99903 0,99906 0,9991 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929

3,2 0,99931 0,99934 0,99936 0,99938 0,9994 0,99942 0,99944 0,99946 0,99948 0,9995

3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,9996 0,99961 0,99962 0,99964 0,99965

3,4 0,99966 0,99968 0,99969 0,9997 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976

3,5 0,99977 0,99978 0,99978 0,99979 0,9998 0,99981 0,99981 0,99982 0,99983 0,99983

3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989

3,7 0,99989 0,9999 >0,99990 etc...

...

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

Page 188: Apostila estatística

185

Tabela 2 – Valores tabulados da distribuição Qui-Quadrado

0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001

1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827

2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815

3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266

4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466

5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515

6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457

7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321

8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124

9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877

10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588

11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264

12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909

13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527

14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124

15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698

16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252

17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791

18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312

19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819

20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314

21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796

22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268

23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728

24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179

25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619

26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051

27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475

28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892

29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301

30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702

40 20.707 24.433 29.051 39.335 51.805 55.758 59.342 63.691 66.766 73.403

50 27.991 32.357 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.660

60 35.534 40.482 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.608

70 43.275 48.758 55.329 69.334 85.527 90.531 95.023 100.425 104.215 112.317

80 51.172 57.153 64.278 79.334 96.578 101.879 106.629 112.329 116.321 124.839

90 59.196 65.647 73.291 89.334 107.565 113.145 118.136 124.116 128.299 137.208

100 67.328 74.222 82.358 99.334 118.498 124.342 129.561 135.807 140.170 149.449

120 83.852 91.573 100.624 119.334 140.233 146.567 152.211 158.950 163.648 173.618

Page 189: Apostila estatística

186

Tabela 3 – Valores tabulados da distribuição t-Student

0,2 0,15 0,1 0,05 0,025 0,02 0,015 0,01 0,005

GL 1,37638 1,96261 3,07768 6,31375 12,70615 15,89447 21,20505 31,82096 63,6559

2 1,06066 1,38621 1,88562 2,91999 4,30266 4,84873 5,6428 6,96455 9,92499

3 0,97847 1,24978 1,63775 2,35336 3,18245 3,48191 3,89606 4,54071 5,84085

4 0,94096 1,18957 1,53321 2,13185 2,77645 2,99853 3,29763 3,74694 4,60408

5 0,91954 1,15577 1,47588 2,01505 2,57058 2,75651 3,00288 3,36493 4,03212

6 0,9057 1,13416 1,43976 1,94318 2,44691 2,61224 2,82893 3,14267 3,70743

7 0,89603 1,11916 1,41492 1,89458 2,36462 2,51675 2,71457 2,99795 3,49948

8 0,88889 1,10815 1,39682 1,85955 2,30601 2,44899 2,63381 2,89647 3,35538

9 0,8834 1,09972 1,38303 1,83311 2,26216 2,39844 2,57381 2,82143 3,24984

10 0,87|906 1,09306 1,37218 1,81246 2,22814 2,35931 2,52749 2,76377 3,16926

11 0,87553 1,08767 1,36343 1,79588 2,20099 2,32814 2,49067 2,71808 3,10582

12 0,87261 1,08321 1,35622 1,78229 2,17881 2,30272 2,4607 2,68099 3,05454

13 0,87015 1,07947 1,35017 1,77093 2,16037 2,2816 2,43585 2,6503 3,01228

14 0,86805 1,07628 1,34503 1,76131 2,14479 2,26378 2,4149 2,62449 2,97685

15 0,86624 1,07353 1,34061 1,75305 2,13145 2,24854 2,39701 2,60248 2,94673

16 0,86467 1,07114 1,33676 1,74588 2,1199 2,23536 2,38155 2,58349 2,92079

17 0,86328 1,06903 1,33338 1,73961 2,10982 2,22384 2,36805 2,56694 2,89823

18 0,86205 1,06717 1,33039 1,73406 2,10092 2,2137 2,35618 2,55238 2,87844

19 0,86095 1,06551 1,32773 1,72913 2,09302 2,2047 2,34565 2,53948 2,86094

20 0,85996 1,06402 1,32534 1,72472 2,08596 2,19666 2,33625 2,52798 2,84534

21 0,85907 1,06267 1,32319 1,72074 2,07961 2,18943 2,32779 2,51765 2,83137

22 0,85827 1,06145 1,32124 1,71714 2,07388 2,18289 2,32016 2,50832 2,81876

23 0,85753 1,06034 1,31946 1,71387 2,06865 2,17696 2,31323 2,49987 2,80734

24 0,85686 1,05932 1,31784 1,71088 2,0639 2,17155 2,30692 2,49216 2,79695

25 0,85624 1,05838 1,31635 1,70814 2,05954 2,16659 2,30113 2,4851 2,78744

26 0,85567 1,05752 1,31497 1,70562 2,05553 2,16203 2,29581 2,47863 2,77872

27 0,85514 1,05673 1,3137 1,70329 2,05183 2,15782 2,29092 2,47266 2,77068

28 0,85465 1,05599 1,31253 1,70113 2,04841 2,15394 2,28638 2,46714 2,76326

29 0,85419 1,0553 1,31143 1,69913 2,04523 2,15033 2,28218 2,46202 2,75639

30 0,85377 1,05466 1,31042 1,69726 2,04227 2,14697 2,27827 2,45726 2,74998

35 0,85201 1,05202 1,30621 1,68957 2,03011 2,13316 2,26219 2,43772 2,72381

40 0,8507 1,05005 1,30308 1,68385 2,02107 2,12291 2,25027 2,42326 2,70446

45 0,84968 1,04852 1,30065 1,67943 2,0141 2,115 2,24109 2,41212 2,68959

50 0,84887 1,04729 1,29871 1,67591 2,00856 2,10872 2,23378 2,40327 2,67779

60 0,84765 1,04547 1,29582 1,67065 2,0003 2,09936 2,22292 2,39012 2,66027

70 0,84679 1,04417 1,29376 1,66692 1,99444 2,09273 2,21523 2,3808 2,6479

80 0,84614 1,04319 1,29222 1,66413 1,99007 2,08778 2,20949 2,37387 2,6387

90 0,84563 1,04244 1,29103 1,66196 1,98667 2,08394 2,20504 2,3685 2,63157

100 0,84523 1,04184 1,29008 1,66023 1,98397 2,08088 2,2015 2,36421 2,62589

110 0,8449 1,04134 1,2893 1,65882 1,98177 2,07839 2,1986 2,36072 2,62127

120 0,84463 1,04093 1,28865 1,65765 1,97993 2,07631 2,1962 2,35783 2,61742

∞ 0,84198 1,03697 1,2824 1,64638 1,96234 2,05643 2,17319 2,33008 2,58075

Page 190: Apostila estatística

187

Tabela 4 – Valores tabulados da distribuição F

(continua) GL num.

GL den. p 1 2 3 4 5 6 7 8 9 10

0.100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 0.050 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 1 0.010 4052.20 4999.30 5403.50 5624.30 5764.00 5859.00 5928.30 5981.00 6022.40 6055.90

0.100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 0.050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 2 0.010 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40

0.100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 0.050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 3 0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23

0.100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 0.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 4 0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55

0.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 0.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 5 0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05

0.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 0.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 6 0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87

0.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 0.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 7 0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62

0.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 0.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 8 0.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81

Page 191: Apostila estatística

188

Tabela 4 – Valores tabulados da distribuição F

(conclusão) GL num.

GL den. p 1 2 3 4 5 6 7 8 9 10

0.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 0.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 9 0.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26

0.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 0.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 10 0.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85

0.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 0.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 12 0.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30

0.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 0.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 14 0.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94

0.100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 0.050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 16 0.010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69

0.100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 0.050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 18 0.010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51

0.100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 0.050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 20 0.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37

0.100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 0.050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 40 0.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80

Page 192: Apostila estatística

189

Tabela 5 – Valores tabulados do teste de Kolmogorov-Smirnov

Nível de significância para n

0.20 0.15 0.10 0.05 0.01

1 0.900 0.925 0.950 0.975 0.995 2 0.684 0.726 0.776 0.842 0.929 3 0.565 0.597 0.642 0.708 0.828 4 0.494 0.525 0.564 0.624 0.733 5 0.446 0.474 0.510 0.565 0.669

6 0.410 0.436 0.470 0.521 0.618 7 0.381 0.405 0.438 0.486 0.577 8 0.358 0.381 0.411 0.457 0.543 9 0.339 0.360 0.388 0.432 0.514

10 0.322 0.342 0.368 0.410 0.490

11 0.307 0.326 0.352 0.391 0.468 12 0.295 0.313 0.338 0.375 0.450 13 0.284 0.302 0.325 0.361 0.433 14 0.274 0.292 0.314 0.349 0.418 15 0.266 0.283 0.304 0.338 0.404

16 0.258 0.274 0.295 0.328 0.392 17 0.250 0.266 0.286 3.180 0.381 18 0.244 0.259 0.278 0.309 0.371 19 0.237 0.252 0.272 0.301 0.363 20 0.231 0.246 0.264 0.294 0.356

25 0.210 0.220 0.240 0.270 0.320 30 0.190 0.200 0.220 0.240 0.290 35 0.180 0.190 0.210 0.230 0.270

>35 n

07,1

n

14,1

n

22,1

n

36,1

n

63,1

( ) ( )obs espD m áx F X F X

Page 193: Apostila estatística

190

Tabela 6 – Valores tabulados do teste de Lilliefors

n 0,10 0,05 0,01

4 .352 .381 .417 5 .315 .337 .405 6 .294 .319 .364 7 .276 .300 .348 8 .261 .285 .331 9 .249 .271 .311 10 .239 .258 .294 11 .230 .249 .284 12 .223 .242 .275 13 .214 .234 .268 14 .207 .227 .261 15 .201 .220 .257 16 .195 .213 .250 17 .189 .206 .245 18 .184 .200 .239 19 .179 .195 .235 20 .174 .190 .231 25 .158 .173 .200 30 .144 .161 .187

>30 n

805,0

n

886,0

n

031,1

Page 194: Apostila estatística

191

Tabela 7A – Valores tabulados do teste U de Mann-Whitney

Page 195: Apostila estatística

192

Tabela 7B – Valores tabulados do teste U de Mann-Whitney

Page 196: Apostila estatística

193

Tabela 7C – Valores tabulados do teste U de Mann-Whitney

Page 197: Apostila estatística

194

Tabela 7D – Valores tabulados do teste U de Mann-Whitney

Valores críticos de U para uma prova unilateral com = 0,001 e uma prova bilateral com =0,002.

Page 198: Apostila estatística

195

Tabela 7E – Valores tabulados do teste U de Mann-Whitney

Valores críticos de U para uma prova unilateral com = 0,01 e uma prova bilateral com =0,02.

Page 199: Apostila estatística

196

Tabela 7F – Valores tabulados do teste U de Mann-Whitney

Valores críticos de U para uma prova unilateral com = 0,025 e uma prova bilateral com =0,05.

Page 200: Apostila estatística

197

Tabela 7G – Valores tabulados do teste U de Mann-Whitney

Valores críticos de U para uma prova unilateral com = 0,05 e uma prova bilateral com =0,10.

Page 201: Apostila estatística

198

Tabela 8 – Valores tabulados do teste de Wilcoxon

Nível de significância para teste unilateral

0.025 0.010 0.005

Nível de significância para teste bilateral n

0.050 0.020 0.010

6 0 - - 7 2 0 - 8 4 2 0 9 6 3 2

10 8 5 3

11 11 7 5 12 14 10 7 13 17 13 10 14 21 16 13 15 25 20 16

16 30 24 20 17 35 28 23 18 40 33 28 19 46 38 32 20 52 43 38

21 59 49 43 22 66 56 49 23 73 62 55 24 81 69 61 25 89 77 68

Page 202: Apostila estatística

199

Tabela 9A – Valores tabulados do teste de Kruskal-Wallis.

n1 n2 n3 H p n1 n2 n3 H p 2 1 1 2.7000 0.500 4 3 2 6.4444 0.008 6.3000 0.011

2 2 1 3.6000 0.200 5.4444 0.046 5.4000 0.051

2 2 2 4.5714 0.067 4.5111 0.098 3.7143 0.200 4.4444 0.102

3 1 1 3.2000 0.300 4 3 3 6.7455 0.010 6.7091 0.013

3 2 1 4.2857 0.100 5.7909 0.046 3.8571 0.133 5.7273 0.050 4.7091 0.092

3 2 2 5.3752 0.029 4.7000 0.101 4.7143 0.048 4.5000 0.067 4 4 1 6.6667 0.010 4.4643 0.105 6.1667 0.022 4.9667 0.048

3 3 1 5.1429 0.043 4.8667 0.054 4.5714 0.100 4.1667 0.082 4.0000 0.129 4.0667 0.102

3 3 2 6.2500 0.011 4 4 2 7.0364 0.006 5.3611 0.032 6.8727 0.011 5.1389 0.061 5.4545 0.046 4.5556 0.100 5.2364 0.052 4.2500 0.121 4.5545 0.098 4.4455 0.103

3 3 3 7.2000 0.004 6.4889 0.011 4 4 3 7.1439 0.010 5.6889 0.029 7.1364 0.011 5.6000 0.050 5.5985 0.049 5.0667 0.086 5.5758 0.051 4.6222 0.100 4.5455 0.099 4.4773 0.102

4 1 1 3.5714 0.200 4 4 4 7.6538 0.008

4 2 1 4.8214 0.057 7.5385 0.011 4.5000 0.076 5.6923 0.049 4.0179 0.114 5.6538 0.054 4.6539 0.097

4 2 2 6.0000 0.014 4.5001 0.104 5.3330 0.033 5.1250 0.052 5 1 1 3.8571 0.143 4.4583 0.100 4.1667 0.105 5 2 1 5.2500 0.036 5.0000 0.048

4 3 1 5.8333 0.021 4.4500 0.071 5.2083 0.050 4.2000 0.095 5.0000 0.057 4.0500 0.119 4.0556 0.093 3.8889 0.129

Page 203: Apostila estatística

200

Tabela 9B – Valores tabulados do teste de Kruskal-Wallis.

n1 n2 n3 H p n1 n2 n3 H p 5 2 2 6.5333 0.008 5.6308 0.050 6.1333 0.013 4.5487 0.099 5.1600 0.034 4.5231 0.103 5.0400 0.056 4.3733 0.090 5 4 4 7.7604 0.009 4.2933 0.122 7.7440 0.011 5.6571 0.049

5 3 1 6.4000 0.012 5.6176 0.050 4.9600 0.048 4.6187 0.100 4.8711 0.052 4.5527 0.102 4.0178 0.095 3.8400 0.123 5 5 1 7.3091 0.009 6.8364 0.011

5 3 2 6.9091 0.009 5.1273 0.046 6.8218 0.010 4.9091 0.053 5.2509 0.049 4.1091 0.086 5.1055 0.052 4.0364 0.105 4.6509 0.091 4.4945 0.101 5 5 2 7.3385 0.010 7.2692 0.010

5 3 3 7.0788 0.009 5.3385 0.047 6.9818 0.011 5.2462 0.051 5.6485 0.049 4.6231 0.097 5.5152 0.051 4.5077 0.100 4.5333 0.097 4.4121 0.109 5 5 3 7.5780 0.010 7.5429 0.010

5 4 1 6.9545 0.008 5.7055 0.046 6.8400 0.011 5.6264 0.051 4.9855 0.044 4.5451 0.100 4.8600 0.056 4.5363 0.102 3.9873 0.098 3.9600 0.102 5 5 4 7.8229 0.010 7.7914 0.010

5 4 2 7.2045 0.009 5.6657 0.049 7.1182 0.010 5.6429 0.050 5.2727 0.049 4.5229 0.099 5.2682 0.050 4.5200 0.101 4.5409 0.098 4.5182 0.101 5 5 5 8.0000 0.009 7.9800 0.010

5 4 3 7.4449 0.010 5.7800 0.049 7.3949 0.011 5.6600 0.051 5.6564 0.049 4.5600 0.100 4.5000 0.102

Page 204: Apostila estatística

201

Tabela 10A – DMS para comparações múltiplas baseadas no teste de Kruskal-Wallis

k = número de tratamento n = número de observações por tratamento

n DMS n DMS n DMS k=3 k=5 k=10

2 8 0,067 4 44 0,056 2 33 0,050 46 0,033 34 0,025

3 15 0,064 50 0,010 35 0,009 16 0,029 17 0,011 k=6 k=11 2 19 0,030 2 37 0,040

4 24 0,045 20 0,010 38 0,020 25 0,031 39 0,008 27 0,011 3 35 0,055 37 0,024 k=12

5 33 0,048 39 0,009 2 40 0,062 35 0,031 41 0,033 39 0,009 k=7 43 0,006 2 22 0,056

6 43 0,049 23 0,021 k=13 51 0,011 24 0,007 2 44 0,052 45 0,028 k=4 3 42 0,054 46 0,014

2 12 0,029 44 0,026 46 0,012 k=14

3 22 0,043 2 48 0,044 23 0,023 k=8 49 0,024 24 0,012 2 26 0,041 50 0,012 28 0,005

4 34 0,049 k=15 36 0,026 3 49 0,055 2 52 0,038 38 0,012 51 0,029 54 0,010 54 0,010 k=5

2 15 0,048 k=9 16 0,016 2 29 0,063 30 0,031

3 28 0,060 31 0,012 30 0,023 32 0,007

Page 205: Apostila estatística

202

Tabela 10B – Limites da distribuição de h no teste de Kruskal-Wallis.

n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h 1 1 4 3,571 0,200 1 4 5 4,860 0,0856 2 3 3 3,778 0,200 4,986 0,044 4,556 0,108

1 1 5 3,857 0,143 6,840 0,011 5,139 0,061 6,954 0,008 5,556 0,026

1 2 2 3,600 0,200 7,364 0,005 6,250 0,011

1 2 3 3,524 0,200 1 5 5 2,946 0,227 2 3 4 3,311 0,203 4,286 0,100 3,236 0,108 3,444 0,197 4,036 0,105 4,444 0,102

1 2 4 3,161 0,190 4,109 0,086 4,511 0,098 4,018 0,114 4,909 0,053 5,400 0,051 4,821 0,057 5,127 0,046 5,444 0,046 6,836 0,011 6,300 0,011

1 2 5 3,333 0,190 7,309 0,009 6,444 0,008 4,200 0,095 7,746 0,005 7,000 0,005 5,000 0,048 8,182 0,002 5,250 0,036 2 3 5 3,386 0,201 2 2 2 3,714 0,200 3,414 0,193

1 3 3 3,286 0,157 4,571 0,867 4,494 0,101 4,571 0,100 4,651 0,091 4,200 0,095 2 2 3 3,750 0,219 5,106 0,052 5,000 0,048 3,929 0,181 5,251 0,049 5,143 0,043 4,464 0,105 6,822 0,010 5,250 0,036 4,500 0,067 6,909 0,009 4,714 0,048 6,949 0,006

1 3 4 3,208 0,200 5,357 0,029 7,182 0,004 4,056 0,093 5,208 0,050 2 2 4 3,458 0,210 2 3 6 5,227 0,052 5,833 0,021 3,667 0,190 5,348 0,046 4,458 0,100 6,061 0,026

1 3 5 3,218 0,190 5,125 0,052 6,136 0,023 4,018 0,095 5,500 0,024 6,727 0,011 4,871 0,052 6,000 0,014 6,970 0,009 4,960 0,048 6,400 0,012 2 2 5 3,333 0,206 2 4 4 3,354 0,210 3,360 0,196 3,464 0,192

1 4 4 3,000 0,222 4,293 0,122 4,446 0,103 3,267 0,178 4,373 0,090 4,554 0,098 4,067 0,102 5,040 0,056 5,236 0,052 4,867 0,054 6,133 0,013 5,454 0,046 4,967 0,048 6,533 0,008 6,546 0,020 6,682 0,010 6,873 0,011 2 2 6 5,016 0,050 7,036 0,006

1 4 5 3,000 0,208 5,345 0,038 7,854 0,002 3,087 0,194 5,527 0,036 3,960 0,102 5,745 0,021 2 4 5 3,364 0,200 3,982 0,098 6,545 0,011 4,518 0,101 6,854 0,008 4,541 0,098 5,268 0,051

Page 206: Apostila estatística

203

Tabela 10C – Limites da distribuição de h no teste de Kruskal-Wallis.

(continua)

n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h 2 4 5 5,273 0,048 3 3 4 6,746 0,010 3 4 5 7,641 0,007 6,504 0,020 7,000 0,006 7,906 0,005 7,118 0,010 7,310 0,004 8,446 0,002 7,500 0,007 7,430 0,002 8,503 0,001 7,573 0,005 8,018 0,001 9,118 0,001 8,114 0,001 3 3 5 3,394 0,209 3 4 6 5,604 0,050

2 4 6 5,263 0,050 3,442 0,196 5,610 0,049 5,340 0,049 4,412 0,109 6,500 0,025 6,109 0,025 4,533 0,097 6,538 0,025 6,186 0,024 5,515 0,051 7,467 0,010 7,212 0,011 5,648 0,049 7,500 0,010 7,340 0,010 6,303 0,026 6,376 0,020 3 5 5 3,306 0,202

2 5 5 3,369 0,203 6,982 0,011 3,429 0,195 3,392 0,198 7,079 0,009 3,798 0,152 4,508 0,100 7,467 0,006 4,545 0,100 5,246 0,051 7,515 0,005 4,993 0,075 5,338 0,047 8,048 0,002 5,626 0,051 6,346 0,025 8,242 0,001 5,706 0,046 6,446 0,020 8,727 0,001 6,488 0,025 7,269 0,010 6,752 0,021 7,762 0,007 3 3 6 5,551 0,051 6,866 0,019 8,131 0,005 5,615 0,050 7,543 0,010 8,685 0,001 6,385 0,025 7,894 0,007 6,436 0,022 8,237 0,005 7,192 0,010 8,334 0,005 7,410 0,008 8,950 0,002 9,055 0,001 9,398 0,001

Page 207: Apostila estatística

204

Tabela 10C – Limites da distribuição de h no teste de Kruskal-Wallis.

(conclusão)

n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h 2 5 6 5,319 0,050 3 4 4 3,394 0,201 3 5 6 5,554 0,052 5,338 0,047 3,417 0,195 5,600 0,050 6,189 0,026 3,848 0,150 6,621 0,026 6,196 0,025 4,477 0,102 6,867 0,024 7,299 0,010 4,540 0,099 7,560 0,010 7,376 0,010 5,576 0,051 7,590 0,010 5,598 0,049

2 6 6 5,352 0,051 6,394 0,025 3 6 6 5,600 0,052 5,410 0,050 6,659 0,020 5,625 0,050 6,171 0,026 7,144 0,010 6,683 0,025 6,210 0,024 7,636 0,004 6,725 0,025 7,410 0,010 8,227 0,002 7,683 0,010 7,467 0,010 8,909 0,001 7,725 0,010

3 3 3 3,467 0,196 3 4 5 3,312 0,204 4 4 4 3,231 0,212 4,622 0,100 3,318 0,199 3,500 0,197 5,600 0,050 3,831 0,150 3,846 0,151 5,956 0,025 4,523 0,103 3,962 0,145 6,489 0,011 4,549 0,099 4,500 0,104 7,200 0,004 4,939 0,075 4,654 0,097 5,631 0,050

3 3 4 3,391 0,196 6,410 0,025 3,836 0,150 6,676 0,020 4,700 0,101 7,445 0,010 4,709 0,092 5,727 0,050 6,154 0,025

Page 208: Apostila estatística

205

Tabela 10D – Limites da distribuição de h no teste de Kruskal-Wallis.

n1 n2 n3 h n1 n2 n3 h n1 n2 n3 h 4 4 4 5,115 0,074 4 5 5 3,311 0,200 5 5 5 5,040 0,075 5,654 0,055 3,846 0,151 5,660 0,051 5,692 0,049 3,883 0,148 5,780 0,049 6,577 0,026 4,520 0,101 6,740 0,025 6,615 0,024 4,523 0,098 7,020 0,020 8,731 0,021 5,023 0,075 7,980 0,011 6,962 0,019 5,643 0,050 8,000 0,009 7,538 0,011 6,671 0,025 8,060 0,009 7,731 0,007 6,760 0,025 8,420 0,007 8,000 0,005 6,943 0,020 8,720 0,005 8,346 0,002 7,766 0,010 8,820 0,005 8,654 0,001 7,860 0,010 9,420 0,002 9,269 0,001 8,226 0,007 9,620 0,002 8,371 0,005 9,680 0,001

4 4 5 3,330 0,200 8,543 0,005 10,220 0,001 3,826 0,151 9,163 0,002 4,819 0,100 9,323 0,001 5 5 6 5,698 0,050 5,014 0,076 9,926 0,001 5,729 0,050 5,024 0,074 6,781 0,025 5,618 0,050 4 5 6 5,656 0,051 6,788 0,025 6,597 0,026 5,661 0,050 8,012 0,010 6,676 0,024 6,736 0,025 8,028 0,010 6,943 0,020 6,750 0,025 7,744 0,011 7,896 0,010 5 6 6 5,752 0,050 7,760 0,009 7,936 0,010 5,765 0,050 7,810 0,009 6,838 0,025 8,140 0,005 4 6 6 5,721 0,050 6,848 0,025 8,189 0,005 5,724 0,050 8,119 0,010 8,782 0,002 6,783 0,025 8,124 0,010 8,997 0,001 6,812 0,024 8,680 0,001 7,989 0,010 6 6 6 5,719 0,050 8,000 0,010 5,801 0,049

4 4 6 5,867 0,050 5,877 0,026 5,891 0,049 5 5 5 3,380 0,201 6,889 0,025 6,585 0,026 3,420 0,190 8,187 0,010 6,867 0,025 3,860 0,150 8,222 0,010 7,724 0,010 4,580 0,100 7,795 0,010

Page 209: Apostila estatística

206

Tabela 10E –DMS para comparações múltiplas baseadas no teste de Kruskal-Wallis

k = número de amostras

k 0,20 0,10 0,05 0,01 0,001 2 1,812 2,326 2,772 3,643 4,654 3 2,424 2,902 3,314 4,120 5,063 4 2,784 3,240 3,633 4,403 5,309

5 3,037 3,478 3,858 4,603 5,484 6 3,232 3,661 4,030 4,757 5,619 7 3,369 3,808 4,170 4,882 5,730 8 3,520 3,931 4,286 4,987 5,823 9 3,632 4,037 4,386 5,078 5,903

10 3,730 4,129 4,474 5,157 5,973 11 3,817 4,211 4,552 5,227 6,036 12 3,895 4,285 4,622 5,290 6,092 13 3,966 4,351 4,685 5,348 6,144 14 4,030 4,412 4,743 5,400 6,191

15 4,089 4,468 4,796 5,448 6,234 16 4,144 4,519 4,845 5,493 6,274 17 4,195 4,568 4,891 5,535 6,312 18 4,242 4,612 4,934 5,574 6,347 19 4,287 4,654 4,974 5,611 6,380

20 4,328 4,694 5,012 5,645 6,411 22 4,405 4,767 5,081 5,709 6,468 24 4,474 4,632 5,144 5,766 6,520 26 4,537 4,892 5,201 5,818 6,568 28 4,595 4,947 5,253 5,866 6,611

30 4,648 4,997 5,301 5,910 6,651 32 4,697 5,044 5,346 5,952 6,688 34 4,743 5,087 5,388 5,990 6,723 36 4,786 5,128 5,427 6,026 6,756 38 4,826 5,166 5,463 6,060 6,787

40 4,864 5,202 5,498 6,092 6,816 50 5,026 5,357 5,646 6,228 6,940 60 5,155 5,480 5,764 6,338 7,041 70 5,262 5,582 5,863 6,429 7,124 80 5,353 5,669 5,947 6,507 7,198

90 5,433 5,745 6,020 6,575 7,258

100 4,503 5,812 6,085 6,636 7,314

Page 210: Apostila estatística

207

Tabela 11A – Probabilidades associadas ao teste de Friedman.

k=3

n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9 2r p 2

r p 2r p 2

r p 2r p 2

r p 2r p 2

r p

0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000 0.000 1.000

1.000 0.833 0.667 0.944 0.500 0.931 0.400 0.954 0.330 0.956 0.286 0.964 0.250 0.967 0.222 0.971

3.000 0.500 2.000 0.528 1.500 0.653 1.200 0.691 1.000 0.740 0.857 0.768 0.075 0.794 0.667 0.814

4.000 0.167 2.667 0.361 2.000 0.431 1.600 0.522 1.330 0.570 1.143 0.620 1.000 0.654 0.889 0.865

4.667 0.194 3.500 0.273 2.800 0.367 2.330 0.430 2.000 0.486 1.750 0.531 1.556 0.569

6.000 0.028 4.500 0.125 3.600 0.182 3.000 0.252 2.571 0.305 .2.25 0.355 2.000 0.398

6.000 0.069 4.800 0.124 4.000 0.184 3.429 0.237 3.000 0.285 2.667 0.328

6.500 0.042 5.200 0.093 4.330 0.142 3.714 0.192 3.250 0.236 2.889 0.278

8.000 0.005 6.400 0.039 5.330 0.072 4.571 0.112 4.000 0.149 3.556 0.187

7.600 0.024 6.330 0.052 5.429 0.085 4.750 0.120 4.222 0.154

8.400 0.009 7.000 0.029 6.000 0.052 5.250 0.079 4.667 0.107

10.000 0.000 8.330 0.012 7.143 0.027 6.250 0.047 5.556 0.069

9.000 0.008 7.714 0.021 6.750 0.038 6.000 0.057

9.330 0.006 8.000 0.016 7.000 0.030 6.222 0.048

10.330 0.002 8.857 0.008 7.750 .0.018 6.889 0.031

12.000 0.000 10.286 0.004 9.000 0.010 8.000 0.019

10.571 0.003 9.250 0.008 8.222 0.016

11.143 0.001 9.750 0.005 8.667 0.010

12.286 0.000 10.750 0.002 9.556 0.006

12.000 0.001 10.667 0.004

12.250 0.001 10.889 0.003

13.000 0.000 11.556 0.001

12.667 0.001

13.556 0.000

Page 211: Apostila estatística

208

Tabela 11B – Probabilidades associadas ao teste de Friedman.

k=4 n=2 n=3 n=4

2r p 2

r p 2r p

0.000 1.000 0.200 1.000 0.000 1.000 0.600 0.958 0.600 0.958 0.300 0.992 1.200 0.834 1.000 0.910 0.600 0.928 1.800 0.792 1.800 0.727 0.900 0.900 2.400 0.625 2.200 0.608 1.200 0.800 3.000 0.542 2.600 0.524 1.500 0.754 3.600 0.458 3.400 0.446 1.800 0.677 4.200 0.375 3.800 0.342 2.100 0.649 4.800 0.208 4.200 0.300 2.400 0.524 5.400 0.167 5.000 0.207 2.700 0.508 6.000 0.042 5.400 0.175 3.000 0.432

5.800 0.148 3.300 0.389 6.600 0.075 3.600 0.355 7.000 0.054 3.900 0.324 7.400 0.033 4.500 0.242 8.200 0.017 4.800 0.200 9.000 0.002 5.100 0.190 5.400 0.158 5.700 0.141 6.000 0.105 6.300 0.094 6.600 0.077 6.900 0.068 7.200 0.054 7.500 0.052 7.800 0.036 8.100 0.033 8.400 0.019 8.700 0.014 9.300 0.012 9.600 0.007 9.900 0.006 10.200 0.003 10.800 0.002 11.100 0.001 12.000 0.000

Page 212: Apostila estatística

209

Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman. k = número de tratamento n = número de observações por tratamento

(continua) n DMS n DMS n DMS k=3 k=3 k=4

3 6 0.028 15 13 0.047 12 17 0.038 14 0.028 18 0.023

4 7 0.042 15 0.010 20 0.008 8 0.005 k=4 13 18 0.032

5 8 0.039 2 6 0.083 19 0.021 9 0.008 21 0.008 3 8 0.049

6 9 0.029 9 0.007 14 18 0.042 10 0.009 19 0.028 4 10 0.026 21 0.011

7 9 0.051 11 0.005 10 0.023 15 19 0.037 11 0.008 5 11 0.037 20 0.024 12 0.013 22 0.010

8 10 0.039 11 0.018 6 12 0.037 k=5 12 0.007 13 0.016 14 0.006 2 8 0.050

9 10 0.048 11 0.026 7 13 0.037 3 10 0.067 12 0.013 14 0.020 11 0.018 15 0.008 12 0.002

10 11 0.037 12 0.019 8 14 0.034 4 12 0.054 13 0.010 15 0.019 13 0.020 16 0.009 14 0.006

11 11 0.048 12 0.028 9 15 0.032 5 14 0.040 14 0.008 17 0.010 16 0.006

12 12 0.038 10 15 0.046 6 15 0.049 13 0.022 16 0.029 16 0.028 14 0.012 18 0.010 17 0.013

13 12 0.049 11 16 0.041 7 16 0.052 13 0.03 17 0.026 17 0.033 15 0.009 19 0.009 19 0.009

14 13 0.038 8 18 0.036 14 0.023 19 0.022 16 0.007 20 0.012

Page 213: Apostila estatística

210

Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.

(continua) n DMS n DMS n DMS k=5 k=6 k=7

9 19 0.037 8 22 0.039 7 24 0.047 20 0.024 23 0.026 25 0.032 22 0.008 25 0.008 27 0.011

10 20 0.038 9 23 0.043 26 0.041 21 0.025 24 0.03 28 0.03 23 0.009 26 0.012 29 0.011

11 21 0.038 10 24 0.047 27 0.05 22 0.025 26 0.023 29 0.026 24 0.01 28 0.009 31 0.011

12 22 0.038 11 26 0.036 29 0.042 23 0.025 27 0.026 30 0.031 25 0.011 29 0.012 33 0.01

13 23 0.035 12 27 0.039 30 0.049 24 0.024 28 0.028 32 0.027 26 0.011 31 0.009 35 0.009

14 24 0.034 13 28 0.039 32 0.04 25 0.024 29 0.028 33 0.03 27 0.011 32 0.01 36 0.011

15 24 0.045 14 29 0.04 33 0.043 26 0.022 30 0.03 35 0.025 28 0.01 33 0.011 38 0.009 k=6 15 30 0.04 34 0.047

2 10 0.033 32 0.023 36 0.028 34 0.012 39 0.011

3 13 0.03 14 0.008 k=7 36 0.038 2 12 0.024 37 0.03

4 15 0.047 41 0.009 16 0.018 3 15 0.048 17 0.006 16 0.016 k=8 14 0.018

5 17 0.047 4 18 0.04 18 0.022 20 0.007 17 0.067 19 0.01 18 0.027 5 20 0.052 19 0.009 19 0.04 21 0.028

6 20 0.021 22 0.014 21 0.036 21 0.01 23 0.007 6 22 0.05

7 20 0.049 23 0.032 23 0.057 21 0.032 25 0.009 24 0.034 23 0.01 26 0.009

Page 214: Apostila estatística

211

Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.

(continua) n DMS n DMS n DMS k=8 k=9 k=10

6 26 0.045 4 23 0.054 17 0.056 27 0.027 24 0.034 18 0.011 29 0.009 26 0.008 22 0.057

7 28 0.048 5 27 0.04 23 0.026 29 0.032 28 0.023 24 0.01 31 0.012 29 0.013 26 0.06

8 30 0.046 6 29 0.058 27 0.033 31 0.033 30 0.038 29 0.009 34 0.009 33 0.008 30 0.047

9 32 0.043 7 32 0.046 31 0.029 33 0.032 33 0.032 33 0.01 36 0.01 36 0.008 33 0.051

10 34 0.04 8 34 0.049 34 0.033 35 0.031 36 0.026 37 0.008 38 0.01 38 0.012 36 0.047

11 35 0.048 9 36 0.05 37 0.033 37 0.028 38 0.03 40 0.01 40 0.01 41 0.01 38 0.052

12 37 0.042 10 36 0.05 40 0.031 39 0.026 40 0.031 43 0.01 42 0.01 43 0.011 41 0.046

13 39 0.039 11 40 0.048 43 0.027 40 0.03 42 0.03 46 0.009 44 0.009 46 0.009 43 0.047

14 40 0.042 12 42 0.046 45 0.03 42 0.027 44 0.029 49 0.009 45 0.012 48 0.009 45 0.049

15 42 0.037 13 44 0.042 47 0.032 43 0.03 46 0.027 51 0.01 47 0.011 50 0.009 48 0.04 k=9 14 46 0.041 50 0.027

2 15 0.069 48 0.026 54 0.009 16 0.014 52 0.009 50 0.039

3 20 0.041 15 47 0.048 52 0.026 22 0.005 50 0.025 56 0.009 54 0.009 52 0.039 54 0.026 58 0.01

Page 215: Apostila estatística

212

Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.

(continua) n DMS n DMS n DMS k=10 k=11 k=12

15 53 0,045 13 55 0,046 11 56 0,043 56 0,026 57 0,031 58 0,029 60 0,010 62 0,010 62 0,011 k=11 14 57 0,045 12 58 0,048

2 19 0,045 60 0,026 61 0,027 20 0,009 64 0,011 65 0,011

3 25 0,038 15 59 0,046 13 61 0,043 27 0,007 62 0,027 63 0,030 67 0,009 68 0,010

4 29 0,057 30 0,033 k=18 14 63 0,046 32 0,010 2 21 0,038 68 0,027 22 0,008 71 0,009

5 33 0,055 34 0,035 3 27 0,053 15 66 0,040 37 0,008 28 0,027 68 0,028 29 0,012 73 0,011

6 37 0,045 38 0,030 4 32 0,055 k=13 41 0,008 33 0,033 2 23 0,032 35 0,011 23 0,006

7 40 0,049 41 0,035 5 37 0,042 3 30 0,038 44 0,011 38 0,027 32 0,009 40 0,011

8 43 0,046 4 35 0,054 44 0,035 6 40 0,059 36 0,033 48 0,009 42 0,028 38 0,012 45 0,008

9 46 0,043 5 40 0,049 47 0,034 7 44 0,050 41 0,033 51 0,009 46 0,026 44 0,009 49 0,009

10 48 0,047 6 44 0,054 50 0,031 8 47 0,050 46 0,027 54 0,009 49 0,030 49 0,009 52 0,011

11 51 0,040 7 48 0,051 53 0,027 9 50 0,048 50 0,028 57 0,009 52 0,032 53 0,010 56 0,010

12 53 0,043 8 52 0,046 55 0,029 10 53 0,047 53 0,035 59 0,011 55 0,032 57 0,010 59 0,010

Page 216: Apostila estatística

213

Tabela 12 – DMS para comparações múltiplas baseadas no teste de Friedman.

(conclusão) n DMS n DMS n DMS k=13 k=14 k=15 9 55 0,048 7 52 0,053 5 47 0,046 57 0,030 54 0,030 48 0,033 61 0,010 57 0,012 51 0,010

10 58 0,047 8 56 0,051 6 52 0,047 60 0,032 58 0,031 53 0,035 61 0,009 62 0,010 57 0,009

11 61 0,046 9 60 0,047 7 56 0,055 63 0,032 62 0,029 58 0,032 68 0,010 66 0,010 62 0,010

12 64 0,045 10 63 0,048 8 60 0,056 66 0,032 65 0,033 63 0,027 71 0,010 70 0,010 67 0,008

14 69 0,046 11 66 0,049 9 64 0,052 72 0,028 69 0,029 67 0,028 77 0,010 74 0,009 71 0,011

15 72 0,040 12 69 0,048 10 68 0,049 74 0,030 72 0,030 71 0,028 80 0,010 77 0,010 75 0,011 k=14 13 72 0,047 11 72 0,043

2 25 0,027 75 0,030 74 0,032 26 0,005 80 0,011 79 0,011

3 32 0,052 14 75 0,045 12 75 0,045 33 0,028 78 0,028 76 0,028 35 0,008 84 0,009 83 0,010

4 38 0,053 15 78 0,043 13 78 0,046 39 0,034 81 0,028 81 0,030 41 0,013 87 0,010 87 0,009

5 43 0,057 k=15 14 81 0,046 45 0,027 2 26 0,071 84 0,030 47 0,012 27 0,024 90 0,010 28 0,005

6 48 0,050 15 84 0,043 50 0,026 3 35 0,039 87 0,029 53 0,009 37 0,010 94 0,09 4 41 0,053 42 0,035 45 0,008

Page 217: Apostila estatística

214

Tabela 13 – Valores da amplitude Studentizada (q) para uso no teste de Tukey para =0,05 GL = graus de liberdade do denominador K = número de grupos

(continua) k GL

2 3 4 5 6 7 8 9 10 11

1 17,97 26,98 32,82 37,08 40,41 43,40 45,40 47,36 49,07 50,592 6,09 8,33 9,80 10,88 11,74 12,44 13,03 13,54 13,99 14,393 4,50 5,91 6,83 7,50 8,04 8,48 8,85 9,18 9,46 9,72 4 3,93 5,04 5,76 6,29 6,71 7,05 7,35 7,60 7,83 8,03 5 3,64 4,60 5,22 5,67 6,03 6,33 6,58 6,80 7,00 7,17 6 3,46 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 7 3,34 4,17 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 8 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 9 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87

10 3,15 3,88 4,33 4,65 4,91 5,12 5,31 5,46 5,60 5,72 11 3,11 3,82 4,26 4,57 4,82 5,03 5,20 5,35 5,49 5,61 12 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,40 5,51 13 3,06 3,74 4,15 4,45 4,69 4,89 5,05 5,19 5,32 5,43 14 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 15 3,01 3,67 4,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 16 3,00 3,65 4,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 17 2,98 3,63 4,02 4,30 4,52 4,71 4,86 4,99 5,11 5,21 18 2,97 3,61 4,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 19 2,96 3,59 3,98 4,25 4,47 4,65 4,79 4,92 5,04 5,14 20 2,95 3,58 3,96 4,23 4,45 4,62 4,77 4,90 5,01 5,11 24 2,92 3,53 3,90 4,17 4,37 4,54 4,68 4,81 4,92 5,01 30 2,89 3,49 3,85 4,10 4,30 4,46 4,60 4,72 4,82 4,92 40 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 60 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 120 2,80 3,36 3,69 3,92 4,10 4,24 4,36 4,47 4,56 4,64 ∞ 2,77 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55

Page 218: Apostila estatística

215

Tabela 13 – Valores da amplitude Studentizada (q) para uso no teste de Tukey para =0,05 GL = graus de liberdade do denominador K = número de grupos

(conclusão) k GL

12 13 14 15 16 17 18 19 20

1 51,96 53,20 54,33 55,36 56,32 57,22 58,04 58,83 59,56 2 14,75 15,08 15,33 15,65 15,91 16,14 16,37 16,57 16,77 3 9,95 10,15 10,35 10,53 10,69 10,84 10,98 11,11 11,24 4 8,21 8,37 8,53 8,66 8,79 8,91 9,03 9,13 9,23 5 7,32 7,47 7,60 7,72 7,83 7,93 8,03 8,12 8,21 6 6,79 6,92 7,03 7,14 7,24 7,34 7,43 7,51 7,59 7 6,43 6,55 6,66 6,76 6,85 6,94 7,02 7,10 7,17 8 6,18 6,29 6,39 6,48 6,57 6,65 6,73 6,80 6,87 9 5,98 6,09 6,19 6,28 6,36 6,44 6,51 6,58 6,64

10 5,83 5,94 6,03 6,11 6,19 6,27 6,34 6,41 6,47 11 5,71 5,81 5,90 5,98 6,06 6,13 6,20 6,27 6,33 12 5,62 5,71 5,80 5,88 5,95 6,02 6,09 6,15 6,21 13 5,53 5,63 5,71 5,79 5,86 5,93 6,00 6,06 6,11 14 5,46 5,55 5,64 5,71 5,79 5,85 5,92 5,97 6,03 15 5,40 5,49 5,57 5,65 5,72 5,79 5,85 5,90 5,96 16 5,35 5,44 5,52 5,59 5,66 5,73 5,79 5,84 5,90 17 5,31 5,39 5,47 5,54 5,61 5,68 5,73 5,79 5,84 18 5,27 5,35 5,43 5,50 5,57 5,63 5,69 5,74 5,79 19 5,23 5,32 5,39 5,46 5,53 5,59 5,65 5,70 5,75 20 5,20 5,28 5,36 5,43 5,49 5,55 5,61 5,66 5,71 24 5,10 5,18 5,25 5,32 5,38 5,44 5,49 5,55 5,59 30 5,00 5,08 5,15 5,21 5,27 5,33 5,38 5,43 5,48 40 4,90 4,98 5,04 5,11 5,16 5,22 5,27 5,31 5,36 60 4,81 4,88 4,94 5,00 5,06 5,11 5,15 5,20 5,24

120 4,71 4,78 4,84 4,90 4,95 5,00 5,04 5,09 5,13 ∞ 4,62 4,69 4,74 4,80 4,85 4,89 4,93 4,97 5,01

Page 219: Apostila estatística

216

Page 220: Apostila estatística

217