Upload
evelynmartins
View
70
Download
0
Embed Size (px)
DESCRIPTION
Bioestatistica - estatistica descritiva
Citation preview
Aula 01 – Estatística Descritiva
Disciplina: Bioestatística
Prof. Dr. Helber Barros Gomes
2015
- Introdução - Tipos de Variáveis - Tabelas e Gráficos - Medidas Resumo
Objetivos da disciplina
Geral
• Introduzir conceitos e técnicas básicas da estatística para apresentação e análise de dados.
Específico
• Capacitar para interpretação crítica de resultados de análises que envolveram procedimentos estatísticos de menor complexidade.
Programa
O curso compreende três grandes tópicos:
• Análise descritiva e exploratória de dados.
• Noções de probabilidades e distribuições de probabilidades.
• Introdução à procedimentos de inferência estatística.
Bibliografia
Bibliografia Básica • BUSSAB, W.O., MORETTIN, P.A. 2002. Estatística Básica. 5a edição, São Paulo:
Editora Saraiva. • MAGALHÃES, M.N., LIMA, A.C.P. 2004. Noções de Probabilidade e Estatística. 6a
edição, São Paulo. Editora EDUSP. • PRIMACK, R.B., RODRIGUES, E. 2001. Biologia da Conservação. Londrina-PR. Bibliografia Complementar • ALTMAN, D.G. 1999. Practical Statistics for medical research. Boston: Chapman
& Hall/Crc, 611 p. • SOARES, J.F., SIQUEIRA, A.L. 1999. Introdução à estatística médica. Belo
Horizonte, UFMG: Coopmed Editora Médica. • TRIOLA, M.F. 2008. Introdução à estatística. 10ª ed. Rio de Janeiro.
Avaliação
Listas de exercícios
• A cada uma ou duas semanas, resolver e entregar uma lista de exercícios. As listas podem ser entregues em grupos de, no máximo, 3 alunos.
Provas
• 1ª prova – com peso 1, relativa à matéria dada até o momento. • 2ª prova – com peso 2,relativa à matéria dada após a 1ª prova.
• Prova substitutiva – Relativa à toda a matéria. Permitida somente ao aluno que tenha feito pelo menos uma prova e não tenha obtido NF > 7. A nota obtida substituirá a menor nota das duas provas anteriores.
Cálculo da Nota Final
• NF = (0,3ME+0,7MP). • ME: média aritmética das listas de exercícios. • MP: média ponderada de duas provas.
Por que estudar Estatística?
[Do fr. Statistique.] Substantivo feminino.
1. Parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer avaliações ou predições com base nesses dados.
2. Qualquer parâmetro de uma amostra, como média, o desvio-padrão, a variância.
3. Conjunto de elementos numéricos respeitantes a um fator social.
4. Representação e explicação sistemática, por observações quantitativas de massa, dos acontecimentos e das leis da vida social que deles se podem deduzir.
5. Método que objetiva o estudo dos fenômenos de massa, i.e., os que dependem de uma multiplicidade de causas, e tem por fim representar, sob forma analítica ou gráfica, as tendências características limites desses fenômenos.
O que é Estatística?
Estatística: constitui uma parte da matemática aplicada que tem como finalidade obter conclusões sobre os verdadeiros parâmetros do universo, utilizando para isso a coleta, a organização, a descrição, a análise e a interpretação dos dados.
Dois ramos da estatística:
• Estatística descritiva: se preocupa com a organização, sumarização e descrição de um conjunto de dados.
Construção de tabelas, gráficos, cálculo de medidas.
• Estatística inferencial ou indutiva: métodos que tornam possível a estimação de características de uma população baseada nos resultados amostrais.
Amostragem
Definição: É o estudo de uma amostra. Quando não há a possibilidade de realizar um estudo sobre todos os elementos da população, utiliza-se a amostragem.
População: é o conjunto de todos os elementos, em um estudo.
• Exemplo: Universitários de São Paulo, neste semestre.
Amostra: é um subconjunto da população, ou seja, uma parcela representativa da população.
• Exemplo: 300 universitários de São Paulo, neste semestre.
Parâmetros: são características numéricas de uma população.
• Exemplo: média e/ou desvio padrão populacional.
Estatísticas: são características numéricas de uma amostra.
• Exemplo: média e/ou desvio padrão amostral.
Amostragem
Amostragem Aleatória
Cada elemento da população tem a mesma chance de ser escolhido.
Amostragem Estratificada
Classificar a população em, ao menos dois estratos e extrair uma amostra de cada um.
Amostragem Sistemática
Escolher cada elemento de ordem k.
Amostragem
Amostragem por Conglomerados
Dividir em seções a área populacional, selecionar aleatoriamente algumas dessas seções e tomar todos os elementos das mesmas.
Amostragem de Conveniência
Utilizar resultados de fácil acesso.
Amostragem
Exemplo: Em uma pesquisa eleitoral, um instituto de pesquisa procura, com base nos resultados de um levantamento aplicado a uma amostra da população, estimar a intenção de voto dessa população.
• As estimativas são fornecidas com um valor e uma margem de erro.
O quadro a seguir refere-se à intenção de voto no 1° turno das eleições para presidente do Brasil em 2002.
Fonte: Pesquisa Toledo & Associados.
Voto estimulado, em % do total de votos. A última pesquisa ouviu 2.202 eleitores. Margem de erro de 2,09%.
Amostragem
Tabela 1.1 – Informação do estado civil, grau de instruções, número de filhos, idade e procedência de 36 funcionários sorteados ao acaso da empresa MB. (Bussab e Morettin).
Estatística descritiva
O que fazer com as observações que coletamos?
Primeira Etapa:
Resumo dos dados = Estatística Descritiva
Tipos de Dados
( Variável )
Qualitativos Quantitativos
Nominal Ordinal Discreto Contínuo
- Profissão
- Sexo
- Raça
- Religião
- Escolaridade
- Grau de instrução
- Classe social
- Estágio da doença
- Número de filhos
- Número de parceiros sexuais
Células tumorais - Contagem de
- Nódulos retirado
- Peso
- Altura
- Pressão arterial
- Glicemia
- Colesterol sérico - Idade
Medidas Resumo
Medidas de posição
Medidas de tendência central:
• Média
• Mediana
• Moda
Outras medidas de posição:
• Quartis
• Percentil
Medidas de dispersão
• Amplitude
• Variância
• Desvio Padrão
• Coeficiente de Variação
Tabela de Frequência
Dados Brutos
Análise Descritiva
Medidas Resumo
Ônibus Tempo
1 15
2 15
3 17
4 20
5 25
6 15
7 14
8 13
9 17
10 25
11 30
12 23
13 13
14 18
15 17
16 15
17 16
18 28
19 23
20 19
21 16
22 14
23 15
24 13
25 12
26 17
27 18
28 34
29 25
30 21
31 34
32 15
Tempo N
12 1
13 3
14 2
15 6
16 2
17 4
18 2
19 1
20 1
21 1
23 2
25 3
28 1
30 1
34 2
Total Global 32
Medidas Resumo
• Resposta breve e rápida que sintetize a informação.
• Caracterizar a tendência central ou dispersão dos dados.
Exemplo: Tempo de espera de um ônibus da linha A.
n 32
Moda 15
Média 19
Mediana 17
Desvio Padrão 6
Mínimo 12
Máximo 34
n° de filhos fi xi * fi
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
S = 34 S = 78
i Estaturas (cm) fi xi xi * fi
1 150 |-- 154 4 152 608
2 154 |-- 158 9 156 1404
3 158 |-- 162 11 160 1760
4 162 |-- 166 8 164 1312
5 166 |-- 170 5 168 840
6 170 |-- 174 3 172 516
S = 40 S = 6440
Medidas Resumo
Medidas de Posição: Tendência Central
Mediana (Md): A mediana é o valor da variável que ocupa a posição central de um conjunto de n dados ordenados.
Posição da mediana: (n+1) / 2
Exemplo 1: Um tipo de cirurgia foi realizado por cinco médicos, cada um nos seguintes tempos:
48’; 42’; 52’; 95’; 46’
Solução:
Valores ordenados: 42’; 46’; 48’; 52’; 95’
Md = 48
Medidas Resumo
Medidas de Posição: Tendência Central
Exemplo 2: Dosagem de hemoglobina (mg) em 8 indivíduos.
15; 14; 13; 11; 13; 14; 13,5; 12
Solução:
Valores ordenados: 11; 12; 13; 13; 13,5; 14; 14; 15
Md: (13+13,5) / 2 = 13,25
Observação:
Para amostra pequena, a média sofre mais a influência de valores extremos do que a mediana.
Medidas Resumo
Medidas de Posição: Tendência Central
Moda (Mo): É o valor mais frequente em um conjunto de dados.
Exemplo 1: 4; 5; 4; 6; 5; 8; 4; 3; 4
Mo = 4
Exemplo 2: Dosagem de hemoglobina (mg) em 8 indivíduos.
15; 14; 13; 11; 13; 14; 13,5; 12
Mo = 13 e 14
Observações:
• Distribuições podem ter uma ou mais modas (unimodal, bimodal, multimodal, amodal).
• É a menos utilizada dentre as medidas de tendência central.
Medidas Resumo
Medidas de Posição: Outras Medidas
Quartis (Q): Dividem a distribuição em 4 partes iguais.
• 1º Quartil (Q1) = o valor que divide o conjunto de em duas partes, sendo que 25% dos valores são menores e 75% dos valores são maiores do que o valor determinado.
• 2º Quartil (Q2) = mediana (50% acima e 50% abaixo).
• 3º Quartil (Q3) = é o valor da série em que temos 75% dos valores menores e 25% dos valores acima do valor determinado.
i Estaturas (cm) fi fant
1 150 |-- 154 4 4
2 154 |-- 158 9 13
3 158 |-- 162 11 24
4 162 |-- 166 8 32
5 166 |-- 170 5 37
6 170 |-- 174 3 40
S = 40
i Estaturas (cm) fi fant
1 150 |-- 154 4 4
2 154 |-- 158 9 13
3 158 |-- 162 11 24
4 162 |-- 166 8 32
5 166 |-- 170 5 37
6 170 |-- 174 3 40
S = 40
Medidas Resumo
Medidas de Dispersão (Variabilidade)
Representam o quanto os dados de uma amostra estão dispersos em relação a um parâmetro.
Exemplo:
Tendência central
Temperatura média na superfície da Terra: 14°C
Variação
Temperatura máxima: +45°C
Temperatura mínima: -60°C
Medidas Resumo
Medidas de Dispersão (Variabilidade)
Amplitude (A): É a diferença entre o maior e o menor valor observado. ,
A = max – min
Exemplo: Considere as notas de um teste de 3 grupos de alunos.
• Grupo 1: 3, 4, 5, 6, 7
• Grupo 2: 1, 3, 5, 7, 9
• Grupo 3: 5, 5, 5, 5, 5
Solução:
• Grupo 1, A = (7 - 3) = 4
• Grupo 2, A = (9 - 1) = 8
• Grupo 3, A = (5 - 5) = 0
Medidas Resumo
Medidas de Dispersão (Variabilidade)
Variância (S2): Medida que baseia os desvios de uma amostra em relação a média aritmética dos quadrados dos desvios.
Desvio Padrão (S): Medida que tende a dar significado à variância na estatística descritiva. É dado pela raiz quadrada da variância.
Cada valor assumido pela
variável
Variância
Média
Tamanho da amostra
Somatório
5,4 -1,0 1,00
6,9 0,5 0,25
6,6 0,2 0,04
7,2 0,8 0,64
5,7 -0,7 0,49
6,1 -0,3 0,09
7,1 0,7 0,49
5,8 -0,6 0,36
6,8 0,4 0,16
6,4 0 0
Desvio Padrão
Variância
Medidas Resumo
Medidas de Dispersão (Variabilidade)
Coeficiente de Variação (CV): É uma comparação, em termos percentuais, do desvio padrão de uma série de dados em relação ao valor médio dessa série.
Observação:
Vantagem permite a comparação de amostras com unidades diferentes.
Medidas Resumo
Medidas de Dispersão (Variabilidade)
Coeficiente de Variação (CV)
Exemplo: Considere os seguintes resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos.
Determine qual das duas grandezas possui maior grau de dispersão.
Estatura
Peso
S
Estaturas 175 cm 5,0 cm
Pesos 68 kg 3,0 kg
Organização e Representação de dados
• Uma das formas de organizar e resumir a informação contida em dados observados é por meio de tabelas de frequências e gráficos.
Tabela de frequência relaciona categorias (ou classes) de valores, juntamente com a contagem (ou frequência) do número de valores que se enquadram em cada categoria ou classe.
Variáveis qualitativas: Podemos construir tabelas de frequência que os quantificam por categoria de classificação e sua representação gráfica é mediante gráfico de barras, gráfico setorial ou em forma de pizza.
Organização e Representação de dados: Qualitativo
Exemplo: Considere a variável Grau de Instrução dos dados da Tabela 1.1. (Variável qualitativa)
Organização e Representação de dados: Qualitativo
Variáveis Qualitativas – Nominais e Ordinais
Organização e Representação de dados: Qualitativo
Variáveis Qualitativas – Nominais e Ordinais
Qualitativa nominal Qualitativa ordinal
Observação: Note que as frequências acumuladas não fazem sentido em distribuição de frequências de variáveis para as quais não existem uma ordem natural nas categorias, como é o caso das qualitativas nominais.
Organização e Representação de dados: Qualitativo
Variáveis Qualitativas – Nominais e Ordinais
• Uma situação diferente ocorre quando desejamos comparar a distribuição de frequências de uma mesma variável em vários grupos.
• Se quisermos usar o gráfico de setores para fazer essa comparação, devemos fazer quatro gráficos, um para cada região, com duas fatias cada um. Uma alternativa é a construção de um gráfico de colunas (barras), como apresentados nas Figuras 4.3 e 4.4.
Observação:
Além de economizar espaço na apresentação, permite que as comparações sejam feitas de maneira mais rápida.
Organização e Representação de dados: Qualitativo
Variáveis Qualitativas – Nominais e Ordinais
• A Fig. 4.5 mostra um gráfico de barras que pode ser usado da comparação da
distribuição de frequências de uma variável em vários grupos.
• A Fig. 4.6 apresenta a distribuição de frequências da variável em vários grupos
simultaneamente.
Organização e Representação de dados: Quantitativo
Variáveis quantitativas discretas: Organizam-se mediante tabelas de frequências e a representação gráfica é mediante gráfico de barras.
Exemplo: Considere a variável Número de Filhos dos dados da Tabela 1.1.
Tabela 2.1: Distribuição de frequências de funcionários de uma empresa, segundo o número de filhos.
Organização e Representação de dados: Quantitativo
Variáveis Quantitativas Discretas
Observação: A partir da Tabela 2.1 podemos recuperar as 20 observações da Tabela 1.1, ou seja, aqui a informação dos dados originais não são perdidos.
Representação gráfica: Diagrama de Barras.
Organização e Representação de dados: Quantitativo
Variáveis Quantitativas Discretas
• Quando estamos trabalhando com uma variável discreta que assume poucos valores, podemos dar a ela o mesmo tratamento dado às variáveis qualitativas ordinais, assumindo que cada valor é uma classe e que existe uma ordem natural nessas classes.
Observação: Na comparação da distribuição de frequências de uma variável entre dois ou mais grupos de tamanhos (número de observações) diferentes, devemos usar as frequências relativas na construção do histograma. Deve-se, também usar a mesma escala em todos os histogramas, tanto na escala vertical quanto na horizontal.
Organização e Representação de dados: Quantitativo
Variáveis Quantitativas Discretas
• Quando estamos trabalhando com uma variável discreta que pode assumir um grande número de valores distintos como, por exemplo, o número de ovos que um inseto põe durante sua vida, a construção da tabela de frequências e de gráficos considerando cada valor como uma categoria fica inviável.
• A solução é agrupar os valores em classes ao montar a tabela, como mostra a Tabela 4.4.
Organização e Representação de dados: Quantitativo
Variáveis Quantitativas Discretas
• A escolha do número de classes e do tamanho das classes depende da amplitude dos valores a serem representados (no exemplo, de 10 a 44) e da quantidade de observações no conjunto de dados.
• Classes muito grandes resumem demais a informação contida nos dados, pois forçam a construção de poucas classes.
Organização e Representação de dados: Quantitativo
Variáveis Quantitativas Discretas
• Os limites inferiores e superiores de cada classe dependem do tamanho (amplitude) da classe escolhida, que deve ser, na medida do possível, igual para todas as classes.
• O gráfico da Figura 4.12, com classes de tamanho três, é uma alternativa ao gráfico da Figura 4.9.
Organização e Representação de dados: Quantitativo
Exercício: Com base na Tabela 2.1 determinem as medidas de posição e dispersão de filhos dos funcionários.
Equações:
Média:
Mediana:
Variância:
Desvio Padrão:
P = (n+1) / 2
Organização e Representação de dados: Quantitativo
Variáveis quantitativas contínuas: Seus valores podem ser qualquer número real e ainda geralmente existe um grande número de valores diferentes. Assim, como proceder para construir uma tabela de frequências neste casos?
A alternativa consiste em construir classes ou faixas de valores e contar o número de ocorrências em cada faixa.
Exemplo: No caso da variável salário da Tabela 1.1, podemos considerar as seguintes faixas de valores: [4,0 ; 7,0); [7,0 ; 10,0); ...
Notação: 4,0 |-- 7,0
Organização e Representação de dados: Quantitativo
Procedimento de construção de tabelas de frequências para variáveis contínuas:
1. Escolher o número de intervalos de classe (k)
2. Identificar o menor valor (min) e o valor máximo (max) dos dados.
3. Calcular a amplitude dos dados (A): A = max-min.
4. Calcular o comprimento de cada intervalo de classe (h): h = A / K.
5. Arredondar o valor de h de forma que seja obtido um número conveniente.
6. Obter os limites de cada intervalo de classe.
Primeiro Intervalo
Limite Inferior: LI 1 = min
Limite Superior: LS 1 = LI 1 + h
Organização e Representação de dados: Quantitativo
Segundo Intervalo
Limite Inferior: LI 2 = min
Limite Superior: LS 2 = LI 2 + h
K – ésimo Intervalo
Limite Inferior: LI k = min
Limite Superior: LS k = LI k + h
Organização e Representação de dados: Quantitativo
Exemplo: Considere a variável salário descrita na Tabela 1.1.
Procedimentos:
1.Considere k = 5.
2.min = 4 e max = 23,30.
3.A = max – min = 23,30 – 4 = 19,30.
4.h = A / k = 19,3 / 5 = 3,86.
5.h ≌ 3,9
6.Cálculo dos limites de cada intervalo:
Primeiro Intervalo Segundo Intervalo
LI 1 = 4 LI 1 = 7,9
LS 1 = 4 + 3,9 = 7,9 LI 1 = 7,9 + 3,9 = 11,8
Os demais limites dos intervalos foram gerados seguindo o procedimento anterior.
Organização e Representação de dados: Quantitativo
Representação Gráfica:
• Histograma de frequências relativas (em %) para a variável salário.
Organização e Representação de dados: Quantitativo
Representação Gráfica:
• Histograma de frequência acumulada relativa (em %).
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
• Ao estudarmos a distribuição de frequências de uma variável quantitativa, seja em um grupo apenas ou comparando vários grupos, devemos verificar basicamente três características:
Tendência Central Variabilidade Forma
Tendência Central
• A tendência central da distribuição de frequências de uma variável é caracterizada pelo valor (ou faixa de valores) “típico” da variável.
• Uma das maneiras de representar o que é “típico” é através do valor mais frequente da variável, chamado de moda. Ou, no caso da tabela de frequências, a classe de maior frequência, chamada de classe modal. No histograma, esta classe corresponde àquelas com barra mais alta (“pico”).
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
Exemplo: ursos marrons
• A classe modal do peso dos ursos fêmeas é claramente a terceira, de 50 a 75 kg (Fig. 4.15). Por outro lado, para os ursos machos, tem-se dois picos: um de 50 a 75 kg e outro de 150 a 175 kg (Fig. 4.16).
• Assim, dizemos que a distribuição de frequências do peso dos ursos fêmeas é unimodal (apenas uma moda) e dos ursos machos é bimodal (duas modas).
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
Variabilidade
• Para descrever adequadamente a distribuição de frequências de uma variável quantitativa, além da informação do valor representativo da variável (tendência central), é necessário dizer também o quanto estes valores variam, ou seja, o quão dispersos eles são.
• A Figura 4.22 mostra um diagrama de pontos para os tempos de espera de 21 clientes de dois bancos, um com fila única e outro com fila múltipla, com o mesmo número de atendentes.
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
Forma
• A distribuição de frequências de uma variável pode ter várias formas, mas existem três formas básicas, apresentadas na Figura 4.23 através de histogramas.
• Quando uma distribuição é simétrica em torno de um valor (o mais frente), significa que as observações estão igualmente distribuídas em torno desse valor (metade acima e metade abaixo).
• A assimetria de uma distribuição pode ocorrer de duas formas:
Quando os valores concentram-se à esquerda. Quando os valores concentram-se à direita.
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
Séries Temporais
• Séries temporais (ou séries históricas) são um conjunto de observações de uma mesma variável quantitativa (discreta ou contínua) feitas ao longo do tempo. Exemplo: temperaturas medidas diariamente em uma região.
• Um dos objetivos do estudo de séries temporais é conhecer o comportamento da série ao longo do tempo.
• A representação gráfica de uma série temporal é feita através do gráfico de linha, como pode ser visto nas Figuras 5.1 e 5.2 a seguir.
Organização e Representação de dados
Distribuição de Frequência
Aspectos Gerais da Distribuição de Frequências
Séries Temporais
• Ao analisar e construir um gráfico de linhas, devemos estar atentos a certos detalhes que podem mascarar o verdadeiro comportamento dos dados.
Organização e Representação de dados
Distribuição de Frequência
Diagrama de Dispersão
• O diagrama de dispersão é um gráfico onde pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.
• Este diagrama é usado principalmente para visualizar a relação/associação entre duas variáveis, mas também é muito útil para: Comparar o efeito de dois tratamentos no mesmo indivíduo. Verificar o efeito tipo antes/depois de um tratamento.
Exemplo: Ursos marrons
Organização e Representação de dados: Quantitativo
Organização e Representação de dados: Quantitativo
Exemplo: Considere os dados da Tabela 1.1.