Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Desirée Sant’Ana Haikal
Programa de Pós Graduação em Ciências da Saúde
Universidade Estadual de Montes Claros
Disciplina: Bioestatística I / 2015
Marise Fagundes Silveira
INTRODUÇÃO À BIOESTATÍSTICA
INVESTIGAÇÕES EM SAÚDE
Descrever estados de saúde-
doença
Pesquisa básica /biotecnologia
Sistemas de Saúde
Clínica
Levantar/ testar hipóteses
Etiologia / Prognóstico
Finalidade de promover desenvolvimento efetivo e
equitativo da saúde
APLICAÇÃO
Clínica Ferramenta de Gestão
INTRODUÇÃO
ETAPAS GERAIS DA PESQUISA EM SAÚDE
Definição do problema
Planejamento da Pesquisa
Coleta de dados
Construção do banco de dados
Análise e interpretação dos dados
Avaliação crítica do estudo
Redação
Divulgação
Instrumentos – variáveis que serão coletadas
População/amostra
ESTATÍSTICA
ESTATÍSTICA
CONCEITO: Ciência que trata da coleta, apuração, análise e
apresentação de dados
OBJETIVO: Produção da melhor informação possível a partir dos dados
INTRODUÇÃO
ESTATÍSTICA
ESTATÍSTICA
(Gordis, 2010)
EPIDEMIOLOGIA
INTRODUÇÃO
BIOESTATÍSTICA
VALIDADE PRECISÃO
ESTATÍSTICA
CONCEITOS BÁSICOS EM
BIOESTATÍSTICA
CONCEITOS GERAIS
População: Conjunto de elementos, com uma ou mais características em comum, sobre o qual queremos obter informações.
Censo: Levantamento de dados de toda a população
Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objetivo de tirar conclusões para a população de onde foi recolhida, representando a realidade dos fatos
Amostragem: Campo da estatística que estuda técnicas de planejamento da pesquisa, possibilitando a realização de inferências sobre o universo a partir do estudo de parte de seus componentes: a amostra. É o processo de identificação de como, quantos e quais serão os elementos da amostra
(Luiz et al., 2008)
PROCESSO DE PESQUISA POR AMOSTRAGEM
População
Dados
Parâmetros
Estatísticas
Amostra
fornecer
calcular
estimar
(Luiz et al., 2008)
Quando a estatística é obtida em uma população denomina-se parâmetro.
Quando a estatística é obtida em uma amostra denomina-se estimativa (de parâmetro).
INFERÊNCIA ESTATÍSTICA
(Luiz et al., 2008)
AMOSTRAGEM
AMOSTRAGEM X INFERÊNCIA ESTATÍSTICA
É a metodologia estatística que possibilita, a partir de dados amostrais, fazer
generalizações ou inferências sobre uma população, sempre com medidas de precisão
sobre sua veracidade
POPULAÇÃO AMOSTRA
AMOSTRAGEM
INFERÊNCIA
(Luiz et al., 2008, Arango, 2009)
μ, σ
Parâmetros
x, s
Estimadores
INFERÊNCIA
ESTATÍSTICA
Estimação
Teste de hipóteses
Pontual Intervalo de
Confiança
Prever valores plausíveis para os
parâmetros populacionais
Fazer afirmações acerca dos
parâmetros populacionais /
Comparar grupos
(Siqueira e Tibúrcio, 2011)
DECISÃO
Há ou não diferença entre o tratamento A e o B? A diferença
observada na amostra reproduz a população ou foi obra de uma
amostra “infeliz”? Qual a probabilidade relacionada ao que foi
verificado na amostra?
Estatística Inferencial
Estatística Descritiva
Medidas Pontuais
Intervalo de Confiança
Medidas de
Tendência
central
Medidas de
variabilidade
Variáveis
numéricas
Variáveis
categóricas
Proporções (%)
•Média
•Mediana
•Moda
• Variância
•Desvio Padrão
•Amplitude
Aplicado a qualquer medida pontual
Comumente de 95%
ESTATISTICA
DESCRITIVA
Análises Multivariadas
Teste de
hipóteses
Descobrir fatores latentes em um
conjunto de variáveis
(Raggio Luiz et al., 2008)
TESTES ESTATÍSTICOS
Análises Bivariadas
Análises Múltiplas
Associação entre duas variáveis
Associação entre uma variável
dependente e varias variáveis
independentes
ESTATÍSTICA DESCRITIVA
Análises Multivariadas
Teste de
hipóteses
Descobrir fatores latentes em um
conjunto de variáveis
(Raggio Luiz et al., 2008)
TESTES ESTATÍSTICOS
Análises Bivariadas
Análises Múltiplas
Associação entre duas variáveis
Associação entre uma variável
dependente e varias variáveis
independentes
ESTATÍSTICA DESCRITIVA
VARIÁVEL
Características de interesse medidas em cada
elemento da amostra ou população
Atributo, fenômeno ou evento que se pretende estudar
e que assume diferentes valores
Exemplo: idade, sexo, peso, etc.
CONCEITOS BÁSICOS
QUANTITATIVAS /
NUMÉRICA
QUALITATIVAS /
CATEGÓRICAS
Discreta: proveniente de contagem, só pode assumir valores
inteiros. Ex: Número de óbitos, Número de filhos, número de
consultas num período
Contínua: proveniente de medições (usualmente de um aparelho),
pode assumir qualquer valor da reta real. Ex: Pressão arterial,
Peso, Altura, Nível de colesterol, Renda mensal
Nominal: nomeia diferente categorias (sem hierarquia)
Sexo, Presença X Ausência, doente X não doente (DICOTÔMICA)
Grupo sanguíneo, raça, religião, cor dos olhos (POLITÔMICA)
Ordinal: existe uma ordenação hierárquica entre as categorias. Ex:
Classe social (alta, média, baixa), escolaridade (ensino fundamental,
médio, superior), estágio da doença (inicial, intermediário, terminal);
Escala Likert (excelente, bom, regular, ruim, péssimo)
Permitem operação aritméticas
CONCEITOS BÁSICOS
CLASSIFICAÇÃO DAS VARIÁVEIS
CONCEITOS BÁSICOS
ORIENTAÇÃO DESCRITIVA
Classificação das variáveis, de acordo com fato de
descreverem ou serem descritas por outras variáveis
CLASSIFICAÇÃO DAS VARIÁVEIS
Tal classificação depende dos objetivos do
estudo e não da estrutura matemática inerente à
variável
ORIENTAÇÃO DESCRITIVA
Resposta ou Dependente:
É descrita em termos de outras variáveis
Preditoras ou Independente ou Covariáveis:
CLASSIFICAÇÃO DAS VARIÁVEIS
Variável
dependente
(y)
Variáveis
independentes (xi)
Utilizadas em conjunto para descrever/ explicar a variável dependente. São fatores que deseja-se verificar se influenciam os resultados da variável dependente ou que o pesquisador procura neutralizar
Análise
descritiva
Análise
Bivariada
CONCEITOS BÁSICOS
VARIÁVEL DEPENDENTE CATERÓRICA
CONCEITOS BÁSICOS
VARIÁVEL DEPENDENTE NUMÉRICA
Análise
descritiva Análise
Bivariada
Desvio
Padrão
Desvio
Padrão
Como começar?
ESTATÍSTICA DESCRITIVA
Estatística descritiva O COMEÇO DE TUDO
Conjunto de técnicas destinadas a descrever e resumir dados, a
fim de que se possa tirar conclusões a respeito de características de
interesse, tornando as coisas mais fáceis de entender, de relatar e
discutir
Objetiva a descrição pura / Ausência de um grupo de comparação
Em geral é utilizada na etapa inicial da análise (análise
exploratória)
É apresentada através de tabelas e gráficos.
Cálculo de frequência simples e relativa
Cálculo de medidas de tendência central e dispersão
Avaliação da forma de curvas de distribuição
Tabelas de frequências
VARIÁVEL CATERÓRICA
VARIÁVEL NUMÉRICA
Medidas de variabilidade Medidas de tendência central
Moda
Média
Mediana
Amplitude
Variância/Desvio Padrão
Coeficiente de Variação
MODA Valor que mais se repete
MÉDIA Pode ser interpretada, com o centro de gravidade, isto é, o ponto de
equilíbrio das discrepâncias positivas e negativas
MEDIANA Medida de centro adequada para as distribuições assimétricas, valor
que divide a distribuição ao meio
MEDIDAS DE TENDÊNCIA CENTRAL
Moda
Exemplo peso ao nascer em kg de 10 recém nascidos:
3,2; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0
O valor que mais se repete é
3,2; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0
A moda é 3,2 Kg ou 3200 gramas
Moda
Média
Mediana
Média
A medida de n observações é denotada por x
__ Somatório x1 + x2 + x3 +......
X = _______________________
n
Moda
Média
Mediana
É a soma de todos os valores de uma variável, obtidos numa população
ou amostra, dividida pelo número de valores da série de observações
É o centro de equilíbrio (centro de gravidade)
É muito influenciada por valores extremos
Média
Exemplo peso ao nascer em kg de 10 recém nascidos:
3,2; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0
X = 3,2 + 3,2 + 2,8 + 2,1 + 2,9 + 3,1 + 3,2 + 3,0 + 3,5 + 4,0
10
X = 3,1 ou 3100 gramas
Moda
Média
Mediana
Mediana
É denotada por x
Não é muito afetada por valores extremos
Divide a distribuição ao meio
50% das observações ficam acima da mediana
50% das observações ficam abaixo da mediana
Para encontrar a mediana é preciso ordenar a amostra sendo:
– Se a amostra for Ímpar: o valor referente ao número central
– Se a amostra for Par: a valor referente a média dos dois
números centrais (soma dos dois números centrais/2)
~
Moda
Média
Mediana
1 2 4 6 7 1 2 5 6 6 7
Exemplo peso ao nascer em kg de 10 recém nascidos:
3,2; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0
Colocar em ordem crescente
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0
Mediana = 3,1+3,2 = 6,3 = 3,15
2 2
Mediana
Moda
Média
Mediana
5 observações
acima e 5
abaixo
Amplitude de variação
Diferença entre o valor mais alto e o mais baixo de uma série de observações
Exemplo:
Valor máximo - Valor mínimo
4,0 – 2,1 = 1,9 Kg
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Variância (S2)
Medida da variabilidade dos dados em torno da média
Busca captar os desvios de cada observação em relação a média
(xi – x ) e calcula a média desses desvios
A idéia presente é de que quanto maior forem os desvios maior a
variabilidade presente nos dados
Mas a somatória de todos estes desvios seria igual a zero
Portanto elevamos os desvios de cada observação em relação a
média ao quadrado, e somamos somente valores positivos
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Variância é a média dos desvios ao quadrado das observações em
relação à média
Somatório de ( Xi – X ) 2
S2 =
n -1
Variância ( S2 )
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Variância (S2)
Exemplo peso ao nascer em kg de 10 recém nascidos
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0
Sabe-se que a média = 3,1
Somatório de ( xi – x ) = 0
(2,1-3,1)+(2,8-3,1)+(2,9-3,1)+(3,0-3,1)+(3,1-3,1)+(3,2-3,1)+(3,2-3,1)+(3,2-3,1)+(3,5-3,1)+(4-3,5) = 0
Propõe-se o somatório de ( Xi – X ) 2
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Exemplo peso ao nascer em kg de 10 recém nascidos
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0
S2= (2,1-3,1)2+(2,8-3,1) 2+(2,9-3,1) 2+(3,0-3,1) 2+(3,1-3,1) 2+(3,2-3,1) 2+
(3,2-3,1) 2+(3,2-3,1) 2+(3,5-3,1)2+(4-3,1) 2
__________________________________________________________________________________________
9
Variância ( S2 )
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Exemplo peso ao nascer em kg de 10 recém nascidos
(2,1-3,1)2 + (2,8-3,1)2 + (2,9-3,1)2 + (3,0-3,1)2 + (3,1-3,1)2 + (3,2-3,1)2 + (3,2-3,1)2 + (3,2-3,1)2 + (3,5-3,1)2 + (4-3,1)2
9
(- 1,0)2 + (- 0,3)2 + (- 0,2)2 + (- 0,1)2 + (- 0,0)2 + (0,1)2 + (0,1)2 + (0,1)2 + (0,4)2 + (0,9)2
9
(1,0) + (0,09) + (0,04) + (0,01) + (0,0) + (0,01) + (0,01) + (0,01) + (0,16) + (0,81)
9
2,14 = 0,2377
9
Variância = 0,24 kg2 ou 240 gramas2
Variância ( S2 )
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
A unidade de medida da variância é S2 (unidade da medida das observações elevada ao quadrado. Ex: cm2, kg2)
Logo, para obter uma medida de variabilidade com a mesma unidade de observações, extrai-se a raiz quadrada, obtendo o desvio padrão
Desvio padrão (s) = v s2
Desvio padrão (s)
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Exemplo peso ao nascer em kg de 10 recém nascidos
Variância = 0,24 kg2
Raiz quadrada de 0,24 = 0,49
Desvio padrão (s) = 0,49 Kg ou 490 gramas
Desvio padrão (s)
Amplitude
Variância
Desvio Padrão
Coeficiente de variação
Uma pergunta que surge é se o desvio padrão é grande ou
pequeno, o que depende da grandeza da variável
É conveniente expressar a variabilidade tirando a influência da
ordem da grandeza da variável (comparando-se o desvio
padrão com a média)
Tal medida é denominada Coeficiente de Variação (CV)
CV= s
x
É adimensional é um número puro normalmente expresso em
percentual
Coeficiente de Variação
Amplitude
Variância /Desvio Padrão
Coeficiente de variação
Coeficiente de Variação
Exemplo peso ao nascer em kg de 10 recém nascidos
s= 0,49 x= 3,1
CV = s CV = 0,49 CV = 0,158 CV= 15,8%
x 3,1
Quanto menor mais homogêneo o conjunto de dado, uma possível
classificação seria
1. Baixo (inferior a 0,10 ou 10%)
2. Médio (de 0,10 a 0,20 ou 10 a 20%)
3. Alto (de 0,20 a 0,30 ou 20 a 30%)
4. Muito alto (superior a 0,30 ou 30%)
Amplitude
Variância /Desvio Padrão
Coeficiente de variação
A variável que apresentou a maior dispersão foi:
a) colesterol.
b) hemoglobina.
c) glicose
d) triglicérides.
e) os dados são insuficientes para se afirmar sobre a dispersão dos mesmos
Numa pesquisa foram avaliados os níveis de colesterol total (mg/dl),
glicemia (mg/dl), triglicérides (mg/dl) e hemoglobina (g/dl) de habitantes
adultos de uma comunidade. Alguns resultados descritivos estão na tabela 1.
PERCENTIL
(também para variáveis numéricas)
PERCENTIL
Valor que delimita um certo percentual de valores abaixo e acima dele
O valor não é calculado, é encontrado
A mediana é o percentil de ordem 50
P25 = percentil 25 = primeiro quartil (Q1)
P50 = percentil 50 = mediana = segundo quartil (Q2)
P75 = percentil 75 = terceiro quartil (Q3)
Exemplo peso ao nascer em kg de 12 recém nascidos
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0 4,0 4,0
25% 50% 75% 100%
PERCENTIL
Q1 Q2 Q3
GRÁFICOS
Úteis para a identificação da forma de um conjunto de dados e de
sua descrição
CONCEITOS BÁSICOS
Representação gráfica para Variáveis categóricas
Pizza/ Setor
Para apresentar dados
relativos a uma única variável,
num determinado momento
Recomendado somente se
houver até 7 categorias
Pode expor frequência
simples, relativa ou ambas.
Evitá-lo quando várias
categorias tem frequência
inferior a 5% (difícil distinguir).
CONCEITOS BÁSICOS
Representação gráfica para Variáveis Categóricas
Gráfico de barras
Entre cada barra deve haver um
espaço e as barras devem ter a
mesma largura
A altura de cada barra é
proporcional ao número de
indivíduos na categoria
Podem ser verticais ou
horizontais
Aceita maior leque de
possibilidades do que as pizzas
%
CONCEITOS BÁSICOS
Representação gráfica para Variáveis Numéricas
Histograma
É um gráfico de barras justapostas.
No eixo horizontal está a variável de
interesse, dividida em classes
geralmente de mesmo tamanho. No
eixo vertical, constrói-se uma barra
para cada classe com altura igual à
frequência absoluta ou relativa
correspondente. A barra é centrada
no ponto médio da classe.
CONCEITOS BÁSICOS
Histograma
Representação gráfica para Variáveis Numéricas
CONCEITOS BÁSICOS
Polígono de Frequência /
Linha/ Área
Polígono de frequências
Consiste em unir através de segmentos de reta as ordenadas
correspondentes aos pontos médios de cada classe.
Representação gráfica para Variáveis Numéricas
Representação gráfica para Variáveis Numéricas
CONCEITOS BÁSICOS
Boxplot
25%
25%
25%
25%
50%
Outlier
São observações atípicas, isto é, valores muito grandes
ou muito pequenos em relação aos demais.
Causas do aparecimento de Outliers
• Leitura, anotação ou transição incorreta de dados;
• Erro na execução do experimento ou na tomada da
medida;
• Mudanças não controláveis dos pacientes;
• Característica inerente à variável estudada.
Além de uma estimativa pontual é, em muitas situações, importante
dispor de alguma forma de intervalo que indique a confiança que se
pode depositar na estimativa pontual.
Intervalo de Confiança
Imagine que um estudo afirma que “o número médio de dentes perdidos
entre adultos de 35-44 anos é de 7,21(IC-95%= 6,6 – 7,8)”
O que significa isso?
Intervalo de Confiança
Se fossem avaliados TODOS da população, ter-se-ia
plena confiança nos resultados.
Porém, na maioria dos casos, estudam-se amostras.
Ao estudar uma amostra podemos dar o azar (acaso) de
encontrar um resultado que difere da realidade.
Por isso, devemos estimar a precisão estatística do resultado.
S= {1, 2, 3, 4,5} μ = 3
n=2
(1,1) (1,2) (1,3) (1,4) (1,5)
(2,1) (2,2) (2,3) (2,4) (2,5)
(3,1) (3,2) (3,3) (3,4) (3,5)
(4,1) (4,2) (4,3) (4,4) (4,5)
(5,1) (5,2) (5,3) (5,4) (5,5)
1,0 1,5 2,0 2,5 3,0
1,5 2,0 2,5 3,0 3,5
2,0 2,5 3,0 3,5 4,0
2,5 3,0 3,5 4,0 4,5
3,0 3,5 4,0 4,5 5,0
(Siqueira e Tibúrcio, 2011)
4
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
8
12
16
20
%
Intervalo de Confiança
O intervalo de confiança no nível 95% (IC95%) significa que o
resultado estará dentro daquele intervalo em 95 dos 100 estudos
hipoteticamente realizados, ou seja, a média de dentes perdidos
estará entre 6,6 – 7,8. O 5% excluídos deste intervalo representam
valores extremos que possuem menor possibilidade de terem
ocorrido por acaso. Por isso são excluídos de um intervalo que
deseja estimar onde está a verdade.
Assim, podemos afirmar que em 95 de 100 amostras hipotéticas,
o resultado estará dentro deste intervalo.
Intervalo de Confiança
n
E para finalizar...
Arredondamento
Na regra básica, os dígitos excedentes devem ser descartados
se o último deles é menor do que 5 e, em caso contrário, o
último dígito retido é acrescido de 1.
Exemplo:
87,72 87,7
90,58 90,6
98,04 98,0
SIQUEIRA, Lúcia Arminda; TIBÚRCIO, Jacqueline Domingues. Estatística na
área da saúde: conceitos, metodologia, aplicações e prática
computacional. Belo Horizonte: Coopmed, 2011.