Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 1
Princípios estatísticos básicos na condução de ensaios
clínicos
Edson Zangiacomi MartinezCEMEQ – Centro de Métodos QuantitativosFaculdade de Medicina de Ribeirão Preto
USP
Ensaios clínicos
• Um ensaio clínico controlado aleatorizado envolve ao menos um tratamento sob investigação e um tratamento controle, onde a alocação dos indivíduos aos tratamentos utiliza um processo aleatório.
Amostra
Tratamento sobinvestigação
Tratamentocontrole
Resposta
Resposta
aleatorização
Ensaios clínicos aleatorizados
• Os indivíduos elegíveis ao estudo são alocados nos diferentes grupos de tratamentos de maneira casual, segundo, por exemplo, a geração de uma sequência de números aleatórios em um programa de computador.
Amostra Aleatorização
Ensaios clínicos aleatorizados
População
Amostra
Tratamentosob
investigação
Tratamentocontrole
Respostas Respostas
Inferência estatística
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 2
Itens essenciais em testes de hipóteses
• Hipóteses nula e alternativa• Erros tipo I e II• Nível de significância• Poder• P valor, valor-p, p-value
O que um p valor?
(a) É a probabilidade da hipótese nula de um teste ser verdadeira.
(b) É a probabilidade de um dado resultado, como a diferença entre dois grupos, ter sido obtido de um "acaso".
(c) É a probabilidade da hipótese nula ter sido enganosamente rejeitada.
(d) É a significância de um efeito observado.(e) É a probabilidade de se obter uma estatística de teste
igual ou mais extrema quanto aquela observada em uma amostra, assumindo verdadeira a hipótese nula.
p valores
• Muita gente usa...
... pouca gente entende!
Neyman e Pearson (1933)• 1-) Estabelecemos a nossa hipótese, baseada em nossa crença.
A % de respostas (θT) do grupo de tratamento é
superior à % de respostas (θC) do grupo controle/placebo.
• 2-) Esta hipótese é a hipótese alternativa (HA)
HA: θT > θC
• 3-) Busco a negação de minha hipótese alternativa, que será a hipótese nula (H0)
H0: θT ≤ θC
• 4-) Tenho a hipótese nula como a verdadeira, e busco em uma amostra evidências favoráveis a esta hipótese.
• 5-) Se encontro uma contradição, rejeito H0 e tenho HA como a verdadeira.
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 3
Testes de hipóteses
• Hipóteses H0: θT = θC
HA: θT ≠ θC
Rejeito H0: evidência de efeito de tratamentoNão rejeito H0: ausência de evidência de efeito de
tratamento
Ausência de evidência de efeito de tratamento≠
Evidência de ausência de efeito de tratamento
Testes de hipóteses
• Hipóteses H0: θT = θC
HA: θT ≠ θC
Rejeito H0: evidência de efeito de tratamentoNão rejeito H0: ausência de evidência de efeito de
tratamento
Nível de significância: α = P(rejeitar H0| H0 verdadeira)
= P(evidência de efeito| tratamento = controle)
Testes de hipóteses
• Hipóteses H0: θT = θC
HA: θT ≠ θC
Nível de significância: α = P(rejeitar H0 | H0 verdadeira)
= P(evidência de efeito | tratamento = controle)
p valor: menor valor que deveríamos ter escolhido para α, de modo que o teste trouxesse uma evidência de efeito de tratamento.
p valor x tamanho amostral
• p valores: efeito de tamanho amostral
• Quanto maior o tamanhoamostral, menor o pvalor
• Quanto menor o tamanho amostral, maioro p valor
7 (14%)50Controle0,20
12 (24%)50Tratamento
p valorRespostasn
14 (14%)100Controle0,07
24 (24%)100Tratamento
p valorRespostasn
21 (14%)150Controle0,03
36 (24%)150Tratamento
p valorRespostasn
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 4
Itens essenciais em testes de hipóteses
• Erro tipo I: rejeitamos H0, mas H0 é verdadeira.• Erro tipo II: não rejeitamos H0, mas H0 é falsa.• Nível de significância: é a probabilidade de
cometermos um erro tipo I, denotada por αgeralmente fixada em 5%.
• Poder: é a probabilidade de não cometermos um erro tipo II, denotada por 1 – β, geralmente fixada em 5%, 10% ou 20%.
Leituras
• Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003): 485.
• Altman D, Bland JM. Confidence intervals illuminate absence of evidence. BMJ. 2004;328(7446):1016-7.
“We discourage the use of P-values or dependence on statistical significance.”
Epidemiology, instructions for authors.
“The results should be quantified and presented with appropriate indicators of measurement error or uncertainty (eg confidence intervals). The mean and standard deviation (SD) should be given at a minimum; a sole reliance on the
use of P values is not acceptable.”
Annals of Medicine, instructions for authors.
“P values alone do not convey the magnitude of the effect or
difference, nor its precision. Therefore, we will recommend
the use of estimates of strength (eg, coefficients, odds ratios,
hazard ratios) and confidence limits (intervals), tolerance
intervals, or credibility intervals to convey this information.
Use of these intervals is particularly important when the
conclusion is that no effect or association was observed
(equivalence).”
The Journal of Thoracic and Cardiovascular Surgery, 2000.
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 5
“Measures of association, such as relative risk or
odds ratio, are the preferred way of expressing
results of dichotomous outcomes, eg, sick versus healthy. Confidence intervals around these measures
indicate the precision of these results. Measures of
association with confidence intervals reveal the
strength, direction, and a plausible range of an effect
as well as the likelihood of chance occurrence. By
contrast, p values address only chance. Testing null
hypotheses at a p value of 0.05 has no basis in
medicine and should be discouraged.”
Grimes DA, Schulz KF. An overview of clinical research: the lay of the land. The Lancet 2002; 359:57-61.
Medidas de efeito de tratamentos
Redução absoluta de risco (RAR) RAR = θC – θT
Risco relativo (RR) RR =θT
θC
Redução relativa de risco (RRR) RRR = (1 – RR) 100%
Número necessário para tratar (NNT) NNT =1
RAR
Risco com
Trata-
mento
Risco
sem
Trata-
mento
Risco
Rela-
tivo
Redução
Relativa de
Risco
Redução
Absoluta de
Risco
Número
Necessário
Para Tratar
θT θC
0,2 0,5 0,4 0,6 0,3 3,3
0,02 0,05 0,4 0,6 0,03 33,0
0,002 0,005 0,4 0,6 0,003 333,0
RR RRR RAR NNT
CONSORT 2010
• CONsolidated Standards of Reporting Trials.• Conjunto mínimo de recomendações para a
apresentação dos resultados de ensaios clínicos controlados aleatorizados.
• Check-list de 25 itens• Fluxograma.• http://www.consort-statement.org/
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 6
CONSORT 2010
• Almost all methods of analysis yield an estimate of the treatment effect, which is a contrast between the outcomes in the comparison groups. Authors should accompany this by a confidence interval for the estimated effect, which indicates a central range of uncertainty for the true treatment effect. The confidence interval may be interpreted as the range of values for the treatment effect that is compatible with the observed data. It is customary to present a 95% confidence interval, which gives the range expected to include the true value in 95 of 100 similar studies.
O que significa o intervalo de confiança 95% apresentado no artigo?
(a) Há uma probabilidade de 95% do RR populacional estar entre 0,46 e 0,91.
(b) A cada 100 amostras de mesmo tamanho retiradas da mesma população, pelo mesmo processo de amostragem, 95 amostras gerariam intervalos de confiança que conteriam o RR populacional.
(c) Há uma probabilidade de 65% da aspirina ser superior ao placebo, sendo que esta probabilidade varia de 46% a 91% para os indivíduos do estudo.
(d) O RR 0,65 está dentro do intervalo, portanto, é significativo.
θ
Amostra 1
Amostra 3
Amostra 7
Amostra 5
Amostra 10
Amostra 12
Amostra 2
Amostra 4
Amostra 6
Amostra 8Amostra 9
Amostra 11
Amostra 13
Amostra 1000
...
InterpretaInterpretaçção ão frequentistafrequentista:: se retirássemos da população um número grande de amostras tamanho n, 95% destas amostras iriam gerar intervalos de confiança que contém o parâmetro (populacional)..
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 7
0θθθθT – θθθθC
θθθθT > θθθθCθθθθT < θθθθC θθθθT = θθθθC p < 0,05
0
p < 0,05
0
p < 0,05
0
p < 0,05
0
p > 0,05
0
p > 0,05
0
θθθθT > θθθθCθθθθT < θθθθC θθθθ T = θθθθC p < 0,05
0
p < 0,05
0
p < 0,05
0
p < 0,05
0
p > 0,05
0
p > 0,05
10%
A
B
C
D
E
F
Leituras
• Turk DC. "Statistical significance and clinical significance are not synonyms!". Clin J Pain. 2000;16(3):185-7.
• Houle TT, Stump DA. Statistical significance versus clinical significance. Semin Cardiothorac Vasc Anesth. 2008;12(1):5-6.
• Braitman LE. Confidence intervals assess both clinical significance and statistical significance. Ann Intern Med. 1991; 114(6):515-7.
Recomendações
• Os p-valores, se empregados, devem ser utilizados como complementos às medidas de tamanho de efeito de tratamento, que por sua vez, devem ser acompanhadas de seus intervalos de confiança.
• Evitar o rótulo “estatisticamente significante”, privilegiar a “significância clínica”.
• As relações entre tamanho amostral e evidência devem ser adequadamente exploradas.
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 8
Determinação do tamanho da amostra
É importante quando o estudo está sendo
delineado.
Post hoc power analysis
Post hoc power analysis
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 9
Determinação do tamanho da amostra
Questões relevantes:
1. Qual é o principal objetivo do ensaio ?2. Qual é a principal medida de desfecho (outcome) ?3. Como os dados serão analisados para que seja
detectada uma diferença de tratamento ?4. Que tipos de resultados são antecipados com o
tratamento padrão ?5. Qual a menor diferença de tratamento considerada
importante para ser detectada e com que grau de precisão ?
Determinação do tamanho da amostra
Qual é a principal medida de desfecho (outcome) ?
• O desfecho pode ser um evento binário, como morte/sobrevida, cura/não cura, apresentou/não apresentou uma reação adversa ao tratamento, ou uma resposta contínua, como níveis séricos de colesterol ou pressão arterial sanguínea.
Determinação do tamanho da amostra
Como os dados serão analisados para que seja detectada uma diferença de tratamento ?
• Deve haver uma compatibilidade entre a ferramenta estatística a ser utilizada na análise dos dados e a estratégia de determinação do tamanho amostral.
Determinação do tamanho da amostra
Que tipos de resultados são antecipados com o tratamento padrão ?
• Para determinar o tamanho amostral, precisamos de uma idéia prévia à coleta dos dados do resultado que seria encontrado para os pacientes que recebem o placebo ou o tratamento padrão.
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 10
Determinação do tamanho da amostra
Qual a menor diferença de tratamento considerada importante para ser detectada e com que grau de precisão ?
• P.ex., com base em estudos prévios, é esperado que 20% dos indivíduos que recebem o placebo apresentam alguma melhora clínica. Para que o tratamento em estudo seja considerado “útil”, qual deve ser a proporção mínima de indivíduos com melhora clínica no grupo que recebe este tratamento?
Exemplo (Pocock, 1983, p. 124)
( ) ( )( )
( )βαθθ
θθθθ,
11* 2 fn
CT
TTCC
−
−+−=
θC = porcentagem de sucessos esperada para o tratamento controle
θT = porcentagem de sucessos esperada para o tratamento em estudo
θC – θT = diferença ‘clinicamente’ importante a ser detectada
Determinação do tamanho da amostraDiferença entre duas proporções – grupos paralelos
Determinação do tamanho da amostraDiferença entre duas proporções – grupos paralelos
0,100,050,020,01
0,05
10,813,015,817,8
0,1
8,610,513,014,9
0,2
6,27,9
10,011,7
0,5
2,73,85,46,6
β (erro tipo II)
α
f (α,β) é uma função de α e β
Determinação do tamanho da amostraDiferença entre duas proporções – grupos paralelos
θC = 90% (proporção esperada de respostas, grupo placebo)
θT = 95%
0,100,050,020,01
0,05
596715868980
0,1
472578716819
0,2
341432552643
0,5
149212298365
β (erro tipo II)
α
θT – θC = diferença ‘clinicamente’ importante a ser detectada
Avanços metodológicos na pesquisa em Enfermagem
Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 11
Hipóteses: H0: θP – θE ≥ δ
HA: θP – θE < δ
( ) ( )( )
( )βαδθθ
θθθθ,
11* 2 gn
CT
TTCC
−−
−+−=
θP = porcentagem de sucessos esperada para o tratamento padrão
θE = porcentagem de sucessos esperada para o tratamento experimental
δ = diferença máxima para que os tratamentos sejam considerados equivalentes
Determinação do tamanho da amostraDiferença entre duas proporções – Ensaio de não inferioridade
Backwelder (1982)
0,100,050,020,01
0,05
8,5610,8213,6815,77
0,1
6,578,56
11,1213,02
0,2
4,516,188,38
10,04
0,5
1,642,714,225,41
β (erro tipo II)
α
g(α,β) é uma função de α e β
Determinação do tamanho da amostraDiferença entre duas proporções – Ensaio de não inferioridade