Download pdf - Princípios estatísticos Ensaios clínicos básicos na ...stoa.usp.br/edsonzm/files/2893/16110/EERP+-+Aula+04+-+Analise.pdf · Ensaios clínicos aleatorizados • Os indivíduos

Avanços metodológicos na pesquisa em Enfermagem

Prof. Dr. Edson Zangiacomi MartinezFaculdade de Medicina de Ribeirão Preto - USP 1

Princípios estatísticos básicos na condução de ensaios

clínicos

Edson Zangiacomi MartinezCEMEQ – Centro de Métodos QuantitativosFaculdade de Medicina de Ribeirão Preto

USP

Ensaios clínicos

• Um ensaio clínico controlado aleatorizado envolve ao menos um tratamento sob investigação e um tratamento controle, onde a alocação dos indivíduos aos tratamentos utiliza um processo aleatório.

Amostra

Tratamento sobinvestigação

Tratamentocontrole

Resposta

Resposta

aleatorização

Ensaios clínicos aleatorizados

• Os indivíduos elegíveis ao estudo são alocados nos diferentes grupos de tratamentos de maneira casual, segundo, por exemplo, a geração de uma sequência de números aleatórios em um programa de computador.

Amostra Aleatorização

Ensaios clínicos aleatorizados

População

Amostra

Tratamentosob

investigação

Tratamentocontrole

Respostas Respostas

Inferência estatística



Itens essenciais em testes de hipóteses

• Hipóteses nula e alternativa• Erros tipo I e II• Nível de significância• Poder• P valor, valor-p, p-value

O que um p valor?

(a) É a probabilidade da hipótese nula de um teste ser verdadeira.

(b) É a probabilidade de um dado resultado, como a diferença entre dois grupos, ter sido obtido de um "acaso".

(c) É a probabilidade da hipótese nula ter sido enganosamente rejeitada.

(d) É a significância de um efeito observado.(e) É a probabilidade de se obter uma estatística de teste

igual ou mais extrema quanto aquela observada em uma amostra, assumindo verdadeira a hipótese nula.

p valores

• Muita gente usa...

... pouca gente entende!

Neyman e Pearson (1933)• 1-) Estabelecemos a nossa hipótese, baseada em nossa crença.

A % de respostas (θT) do grupo de tratamento é

superior à % de respostas (θC) do grupo controle/placebo.

• 2-) Esta hipótese é a hipótese alternativa (HA)

HA: θT > θC

• 3-) Busco a negação de minha hipótese alternativa, que será a hipótese nula (H0)

H0: θT ≤ θC

• 4-) Tenho a hipótese nula como a verdadeira, e busco em uma amostra evidências favoráveis a esta hipótese.

• 5-) Se encontro uma contradição, rejeito H0 e tenho HA como a verdadeira.



Testes de hipóteses

• Hipóteses H0: θT = θC

HA: θT ≠ θC

Rejeito H0: evidência de efeito de tratamentoNão rejeito H0: ausência de evidência de efeito de

tratamento

Ausência de evidência de efeito de tratamento≠

Evidência de ausência de efeito de tratamento



HA: θT ≠ θC

Rejeito H0: evidência de efeito de tratamentoNão rejeito H0: ausência de evidência de efeito de

tratamento

Nível de significância: α = P(rejeitar H0| H0 verdadeira)

= P(evidência de efeito| tratamento = controle)



HA: θT ≠ θC

Nível de significância: α = P(rejeitar H0 | H0 verdadeira)

= P(evidência de efeito | tratamento = controle)

p valor: menor valor que deveríamos ter escolhido para α, de modo que o teste trouxesse uma evidência de efeito de tratamento.

p valor x tamanho amostral

• p valores: efeito de tamanho amostral

• Quanto maior o tamanhoamostral, menor o pvalor

• Quanto menor o tamanho amostral, maioro p valor

7 (14%)50Controle0,20

12 (24%)50Tratamento

p valorRespostasn

14 (14%)100Controle0,07


p valorRespostasn

21 (14%)150Controle0,03


p valorRespostasn



Itens essenciais em testes de hipóteses

• Erro tipo I: rejeitamos H0, mas H0 é verdadeira.• Erro tipo II: não rejeitamos H0, mas H0 é falsa.• Nível de significância: é a probabilidade de

cometermos um erro tipo I, denotada por αgeralmente fixada em 5%.

• Poder: é a probabilidade de não cometermos um erro tipo II, denotada por 1 – β, geralmente fixada em 5%, 10% ou 20%.

Leituras

• Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003): 485.

• Altman D, Bland JM. Confidence intervals illuminate absence of evidence. BMJ. 2004;328(7446):1016-7.

“We discourage the use of P-values or dependence on statistical significance.”

Epidemiology, instructions for authors.

“The results should be quantified and presented with appropriate indicators of measurement error or uncertainty (eg confidence intervals). The mean and standard deviation (SD) should be given at a minimum; a sole reliance on the

use of P values is not acceptable.”

Annals of Medicine, instructions for authors.

“P values alone do not convey the magnitude of the effect or

difference, nor its precision. Therefore, we will recommend

the use of estimates of strength (eg, coefficients, odds ratios,

hazard ratios) and confidence limits (intervals), tolerance

intervals, or credibility intervals to convey this information.

Use of these intervals is particularly important when the

conclusion is that no effect or association was observed

(equivalence).”

The Journal of Thoracic and Cardiovascular Surgery, 2000.



“Measures of association, such as relative risk or

odds ratio, are the preferred way of expressing

results of dichotomous outcomes, eg, sick versus healthy. Confidence intervals around these measures

indicate the precision of these results. Measures of

association with confidence intervals reveal the

strength, direction, and a plausible range of an effect

as well as the likelihood of chance occurrence. By

contrast, p values address only chance. Testing null

hypotheses at a p value of 0.05 has no basis in

medicine and should be discouraged.”

Grimes DA, Schulz KF. An overview of clinical research: the lay of the land. The Lancet 2002; 359:57-61.

Medidas de efeito de tratamentos

Redução absoluta de risco (RAR) RAR = θC – θT

Risco relativo (RR) RR =θT

θC

Redução relativa de risco (RRR) RRR = (1 – RR) 100%

Número necessário para tratar (NNT) NNT =1

RAR

Risco com

Trata-

mento

Risco

sem

Trata-

mento

Risco

Rela-

tivo

Redução

Relativa de

Risco

Redução

Absoluta de

Risco

Número

Necessário

Para Tratar

θT θC

0,2 0,5 0,4 0,6 0,3 3,3

0,02 0,05 0,4 0,6 0,03 33,0

0,002 0,005 0,4 0,6 0,003 333,0

RR RRR RAR NNT

CONSORT 2010

• CONsolidated Standards of Reporting Trials.• Conjunto mínimo de recomendações para a

apresentação dos resultados de ensaios clínicos controlados aleatorizados.

• Check-list de 25 itens• Fluxograma.• http://www.consort-statement.org/



CONSORT 2010

• Almost all methods of analysis yield an estimate of the treatment effect, which is a contrast between the outcomes in the comparison groups. Authors should accompany this by a confidence interval for the estimated effect, which indicates a central range of uncertainty for the true treatment effect. The confidence interval may be interpreted as the range of values for the treatment effect that is compatible with the observed data. It is customary to present a 95% confidence interval, which gives the range expected to include the true value in 95 of 100 similar studies.

O que significa o intervalo de confiança 95% apresentado no artigo?

(a) Há uma probabilidade de 95% do RR populacional estar entre 0,46 e 0,91.

(b) A cada 100 amostras de mesmo tamanho retiradas da mesma população, pelo mesmo processo de amostragem, 95 amostras gerariam intervalos de confiança que conteriam o RR populacional.

(c) Há uma probabilidade de 65% da aspirina ser superior ao placebo, sendo que esta probabilidade varia de 46% a 91% para os indivíduos do estudo.

(d) O RR 0,65 está dentro do intervalo, portanto, é significativo.

θ

Amostra 1

Amostra 3

Amostra 7

Amostra 5

Amostra 10

Amostra 12

Amostra 2

Amostra 4

Amostra 6

Amostra 8Amostra 9

Amostra 11

Amostra 13

Amostra 1000

...

InterpretaInterpretaçção ão frequentistafrequentista:: se retirássemos da população um número grande de amostras tamanho n, 95% destas amostras iriam gerar intervalos de confiança que contém o parâmetro (populacional)..



0θθθθT – θθθθC

θθθθT > θθθθCθθθθT < θθθθC θθθθT = θθθθC p < 0,05

0

p < 0,05

0

p < 0,05

0

p < 0,05

0

p > 0,05

0

p > 0,05

0

θθθθT > θθθθCθθθθT < θθθθC θθθθ T = θθθθC p < 0,05

0

p < 0,05

0

p < 0,05

0

p < 0,05

0

p > 0,05

0

p > 0,05

10%

A

B

C

D

E

F

Leituras

• Turk DC. "Statistical significance and clinical significance are not synonyms!". Clin J Pain. 2000;16(3):185-7.

• Houle TT, Stump DA. Statistical significance versus clinical significance. Semin Cardiothorac Vasc Anesth. 2008;12(1):5-6.

• Braitman LE. Confidence intervals assess both clinical significance and statistical significance. Ann Intern Med. 1991; 114(6):515-7.

Recomendações

• Os p-valores, se empregados, devem ser utilizados como complementos às medidas de tamanho de efeito de tratamento, que por sua vez, devem ser acompanhadas de seus intervalos de confiança.

• Evitar o rótulo “estatisticamente significante”, privilegiar a “significância clínica”.

• As relações entre tamanho amostral e evidência devem ser adequadamente exploradas.



Determinação do tamanho da amostra

É importante quando o estudo está sendo

delineado.

Post hoc power analysis

Post hoc power analysis




Questões relevantes:

1. Qual é o principal objetivo do ensaio ?2. Qual é a principal medida de desfecho (outcome) ?3. Como os dados serão analisados para que seja

detectada uma diferença de tratamento ?4. Que tipos de resultados são antecipados com o

tratamento padrão ?5. Qual a menor diferença de tratamento considerada

importante para ser detectada e com que grau de precisão ?


Qual é a principal medida de desfecho (outcome) ?

• O desfecho pode ser um evento binário, como morte/sobrevida, cura/não cura, apresentou/não apresentou uma reação adversa ao tratamento, ou uma resposta contínua, como níveis séricos de colesterol ou pressão arterial sanguínea.


Como os dados serão analisados para que seja detectada uma diferença de tratamento ?

• Deve haver uma compatibilidade entre a ferramenta estatística a ser utilizada na análise dos dados e a estratégia de determinação do tamanho amostral.


Que tipos de resultados são antecipados com o tratamento padrão ?

• Para determinar o tamanho amostral, precisamos de uma idéia prévia à coleta dos dados do resultado que seria encontrado para os pacientes que recebem o placebo ou o tratamento padrão.




Qual a menor diferença de tratamento considerada importante para ser detectada e com que grau de precisão ?

• P.ex., com base em estudos prévios, é esperado que 20% dos indivíduos que recebem o placebo apresentam alguma melhora clínica. Para que o tratamento em estudo seja considerado “útil”, qual deve ser a proporção mínima de indivíduos com melhora clínica no grupo que recebe este tratamento?

Exemplo (Pocock, 1983, p. 124)

( ) ( )( )

( )βαθθ

θθθθ,

11* 2 fn

CT

TTCC

−

−+−=

θC = porcentagem de sucessos esperada para o tratamento controle

θT = porcentagem de sucessos esperada para o tratamento em estudo

θC – θT = diferença ‘clinicamente’ importante a ser detectada

Determinação do tamanho da amostraDiferença entre duas proporções – grupos paralelos


0,100,050,020,01

0,05

10,813,015,817,8

0,1

8,610,513,014,9

0,2

6,27,9

10,011,7

0,5

2,73,85,46,6

β (erro tipo II)

α

f (α,β) é uma função de α e β


θC = 90% (proporção esperada de respostas, grupo placebo)

θT = 95%

0,100,050,020,01

0,05

596715868980

0,1

472578716819

0,2

341432552643

0,5

149212298365

β (erro tipo II)

α

θT – θC = diferença ‘clinicamente’ importante a ser detectada



Hipóteses: H0: θP – θE ≥ δ

HA: θP – θE < δ

( ) ( )( )

( )βαδθθ

θθθθ,

11* 2 gn

CT

TTCC

−−

−+−=

θP = porcentagem de sucessos esperada para o tratamento padrão

θE = porcentagem de sucessos esperada para o tratamento experimental

δ = diferença máxima para que os tratamentos sejam considerados equivalentes

Determinação do tamanho da amostraDiferença entre duas proporções – Ensaio de não inferioridade

Backwelder (1982)

0,100,050,020,01

0,05

8,5610,8213,6815,77

0,1

6,578,56

11,1213,02

0,2

4,516,188,38

10,04

0,5

1,642,714,225,41

β (erro tipo II)

α

g(α,β) é uma função de α e β

Determinação do tamanho da amostraDiferença entre duas proporções – Ensaio de não inferioridade