Manual de usuario para Análisis Secuencial de Ensayos · BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA TEORÍA LEGAL, YA SEA POR ... Principal desarrollador de las aplicaciones del software:

1

Manual de usuario para

Anlisis Secuencial de Ensayos

Kristian Thorlund, Janus Engstrm, Jrn Wetterslev, Jesper Brok,

Georgina Imberger, y Christian Gluud

Copenhagen Trial Unit

Centre for Clinical Intervention Research

Departament 3344, Rigshospitalet

DK-2100 Copenhagen

Demmark

Tel. +45 3545 7171 Fax +45 3545 7101

E-mail: [email protected]

2

Contenido

Manifiesto de responsabilidad limitada ........................................................ 4

Roles de los miembros del equipo y contribuciones .................................. 5

Prefacio ............................................................................................................. 6

1 Conceptos y racionalidad del Anlisis Secuencial de los Estudios .... 7

El error aleatorio en el metanlisis ......................................................................... 7

Definicin de la solidez de la evidencia Tamao necesario de la muestra .......... 9

Evaluacin de la significacin estadstica antes de que se haya alcanzado el

tamao necesario de la muestra. ......................................................................................10

Pruebas de futilidad antes de que el tamao de la informacin haya sido alcanzado

11

Resumen ..............................................................................................................13

2 Metodologa del TSA .............................................................................. 15

Mtodos para combinar los resultados de los ensayos clnicos ............................15

Medidas de efecto para los datos dicotmicos y continuos ...............................15

Generalidades del modelo de efectos fijos y de efectos aleatorios ....................17

Estrategias para el metanlisis con el modelo de efectos aleatorio ...................19

Mtodos para el manejo de ensayos clnicos sin eventos .................................22

Examinando la significacin ajustada y la futilidad en el metanlisis acumulativo .24

El tamao de la informacin necesaria para un metanlisis concluyente ..........26

La prueba estadstica acumulada (curva Z).......................................................35

Los problemas con las pruebas de significacin en el metanlisis ....................36

La funcin del gasto de alfa y los lmites de monitoreo secuencial de los

ensayos ........................................................................................................................38

Intervalos de confianza ajustados tras el anlisis secuencial de los ensayos ....45

La ley del logaritmo iterado ...............................................................................47

La funcin del gasto de y los lmites de futilidad .............................................48

3 Instalacin e inicio del programa TSA .................................................. 54

Requisitos previos .................................................................................................54

Instalacin .............................................................................................................54

Iniciando el TSA ....................................................................................................54

Por qu no funciona el TSA? ..........................................................................55

Uso RM5 Converter ..............................................................................................56

Por qu no funciona? ......................................................................................56

4 Cmo utilizar el software TSA ............................................................... 56

Iniciando ...............................................................................................................56

Creacin de un nuevo metanlisis ....................................................................57

Guardando un archivo TSA y abriendo un archivo TSA existente .....................59

Importando los datos del metanlisis desde Review Manager v.5 .....................59

Aadiendo, editando y eliminando los ensayos clnicos ........................................63

3

Aadiendo ensayos clnicos ..............................................................................64

Edicin y eliminacin de ensayos ......................................................................65

Estableciendo las configuraciones del metanlisis ................................................66

Eleccin de la medida de asociacin.................................................................66

La eleccin de su modelo estadstico ................................................................67

Eleccin de un mtodo para el manejo de datos con ausencia de eventos .......67

La eleccin del tipo de intervalo de confianza ...................................................68

Aplicacin de las pruebas ajustadas de significacin (aplicando TSA) ..................69

Adicin de una prueba de significacin .............................................................70

Edicin y eliminacin de una prueba de significacin ........................................77

Adicin y recuperacin de las plantillas de pruebas de significacin .................78

Realizando los clculos de las pruebas de significacin....................................79

Opciones de grficos en el TSA ............................................................................81

Explorando la diversidad entre los ensayos ..........................................................86

5 Ejemplos de aplicaciones del TSA ........................................................ 87

Los conjuntos de datos .........................................................................................87

Cmo evitar los falsos positivos ............................................................................87

Confirmacin de un resultado positivo ..................................................................89

Confirmacin de la answer is in Desconozco una traduccin adecuada para

esta expresin ..............................................................................................................90

Evitando sobreestimaciones precoces ..............................................................93

Pruebas de inutilidad ............................................................................................96

La estimacin del tamao de la muestra de un nuevo ensayo clnico ...................97

Otras aplicaciones publicadas del Anlisis Secuencial de los Ensayos ............... 100

6 Apndices .............................................................................................. 102

Medidas de efecto para metanlisis de los datos dicotmicos y continuos.......... 102

Estrategia de efectos aleatorio ............................................................................ 103

Frmulas del mtodo Biggerstaff-Tweedie ...................................................... 103

Anlisis secuencial de los ensayos ..................................................................... 103

Incremento del error tipo I debido a la repeticin de pruebas de significacin . 103

Los mtodos alternativos no implementados en el software TSA .................... 104

7 Lista de abreviaturas y notaciones estadsticas ............................... 107

Abreviaturas generales ....................................................................................... 107

Notaciones estadsticas ...................................................................................... 107

Smbolos con letras minsculas ...................................................................... 107

Smbolos con letras maysculas ..................................................................... 108

7.2.3. Smbolos en letras griegas................................................................................ 110

8 Referencias bibliogrficas ................................................................... 111

4

Manifiesto de responsabilidad limitada

EL SOFTWARE ES PROPORCIONADO "TAL CUAL", SIN GARANTA DE NINGN

TIPO, EXPRESA O IMPLCITA, INCLUYENDO PERO NO LIMITADO A LAS

GARANTAS DE COMERCIALIZACIN, IDONEIDAD PARA UN PROPSITO

PARTICULAR Y NO INFRACCIN. EN NINGN CASO, LOS AUTORES O

TITULARES DEL DERECHO DE AUTOR SERN RESPONSABLES DE NINGUNA

RECLAMACIN, DAO U OTRA RESPONSABILIDAD, YA SEA EN UNA ACCIN

DE CONTRATO, AGRAVIO O DE OTRO TIPO, QUE SURJA DE O EN CONEXION

CON EL SOFTWARE O EL USO U OTROS EN EL SOFTWARE.

BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA TEORA LEGAL, YA SEA

POR AGRAVIO, CONTRATO, O CUALQUIER OTRA FORMA, LA CLINICAL TRIAL

UNIT SER RESPONSABLE ANTE USTED O CUALQUIER OTRA PERSONA POR

PRDIDA DE BENEFICIOS, PRDIDA DE FONDO DE COMERCIO, O CUALQUIER

DAO INDIRECTO, ESPECIAL, INCIDENTAL O CONSECUENTES DAOS, O

DAOS POR NEGLIGENCIA GRAVE DE NINGN TIPO, INCLUYENDO, SIN

LIMITACIONES, DAOS POR PRDIDA DE FONDO DE COMERCIO,

INTERRUPCIN DEL TRABAJO, FALLO O MAL FUNCIONAMIENTO, O POR

CUALQUIER OTRO DAO O PRDIDA.

El software de anlisis secuencial de los ensayos (en adelante TSA) a que se refiere

este manual est en versin Beta. La Copenhagen Trial Unit ha evaluado ampliamente

el software TSA; pero, an pudieran ocurrir errores. La retroalimentacin es una parte

importante del proceso de correccin de errores y de la implementacin de mejoras.

Por lo que le animamos a que nos comunique acerca de sus experiencias con este

software. Para ello, por favor visite la pgina Web desde donde descarg el TSA

(ctu.rh.dk/TSA), y haga clic en el enlace de formulario de comentarios.

5

Roles de los miembros del equipo y contribuciones

El TSA se desarroll en la Copenhagen Trial Unit, Copenhague, Dinamarca. El equipo

est formado por Kristian Thorlund (KT), Janus Engstrm (JE), Jrn Wetterslev (JW),

Jesper Brok (JB), Georgina Imberger (GI), y Christian Gluud (CG). Las funciones y

contribuciones de cada miembro del equipo se describen a continuacin:

Jefe del proyecto: KT.

Principal desarrollador de las aplicaciones del software: JE.

Co-desarrolladores de las aplicaciones del software: KT, JW, JB, CG.

Programador estadstico: KT.

Evaluadores internos de la versin Beta: JB, GI, JW, KT, CG.

Autores del manual: KT (principal), GI, JW, JB, JE, CG.

Supervisores del proyecto: JW y CG.

6

Prefacio

Este manual proporciona una gua, terica y prctica, para el uso del programa

Anlisis Secuencial de los Estudios (TSA, por sus siglas en ingls) realizado en la

Copenhagen Trial Unit. El captulo 1 se refiere a los conceptos y racionalidad; el

captulo 2 aporta una descripcin tcnica de las metodologas implementadas, y los

captulos 3 al 5 se refieren a cmo instalar, utilizar y aplicar el software.

El software TSA puede ser descargado desde www.ctu.dk/tsa. Le invitamos a utilizarlo

en sus anlisis y publicaciones de metanlisis acumulados, con la debida referencia

del software y de algunos de nuestros artculos que describen la metodologa.

En caso de que necesite ayuda con el software TSA, por favor, comunquese con

nosotros a travs del correo electrnico: [email protected].

7

1 Conceptos y racionalidad del Anlisis Secuencial de

los Estudios

El error aleatorio en el metanlisis

Algunos hallazgos metanalticos positivos pueden ser debidos a la influencia del

azar (errores aleatorios) ms que a algn efecto verdadero subyacente de la

intervencin.1- 10 Del mismo modo, algunos hallazgos neutrales o negativo (no

positivo) del metanlisis pueden, tambin, representar un hallazgo casual, debido

a la carencia de poder estadstico y precisin.9-13 Estos dos tipos de errores son

comnmente conocidos como errores falsos positivos (o errores tipo I) y errores

falsos negativos (o errores tipo II). Los metanlisis son tpicamente considerados

positivo o negativo sobre la base de alguna prueba estadstica (prueba

estadstica), reportada con el valor de p o con el intervalo de confianza

correspondiente.

Cuando un metanlisis incluye un bajo nmero de ensayos clnicos y de pacientes,

los errores aleatorios pueden causar conclusiones espurias.1, 2, 4-6, 9, 11, 12, 14,15 Por el

contrario, cuando hay un gran nmero de pacientes, y cuando numerosos ensayos

clnicos han confirmado los hallazgos de estudios previos, las pruebas estadsticas y

los estimadores del efecto de la intervencin tpicamente convergen hacia la

verdad.1, 2, 4-6, 9, 11, 12, 14, 15 Las figuras 1 (A) y 1 (B) ilustran ejemplos de tal

convergencia en las pruebas estadsticas. En ambas situaciones, las inferencias

acerca de la significacin estadstica son errneas en los momentos iniciales, pero

finalmente convergen hacia el lado verdadero de la significacin estadstica.

Figura 1. Ejemplos de la convergencia en las pruebas estadsticas cuando los pacientes son incluidos

y seguidos en la medicin de un desenlace (por ejemplo, muerte) en dos ensayos clnicos aleatorizados

A y B.

El error aleatorio e imprecisin solo causan problemas si las pruebas estadsticas (y

la estimacin del efecto de la intervencin) son utilizadas en etapas donde la magnitud

del error aleatorio o imprecisin es suficientemente extremo para producir

8

inferencias estadsticas falsas. En la figura 2(A), las pruebas de significacin, en los

tiempos X1 y X3 se traducira en una falsa declaracin de significacin estadstica (es

decir, un resultado falso positivo), mientras que las pruebas de significacin en X2 y

X4 no lo seran. De este modo, solo en los tiempos X1 y X3, el impacto del error

aleatorio es suficientemente extremo para producir resultados espurios

estadsticamente significativos. En la figura 2(B), las pruebas de significacin en X1 y

X2 podra haber dado lugar a una declaracin falsa de que las intervenciones objeto

de la investigacin no fueron significativamente diferentes (es decir, un resultado falso

negativo), mientras que pruebas de significacin en X3 y X4 no lo seran. Por lo tanto,

solo en los momentos X1 y X2 es la imprecisin de una magnitud lo que provoca la

ausencia espuria de significacin estadstica.

Figura 2. Ejemplos de resultados estadsticamente falsos positivos y falsos negativos durante la

ejecucin de dos ensayos clnicos aleatorizados A y B.

La mayora de las pruebas estadsticas empleadas, a medida que se acumulan datos

adicionales, incrementan la probabilidad de observar un resultado falso positivo o falso

negativo. Este fenmeno se conoce comnmente como multiplicidad debido a

pruebas repetidas de significacin.10, 16-18

En el metanlisis es importante minimizar el riesgo de realizar una conclusin falsa,

positiva o negativa.3 En el metanlisis, los efectos combinados de la intervencin

suelen evaluarse sobre la base de los valores de p. Los autores del metanlisis deben

decidir cul es el umbral en el cual un valor de p es suficientemente pequeo, para

justificar una conclusin positiva. Por debajo de este umbral, una conclusin es

considerada estadsticamente significativa. En un momento dado, cualquier umbral

implica un equilibrio entre el riesgo de observar un resultado falso positivo (error tipo

I) y el riesgo de observar un resultado falso negativo (error tipo II). Por ejemplo, si el

umbral para la significacin estadstica en la Figura 2 (lnea horizontal discontinua)

hubiese sido desplazado hacia arriba, la posibilidad de observar un resultado falso

positivo (figura 2 (A)) habra disminuido, mientras que el riesgo de observar un falso

resultado negativo (figura 2 (B)) habra aumentado. Cuando las pruebas de

significancia convencionales se realizan en etapas tempranas y/o en varias

9

ocasiones, estos riesgos mximos estn distorsionados (como se ilustra en la figura

2).16-18 Por lo tanto, cualquier inferencia acerca de la significacin estadstica debera

ser realizada en conjunto con la solidez de la evidencia, la cual debera ser medida

utilizando el nmero acumulado de pacientes, nmero observado de eventos en los

ensayos incluidos, y el impacto de la multiplicidad.1, 2, 4, 6, 10, 19-21

Definicin de la solidez de la evidencia Tamao necesario

de la muestra

Los metanlisis de ensayos aleatorizados aumentan la potencia y precisin de los

efectos estimados de la intervencin.13 Cuando se incluyen todos los ensayos

disponibles; las revisiones sistemticas y los metanlisis son considerados como la

mejor evidencia disponible.13 Sin embargo, la mejor evidencia disponible puede no

ser sinnimo de evidencias suficientes o evidencias slidas.1; 2; 4; 6; 11; 12

En un ensayo aleatorizado con desenlace binario se debe estimar el nmero de

eventos y pacientes necesarios para permitir una inferencia estadstica confiable. Es

decir, se realiza el clculo del tamao de la muestra para asegurar que un nmero

suficiente de eventos y de pacientes sean incluidos.22 Una estrategia similar,

denominada goal post se requiere para un metanlisis.1, 2, 6, 23 En el campo del

metanlisis el goal post ha sido denominado como el tamao de la informacin (IS)

requerida o el tamao ptimo de informacin.1, 2, 4, 6, 11, 12,14,15, 19; 23-25

La Figura 3 muestra dos escenarios metanalticos tpicos A y B, donde la estadstica

de prueba se ha estabilizado despus de haber alcanzado el tamao de la informacin

requerida.

Figure 3. Ejemplos de cmo el tamao de la informacin requerida asegura pruebas de significacin

confiables en dos metanlisis acumulados, A y B.

En un ensayo clnico, el clculo del tamao de muestra se basa generalmente en la

proporcin esperada del evento en el grupo control, la reduccin relativa del riesgo

esperado de la intervencin experimental, y el riesgo mximo deseado de los errores

tipo I y tipo II.26 En un metanlisis es posible que haya heterogeneidad en las

10

poblaciones de los ensayos incluidos, las intervenciones y los mtodos. Las

consideraciones del tamao de la muestra del metanlisis necesitan ser ajustadas -es

decir, incrementadas- con el fin de permitir la varianza introducida por esta

heterogeneidad. 4, 6, 11, 12, 23 Estos ajustes son anlogos a los ajustes por la variacin

a travs de los centros en un ensayo multicntrico.4; 6; 23

Los mtodos convencionales de metanlisis, tales como los que estn disponibles en

el Review Manager v.5.1 27 no toman en cuenta la cantidad de la evidencia

disponible.13 En su lugar, la fiabilidad del efecto de la intervencin estadsticamente

significativa se da por descontada, independientemente del nmero acumulado de

eventos y pacientes. Por el contrario, los efectos de la intervencin que no son

estadsticamente significativos no son considerados fiables comnmente. Ms bien,

se supone que se necesita ms evidencia.28

La evidencia emprica sugiere que los efectos de la intervencin y valores de p,

basados en un nmero limitado de eventos y pacientes, a menudo no son fiables.1, 2,

4-6, 9, 11, 12, 29

Cerca del 25 % de los metanlisis convencionales que incluyen un nmero pequeo

de eventos y de pacientes, pueden mostrar falsamente los efectos de la intervencin

como estadsticamente significativos.4, 5 La evidencia emprica tambin muestra, que

los grandes efectos de la intervencin observados en etapas tempranas o precoces

de metanlisis positivos tienden a desaparecer a medida que se acumula ms

evidencia.4, 5, 9

Evaluacin de la significacin estadstica antes de que se

haya alcanzado el tamao necesario de la muestra.

El objetivo del metanlisis es identificar el beneficio o el dao de una intervencin tan

pronto y de manera tan fiable como sea posible.4, 11-13, 20 Por lo tanto, los metanlisis

se actualizan frecuentemente cuando se publican nuevos ensayos. Por ejemplo, a los

autores de revisiones Cochrane se les solicita actualizarlas por lo menos cada dos

aos.13 Cuando los metanlisis son actualizados, se exponen a una evaluacin

repetida de la significacin estadstica a lo largo del tiempo.

En los ensayos clnicos aleatorizados, las repetidas evaluaciones de la significacin

estadstica incrementan el riesgo global del error tipo I.30

Los estudios de simulacin sugieren que si la repeticin de pruebas de significacin

es realizada en los metanlisis y los valores de p menor que 0,05 son considerados

como evidencia de significacin estadstica, entonces el riesgo verdadero de error

tipo I se situar entre el 10% y el 30%.7, 8, 10, 31 De acuerdo con esto, cuando se toman

11

decisiones para implementar la intervencin como tratamiento, significa que entre 1 y

3 de cada 10 decisiones teraputicas son probablemente inapropiadas.

Para hacer frente a este problema, se pueden ajustar los umbrales para determinar

qu resultados son considerados estadsticamente significativos y cules no.1, 2, 4, 6, 11,

12, 14, 15, 24, 25 Alternativamente, se puede penalizar a la prueba estadstica de acuerdo

con la solidez de la evidencia y el nmero de pruebas de significacin realizado (la

ley del logaritmo repetido).7,8 El software TSA proporciona mtodos para ambos

enfoques, cada uno de ellos est construido sobre los teoremas de la teora avanzada

de probabilidades. El primer mtodo utiliza la metodologa desarrollada para las

pruebas repetidas de significacin en ensayos clnicos aleatorizados (es decir, lmites

de monitoreo estadstico).4, 6, 11, 12 El segundo enfoque penaliza, es decir- disminuye-,

la prueba estadstica de acuerdo con la solidez de la informacin disponible en el

metanlisis y el nmero de pruebas de significancia realizadas.7, 8

Figura 4. Ejemplos de ajuste del umbral de significacin (lmites predeterminados de monitorizacin)

(A) y la prueba estadstica penalizada (predeterminado) (B) para evitar resultados falsos positivos de la

prueba estadstica de dos metanlisis acumulados A y B.

Figura 4 (A) ilustra un ejemplo de un escenario de metanlisis, donde un resultado

falso positivo se evita utilizando el ajuste del umbral para la significacin estadstica

mediante el empleo de los lmites de control. Figura 4 (B) ilustra un ejemplo donde un

resultado falso positivo es evitado por la adecuada penalizacin de la prueba

estadstica.

Pruebas de futilidad antes de que el tamao de la

informacin haya sido alcanzado

Es posible utilizar el software de TSA para evaluar cuando es poco probable que una

intervencin tenga algn efecto anticipado; tambin es posible su uso en el contexto

clnico, para evaluar cuando una intervencin tiene un efecto que es ms pequeo

que lo que sera considerado mnimamente importante para los pacientes.

12

Los metanlisis se utilizan a menudo para guiar la investigacin futura. En la

planificacin de futuros ensayos, los investigadores necesitan tener un resumen

preciso de los conocimientos actuales. Si un metanlisis ha encontrado que una

determinada intervencin no tiene efecto (importante), los investigadores necesitan

saber si este resultado se debe a la falta de poder estadstico o si la intervencin

carezca de efecto. Utilizando el pensamiento convencional, un hallazgo de ningn

efecto se considera que es debido a carencia de poder estadstico hasta cuando se

haya alcanzado el tamao adecuada de informacin. En algunas situaciones, sin

embargo, es posible que podamos llegar a la conclusin anterior de que es poco

probable que sea tan grande como se haba previsto un efecto del tratamiento, y por

lo tanto, prevenir a los investigadores del ensayo de gastar recursos en ensayos

adicionales innecesarios. Por supuesto, el tamao del efecto de la intervencin

prevista puede ser examinado de nuevo y la investigacin adicional puede ser

diseada para investigar un tamao del efecto ms pequeo.

Figura 5. Ejemplos de lmites de futilidad donde la intervencin experimental no es superior a la

intervencin de control (y tambin se pueden haber llevado a cabo muchos ensayos) (A) y donde la

intervencin experimental es significativamente superior a la intervencin de control (y demasiados

ensayos pueden haber llevado a cabo) (B).

El TSA proporciona una tcnica para la bsqueda de una conclusin sin efecto tan

pronto como sea posible. Se construyen y se usan Lmites de Futilidad para

proporcionar un umbral de ningn efecto, que fueron desarrollados originalmente

para el anlisis intermedio en ensayos clnicos aleatorios. 30

Si la intervencin experimental es realmente superior a la intervencin control, se

esperara que la prueba estadstica flucte en torno de algunas lneas rectas de

pendiente positiva, generando, eventualmente, la significacin estadstica (cuando el

metanlisis es suficientemente potente). Si un metanlisis de una intervencin

experimental verdaderamente eficaz incluye solo un pequeo nmero de eventos y de

pacientes, ser baja la probabilidad de obtener un resultado estadsticamente

significativo, debido a la falta de poder estadstico. Sin embargo, a medida que se

acumule ms evidencia, el riesgo de obtener una conclusin negativa disminuye. Los

lmites de futilidad son un conjunto de umbrales que reflejan la probabilidad de la

13

incertidumbre para obtener un resultado negativo en relacin con la fuerza de la

evidencia disponible (por ejemplo, el nmero acumulado de pacientes). Por encima

de los umbrales, la prueba estadstica puede no haber generado significacin

estadstica debido a la falta de poder estadstico, pero todava hay posibilidad de que

un efecto estadsticamente significativo sea encontrado antes de que el metanlisis

sobrepase el tamao de la informacin. Por debajo del umbral, la prueba estadstica

es tan baja que la probabilidad se torna insignificante para encontrar un efecto

significativamente importante. En este ltimo caso, aleatorizacin de pacientes es

vana; la intervencin carece del efecto postulado.

La figura 5 (a) ilustra un ejemplo donde la intervencin experimental no es superior a

la intervencin de control. La prueba estadstica cruza los lmites de futilidad (la curva

cncava de pendiente positiva) antes de que se supere el tamao de la informacin

requerida. La figura 5 (b) ilustra un ejemplo donde la intervencin experimental es

estadsticamente significativamente superior a la intervencin de control. En este

ejemplo, la estadstica de prueba se mantiene por encima de la curva de la futilidad

(porque hay un efecto subyacente) y, finalmente, produce la significacin estadstica.

Resumen

El anlisis secuencial de los ensayos (TSA, por sus siglas en ingls) es una

metodologa que utiliza una combinacin de tcnicas. Las pruebas necesarias se

cuantifican, proporcionando un valor para el tamao requerido de la informacin. Los

umbrales de significacin estadstica son ajustados y estas modificaciones se realizan

de acuerdo con la fuerza cuantitativa de la evidencia y el impacto de multiplicidad.4; 6;

1; 12 Los umbrales para futilidad tambin se pueden construir, utilizando un marco

estadstico similar.

En resumen, el TSA puede proporcionar un IS (por su siglas en ingls), un umbral

para un efecto de tratamiento estadsticamente significativo, y el umbral de

insignificante utilidad. Las conclusiones obtenidas utilizando el TSA muestran que la

fiabilidad de stas es superior a las obtenidas mediante las tcnicas tradicionales de

metanlisis. La evidencia emprica sugiere que las consideraciones de tamao de la

informacin y umbrales de importancia ajustados pueden eliminar precozmente los

resultados falsos positivos, que se originan por la imprecisin y la prueba de

significacin repetida en los metanlisis.4; 6; 11; 12

Alternativamente, se puede penalizar a la prueba estadstica de acuerdo con la solidez

de la evidencia y el nmero de pruebas de significacin realizadas (la ley del

logaritmo iterado).7; 8 Los estudios de simulacin han demostrado que la penalizacin

14

de las pruebas estadsticas puede permitir un adecuado control del error de tipo I en

los metanalisis.7; 8

El siguiente manual contiene una gua -terica y prctica- para el uso del software

TSA de la Copenhagen Trial Unit. El captulo 2 proporciona, en un nivel intermedio,

un resumen tcnico de todas las metodologas incorporadas en el software del TSA.

Los captulos 3 al 5 son apartados prcticos que describen cmo instalar, utilizar y

aplicar este software.

15

2 Metodologa del TSA

El TSA combina la metodologa convencional del metanlisis con los fundamentos

metanalticos del tamao de la muestra (es decir, el tamao de la muestra necesaria)

y los mtodos ya desarrollados para las pruebas de significacin repetida sobre los

datos acumulados en los ensayos clnicos aleatorizados. 1, 2, 4, 6, 11, 12 En el captulo 2,

lo primero que se describe es la metodologa de metanlisis usado para combinar los

datos de una serie de ensayos clnicos. La descripcin en la seccin 2.1 se refiere a

las medidas del efecto para los datos dicotmicos y continuos, modelos estadsticos

de metanlisis (el modelo de efecto fijo y algunas variantes del modelo de efectos

aleatorio), y mtodos para el manejo de datos de eventos cero. En la seccin 2.2, se

describen los mtodos para ajustar la significacin cuando existe un mayor riesgo de

error aleatorio (debido a una evidencia dbil y pruebas de significacin repetida). En

esta seccin, no se describe, en detalle, componentes ms avanzados de esta

metodologa. Ms bien, este captulo est diseado para aportar conocimientos a los

usuarios, con un nivel conceptual intermedio, sobre los temas abordados en el captulo

1.

Mtodos para combinar los resultados de los ensayos

clnicos

Medidas de efecto para los datos dicotmicos y continuos

El programa TSA facilita el metanlisis de los datos dicotmicos (binario) y de los datos

continuos. Los datos dicotmicos se definen por una de las dos categoras (por

ejemplo, muerte o supervivencia). Los datos continuos son datos que se miden en una

escala numrica (por ejemplo, la presin arterial o las puntuaciones de calidad de

vida). Para cada tipo de datos, hay varias medidas disponibles para comparar la

efectividad de una intervencin de inters.13

Medidas de efecto para los datos dicotmicos

Asumamos que tenemos k ensayos independientes que compararon dos

intervenciones (intervencin A vs intervencin B) con un resultado dicotmico. Dichos

ensayos (por lo general) reportarn el nmero de eventos observados (por ejemplo,

muertes) en los dos grupos de intervencin, EA y EB y el nmero total de participantes,

NA y NB, en los dos grupos de intervencin. Para los datos dicotmicos, el efecto de

la intervencin entre las dos intervenciones se puede medir como la diferencia de

16

riesgo (DR), riesgo relativo (RR), y odds ratio (OR).13 Las estimaciones del efecto de

intervencin basadas en estas medidas se calculan utilizando las siguientes frmulas:

( / )

( / )

/( )

/( )

A B

A B

A A

B B

A B B

B A A

e eRD

n n

e nRR

e n

e n eOR

e n e

Las razones de riesgo relativo y odds ratios tpicamente sern expresadas en escala

logartmica debido a que la transformacin genera ciertas propiedades estadsticas

deseables (tales como la simetra y la normalidad aproximada).13 Los errores

estndar, varianzas y pesos de los "efectos de la intervencin relacin son, por lo

tanto, tambin obtenidas en escala logartmica. Las frmulas de los errores tpicos de

la DR, log(RR) y log(OR) se muestran en el apndice 6.1.

Cuando las proporciones de eventos en los dos grupos son bajos (datos de eventos

raros), una alternativa preferida al OR es el odds ratio de Peto.13 Este OR se calcula

con la frmula:

exp ( ) /Peto A AOR e E e v

Donde E (eA) es el nmero esperado de eventos en el grupo de intervencin A, y v es

la varianza hipergeomtrica de eA. Las frmulas para E (eA) y v se muestran en el

apndice 6.1.

Medidas de efecto para datos continuos

Asumamos que tenemos k ensayos independientes que compararon dos

intervenciones (intervencin A contra intervencin B) con un desenlace continuo.

Tales ensayos informan a menudo la respuesta promedio (por ejemplo, la media de la

puntuacin de calidad de vida) en los dos grupos de intervencin, mA y mB, las

desviaciones estndar de los dos grupos de intervencin significan respuestas, SDA

y SDB, y el nmero total de participantes en los dos grupos de intervencin, nA y nB.

Cuando la respuesta promedio se mide en la misma escala para todos los ensayos,

17

la eficiencia comparativa se mide con la diferencia de medias (DM), que viene dada

por mA-mB. El error estndar de la diferencia de media est dada por

2 2

( ) A B

A B

sd sdSE MD

n n

Cuando la media de la respuesta no es medida en la misma escala, aquellas deben

ser estandarizadas a la misma escala, permitiendo la combinacin de los ensayos

clnicos.11 El mtodo convencional consiste en dividir la media de la respuesta en cada

ensayo por su desviacin estndar estimada; proporcionando as, una estimacin del

efecto medido en unidades de desviacin estndar. Las diferencias de medias dividido

por su desviacin estndar se conocen como las diferencias de medias

estandarizadas (DME).13

El programa TSA no facilita el metanlisis con DME. Las pruebas de

significacin ajustada para metanlisis utilizando DME requerira el clculo del

tamao de la muestra necesaria sobre la base de las diferencias de medias

esperadas reportadas en unidades de desviacin estndar. Esta medida del

efecto carece inapropiadamente de sentido para la mayora de los mdicos y,

por lo tanto, es propenso a producir informacin poco realista de tamaos

requeridos de informacin

Generalidades del modelo de efectos fijos y de efectos

aleatorios

Asumamos que tenemos k ensayos independientes. Permita decir que Yi es el efecto

de la intervencin observada en el ensayo i-th. Para metanlisis de datos dicotmicos,

Yi ser o bien la diferencia estimada del riesgo, el riesgo relativo de registro, el log

odds ratio, o log de OR de Peto para el ensayo i-th. Para el metanlisis de datos

continuos, Yi ser la diferencia de media estimada para el ensayo i-th. Asumamos que

i sea el verdadero efecto del ensayo i-th y es el verdadero efecto de la intervencin

(para toda la poblacin del metanlisis). Suponga que i2 denotan la varianza (error

de muestreo) del efecto de la intervencin observada en el ensayo i.

En el modelo de efecto fijo, las caractersticas de los ensayos incluidos (criterios de

inclusin y exclusin de pacientes, las variantes administradas de la intervencin, el

diseo del estudio, la calidad metodolgica, la duracin del seguimiento, etc.) se

supone que son similares.13 Esto es formulado matemticamente como 1 = 2 = =

k = ... Los efectos de la intervencin observados de los ensayos individuales se

supone que satisfacen la relacin distributiva Yi ~ N(, i2). El peso de un ensayo, wi,

se define como el inverso de la varianza del ensayo, y por lo tanto, los pesos del

18

ensayo, en un modelo de efecto fijo, se convierten wi = i -2. El efecto combinado de

la intervencin, , se obtiene como un promedio ponderado de los efectos de la

intervencin observada de los ensayos individuales

i i

i

wY

w

Y tiene varianza

1( )

i

Varw

En el modelo de efectos aleatorio, se asume que los efectos de la intervencin varan

entre los ensayos, pero con un verdadero efecto subyacente, . Permtanos 2 significa

la varianza entre los ensayos, el modelo de efectos aleatorio se define de la siguiente

manera

Yi = i + i, i ~ N(0, i2)

i = + Ei, Ei ~ N(0, 2)

Donde i es el error residual (muestreo) para el ensayo i, y Ei es la diferencia entre el

"verdadero" efecto global y el "verdadero" efecto del ensayo subyacente. Si se unen

la estructura jerrquica en las ecuaciones anteriores, se puede que Yi satisface la

relacin de distribucin Yi ~ N (, i2 + 2). Una vez ms, los pesos de los ensayos se

definen como el inverso de la varianza, y as el peso de los ensayos clnicos en un

modelo de efectos aleatorio se convierten W i*= (i2 + 2)-1. El efecto combinado de la

intervencin , se obtiene como un promedio ponderado de los efectos de la

intervencin observados de los ensayos individuales.

*

* i i

i

w Y

w

y tiene varianza

*

1( )

i

Varw

19

El estudio de la significacin estadstica es realizada con la prueba estadstica de

tipo Wald, la cual es igual al efecto metanalizado de la intervencin (escala log de

los riesgos relativos y odds ratios) dividido por su error estndar:

( )Z

Var

Esta prueba estadstica es la conocida tpicamente como el estadstico Z o el valor Z.

Bajo el supuesto de que dos intervenciones investigadas no difieren del valor Z,

aproximadamente seguirn una distribucin normal estndar (una distribucin normal

con media 0 y desviacin estndar 1). Este supuesto tambin se conoce como la

hiptesis nula y se denota Ho. El correspondiente valor de p de dos colas se puede

obtener usando la siguiente frmula:

2 1 | |P Z

Donde | Z | denota el valor absoluto del valor Z y denota la funcin de distribucin

de la probabilidad estndar normal acumulada.13 El valor P es la probabilidad de

observar un valor Z al menos tan extremo como la que se observa debido a la

intervencin del azar. Cuanto menor sea el valor P, menor ser la probabilidad de que

la diferencia observada entre los dos grupos de intervencin no sea ms que un

hallazgo casual, y por lo tanto, mayor es la probabilidad de que la diferencia observada

se deba a algn efecto del tratamiento verdadero subyacente.

Estrategias para el metanlisis con el modelo de efectos

aleatorio

Como se explic, el modelo de efectos aleatorio intenta incluir una cuantificacin de

la variacin a travs de los ensayos.13 El enfoque comn es estimar la varianza entre

ensayos, 2, con un poco de variacin estimada entre ensayos.13

El mtodo de DerSimonian-Laird

El estimador de la varianza entre los ensayos que se ha utilizado con mayor frecuencia

en la prctica de metanlisis (y es la nica opcin en el software Review Manager de

la Colaboracin Cochrane) es el estimador propuesto por DerSimonian y Laird (DL) 13;

27; 32 El estimador DL se calcula mediante

DL2 = max(0, (Q k + 1) / (S1 (S2 / S1)))

20

Donde Q es el estadstico de la prueba de homogeneidad Cochrane dada por Q =

wi (Yi - )2, donde Sr = wir, para r = 1,2, y donde k es el nmero de ensayos incluidos

en el metanlisis.13; 32

Debido a que el estimador DL es propenso a subestimar la varianza entre ensayos,33-

40 el TSA tiene, adems, dos alternativas al modelo de efectos aleatorio, el Sidik y

Jonkman (SJ) y los mtodos Biggerstaff y Tweedie (BT)33; 34; 41.

El mtodo de Sidik-Jonkman (SJ)

El modelo de efectos aleatorio SJ utiliza un estimador sencillo (no iterativo) de la

varianza entre los ensayos basado en una re-parametrizacin de la varianza total del

efecto estimado de la intervencin observada Yi.33;34 Esto viene dado por la expresin:

SJ2 = vi (Yi - 0)2/ (k-1)

en la cual vi = ri + 1, ri = i2/02, y 02 es una primera estimacin de la variacin entre

los ensayos, que se puede definir, por ejemplo, como

02 = (Yi - uw)2/ k

uw es la media no ponderada de las estimaciones de los efectos observados, y 0 es

el estimador de los efectos aleatorios ponderados utilizando 02 como la estimacin de

la varianza entre ensayos. Los estudios de simulacin han demostrado que el

estimador SJ proporciona estimaciones menos sesgadas hacia la baja de la variacin

entre ensayos que el estimador DL.34; 37 Es decir, el mtodo SJ es menos probable

que subestime la heterogeneidad entre los ensayos. Este es el caso particular para

metanlisis donde existe heterogeneidad moderada o alta. Los intervalos de confianza

basados en el estimador SJ tienen una cobertura cercana al nivel deseado (por

ejemplo, intervalos de confianza del 95 % tendrn el verdadero efecto en

aproximadamente el 95 % de todos los metanlisis).34; 37 Por el contrario, la cobertura

comnmente reportada de los intervalos de confianza basado en el estimador DL est

a menudo por debajo del nivel deseado.33; 35-38 Por ejemplo, muchos estudios de

simulacin que han investigado la cobertura de los intervalos de confianza del 95 %

basados en DL han encontrado una cobertura real de 80 % a 92 %.34; 37 El tamao de

estos intervalos de confianza es equivalente a una proporcin de falsos positivos del

8 % al 20 %, lo cual es evidentemente mayor que el 5 % convencionalmente aceptado.

21

El mtodo Biggerstaff - Tweedie

Debido, a que la mayora de los metanlisis contienen solo un nmero limitado de

ensayos clnicos, la estimacin de la varianza entre los ensayos es a menudo objeto

de error aleatorio.41 Por lo tanto, la presencia de la incertidumbre en estimacin de la

varianza entre los ensayos en el modelo de efectos aleatorios debe ser advertida.

Biggerstaff y Tweedie (BT) propusieron un mtodo para lograr tal incorporacin.41

Ellos derivaron una distribucin de probabilidad aproximada, FDL, para la estimacin

de DL de 2. Definiendo los pesos de los ensayos, segn wi(t)= ((i2 + t)--1, donde t es

una variable que puede asumir todos los valores posibles para 2, ellos utilizaron FDL

y obtuvieron el peso de los ensayos que toman en cuenta la incertidumbre del

estimado 2. Generalmente, esto crea un esquema de ponderacin lo cual, relacionado

con el enfoque de DL, atribuye ms peso a ensayos de mayor tamao y menos peso

a ensayos ms pequeos. Biggerstaff y Tweedie tambin propusieron una frmula

ajustada por la variacin del efecto metanalizado de la intervencin, facilitando as los

intervalos ajustados de confianza (vase el apndice, seccin 6.2.1).

Cul estrategia de los efectos aleatorio puede ser la mejor?

Los mtodos SJ y BT presentan ventajas relativas sobre el enfoque DL. Sin embargo,

estos mtodos tienen sus propias limitaciones y es improbable que sean superiores

en todos los casos. El estimador SJ puede sobreestimar la varianza entre los ensayos

en los metanlisis con heterogeneidad leve, produciendo de esta manera,

artificialmente, amplios intervalos de confianza.34, 37 Se ha demostrado que el enfoque

de BT proporcionan una cobertura similar a los intervalos de confianza del enfoque

DL en los metanlisis con ensayos no sesgados de bajo tamao de muestra.35 Sin

embargo, cuando los ensayos incluidos difieren en tamao y algunos ensayos

pequeos estn sesgados, el enfoque de BT pondr apropiadamente altos pesos en

los ensayos ms grandes, mientras que continua considerando la heterogeneidad.

Este punto es importante porque una crtica comn del modelo de efectos aleatorios

DL es que a los ensayos pequeos a menudo se asignan artificialmente grandes

pesos en metanlisis heterogneos. Una solucin generalmente aplicada, y poco

satisfactoria, es utilizar en este caso el modelo de efecto fijo. De esta manera, el

estimador combinado puede estar menos sesgado por el uso de un esquema de

ponderacin inadecuada, pero los intervalos de confianza tambin sern

artificialmente estrechos porque no toman en cuenta la heterogeneidad. El enfoque

de BT reduce el sesgo incurrido por la ponderacin inapropiada del modelo de efectos

aleatorio mientras que contina considerando la heterogeneidad.

La eleccin del modelo de efectos aleatorios debera incluir un anlisis de sensibilidad

comparando cada estrategia. Si DL, SJ, y BT mantienen inferencias estadsticas

22

similares (es decir, las estimaciones puntuales y los intervalos de confianza), sera

razonable utilizar el enfoque DL y tener confianza en que la estimacin de la varianza

entre ensayo es confiable.

Si dos (o todos) de las tres estrategias son diferentes, se debe llevar a cabo un

metanlisis con ambos (o todos) estrategias y considerar los resultados de acuerdo

con las propiedades subyacentes de cada enfoque. Por ejemplo, si los enfoques DL y

SJ producen resultados diferentes, dos posibles explicaciones deben ser

consideradas: 1) el metanlisis est sujeto a una heterogeneidad moderada o

sustancial y por lo tanto el estimador DL subestima la varianza entre los ensayos y

produce intervalos de confianza artificialmente estrechos, y 2) el metanlisis est

sujeto a heterogeneidad leve y por lo tanto el estimador SJ sobreestima la varianza

entre ensayos y produce intervalos de confianza artificialmente anchos. En esta

situacin, se debe entonces llevar a cabo metanlisis con los dos enfoques y

considerar las implicaciones de cada uno de los dos escenarios siendo verdad.

Mtodos para el manejo de ensayos clnicos sin eventos

En los ensayos dicotmicos, el desenlace de inters puede ser raro. Por ejemplo, la

incidencia de una enfermedad cardaca por el uso de hormona de reemplazo hormonal

es muy baja.42 Algunas veces hay ausencia de eventos de un desenlace eventos

Cero en un grupo. En esta situacin la medida de la razn del efecto (RR y OR) no

dar una estimacin til del efecto de la intervencin.42 Una solucin a este problema

es aadir alguna constante al nmero de eventos y no eventos de cada grupo de

intervencin. Esta estrategia es conocida como correccin de continuidad.42

Numerosas estrategias de correccin continua han sido propuestas en la literatura

metanaltica.

Correccin constante de continuidad

La correccin constante de continuidad es un mtodo simple y es el ms comnmente

utilizado en la literatura metanaltica.42 El mtodo involucra la adicin de un factor de

correccin continuo (una constante) al nmero de eventos y no eventos en cada grupo

de intervencin.

Grupo Eventos No eventos Total

Intervencin 0 20 20

Control 5 20 25 Tabla 1. Ejemplo de un ensayo sin eventos

23

Considere el ejemplo del ensayo con evento cero que se muestra en la tabla 1. Si, por

ejemplo, el mtodo de correccin constante de continuidad utiliza un factor de

correccin de 0,5, el nmero de eventos en el grupo de intervencin se transformar

en 0 + 0,5 = 0,5, el nmero de no eventos en el grupo de intervencin ser ahora igual

a 20 + 0,5 = 20,5, el nmero de eventos en el grupo control resulta en 5+0,5= 5,5;

para finalizar, el nmero de no eventos en el grupo control ser 20 + 0,5 = 20,5. Debido

a que el nmero total de pacientes es el nmero de eventos ms el nmero de no

eventos, el nmero total de pacientes (despus de la correccin constante de

continuidad con la constante 0,5) ser 20,5+0,5=21 en el grupo de intervencin y 20,5

+ 5,5 = 26 en el grupo control.

Si, por ejemplo, se utiliza un factor de correccin de 0,1, el nmero de eventos y el

nmero total de pacientes (despus de la correccin de continuidad) seran entonces

0,1 y 20,2 en el grupo de intervencin y 5,1 y 25,2 en el grupo control.

La versin 5 del Review Manager utiliza correccin constante de continuidad utilizando

un factor de correccin de 0,5.13, 27 Los estudios de simulacin han demostrado

problemas con el uso de esta constante, esto produce estimaciones inexactas cuando

la relacin de asignacin aleatorizada no es 1:1, y produce intervalos de confianza

que son demasiado estrechos.42

Correccin de continuidad utilizando la recproca del opuesto del

grupo de intervencin

Otro mtodo potencial de correccin de continuidad es agregar el recproco del

nmero total de pacientes en el opuesto al grupo de intervencin al nmero de eventos

y no eventos.42 Este tipo de correccin de continuidad es tambin comnmente

conocido como correccin de continuidad del grupo de tratamiento.42 En el ejemplo

de la tabla 1, el factor de correccin para el grupo de intervencin sera 1/25=0,04, y

el factor de correccin para el grupo control sera 1/20=0,05. Este mtodo de

correccin continua provoca 0,04 eventos y 20,04 pacientes en el grupo de

intervencin y 5,05 eventos y 25,05 pacientes en el grupo control.

Correccin de continuidad emprica

Tanto el mtodo de correccin de continuidad constante y el mtodo de correccin de

continuidad grupo de tratamiento impulsan los estimadores del efecto de la

intervencin hacia el efecto nulo (es decir, hacia 0 para las diferencias de riesgo y

24

hacia 1 para medidas de razn).42 Una alternativa de correccin continua es la

correccin de continuidad emprica que arrastra el estimador del efecto de la

intervencin hacia el efecto metanalisado.42 Por ejemplo, asuma que sea el odds

ratio del metanlisis que no incluye los ensayos de eventos cero, y sea R la relacin

de aleatorizacin en el ensayo clnico que necesita correccin de continuidad. El factor

de correccin de continuidad para el grupo de intervencin, CFI, y la correccin de

continuidad para el grupo control, CFC, puede ser calculada con las siguientes

frmulas:

I

C

RCF C

R

CF CR

bajo la restriccin de que dos correcciones de continuidad se suman a algunos

constantes C.42

Examinando la significacin ajustada y la futilidad en el

metanlisis acumulativo

Examinar la significacin ajustada en el metanlisis acumulativo tiene dos objetivos:

debe medir y tomar en cuenta la fortaleza de la evidencia disponible y debe controlar

el riesgo de errores estadsticos (error tipo I y tipo II) cuando se producen

repetidamente pruebas de significacin sobre los datos que se van acumulando.

La cuantificacin de la fortaleza de la evidencia disponible exige la definicin de un

goal post.1, 2, 4, 6, 11, 12, 23 En el programa de TSA se mide la fortaleza de la evidencia

disponible, y es considerada, para calcular el tamao de informacin requerida. Esta

informacin del tamao es anloga al tamao requerido de la muestra en un nico

ensayo clnico aleatorizado. 1, 2, 4, 6, 11, 12, 23

Controlar el riesgo de error tipo I implica una alteracin en la forma en que medimos

la significacin estadstica. Si un metanlisis se somete a pruebas de significacin

antes de que haya superado el tamao requerido de la informacin, el umbral para la

significacin estadstica se puede ajustar para tener en cuenta el alto riesgo del error

aleatorio.1, 2, 4, 6, 11, 12, 23 Por otra parte, la propia prueba estadstica puede ser

penalizada en conjunto con la fortaleza de la evidencia disponible. El TSA ofrece la

opcin de utilizar ambos enfoques para controlar el error de tipo 1.

25

Controlar el riesgo de error tipo II antes de que un metanlisis supere su tamao

requerido implica el establecimiento de umbrales (reglas) para cuando la intervencin

experimental pueda ser considerada no superior (y/o no inferior) a la intervencin de

control.

Los mtodos para ajustar los umbrales de significacin (por ejemplo, controlando el

error tipo I) basados en los mtodos introducidos por Armitage y Pocock; se les conoce

como 'anlisis secuencial de grupo',18, 43, 44 En el anlisis secuencial de los grupos de

Armitage y Pocock, es necesario conocer el nmero aproximado de pacientes

aleatorizados entre cada anlisis intermedio de los datos.30 En los ensayos clnicos

aleatorizados, los anlisis intermedios sobre la acumulacin de datos suelen ser pre-

planificados y por lo tanto es posible definir el tamao de los grupos conocidos entre

cada anlisis intermedio.30 En el metanlisis, el anlisis intermedio de los datos ocurre

cuando hay una actualizacin, agregando datos de nuevos ensayos clnicos.

Laactualizaciones en el metanlisis se producen a un ritmo arbitrario, rara vez son

regulares, y el nmero de pacientes que agregamos es variada e impredecible. Los

mtodos propuestos por Armitage y Pocock, por lo tanto, son inaplicables para el

metanlisis.

Lan y DeMets extendieron la metodologa propuesta por Armitage y Pocock,

permitiendo anlisis intermedios ms flexibles y no planificados. Lan y DeMets

pretendieron esta metodologa para la evaluacin de significacin repetida en un sola

ensayoaleatorizado.16,17,30 Debido a la flexibilidad del momento de anlisis

intermitente, esta metodologa es aplicable a los metanlisis. Por lo tanto, la estrategia

de Lan y DeMets es la metodologa usada en el TSA, esto implica la construccin de

lmites de control que facilitan la definicin de umbrales sensibles para "significacin

estadstica" en el metanlisis.

Del mismo modo, los lmites de futilidad pueden ser construidos, lo que facilita la

definicin de umbrales sensibles para 'inutilidad' en metanlisis.30 Las secciones 2.2.1.

a 2.2.5. aportan la descripcin de la metodologa subyacente y las consideraciones

tericas para estos mtodos.

Los mtodos de control de error tipo II son una extensin de la metodologa de Lan-

DeMets que permite evaluar la no superioridad y no inferioridad. Es decir, en lugar de

construir umbrales ajustados para la significacin estadstica, el mtodo construye

umbrales ajustados para no superioridad y no inferioridad (o ninguna diferencia).

Juntos, los lmites de no superioridad y de no inferioridad ajustados constituyen lo que

se conoce como los lmites de futilidad o lmites de la cua interna (inner wedge).

Las secciones 2.2.7 proporcionan una descripcin de la metodologa y

consideraciones tericas subyacentes de este mtodo.

26

Tal como fue descrito, un enfoque alternativo a la alteracin de los umbrales es

penalizar a la prueba estadstica en s. El mtodo para penalizar a las pruebas

estadsticas empleadas es relativamente una nueva estrategia, que se basa en los

teoremas de la teora de la probabilidad avanzada. En particular, la tcnica utiliza el

teorema conocido como "la ley del logaritmo iterado".7; 8 En las secciones 2.2.2 y 2.2.6

se ofrece una descripcin de la metodologa subyacente y consideraciones tericas

para este mtodo.

El tamao de la informacin necesaria para un metanlisis

concluyente

La determinacin del tamao de la informacin requerida (por ejemplo, el nmero

necesario de pacientes) de un metanlisis concluyente y fiable es un requisito previo

para la construccin de los umbrales ajustados para 'significacin estadstica' usando

TSA.1, 2, 4, 6, 11, 12 Los niveles de los umbrales deben ser construidos de acuerdo con la

fuerza de la evidencia.1, 2, 4, 6, 11, 12 La metodologa estadstica subyacente TSA se basa

en el supuesto de que los datos se acumularn hasta que el tamao de la informacin

requerida sea superada.30 Para mayor explicacin sobre esta suposicin, por favor

refirase a los documentos metodolgicos anteriores sobre esta cuestin.16, 17, 30, 43, 44

Consideraciones convencionales para determinar el tamao de la informacin

Se ha argumentado que el tamao de la muestra necesaria para que un metanlisis

sea concluyente y confiable, debera ser, por lo menos, tan grande como el tamao

de la muestra necesaria para detectar el efecto verdadero de la intervencin en un

ensayo clnico con un tamao de muestra suficiente.1,2,4,6,11,12 En concordancia con

esta constructo, el tamao mnimo necesario de informacin (nmero de pacientes)

en un metanlisis puede ser derivado usando esta conocida frmula:

ISPatients = 2 (Z1-/2 + Z1-)2 2 2 / 2

donde es el riesgo mximo deseado de obtener un resultado falso positivo (error tipo

I) y es el riesgo mximo deseado de obtener un resultado falso negativo (error tipo

II ), y donde Z1-/2 y Z1- son los (1- /2) y (1- ) distribucin estndar normal de los

quantiles.1,2,4,6,11,12 Observe que el uso de /2 en lugar de significa que el tamao

de la informacin es construida asumiendo una prueba estadstica bilateral. Para los

datos binarios, = PC - PE denota una estimacin a priori para un efecto de la

intervencin realista o mnimamente importante (PC y PE siendo la proporcin con un

resultado en el grupo control y el del grupo de intervencin, respectivamente), donde

27

2 = P* (1 - P*), que es la varianza asociada, y suponiendo que P* = (PC + PE) / 2 (es

decir, que los grupos de intervencin y de control son iguales en tamao). Para los

datos continuos, denota, una estimacin a priori de la diferencia entre las medias de

los dos grupos de intervencin y 2 indica la varianza asociada.

Alternativas al nmero de pacientes acumulados

En el metanlisis de datos binarios, la informacin y la precisin en un metanlisis

dependen principalmente del nmero de eventos de un desenlace. Por lo tanto, se

puede argumentar que en el contexto de las consideraciones de tamao de la

informacin de un metanlisis, el nmero requerido de eventos es una medida ms

apropiada que el nmero necesario de pacientes. Bajo el supuesto de que un nmero

igual de pacientes son aleatorizados a las dos intervenciones investigadas en todos

los ensayos, el nmero requerido de eventos puede ser determinado de la siguiente

manera:

ISEvents = PC*IS/2 + PE*IS/2

donde ISEvents es el nmero requerido de eventos para un metanlisis concluyente y

fiable, y PC y PE son como se definen en el prrafo anterior.

La informacin estadstica (informacin Fischer) es una medida estadstica de la

informacin contenida en un conjunto de datos (dado el modelo estadstico que sea

asumido).45 En el metanlisis estndar comparando dos intervenciones, la informacin

estadstica es simplemente el recproco de la varianza combinada.46 En un

metanlisis, la informacin estadstica es una medida tericamente ventajosa, ya que

combina tres factores en una sola medida: nmero de pacientes, nmero de eventos

y el nmero de ensayos. Esta medida proporciona una propuesta simple para las

consideraciones del tamao de la muestra de un metanlisis. Los datos metanalticos

se consideran como algo anlogo a la acumulacin de datos en un nico ensayo y la

informacin estadstica requerida viene dada por:

ISStatistical = (Z1- /2 + Z1- )2/2

Donde ISStatistical es la informacin estadstica verdadera alcanzada en el metanlisis,

es el riesgo mximo deseado de error tipo I, Z1- /2 es el percentil estndar normal

(1- /2), es el riesgo mximo deseado de error tipo II, Z1- es el percentil estndar

normal (1- ) y es efecto pre-especificado (mnimamente relevante) de alguna

intervencin.30, 45

28

El factor de ajuste de la heterogeneidad

Los ensayos incluidos en un metanlisis, a menudo, incluyen pacientes de un amplio

abanico de grupos de poblacin, utilizan diferentes regmenes de una intervencin y

con diferentes diseos de estudio, y varan en la calidad metodolgica (es decir, el

riesgo de sesgo o error sistemtico). Por todas estas razones, es natural esperar

un mayor grado de variacin en los datos del metanlisis en comparacin con los

datos de un solo ensayo.13, 47 Tal variacin adicional se conoce como la

heterogeneidad (o variacin entre ensayos).13, 47 Debido a que el aumento de la

variacin puede disminuir la precisin de los resultados, las consideraciones de

tamao de la informacin deben incorporar todas las fuentes de variacin en un

metanlisis, incluyendo heterogeneidad.4,6,11,12 Uno de los enfoques para la

incorporacin de la heterogeneidad en consideraciones de tamao de la informacin

es multiplicar el tamao de la informacin requerida en un metanlisis por algn factor

de ajuste de heterogeneidad.6,23 Recientemente, un factor similar de ajuste de

heterogeneidad ha sido propuesto para la estimacin del tamao de la muestra en un

solo ensayo clnico.48

El factor de ajuste de la heterogeneidad se conceptualiza a travs de los supuestos

subyacentes que hacemos para nuestro modelo de metanlisis. En el modelo de

efecto fijo, se supone que todos los ensayos incluidos pueden ser vistos como

repeticiones del mismo ensayo (con respecto al diseo y conduccin). Por lo tanto, el

tamao de la informacin requerida para un metanlisis de modelo de efecto fijo sea

concluyente y efectivo puede calcularse de la misma manera que el tamao de

muestra necesario para un ensayo clnico individual. En el modelo de efectos

aleatorio, se supone que los ensayos incluidos provienen de una distribucin de

posibles ensayos (con respecto al diseo y conduccin). Por definicin, la varianza en

un modelo de efectos aleatorios es siempre mayor que en un modelo de efecto fijo.

Por lo tanto, un ajuste del factor de heterogeneidad debe tener en cuenta el aumento

en la variacin en que un metanlisis incurre desde pasar de la hiptesis de efecto fijo

para el supuesto de efectos aleatorio. Un ajuste preciso se puede lograr haciendo que

el factor de ajuste de heterogeneidad sea igual a la razn de la varianza total en el

metanlisis de modelo de efectos aleatorio y de la varianza total en el metanlisis de

modelo de efecto fijo.6, 23 Por consiguiente, el factor de ajuste de heterogeneidad es

siempre igual o mayor que 1. Suponiendo ISFixed denote el tamao de la informacin

necesaria para un metanlisis de modelo de efecto fijo dado por la ecuacin (1), R

denota la varianza total en el metanlisis con modelo de efectos aleatorio y F denota

la varianza total en el modelo de metanlisis de efecto fijo, el tamao de la informacin

ajustada por heterogeneidad se puede calcular usando la siguiente frmula:

29

RRandom Fixed

F

IS IS

Dado que los efectos anticipados de la intervencin en los modelos de efecto fijo - (F)

y de modelos de efectos aleatorios (R) - son aproximadamente iguales (es decir, dado

R=F), se puede demostrar matemticamente que en el caso especial donde todos

los ensayos en un metanlisis tengan el mismo peso, el factor de ajuste de

heterogeneidad (AF) se expresa de la siguiente manera:

2

1

1

R

F

AFI

Donde I2 es el factor de inconsistencia comnmente utilizado para medir la

heterogeneidad en un metanalisis.47

Es importante recordar que, en cualquier caso donde los pesos de los ensayos no

sean iguales, utilizando I2 dar lugar a una subestimacin del factor de ajuste, y por lo

tanto, una subestimacin del tamao de la informacin requerida.23 En esta situacin,

se puede definir una medida de la diversidad (D2)) como la cantidad necesaria para

satisfacer la ecuacin:

1

2*

1

1

1

k

i

iR

k

Fi

i

w

AFD

w

donde wi denota los pesos de los ensayos en el modelo de efecto fijo y wi* indica los

pesos de los ensayos en el modelo de efectos aleatorio. La solucin de la ecuacin

con respecto a D2, se obtiene:

1

* 1 2

2 1 1

1 1

1 1

k k

i i

i iR F F

k k

R Ri i

i i

w w

D

w w

Donde 2 indica la variacin entre ensayos. Una propiedad ventajosa de la medida de

diversidad, D2, es que las derivaciones anteriores son generalizables a cualquier

modelo de metanlisis. Por lo tanto, si queremos realizar un metanlisis de algunos

ensayos mediante un modelo de efectos aleatorios alternativo con varianza total VR,

la medida de diversidad y el correspondiente factor de ajuste simplemente se toma la

expresin:

30

2 R F R

R F

D and AF

Las estimaciones de la variabilidad, y, en particular, la variabilidad entre ensayos,

pueden estar sujetos al error aleatorio y al sesgo.41, 47, 49, 50 Por esta razn, y en

algunas situaciones, el uso de D2 o I2 basado en los datos disponibles puede ser

inadecuada. En el metanlisis que incluye solamente un nmero limitado de ensayos

(por ejemplo, menos de 10 ensayos), las estimaciones de la heterogeneidad y de la

varianza entre ensayos pueden ser tan poco fiables como las estimaciones del efecto

de intervencin de ensayos clnicos aleatorizados pequeos (por ejemplo, ensayos

con menos de 100 pacientes). Cuando un metanlisis est sujeto a sesgo de

tendencia temporal (es decir, cuando los ensayos, la mayora con resultados positivos,

han sido publicados), por lo general se subestima la varianza entre los ensayos. Esta

subestimacin ocurre porque el conjunto de ensayos incluidos tempranamente es

probable que reproduzcan una estimacin del efecto similar a la de la intervencin

(positiva).50 Los metanlisis posteriores- actualizaciones-, es probable que incluyan

ms ensayos con resultados neutros o incluso negativos, en cuyo caso las

estimaciones de la heterogeneidad sern mayores.

Para los metanlisis con un esperado nmero pequeo de ensayos, se sugiere hacer

una estimacin a priori sobre el grado previsto de heterogeneidad. Si se permite

que H muestre una estimacin conceptual de D2, podemos utilizar la siguiente frmula

en un clculo a priori:

1

1AF

H

Por ejemplo, si se espera que un metanlisis incluya un grado leve de heterogeneidad,

sobre la base de lo que sabemos sobre el tema clnico, las diferencias observadas

entre los ensayos incluidos, las diferencias esperadas entre presente y futuro, y el

alcance de la revisin- uno puede optar por definir H como el 25 %. En este caso, la

AF se estima en 1,33. Si se espera un moderado grado de heterogeneidad, se puede

optar por definir H como el 50 %, y AF sera entonces estimada en 2,00. Si se espera

gran heterogeneidad, entonces H puede llegar a ser del 75 % y el AF se estima en

4,00.

Debido a que el grado de la heterogeneidad esperado puede ser difcil estimar cuando

un metanlisis solo incluye pocos ensayos, se recomienda que los usuarios del TSA

realicen anlisis de sensibilidad para esta variable. Por ejemplo, se podra concebir

grados mximos y mnimo realistas o aceptables de heterogeneidad para un

metanlisis dado. Como un ejemplo, se podra especular que el grado mnimo

31

aceptable de heterogeneidad estadstica sera 20 %. Tambin se podra decidir que si

la heterogeneidad estadstica supera el 60 %, entonces la medicin del efecto en los

subgrupos, en lugar de la estimacin del efecto del tratamiento estimado mediante la

combinacin de los ensayos, sera ms apropiada. En este caso, no debera ser

realizado el metanlisis. En este ejemplo, se podra usar el promedio de los dos, (60

% + 20 %)/2 = 40 %, para el clculo del tamao de la informacin primaria, pero

reconociendo que el tamao de la informacin requerida puede ser tan grande como

el basado en el 60 % de ajuste de la heterogeneidad o tan baja como el basado en el

20 %. Como otro ejemplo, se podra concebir la construccin de un nmero de

mejores y peores escenarios de casos (cualesquiera que sean) mediante la

adicin de futuros ensayos imaginario para el metanlisis actual.

Este enfoque permitira evaluar la solidez y la fiabilidad de la estimacin D2 y construir

un espectro de grados realistas o aceptables de heterogeneidad que fcilmente

podran ser utilizados para el anlisis de sensibilidad.

Estimacin de la proporcin de eventos del grupo control y un supuesto efecto

de la intervencin

La estimacin de la proporcin de eventos del grupo control y un probable efecto de

la intervencin son determinantes importantes para calcular el tamao de la

informacin necesaria al usar TSA. Por lo tanto, debe hacerse todo lo posible para

que estas estimaciones sean lo ms precisa y verdadera posible.

Para los datos binarios, la proporcin de eventos del grupo control se puede estimar

mediante el uso de la experiencia clnica y la evidencia de reas relacionadas. Una

estimacin a priori de un efecto objetivo de la intervencin se expresa generalmente

como una reduccin relativa del riesgo (RRR). Cuando la disponibilidad de la

evidencia, acerca de la intervencin bajo investigacin, es limitada se puede estimar

un efecto clnicamente relevante de la intervencin mediante el uso de la experiencia

clnica y las pruebas de las reas relacionadas. Un ejemplo se puede encontrar en un

artculo de Pogue y Yusuf, en el que la proporcin de eventos del grupo control, Pc, y

un RRR a priori se basaron en las experiencias de las reas relacionadas en

cardiologa.1,2 Pogue y Yusuf aplicaron consideraciones del tamao de la informacin

a dos metanlisis conocidos bien destacados en cardiologa: La estreptoquinasa

intravenosa en infarto agudo de miocardio y magnesio intravenoso en infarto agudo

de miocardio. Ellos postularon que para la mayora de los principales resultados

vasculares, como la muerte, pudiera ser sensato esperar una mortalidad del 10% en

el grupo control. Pogue y Yusuf, adems, consideraron un ejemplo de una intervencin

32

terica para la prevencin de la mortalidad despus de un infarto al miocardio.

Sealaron que los verdaderos tratamientos eficaces para reducir el riesgo de eventos

cardiovasculares, tales como la muerte, haban generado unos RRRs de 10 %, 15 %,

o -en el mejor de los casos- 20 %.

Para cualquier pregunta clnica, la decisin tiene que ser realizada sobre qu valores

son adecuados para el Pc y RRR. La proporcin anticipada de eventos en el grupo de

intervencin (experimental), PE, a continuacin, se pueden obtener usando la frmula

PE = Pc (1- RRR). Posteriormente, el PE hipottica y Pc pueden ser introducidos en la

frmula para el tamao de la informacin requerida.

La inferencia realizada sobre los efectos de intervencin verdadera prevista en un rea

de intervencin a otra puede ser problemtica porque una estimacin a priori puede a

menudo representar aproximaciones pobres de la verdad. La literatura de ensayos

clnicos est llena de ejemplos de clculos del tamao de la muestra realizados sobre

la base de los efectos sobreestimados de las intervenciones previstas. No hay ninguna

razn de por qu esto debera ser diferente para los clculos del tamao de

informacin para un metanlisis.

Si los ensayos aleatorizados ya han investigado el efecto de una intervencin,

entonces, una recoleccin de tales estimados se puede usar para cuantificar mejor el

efecto de la intervencin prevista. Sin embargo, no todos los ensayos aportan

estimaciones vlidas, y se debe tener cuidado en asegurarse de la validez de los

estimadores de los efectos de la intervencin utilizados para el clculo del efecto

anticipado de una intervencin dada.

Muchos ensayos producen sobreestimacin de los efectos de la intervencin

investigada debido al informe selectivo de resultados y riesgos de sesgo (es decir, los

errores sistemticos debido a la inadecuada generacin de la secuencia de

asignacin, ocultamiento inadecuado de la asignacin, el enmascaramiento

inadecuado, prdida durante el seguimiento, u otros mecanismos). 13,51-58 Tales

ensayos se pueden clasificar en ensayos con alto riesgo de sesgo.13 Al contrario, los

ensayos que generen estimaciones vlidas del efecto de la intervencin pueden ser

clasificados como ensayos con bajo riesgo de sesgo.13 Si la evidencia sobre el efecto

de la intervencin investigada est disponible a partir de ensayos con bajo riesgo de

sesgo, sera apropiado establecer un efecto esperado a priori de la intervencin

utilizando un metanlisis de estos ensayos.6,11,12 Sin embargo, las situaciones

metanalticas que requieren clculos del tamao de la informacin a menudo se

producen cuando la evidencia es escasa. Aunque una serie de ensayos con bajo

riesgo de sesgo estn disponibles para la aproximacin de un efecto de verdadera la

intervencin prevista, la estimacin combinada de estos ensayos todava puede estar

33

sujeto a considerable error aleatorio, el sesgo de desfase del tiempo, y el sesgo de

publicacin. Por lo tanto, un efecto esperado a priori de la intervencin sobre la base

de la estimacin del efecto combinado de metanlisis de los ensayos con bajo riesgo

de sesgo solo es fiable en la medida en que este metanlisis puede considerarse libre

de grandes errores aleatorios. Adems, solo es vlido en la medida en que puede

considerarse libre de sesgo de desfase del tiempo y de publicacin.

No es posible recomendar una tcnica para definir los efectos de intervencin para los

clculos del tamao de la informacin. Ms bien, las consideraciones del tamao de

la informacin deben basarse en las fluctuaciones de proporciones crebles de

eventos del grupo control, efectos de la intervencin y errores de tipo I y II. Las

consideraciones adecuadas para el clculo del tamao de la muestra para un ensayo

clnico no solo se basan en un solo nmero. En su lugar un rango de tamaos de

muestras aceptable se produce a partir de una gama de efectos posibles de

tratamiento, la proporcin de eventos del grupo de control, y los errores tipo I y tipo II,

lo que proporciona un razonable intervalo de tamaos de muestra en el cual se

encuentre un nmero apropiado de pacientes para obtener un ensayo clnico

concluyente. Del rango producido de tamaos de muestra, se seleccionara una

primaria y dejar que el tamao de la muestra acte como clculo de sensibilidad

(potencia). Se recomienda que las consideraciones de tamao de la informacin para

metanlisis sigan la misma construccin. Las RRR y PC obtenidos de estudios con

bajo riesgo de sesgo fcilmente podran combinarse a priori con un rango de efectos

de intervencin utilizando la metodologa del mejor y peor escenario realistas, lo

que proporciona una gama de informacin en la cual sustentarse el metanlisis para

generar inferencias metanalticas concluyentes.

Limitaciones

El tamao de la informacin requerida para un metanlisis (sea determinada como el

nmero requerido de pacientes, eventos o informacin estadstica) tiene limitaciones.

En los ensayos clnicos aleatorizados, es razonable asumir que la distribucin de los

factores de pronstico en los pacientes aleatorizados se asemeja a la de la poblacin

de referencia. En las revisiones sistemticas con metanlisis, los ensayos se incluyen

normalmente sobre la base de unos criterios de inclusin que se deciden a priori en el

protocolo de la revisin sistemtica. Debido a que los criterios de inclusin (y

exclusin) en los ensayos clnicos casi nunca son idnticos y debido a que los ensayos

suelen variar en tamao de las muestras, es poco probable que los metanalistas y

autores de las revisiones sistemticas tengan control sobre la distribucin de los

factores pronsticos. Si en una actualizacin de la revisin sistemtica se modifican

34

los criterios de inclusin, los autores no podrn predecir con precisin la distribucin

de los factores pronsticos entre los ensayos recientemente publicados. Los factores

pronsticos basales pueden tener un considerable impacto sobre las tasas de

incidencia en el grupo de control. En esta situacin, puede ser apropiado hacer un

intento previo de cuantificar la diferencia entre la incidencia basal en la poblacin del

metanlisis y, en la poblacin de referencia, y luego realizar una serie de anlisis de

sensibilidad post hoc si es necesario.

Los efectos comparativos de las intervenciones mnimamente importantes (tambin

conocidos como diferencias mnimamente importantes) no siempre pueden ser

similares en todos los ensayos incluidos. Por ejemplo, si la poblacin de pacientes

investigados entre los ensayos experimenta diferentes riesgos de eventos adversos,

la diferencia mnimamente importante tambin puede diferir entre los ensayos. Esta

variacin es el resultado del propsito clnico. Para cualquier intervencin mdica, la

posibilidad de beneficio debe ser superior a cualquier aumento en el riesgo de dao.

Una poblacin con mayor riesgo de dao necesitar una mayor posibilidad de

beneficio para hacer un tratamiento que valga la pena. Cuando las diferencias

mnimamente importantes varan entre los ensayos, las consideraciones de tamao

de la informacin todava pueden ser sensibles. Sin embargo, es importante recordar

que la inferencia acerca de las conclusiones de un metanlisis solo se puede

generalizar a la poblacin de pacientes para los que se aplican a priori la diferencia

mnimamente importante.

Cuando el tamao de la informacin requerida es definida por el nmero requerido de

pacientes o eventos, el problema de la heterogeneidad impredecible puede ser tratado

mediante la previsin de algn grado mximo apropiado de la heterogeneidad y en

consecuencia ajustar el tamao de la informacin requerida.4 La aparente limitacin

de este enfoque es que el grado de heterogeneidad esperada es a la vez difcil de

adivinar y estimar cuando solo unos pocos ensayos clnicos estn disponibles. Aunque

se recomienda el anlisis de sensibilidad sobre el grado de ajuste de la

heterogeneidad, estos anlisis pueden todava ser inapropiados si el grado

esperado(s) de la heterogeneidad no refleja el verdadero grado de heterogeneidad en

el cual los metanlisis incurrirn a medida que se publiquen nuevos ensayos clnicos.

Cuando el tamao de la informacin requerida se define por la informacin estadstica

necesaria, la frmula para el tamao de la informacin requerida no requiere una

estimacin del grado previsto de heterogeneidad. Por el contrario, la informacin real

en el metanlisis (la informacin estadstica estimada) incorpora directamente la

heterogeneidad a travs de la variacin estimada entre los ensayos.

35

Esto, sin embargo, presenta una limitacin en que la informacin estadstica

acumulada solo es fiable en la medida en que la estimacin de la varianza entre

ensayos sea fiable. Las posibles soluciones a este problema implican el uso de una

metodologa ms compleja para ajustar la incertidumbre asociada a la estimacin de

la variacin entre ensayos. Una opcin es utilizar el enfoque de efectos aleatorios por

Biggerstaff-Tweedie, que incorpora la incertidumbre asociada a la estimacin de la

varianza entre los ensayos cuando se utiliza el estimador convencional de

DerSimonian-Laird (vase la seccin 2.1.3).41 Otra opcin es utilizar metanlisis

Bayesiano, donde una distribucin a priori es delineada para la varianza entre

ensayos.

La prueba estadstica acumulada (curva Z)

Como se mencion en la seccin 2.1.2., la prueba del metanlisis para significacin

estadstica utiliza una prueba estadstica tipo Wald. Este estadstico est dado por el

logaritmo del efecto combinado de la intervencin dividido por su error estndar13 y

que comnmente se conoce como el estadstico Z o el valor Z. Bajo el supuesto de

que las dos intervenciones investigadas no difieren (la hiptesis nula) el valor Z ser

aproximadamente una distribucin estndar normal (una distribucin normal con

media 0 y desviacin estndar 1). Cuanto mayor sea el valor absoluto de un valor Z

observado, ms fuerte es la evidencia estadstica de que las dos intervenciones

investigadas sean diferentes. Si el valor Z absoluto observado es sustancialmente

mayor que 0, es habitual concluir que la diferencia observada entre el efecto de las

dos intervenciones no solo se explica por la influencia del azar. En esta situacin, la

diferencia entre las dos intervenciones se describe como estadsticamente

significativa. Por definicin, un valor P es la probabilidad de encontrar diferencias

observadas, o uno ms extremo, si la hiptesis nula fuera verdadera. En la prctica,

el valor P es el valor que se utiliza para evaluar la significacin estadstica. El valor P

se obtiene a partir del valor de Z (vase la seccin 2.1.2 para los detalles

matemticos); estas dos medidas representan dos maneras diferentes de comunicar

la misma informacin, y son intercambiables. Por ejemplo, un valor de p bilateral

menor que el 5 % es lo mismo que un valor absoluto de Z mayor que 1,96 y viceversa.

Cada vez que un metanlisis es actualizado, se calcula un nuevo valor Z. Por tanto,

una serie de valores consecutivos Z, procede de una serie de actualizaciones del

metanlisis. Para inspeccionar la evolucin de las pruebas de significacin, la serie de

valores Z puede ser trazada con respecto a la informacin acumulada (pacientes

acumulados, eventos o informacin estadstica), produciendo de este modo una curva

que se conoce comnmente como la curva Z.1, 2, 4, 6, 11, 12

36

Los problemas con las pruebas de significacin en el

metanlisis

Como se mencion en el captulo 1, las pruebas de significacin convencional en el

metanlisis fallan en relacionar las pruebas estadsticas observadas y los valores de

p con la solidez de la evidencia disponible y el nmero de pruebas de significacin

repetidas.1-4, 6, 11, 12 La consecuencia de esta omisin es un aumento en el riesgo de

obtener un resultado metanaltico falso positivo. Esta seccin proporciona

descripciones conceptuales y estadsticas, con un nivel bsico a intermedio, de las

pruebas de significacin en el metanlisis y los problemas que resultan de no

incorporar la solidez de la evidencia y el nmero de pruebas de significacin repetidas

en el proceso.

Criterios generales para las pruebas de significacin

La pruebas de significacin convencional trabajan con un riesgo mximo de error tipo

I, , que tambin funciona como el umbral para cuando los valores de p se consideran

pruebas de significacin estadstica. Los valores p y valores de Z son intercambiables

en la evaluacin de la significancia estadstica. Como se mencion, para cada umbral

de valor p, , existe un valor umbral Z correspondiente, Z. Por ejemplo, si deseamos

un riesgo de error tipo I bilateral de un mximo del 5 % solo deberamos considerar

valores absolutos Z superiores a 1,96 como prueba de significacin estadstica. Pero

si deseamos un error mximo de tipo I bilateral del 1 % solo debemos considerar

valores absolutos de Z superiores a 2,58 como evidencia de significacin estadstica.

Asuma que Pr (X|Y) indica la probabilidad de que el evento X se produce debido a que

el evento Y es verdad (o se ha producido), y que |Z| representa el valor absoluto de Z.

En general, nos enfrentamos al reto de determinar adecuadamente el umbral, c, que

har que las siguientes ecuaciones sean verdaderas

Pr(|Z|c | H0 is true) (2)

Pr(|Z|=c | H0 is true) = (3)

Para las secciones tericas restantes sobre pruebas de significacin repetidas

(secciones 2.2.2 a 2.2.5), asumiremos que todas las pruebas estadsticas son

bilaterales. Tambin asumiremos que todos los valores estadsticos de pruebas, Z,

son valores absolutos. Asumimos esto ltimo debido a que el lgebra involucrada hace

ms sencillo realizar ese proceso. Por ejemplo, en la definicin de los umbrales

37

bilaterales de una prueba estadstica no absoluta, habra que considerar la

probabilidad de que Pr(Z-c or Zc | ... ) en vez de Pr(|Z|c | ... ).

Los problemas con las pruebas de significacin repetida

Las pruebas sencillas convencionales de significacin pueden considerarse fiables si

suficientes datos se han acumulado. En el metanlisis, una sola prueba de

significacin puede ser considerada confiable una vez que el tamao de la informacin

requerida es superada.1-4,6,11,12,20,59 Si realizamos una sola prueba para la significacin

estadstica en o despus de un metanlisis que ha superado su tamao de informacin

requerida, las pruebas de significacin estadstica solo implican la determinacin de

un umbral adecuado, c, que har que las ecuaciones (2) y (3) sean ciertas. Por

ejemplo, para = 5 % consideraramos c = 1,96 apropiado si los datos del metanlisis

anteriormente no haban sido sometidos a pruebas de significacin.

Cuando un metanlisis acumulado es sometido a pruebas de significacin ms de una

vez (antes superando su tamao de informacin requerido), la situacin se vuelve ms

compleja. Considerando el ejemplo donde un metanlisis se actualiza una primera vez

y donde se utiliza el error mximo, convencional, tipo I de 5 %. En esta situacin, el

primer metanlisis producir un valor de Z, Z1, y la actualizacin del metanlisis

producir otro, Z2. Si el primer metanlisis genera un valor Z mayor que 1,96, las dos

intervenciones investigadas se declaran significativamente diferentes. Sin embargo, si

el primera metanlisis no es significativo (es decir, Z1 < 1,96), las dos intervenciones

pueden todava ser declaradas estadsticamente significativa si la actualizacin del

metanlisis genera un valor Z mayor que 1,96 (es decir, si Z2 1,96). Por las leyes de

la teora bsica de la probabilidad, la probabilidad de qu

Documents

Manual de usuario para Análisis Secuencial de Ensayos · BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA TEORÍA LEGAL, YA SEA POR ... Principal desarrollador de las aplicaciones del software: