Upload
dangnguyet
View
228
Download
0
Embed Size (px)
Citation preview
1
Manual de usuario para
Anlisis Secuencial de Ensayos
Kristian Thorlund, Janus Engstrm, Jrn Wetterslev, Jesper Brok,
Georgina Imberger, y Christian Gluud
Copenhagen Trial Unit
Centre for Clinical Intervention Research
Departament 3344, Rigshospitalet
DK-2100 Copenhagen
Demmark
Tel. +45 3545 7171 Fax +45 3545 7101
E-mail: [email protected]
2
Contenido
Manifiesto de responsabilidad limitada ........................................................ 4
Roles de los miembros del equipo y contribuciones .................................. 5
Prefacio ............................................................................................................. 6
1 Conceptos y racionalidad del Anlisis Secuencial de los Estudios .... 7
El error aleatorio en el metanlisis ......................................................................... 7
Definicin de la solidez de la evidencia Tamao necesario de la muestra .......... 9
Evaluacin de la significacin estadstica antes de que se haya alcanzado el
tamao necesario de la muestra. ......................................................................................10
Pruebas de futilidad antes de que el tamao de la informacin haya sido alcanzado
11
Resumen ..............................................................................................................13
2 Metodologa del TSA .............................................................................. 15
Mtodos para combinar los resultados de los ensayos clnicos ............................15
Medidas de efecto para los datos dicotmicos y continuos ...............................15
Generalidades del modelo de efectos fijos y de efectos aleatorios ....................17
Estrategias para el metanlisis con el modelo de efectos aleatorio ...................19
Mtodos para el manejo de ensayos clnicos sin eventos .................................22
Examinando la significacin ajustada y la futilidad en el metanlisis acumulativo .24
El tamao de la informacin necesaria para un metanlisis concluyente ..........26
La prueba estadstica acumulada (curva Z).......................................................35
Los problemas con las pruebas de significacin en el metanlisis ....................36
La funcin del gasto de alfa y los lmites de monitoreo secuencial de los
ensayos ........................................................................................................................38
Intervalos de confianza ajustados tras el anlisis secuencial de los ensayos ....45
La ley del logaritmo iterado ...............................................................................47
La funcin del gasto de y los lmites de futilidad .............................................48
3 Instalacin e inicio del programa TSA .................................................. 54
Requisitos previos .................................................................................................54
Instalacin .............................................................................................................54
Iniciando el TSA ....................................................................................................54
Por qu no funciona el TSA? ..........................................................................55
Uso RM5 Converter ..............................................................................................56
Por qu no funciona? ......................................................................................56
4 Cmo utilizar el software TSA ............................................................... 56
Iniciando ...............................................................................................................56
Creacin de un nuevo metanlisis ....................................................................57
Guardando un archivo TSA y abriendo un archivo TSA existente .....................59
Importando los datos del metanlisis desde Review Manager v.5 .....................59
Aadiendo, editando y eliminando los ensayos clnicos ........................................63
3
Aadiendo ensayos clnicos ..............................................................................64
Edicin y eliminacin de ensayos ......................................................................65
Estableciendo las configuraciones del metanlisis ................................................66
Eleccin de la medida de asociacin.................................................................66
La eleccin de su modelo estadstico ................................................................67
Eleccin de un mtodo para el manejo de datos con ausencia de eventos .......67
La eleccin del tipo de intervalo de confianza ...................................................68
Aplicacin de las pruebas ajustadas de significacin (aplicando TSA) ..................69
Adicin de una prueba de significacin .............................................................70
Edicin y eliminacin de una prueba de significacin ........................................77
Adicin y recuperacin de las plantillas de pruebas de significacin .................78
Realizando los clculos de las pruebas de significacin....................................79
Opciones de grficos en el TSA ............................................................................81
Explorando la diversidad entre los ensayos ..........................................................86
5 Ejemplos de aplicaciones del TSA ........................................................ 87
Los conjuntos de datos .........................................................................................87
Cmo evitar los falsos positivos ............................................................................87
Confirmacin de un resultado positivo ..................................................................89
Confirmacin de la answer is in Desconozco una traduccin adecuada para
esta expresin ..............................................................................................................90
Evitando sobreestimaciones precoces ..............................................................93
Pruebas de inutilidad ............................................................................................96
La estimacin del tamao de la muestra de un nuevo ensayo clnico ...................97
Otras aplicaciones publicadas del Anlisis Secuencial de los Ensayos ............... 100
6 Apndices .............................................................................................. 102
Medidas de efecto para metanlisis de los datos dicotmicos y continuos.......... 102
Estrategia de efectos aleatorio ............................................................................ 103
Frmulas del mtodo Biggerstaff-Tweedie ...................................................... 103
Anlisis secuencial de los ensayos ..................................................................... 103
Incremento del error tipo I debido a la repeticin de pruebas de significacin . 103
Los mtodos alternativos no implementados en el software TSA .................... 104
7 Lista de abreviaturas y notaciones estadsticas ............................... 107
Abreviaturas generales ....................................................................................... 107
Notaciones estadsticas ...................................................................................... 107
Smbolos con letras minsculas ...................................................................... 107
Smbolos con letras maysculas ..................................................................... 108
7.2.3. Smbolos en letras griegas................................................................................ 110
8 Referencias bibliogrficas ................................................................... 111
4
Manifiesto de responsabilidad limitada
EL SOFTWARE ES PROPORCIONADO "TAL CUAL", SIN GARANTA DE NINGN
TIPO, EXPRESA O IMPLCITA, INCLUYENDO PERO NO LIMITADO A LAS
GARANTAS DE COMERCIALIZACIN, IDONEIDAD PARA UN PROPSITO
PARTICULAR Y NO INFRACCIN. EN NINGN CASO, LOS AUTORES O
TITULARES DEL DERECHO DE AUTOR SERN RESPONSABLES DE NINGUNA
RECLAMACIN, DAO U OTRA RESPONSABILIDAD, YA SEA EN UNA ACCIN
DE CONTRATO, AGRAVIO O DE OTRO TIPO, QUE SURJA DE O EN CONEXION
CON EL SOFTWARE O EL USO U OTROS EN EL SOFTWARE.
BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA TEORA LEGAL, YA SEA
POR AGRAVIO, CONTRATO, O CUALQUIER OTRA FORMA, LA CLINICAL TRIAL
UNIT SER RESPONSABLE ANTE USTED O CUALQUIER OTRA PERSONA POR
PRDIDA DE BENEFICIOS, PRDIDA DE FONDO DE COMERCIO, O CUALQUIER
DAO INDIRECTO, ESPECIAL, INCIDENTAL O CONSECUENTES DAOS, O
DAOS POR NEGLIGENCIA GRAVE DE NINGN TIPO, INCLUYENDO, SIN
LIMITACIONES, DAOS POR PRDIDA DE FONDO DE COMERCIO,
INTERRUPCIN DEL TRABAJO, FALLO O MAL FUNCIONAMIENTO, O POR
CUALQUIER OTRO DAO O PRDIDA.
El software de anlisis secuencial de los ensayos (en adelante TSA) a que se refiere
este manual est en versin Beta. La Copenhagen Trial Unit ha evaluado ampliamente
el software TSA; pero, an pudieran ocurrir errores. La retroalimentacin es una parte
importante del proceso de correccin de errores y de la implementacin de mejoras.
Por lo que le animamos a que nos comunique acerca de sus experiencias con este
software. Para ello, por favor visite la pgina Web desde donde descarg el TSA
(ctu.rh.dk/TSA), y haga clic en el enlace de formulario de comentarios.
5
Roles de los miembros del equipo y contribuciones
El TSA se desarroll en la Copenhagen Trial Unit, Copenhague, Dinamarca. El equipo
est formado por Kristian Thorlund (KT), Janus Engstrm (JE), Jrn Wetterslev (JW),
Jesper Brok (JB), Georgina Imberger (GI), y Christian Gluud (CG). Las funciones y
contribuciones de cada miembro del equipo se describen a continuacin:
Jefe del proyecto: KT.
Principal desarrollador de las aplicaciones del software: JE.
Co-desarrolladores de las aplicaciones del software: KT, JW, JB, CG.
Programador estadstico: KT.
Evaluadores internos de la versin Beta: JB, GI, JW, KT, CG.
Autores del manual: KT (principal), GI, JW, JB, JE, CG.
Supervisores del proyecto: JW y CG.
6
Prefacio
Este manual proporciona una gua, terica y prctica, para el uso del programa
Anlisis Secuencial de los Estudios (TSA, por sus siglas en ingls) realizado en la
Copenhagen Trial Unit. El captulo 1 se refiere a los conceptos y racionalidad; el
captulo 2 aporta una descripcin tcnica de las metodologas implementadas, y los
captulos 3 al 5 se refieren a cmo instalar, utilizar y aplicar el software.
El software TSA puede ser descargado desde www.ctu.dk/tsa. Le invitamos a utilizarlo
en sus anlisis y publicaciones de metanlisis acumulados, con la debida referencia
del software y de algunos de nuestros artculos que describen la metodologa.
En caso de que necesite ayuda con el software TSA, por favor, comunquese con
nosotros a travs del correo electrnico: [email protected].
7
1 Conceptos y racionalidad del Anlisis Secuencial de
los Estudios
El error aleatorio en el metanlisis
Algunos hallazgos metanalticos positivos pueden ser debidos a la influencia del
azar (errores aleatorios) ms que a algn efecto verdadero subyacente de la
intervencin.1- 10 Del mismo modo, algunos hallazgos neutrales o negativo (no
positivo) del metanlisis pueden, tambin, representar un hallazgo casual, debido
a la carencia de poder estadstico y precisin.9-13 Estos dos tipos de errores son
comnmente conocidos como errores falsos positivos (o errores tipo I) y errores
falsos negativos (o errores tipo II). Los metanlisis son tpicamente considerados
positivo o negativo sobre la base de alguna prueba estadstica (prueba
estadstica), reportada con el valor de p o con el intervalo de confianza
correspondiente.
Cuando un metanlisis incluye un bajo nmero de ensayos clnicos y de pacientes,
los errores aleatorios pueden causar conclusiones espurias.1, 2, 4-6, 9, 11, 12, 14,15 Por el
contrario, cuando hay un gran nmero de pacientes, y cuando numerosos ensayos
clnicos han confirmado los hallazgos de estudios previos, las pruebas estadsticas y
los estimadores del efecto de la intervencin tpicamente convergen hacia la
verdad.1, 2, 4-6, 9, 11, 12, 14, 15 Las figuras 1 (A) y 1 (B) ilustran ejemplos de tal
convergencia en las pruebas estadsticas. En ambas situaciones, las inferencias
acerca de la significacin estadstica son errneas en los momentos iniciales, pero
finalmente convergen hacia el lado verdadero de la significacin estadstica.
Figura 1. Ejemplos de la convergencia en las pruebas estadsticas cuando los pacientes son incluidos
y seguidos en la medicin de un desenlace (por ejemplo, muerte) en dos ensayos clnicos aleatorizados
A y B.
El error aleatorio e imprecisin solo causan problemas si las pruebas estadsticas (y
la estimacin del efecto de la intervencin) son utilizadas en etapas donde la magnitud
del error aleatorio o imprecisin es suficientemente extremo para producir
8
inferencias estadsticas falsas. En la figura 2(A), las pruebas de significacin, en los
tiempos X1 y X3 se traducira en una falsa declaracin de significacin estadstica (es
decir, un resultado falso positivo), mientras que las pruebas de significacin en X2 y
X4 no lo seran. De este modo, solo en los tiempos X1 y X3, el impacto del error
aleatorio es suficientemente extremo para producir resultados espurios
estadsticamente significativos. En la figura 2(B), las pruebas de significacin en X1 y
X2 podra haber dado lugar a una declaracin falsa de que las intervenciones objeto
de la investigacin no fueron significativamente diferentes (es decir, un resultado falso
negativo), mientras que pruebas de significacin en X3 y X4 no lo seran. Por lo tanto,
solo en los momentos X1 y X2 es la imprecisin de una magnitud lo que provoca la
ausencia espuria de significacin estadstica.
Figura 2. Ejemplos de resultados estadsticamente falsos positivos y falsos negativos durante la
ejecucin de dos ensayos clnicos aleatorizados A y B.
La mayora de las pruebas estadsticas empleadas, a medida que se acumulan datos
adicionales, incrementan la probabilidad de observar un resultado falso positivo o falso
negativo. Este fenmeno se conoce comnmente como multiplicidad debido a
pruebas repetidas de significacin.10, 16-18
En el metanlisis es importante minimizar el riesgo de realizar una conclusin falsa,
positiva o negativa.3 En el metanlisis, los efectos combinados de la intervencin
suelen evaluarse sobre la base de los valores de p. Los autores del metanlisis deben
decidir cul es el umbral en el cual un valor de p es suficientemente pequeo, para
justificar una conclusin positiva. Por debajo de este umbral, una conclusin es
considerada estadsticamente significativa. En un momento dado, cualquier umbral
implica un equilibrio entre el riesgo de observar un resultado falso positivo (error tipo
I) y el riesgo de observar un resultado falso negativo (error tipo II). Por ejemplo, si el
umbral para la significacin estadstica en la Figura 2 (lnea horizontal discontinua)
hubiese sido desplazado hacia arriba, la posibilidad de observar un resultado falso
positivo (figura 2 (A)) habra disminuido, mientras que el riesgo de observar un falso
resultado negativo (figura 2 (B)) habra aumentado. Cuando las pruebas de
significancia convencionales se realizan en etapas tempranas y/o en varias
9
ocasiones, estos riesgos mximos estn distorsionados (como se ilustra en la figura
2).16-18 Por lo tanto, cualquier inferencia acerca de la significacin estadstica debera
ser realizada en conjunto con la solidez de la evidencia, la cual debera ser medida
utilizando el nmero acumulado de pacientes, nmero observado de eventos en los
ensayos incluidos, y el impacto de la multiplicidad.1, 2, 4, 6, 10, 19-21
Definicin de la solidez de la evidencia Tamao necesario
de la muestra
Los metanlisis de ensayos aleatorizados aumentan la potencia y precisin de los
efectos estimados de la intervencin.13 Cuando se incluyen todos los ensayos
disponibles; las revisiones sistemticas y los metanlisis son considerados como la
mejor evidencia disponible.13 Sin embargo, la mejor evidencia disponible puede no
ser sinnimo de evidencias suficientes o evidencias slidas.1; 2; 4; 6; 11; 12
En un ensayo aleatorizado con desenlace binario se debe estimar el nmero de
eventos y pacientes necesarios para permitir una inferencia estadstica confiable. Es
decir, se realiza el clculo del tamao de la muestra para asegurar que un nmero
suficiente de eventos y de pacientes sean incluidos.22 Una estrategia similar,
denominada goal post se requiere para un metanlisis.1, 2, 6, 23 En el campo del
metanlisis el goal post ha sido denominado como el tamao de la informacin (IS)
requerida o el tamao ptimo de informacin.1, 2, 4, 6, 11, 12,14,15, 19; 23-25
La Figura 3 muestra dos escenarios metanalticos tpicos A y B, donde la estadstica
de prueba se ha estabilizado despus de haber alcanzado el tamao de la informacin
requerida.
Figure 3. Ejemplos de cmo el tamao de la informacin requerida asegura pruebas de significacin
confiables en dos metanlisis acumulados, A y B.
En un ensayo clnico, el clculo del tamao de muestra se basa generalmente en la
proporcin esperada del evento en el grupo control, la reduccin relativa del riesgo
esperado de la intervencin experimental, y el riesgo mximo deseado de los errores
tipo I y tipo II.26 En un metanlisis es posible que haya heterogeneidad en las
10
poblaciones de los ensayos incluidos, las intervenciones y los mtodos. Las
consideraciones del tamao de la muestra del metanlisis necesitan ser ajustadas -es
decir, incrementadas- con el fin de permitir la varianza introducida por esta
heterogeneidad. 4, 6, 11, 12, 23 Estos ajustes son anlogos a los ajustes por la variacin
a travs de los centros en un ensayo multicntrico.4; 6; 23
Los mtodos convencionales de metanlisis, tales como los que estn disponibles en
el Review Manager v.5.1 27 no toman en cuenta la cantidad de la evidencia
disponible.13 En su lugar, la fiabilidad del efecto de la intervencin estadsticamente
significativa se da por descontada, independientemente del nmero acumulado de
eventos y pacientes. Por el contrario, los efectos de la intervencin que no son
estadsticamente significativos no son considerados fiables comnmente. Ms bien,
se supone que se necesita ms evidencia.28
La evidencia emprica sugiere que los efectos de la intervencin y valores de p,
basados en un nmero limitado de eventos y pacientes, a menudo no son fiables.1, 2,
4-6, 9, 11, 12, 29
Cerca del 25 % de los metanlisis convencionales que incluyen un nmero pequeo
de eventos y de pacientes, pueden mostrar falsamente los efectos de la intervencin
como estadsticamente significativos.4, 5 La evidencia emprica tambin muestra, que
los grandes efectos de la intervencin observados en etapas tempranas o precoces
de metanlisis positivos tienden a desaparecer a medida que se acumula ms
evidencia.4, 5, 9
Evaluacin de la significacin estadstica antes de que se
haya alcanzado el tamao necesario de la muestra.
El objetivo del metanlisis es identificar el beneficio o el dao de una intervencin tan
pronto y de manera tan fiable como sea posible.4, 11-13, 20 Por lo tanto, los metanlisis
se actualizan frecuentemente cuando se publican nuevos ensayos. Por ejemplo, a los
autores de revisiones Cochrane se les solicita actualizarlas por lo menos cada dos
aos.13 Cuando los metanlisis son actualizados, se exponen a una evaluacin
repetida de la significacin estadstica a lo largo del tiempo.
En los ensayos clnicos aleatorizados, las repetidas evaluaciones de la significacin
estadstica incrementan el riesgo global del error tipo I.30
Los estudios de simulacin sugieren que si la repeticin de pruebas de significacin
es realizada en los metanlisis y los valores de p menor que 0,05 son considerados
como evidencia de significacin estadstica, entonces el riesgo verdadero de error
tipo I se situar entre el 10% y el 30%.7, 8, 10, 31 De acuerdo con esto, cuando se toman
11
decisiones para implementar la intervencin como tratamiento, significa que entre 1 y
3 de cada 10 decisiones teraputicas son probablemente inapropiadas.
Para hacer frente a este problema, se pueden ajustar los umbrales para determinar
qu resultados son considerados estadsticamente significativos y cules no.1, 2, 4, 6, 11,
12, 14, 15, 24, 25 Alternativamente, se puede penalizar a la prueba estadstica de acuerdo
con la solidez de la evidencia y el nmero de pruebas de significacin realizado (la
ley del logaritmo repetido).7,8 El software TSA proporciona mtodos para ambos
enfoques, cada uno de ellos est construido sobre los teoremas de la teora avanzada
de probabilidades. El primer mtodo utiliza la metodologa desarrollada para las
pruebas repetidas de significacin en ensayos clnicos aleatorizados (es decir, lmites
de monitoreo estadstico).4, 6, 11, 12 El segundo enfoque penaliza, es decir- disminuye-,
la prueba estadstica de acuerdo con la solidez de la informacin disponible en el
metanlisis y el nmero de pruebas de significancia realizadas.7, 8
Figura 4. Ejemplos de ajuste del umbral de significacin (lmites predeterminados de monitorizacin)
(A) y la prueba estadstica penalizada (predeterminado) (B) para evitar resultados falsos positivos de la
prueba estadstica de dos metanlisis acumulados A y B.
Figura 4 (A) ilustra un ejemplo de un escenario de metanlisis, donde un resultado
falso positivo se evita utilizando el ajuste del umbral para la significacin estadstica
mediante el empleo de los lmites de control. Figura 4 (B) ilustra un ejemplo donde un
resultado falso positivo es evitado por la adecuada penalizacin de la prueba
estadstica.
Pruebas de futilidad antes de que el tamao de la
informacin haya sido alcanzado
Es posible utilizar el software de TSA para evaluar cuando es poco probable que una
intervencin tenga algn efecto anticipado; tambin es posible su uso en el contexto
clnico, para evaluar cuando una intervencin tiene un efecto que es ms pequeo
que lo que sera considerado mnimamente importante para los pacientes.
12
Los metanlisis se utilizan a menudo para guiar la investigacin futura. En la
planificacin de futuros ensayos, los investigadores necesitan tener un resumen
preciso de los conocimientos actuales. Si un metanlisis ha encontrado que una
determinada intervencin no tiene efecto (importante), los investigadores necesitan
saber si este resultado se debe a la falta de poder estadstico o si la intervencin
carezca de efecto. Utilizando el pensamiento convencional, un hallazgo de ningn
efecto se considera que es debido a carencia de poder estadstico hasta cuando se
haya alcanzado el tamao adecuada de informacin. En algunas situaciones, sin
embargo, es posible que podamos llegar a la conclusin anterior de que es poco
probable que sea tan grande como se haba previsto un efecto del tratamiento, y por
lo tanto, prevenir a los investigadores del ensayo de gastar recursos en ensayos
adicionales innecesarios. Por supuesto, el tamao del efecto de la intervencin
prevista puede ser examinado de nuevo y la investigacin adicional puede ser
diseada para investigar un tamao del efecto ms pequeo.
Figura 5. Ejemplos de lmites de futilidad donde la intervencin experimental no es superior a la
intervencin de control (y tambin se pueden haber llevado a cabo muchos ensayos) (A) y donde la
intervencin experimental es significativamente superior a la intervencin de control (y demasiados
ensayos pueden haber llevado a cabo) (B).
El TSA proporciona una tcnica para la bsqueda de una conclusin sin efecto tan
pronto como sea posible. Se construyen y se usan Lmites de Futilidad para
proporcionar un umbral de ningn efecto, que fueron desarrollados originalmente
para el anlisis intermedio en ensayos clnicos aleatorios. 30
Si la intervencin experimental es realmente superior a la intervencin control, se
esperara que la prueba estadstica flucte en torno de algunas lneas rectas de
pendiente positiva, generando, eventualmente, la significacin estadstica (cuando el
metanlisis es suficientemente potente). Si un metanlisis de una intervencin
experimental verdaderamente eficaz incluye solo un pequeo nmero de eventos y de
pacientes, ser baja la probabilidad de obtener un resultado estadsticamente
significativo, debido a la falta de poder estadstico. Sin embargo, a medida que se
acumule ms evidencia, el riesgo de obtener una conclusin negativa disminuye. Los
lmites de futilidad son un conjunto de umbrales que reflejan la probabilidad de la
13
incertidumbre para obtener un resultado negativo en relacin con la fuerza de la
evidencia disponible (por ejemplo, el nmero acumulado de pacientes). Por encima
de los umbrales, la prueba estadstica puede no haber generado significacin
estadstica debido a la falta de poder estadstico, pero todava hay posibilidad de que
un efecto estadsticamente significativo sea encontrado antes de que el metanlisis
sobrepase el tamao de la informacin. Por debajo del umbral, la prueba estadstica
es tan baja que la probabilidad se torna insignificante para encontrar un efecto
significativamente importante. En este ltimo caso, aleatorizacin de pacientes es
vana; la intervencin carece del efecto postulado.
La figura 5 (a) ilustra un ejemplo donde la intervencin experimental no es superior a
la intervencin de control. La prueba estadstica cruza los lmites de futilidad (la curva
cncava de pendiente positiva) antes de que se supere el tamao de la informacin
requerida. La figura 5 (b) ilustra un ejemplo donde la intervencin experimental es
estadsticamente significativamente superior a la intervencin de control. En este
ejemplo, la estadstica de prueba se mantiene por encima de la curva de la futilidad
(porque hay un efecto subyacente) y, finalmente, produce la significacin estadstica.
Resumen
El anlisis secuencial de los ensayos (TSA, por sus siglas en ingls) es una
metodologa que utiliza una combinacin de tcnicas. Las pruebas necesarias se
cuantifican, proporcionando un valor para el tamao requerido de la informacin. Los
umbrales de significacin estadstica son ajustados y estas modificaciones se realizan
de acuerdo con la fuerza cuantitativa de la evidencia y el impacto de multiplicidad.4; 6;
1; 12 Los umbrales para futilidad tambin se pueden construir, utilizando un marco
estadstico similar.
En resumen, el TSA puede proporcionar un IS (por su siglas en ingls), un umbral
para un efecto de tratamiento estadsticamente significativo, y el umbral de
insignificante utilidad. Las conclusiones obtenidas utilizando el TSA muestran que la
fiabilidad de stas es superior a las obtenidas mediante las tcnicas tradicionales de
metanlisis. La evidencia emprica sugiere que las consideraciones de tamao de la
informacin y umbrales de importancia ajustados pueden eliminar precozmente los
resultados falsos positivos, que se originan por la imprecisin y la prueba de
significacin repetida en los metanlisis.4; 6; 11; 12
Alternativamente, se puede penalizar a la prueba estadstica de acuerdo con la solidez
de la evidencia y el nmero de pruebas de significacin realizadas (la ley del
logaritmo iterado).7; 8 Los estudios de simulacin han demostrado que la penalizacin
14
de las pruebas estadsticas puede permitir un adecuado control del error de tipo I en
los metanalisis.7; 8
El siguiente manual contiene una gua -terica y prctica- para el uso del software
TSA de la Copenhagen Trial Unit. El captulo 2 proporciona, en un nivel intermedio,
un resumen tcnico de todas las metodologas incorporadas en el software del TSA.
Los captulos 3 al 5 son apartados prcticos que describen cmo instalar, utilizar y
aplicar este software.
15
2 Metodologa del TSA
El TSA combina la metodologa convencional del metanlisis con los fundamentos
metanalticos del tamao de la muestra (es decir, el tamao de la muestra necesaria)
y los mtodos ya desarrollados para las pruebas de significacin repetida sobre los
datos acumulados en los ensayos clnicos aleatorizados. 1, 2, 4, 6, 11, 12 En el captulo 2,
lo primero que se describe es la metodologa de metanlisis usado para combinar los
datos de una serie de ensayos clnicos. La descripcin en la seccin 2.1 se refiere a
las medidas del efecto para los datos dicotmicos y continuos, modelos estadsticos
de metanlisis (el modelo de efecto fijo y algunas variantes del modelo de efectos
aleatorio), y mtodos para el manejo de datos de eventos cero. En la seccin 2.2, se
describen los mtodos para ajustar la significacin cuando existe un mayor riesgo de
error aleatorio (debido a una evidencia dbil y pruebas de significacin repetida). En
esta seccin, no se describe, en detalle, componentes ms avanzados de esta
metodologa. Ms bien, este captulo est diseado para aportar conocimientos a los
usuarios, con un nivel conceptual intermedio, sobre los temas abordados en el captulo
1.
Mtodos para combinar los resultados de los ensayos
clnicos
Medidas de efecto para los datos dicotmicos y continuos
El programa TSA facilita el metanlisis de los datos dicotmicos (binario) y de los datos
continuos. Los datos dicotmicos se definen por una de las dos categoras (por
ejemplo, muerte o supervivencia). Los datos continuos son datos que se miden en una
escala numrica (por ejemplo, la presin arterial o las puntuaciones de calidad de
vida). Para cada tipo de datos, hay varias medidas disponibles para comparar la
efectividad de una intervencin de inters.13
Medidas de efecto para los datos dicotmicos
Asumamos que tenemos k ensayos independientes que compararon dos
intervenciones (intervencin A vs intervencin B) con un resultado dicotmico. Dichos
ensayos (por lo general) reportarn el nmero de eventos observados (por ejemplo,
muertes) en los dos grupos de intervencin, EA y EB y el nmero total de participantes,
NA y NB, en los dos grupos de intervencin. Para los datos dicotmicos, el efecto de
la intervencin entre las dos intervenciones se puede medir como la diferencia de
16
riesgo (DR), riesgo relativo (RR), y odds ratio (OR).13 Las estimaciones del efecto de
intervencin basadas en estas medidas se calculan utilizando las siguientes frmulas:
( / )
( / )
/( )
/( )
A B
A B
A A
B B
A B B
B A A
e eRD
n n
e nRR
e n
e n eOR
e n e
Las razones de riesgo relativo y odds ratios tpicamente sern expresadas en escala
logartmica debido a que la transformacin genera ciertas propiedades estadsticas
deseables (tales como la simetra y la normalidad aproximada).13 Los errores
estndar, varianzas y pesos de los "efectos de la intervencin relacin son, por lo
tanto, tambin obtenidas en escala logartmica. Las frmulas de los errores tpicos de
la DR, log(RR) y log(OR) se muestran en el apndice 6.1.
Cuando las proporciones de eventos en los dos grupos son bajos (datos de eventos
raros), una alternativa preferida al OR es el odds ratio de Peto.13 Este OR se calcula
con la frmula:
exp ( ) /Peto A AOR e E e v
Donde E (eA) es el nmero esperado de eventos en el grupo de intervencin A, y v es
la varianza hipergeomtrica de eA. Las frmulas para E (eA) y v se muestran en el
apndice 6.1.
Medidas de efecto para datos continuos
Asumamos que tenemos k ensayos independientes que compararon dos
intervenciones (intervencin A contra intervencin B) con un desenlace continuo.
Tales ensayos informan a menudo la respuesta promedio (por ejemplo, la media de la
puntuacin de calidad de vida) en los dos grupos de intervencin, mA y mB, las
desviaciones estndar de los dos grupos de intervencin significan respuestas, SDA
y SDB, y el nmero total de participantes en los dos grupos de intervencin, nA y nB.
Cuando la respuesta promedio se mide en la misma escala para todos los ensayos,
17
la eficiencia comparativa se mide con la diferencia de medias (DM), que viene dada
por mA-mB. El error estndar de la diferencia de media est dada por
2 2
( ) A B
A B
sd sdSE MD
n n
Cuando la media de la respuesta no es medida en la misma escala, aquellas deben
ser estandarizadas a la misma escala, permitiendo la combinacin de los ensayos
clnicos.11 El mtodo convencional consiste en dividir la media de la respuesta en cada
ensayo por su desviacin estndar estimada; proporcionando as, una estimacin del
efecto medido en unidades de desviacin estndar. Las diferencias de medias dividido
por su desviacin estndar se conocen como las diferencias de medias
estandarizadas (DME).13
El programa TSA no facilita el metanlisis con DME. Las pruebas de
significacin ajustada para metanlisis utilizando DME requerira el clculo del
tamao de la muestra necesaria sobre la base de las diferencias de medias
esperadas reportadas en unidades de desviacin estndar. Esta medida del
efecto carece inapropiadamente de sentido para la mayora de los mdicos y,
por lo tanto, es propenso a producir informacin poco realista de tamaos
requeridos de informacin
Generalidades del modelo de efectos fijos y de efectos
aleatorios
Asumamos que tenemos k ensayos independientes. Permita decir que Yi es el efecto
de la intervencin observada en el ensayo i-th. Para metanlisis de datos dicotmicos,
Yi ser o bien la diferencia estimada del riesgo, el riesgo relativo de registro, el log
odds ratio, o log de OR de Peto para el ensayo i-th. Para el metanlisis de datos
continuos, Yi ser la diferencia de media estimada para el ensayo i-th. Asumamos que
i sea el verdadero efecto del ensayo i-th y es el verdadero efecto de la intervencin
(para toda la poblacin del metanlisis). Suponga que i2 denotan la varianza (error
de muestreo) del efecto de la intervencin observada en el ensayo i.
En el modelo de efecto fijo, las caractersticas de los ensayos incluidos (criterios de
inclusin y exclusin de pacientes, las variantes administradas de la intervencin, el
diseo del estudio, la calidad metodolgica, la duracin del seguimiento, etc.) se
supone que son similares.13 Esto es formulado matemticamente como 1 = 2 = =
k = ... Los efectos de la intervencin observados de los ensayos individuales se
supone que satisfacen la relacin distributiva Yi ~ N(, i2). El peso de un ensayo, wi,
se define como el inverso de la varianza del ensayo, y por lo tanto, los pesos del
18
ensayo, en un modelo de efecto fijo, se convierten wi = i -2. El efecto combinado de
la intervencin, , se obtiene como un promedio ponderado de los efectos de la
intervencin observada de los ensayos individuales
i i
i
wY
w
Y tiene varianza
1( )
i
Varw
En el modelo de efectos aleatorio, se asume que los efectos de la intervencin varan
entre los ensayos, pero con un verdadero efecto subyacente, . Permtanos 2 significa
la varianza entre los ensayos, el modelo de efectos aleatorio se define de la siguiente
manera
Yi = i + i, i ~ N(0, i2)
i = + Ei, Ei ~ N(0, 2)
Donde i es el error residual (muestreo) para el ensayo i, y Ei es la diferencia entre el
"verdadero" efecto global y el "verdadero" efecto del ensayo subyacente. Si se unen
la estructura jerrquica en las ecuaciones anteriores, se puede que Yi satisface la
relacin de distribucin Yi ~ N (, i2 + 2). Una vez ms, los pesos de los ensayos se
definen como el inverso de la varianza, y as el peso de los ensayos clnicos en un
modelo de efectos aleatorio se convierten W i*= (i2 + 2)-1. El efecto combinado de la
intervencin , se obtiene como un promedio ponderado de los efectos de la
intervencin observados de los ensayos individuales.
*
* i i
i
w Y
w
y tiene varianza
*
1( )
i
Varw
19
El estudio de la significacin estadstica es realizada con la prueba estadstica de
tipo Wald, la cual es igual al efecto metanalizado de la intervencin (escala log de
los riesgos relativos y odds ratios) dividido por su error estndar:
( )Z
Var
Esta prueba estadstica es la conocida tpicamente como el estadstico Z o el valor Z.
Bajo el supuesto de que dos intervenciones investigadas no difieren del valor Z,
aproximadamente seguirn una distribucin normal estndar (una distribucin normal
con media 0 y desviacin estndar 1). Este supuesto tambin se conoce como la
hiptesis nula y se denota Ho. El correspondiente valor de p de dos colas se puede
obtener usando la siguiente frmula:
2 1 | |P Z
Donde | Z | denota el valor absoluto del valor Z y denota la funcin de distribucin
de la probabilidad estndar normal acumulada.13 El valor P es la probabilidad de
observar un valor Z al menos tan extremo como la que se observa debido a la
intervencin del azar. Cuanto menor sea el valor P, menor ser la probabilidad de que
la diferencia observada entre los dos grupos de intervencin no sea ms que un
hallazgo casual, y por lo tanto, mayor es la probabilidad de que la diferencia observada
se deba a algn efecto del tratamiento verdadero subyacente.
Estrategias para el metanlisis con el modelo de efectos
aleatorio
Como se explic, el modelo de efectos aleatorio intenta incluir una cuantificacin de
la variacin a travs de los ensayos.13 El enfoque comn es estimar la varianza entre
ensayos, 2, con un poco de variacin estimada entre ensayos.13
El mtodo de DerSimonian-Laird
El estimador de la varianza entre los ensayos que se ha utilizado con mayor frecuencia
en la prctica de metanlisis (y es la nica opcin en el software Review Manager de
la Colaboracin Cochrane) es el estimador propuesto por DerSimonian y Laird (DL) 13;
27; 32 El estimador DL se calcula mediante
DL2 = max(0, (Q k + 1) / (S1 (S2 / S1)))
20
Donde Q es el estadstico de la prueba de homogeneidad Cochrane dada por Q =
wi (Yi - )2, donde Sr = wir, para r = 1,2, y donde k es el nmero de ensayos incluidos
en el metanlisis.13; 32
Debido a que el estimador DL es propenso a subestimar la varianza entre ensayos,33-
40 el TSA tiene, adems, dos alternativas al modelo de efectos aleatorio, el Sidik y
Jonkman (SJ) y los mtodos Biggerstaff y Tweedie (BT)33; 34; 41.
El mtodo de Sidik-Jonkman (SJ)
El modelo de efectos aleatorio SJ utiliza un estimador sencillo (no iterativo) de la
varianza entre los ensayos basado en una re-parametrizacin de la varianza total del
efecto estimado de la intervencin observada Yi.33;34 Esto viene dado por la expresin:
SJ2 = vi (Yi - 0)2/ (k-1)
en la cual vi = ri + 1, ri = i2/02, y 02 es una primera estimacin de la variacin entre
los ensayos, que se puede definir, por ejemplo, como
02 = (Yi - uw)2/ k
uw es la media no ponderada de las estimaciones de los efectos observados, y 0 es
el estimador de los efectos aleatorios ponderados utilizando 02 como la estimacin de
la varianza entre ensayos. Los estudios de simulacin han demostrado que el
estimador SJ proporciona estimaciones menos sesgadas hacia la baja de la variacin
entre ensayos que el estimador DL.34; 37 Es decir, el mtodo SJ es menos probable
que subestime la heterogeneidad entre los ensayos. Este es el caso particular para
metanlisis donde existe heterogeneidad moderada o alta. Los intervalos de confianza
basados en el estimador SJ tienen una cobertura cercana al nivel deseado (por
ejemplo, intervalos de confianza del 95 % tendrn el verdadero efecto en
aproximadamente el 95 % de todos los metanlisis).34; 37 Por el contrario, la cobertura
comnmente reportada de los intervalos de confianza basado en el estimador DL est
a menudo por debajo del nivel deseado.33; 35-38 Por ejemplo, muchos estudios de
simulacin que han investigado la cobertura de los intervalos de confianza del 95 %
basados en DL han encontrado una cobertura real de 80 % a 92 %.34; 37 El tamao de
estos intervalos de confianza es equivalente a una proporcin de falsos positivos del
8 % al 20 %, lo cual es evidentemente mayor que el 5 % convencionalmente aceptado.
21
El mtodo Biggerstaff - Tweedie
Debido, a que la mayora de los metanlisis contienen solo un nmero limitado de
ensayos clnicos, la estimacin de la varianza entre los ensayos es a menudo objeto
de error aleatorio.41 Por lo tanto, la presencia de la incertidumbre en estimacin de la
varianza entre los ensayos en el modelo de efectos aleatorios debe ser advertida.
Biggerstaff y Tweedie (BT) propusieron un mtodo para lograr tal incorporacin.41
Ellos derivaron una distribucin de probabilidad aproximada, FDL, para la estimacin
de DL de 2. Definiendo los pesos de los ensayos, segn wi(t)= ((i2 + t)--1, donde t es
una variable que puede asumir todos los valores posibles para 2, ellos utilizaron FDL
y obtuvieron el peso de los ensayos que toman en cuenta la incertidumbre del
estimado 2. Generalmente, esto crea un esquema de ponderacin lo cual, relacionado
con el enfoque de DL, atribuye ms peso a ensayos de mayor tamao y menos peso
a ensayos ms pequeos. Biggerstaff y Tweedie tambin propusieron una frmula
ajustada por la variacin del efecto metanalizado de la intervencin, facilitando as los
intervalos ajustados de confianza (vase el apndice, seccin 6.2.1).
Cul estrategia de los efectos aleatorio puede ser la mejor?
Los mtodos SJ y BT presentan ventajas relativas sobre el enfoque DL. Sin embargo,
estos mtodos tienen sus propias limitaciones y es improbable que sean superiores
en todos los casos. El estimador SJ puede sobreestimar la varianza entre los ensayos
en los metanlisis con heterogeneidad leve, produciendo de esta manera,
artificialmente, amplios intervalos de confianza.34, 37 Se ha demostrado que el enfoque
de BT proporcionan una cobertura similar a los intervalos de confianza del enfoque
DL en los metanlisis con ensayos no sesgados de bajo tamao de muestra.35 Sin
embargo, cuando los ensayos incluidos difieren en tamao y algunos ensayos
pequeos estn sesgados, el enfoque de BT pondr apropiadamente altos pesos en
los ensayos ms grandes, mientras que continua considerando la heterogeneidad.
Este punto es importante porque una crtica comn del modelo de efectos aleatorios
DL es que a los ensayos pequeos a menudo se asignan artificialmente grandes
pesos en metanlisis heterogneos. Una solucin generalmente aplicada, y poco
satisfactoria, es utilizar en este caso el modelo de efecto fijo. De esta manera, el
estimador combinado puede estar menos sesgado por el uso de un esquema de
ponderacin inadecuada, pero los intervalos de confianza tambin sern
artificialmente estrechos porque no toman en cuenta la heterogeneidad. El enfoque
de BT reduce el sesgo incurrido por la ponderacin inapropiada del modelo de efectos
aleatorio mientras que contina considerando la heterogeneidad.
La eleccin del modelo de efectos aleatorios debera incluir un anlisis de sensibilidad
comparando cada estrategia. Si DL, SJ, y BT mantienen inferencias estadsticas
22
similares (es decir, las estimaciones puntuales y los intervalos de confianza), sera
razonable utilizar el enfoque DL y tener confianza en que la estimacin de la varianza
entre ensayo es confiable.
Si dos (o todos) de las tres estrategias son diferentes, se debe llevar a cabo un
metanlisis con ambos (o todos) estrategias y considerar los resultados de acuerdo
con las propiedades subyacentes de cada enfoque. Por ejemplo, si los enfoques DL y
SJ producen resultados diferentes, dos posibles explicaciones deben ser
consideradas: 1) el metanlisis est sujeto a una heterogeneidad moderada o
sustancial y por lo tanto el estimador DL subestima la varianza entre los ensayos y
produce intervalos de confianza artificialmente estrechos, y 2) el metanlisis est
sujeto a heterogeneidad leve y por lo tanto el estimador SJ sobreestima la varianza
entre ensayos y produce intervalos de confianza artificialmente anchos. En esta
situacin, se debe entonces llevar a cabo metanlisis con los dos enfoques y
considerar las implicaciones de cada uno de los dos escenarios siendo verdad.
Mtodos para el manejo de ensayos clnicos sin eventos
En los ensayos dicotmicos, el desenlace de inters puede ser raro. Por ejemplo, la
incidencia de una enfermedad cardaca por el uso de hormona de reemplazo hormonal
es muy baja.42 Algunas veces hay ausencia de eventos de un desenlace eventos
Cero en un grupo. En esta situacin la medida de la razn del efecto (RR y OR) no
dar una estimacin til del efecto de la intervencin.42 Una solucin a este problema
es aadir alguna constante al nmero de eventos y no eventos de cada grupo de
intervencin. Esta estrategia es conocida como correccin de continuidad.42
Numerosas estrategias de correccin continua han sido propuestas en la literatura
metanaltica.
Correccin constante de continuidad
La correccin constante de continuidad es un mtodo simple y es el ms comnmente
utilizado en la literatura metanaltica.42 El mtodo involucra la adicin de un factor de
correccin continuo (una constante) al nmero de eventos y no eventos en cada grupo
de intervencin.
Grupo Eventos No eventos Total
Intervencin 0 20 20
Control 5 20 25 Tabla 1. Ejemplo de un ensayo sin eventos
23
Considere el ejemplo del ensayo con evento cero que se muestra en la tabla 1. Si, por
ejemplo, el mtodo de correccin constante de continuidad utiliza un factor de
correccin de 0,5, el nmero de eventos en el grupo de intervencin se transformar
en 0 + 0,5 = 0,5, el nmero de no eventos en el grupo de intervencin ser ahora igual
a 20 + 0,5 = 20,5, el nmero de eventos en el grupo control resulta en 5+0,5= 5,5;
para finalizar, el nmero de no eventos en el grupo control ser 20 + 0,5 = 20,5. Debido
a que el nmero total de pacientes es el nmero de eventos ms el nmero de no
eventos, el nmero total de pacientes (despus de la correccin constante de
continuidad con la constante 0,5) ser 20,5+0,5=21 en el grupo de intervencin y 20,5
+ 5,5 = 26 en el grupo control.
Si, por ejemplo, se utiliza un factor de correccin de 0,1, el nmero de eventos y el
nmero total de pacientes (despus de la correccin de continuidad) seran entonces
0,1 y 20,2 en el grupo de intervencin y 5,1 y 25,2 en el grupo control.
La versin 5 del Review Manager utiliza correccin constante de continuidad utilizando
un factor de correccin de 0,5.13, 27 Los estudios de simulacin han demostrado
problemas con el uso de esta constante, esto produce estimaciones inexactas cuando
la relacin de asignacin aleatorizada no es 1:1, y produce intervalos de confianza
que son demasiado estrechos.42
Correccin de continuidad utilizando la recproca del opuesto del
grupo de intervencin
Otro mtodo potencial de correccin de continuidad es agregar el recproco del
nmero total de pacientes en el opuesto al grupo de intervencin al nmero de eventos
y no eventos.42 Este tipo de correccin de continuidad es tambin comnmente
conocido como correccin de continuidad del grupo de tratamiento.42 En el ejemplo
de la tabla 1, el factor de correccin para el grupo de intervencin sera 1/25=0,04, y
el factor de correccin para el grupo control sera 1/20=0,05. Este mtodo de
correccin continua provoca 0,04 eventos y 20,04 pacientes en el grupo de
intervencin y 5,05 eventos y 25,05 pacientes en el grupo control.
Correccin de continuidad emprica
Tanto el mtodo de correccin de continuidad constante y el mtodo de correccin de
continuidad grupo de tratamiento impulsan los estimadores del efecto de la
intervencin hacia el efecto nulo (es decir, hacia 0 para las diferencias de riesgo y
24
hacia 1 para medidas de razn).42 Una alternativa de correccin continua es la
correccin de continuidad emprica que arrastra el estimador del efecto de la
intervencin hacia el efecto metanalisado.42 Por ejemplo, asuma que sea el odds
ratio del metanlisis que no incluye los ensayos de eventos cero, y sea R la relacin
de aleatorizacin en el ensayo clnico que necesita correccin de continuidad. El factor
de correccin de continuidad para el grupo de intervencin, CFI, y la correccin de
continuidad para el grupo control, CFC, puede ser calculada con las siguientes
frmulas:
I
C
RCF C
R
CF CR
bajo la restriccin de que dos correcciones de continuidad se suman a algunos
constantes C.42
Examinando la significacin ajustada y la futilidad en el
metanlisis acumulativo
Examinar la significacin ajustada en el metanlisis acumulativo tiene dos objetivos:
debe medir y tomar en cuenta la fortaleza de la evidencia disponible y debe controlar
el riesgo de errores estadsticos (error tipo I y tipo II) cuando se producen
repetidamente pruebas de significacin sobre los datos que se van acumulando.
La cuantificacin de la fortaleza de la evidencia disponible exige la definicin de un
goal post.1, 2, 4, 6, 11, 12, 23 En el programa de TSA se mide la fortaleza de la evidencia
disponible, y es considerada, para calcular el tamao de informacin requerida. Esta
informacin del tamao es anloga al tamao requerido de la muestra en un nico
ensayo clnico aleatorizado. 1, 2, 4, 6, 11, 12, 23
Controlar el riesgo de error tipo I implica una alteracin en la forma en que medimos
la significacin estadstica. Si un metanlisis se somete a pruebas de significacin
antes de que haya superado el tamao requerido de la informacin, el umbral para la
significacin estadstica se puede ajustar para tener en cuenta el alto riesgo del error
aleatorio.1, 2, 4, 6, 11, 12, 23 Por otra parte, la propia prueba estadstica puede ser
penalizada en conjunto con la fortaleza de la evidencia disponible. El TSA ofrece la
opcin de utilizar ambos enfoques para controlar el error de tipo 1.
25
Controlar el riesgo de error tipo II antes de que un metanlisis supere su tamao
requerido implica el establecimiento de umbrales (reglas) para cuando la intervencin
experimental pueda ser considerada no superior (y/o no inferior) a la intervencin de
control.
Los mtodos para ajustar los umbrales de significacin (por ejemplo, controlando el
error tipo I) basados en los mtodos introducidos por Armitage y Pocock; se les conoce
como 'anlisis secuencial de grupo',18, 43, 44 En el anlisis secuencial de los grupos de
Armitage y Pocock, es necesario conocer el nmero aproximado de pacientes
aleatorizados entre cada anlisis intermedio de los datos.30 En los ensayos clnicos
aleatorizados, los anlisis intermedios sobre la acumulacin de datos suelen ser pre-
planificados y por lo tanto es posible definir el tamao de los grupos conocidos entre
cada anlisis intermedio.30 En el metanlisis, el anlisis intermedio de los datos ocurre
cuando hay una actualizacin, agregando datos de nuevos ensayos clnicos.
Laactualizaciones en el metanlisis se producen a un ritmo arbitrario, rara vez son
regulares, y el nmero de pacientes que agregamos es variada e impredecible. Los
mtodos propuestos por Armitage y Pocock, por lo tanto, son inaplicables para el
metanlisis.
Lan y DeMets extendieron la metodologa propuesta por Armitage y Pocock,
permitiendo anlisis intermedios ms flexibles y no planificados. Lan y DeMets
pretendieron esta metodologa para la evaluacin de significacin repetida en un sola
ensayoaleatorizado.16,17,30 Debido a la flexibilidad del momento de anlisis
intermitente, esta metodologa es aplicable a los metanlisis. Por lo tanto, la estrategia
de Lan y DeMets es la metodologa usada en el TSA, esto implica la construccin de
lmites de control que facilitan la definicin de umbrales sensibles para "significacin
estadstica" en el metanlisis.
Del mismo modo, los lmites de futilidad pueden ser construidos, lo que facilita la
definicin de umbrales sensibles para 'inutilidad' en metanlisis.30 Las secciones 2.2.1.
a 2.2.5. aportan la descripcin de la metodologa subyacente y las consideraciones
tericas para estos mtodos.
Los mtodos de control de error tipo II son una extensin de la metodologa de Lan-
DeMets que permite evaluar la no superioridad y no inferioridad. Es decir, en lugar de
construir umbrales ajustados para la significacin estadstica, el mtodo construye
umbrales ajustados para no superioridad y no inferioridad (o ninguna diferencia).
Juntos, los lmites de no superioridad y de no inferioridad ajustados constituyen lo que
se conoce como los lmites de futilidad o lmites de la cua interna (inner wedge).
Las secciones 2.2.7 proporcionan una descripcin de la metodologa y
consideraciones tericas subyacentes de este mtodo.
26
Tal como fue descrito, un enfoque alternativo a la alteracin de los umbrales es
penalizar a la prueba estadstica en s. El mtodo para penalizar a las pruebas
estadsticas empleadas es relativamente una nueva estrategia, que se basa en los
teoremas de la teora de la probabilidad avanzada. En particular, la tcnica utiliza el
teorema conocido como "la ley del logaritmo iterado".7; 8 En las secciones 2.2.2 y 2.2.6
se ofrece una descripcin de la metodologa subyacente y consideraciones tericas
para este mtodo.
El tamao de la informacin necesaria para un metanlisis
concluyente
La determinacin del tamao de la informacin requerida (por ejemplo, el nmero
necesario de pacientes) de un metanlisis concluyente y fiable es un requisito previo
para la construccin de los umbrales ajustados para 'significacin estadstica' usando
TSA.1, 2, 4, 6, 11, 12 Los niveles de los umbrales deben ser construidos de acuerdo con la
fuerza de la evidencia.1, 2, 4, 6, 11, 12 La metodologa estadstica subyacente TSA se basa
en el supuesto de que los datos se acumularn hasta que el tamao de la informacin
requerida sea superada.30 Para mayor explicacin sobre esta suposicin, por favor
refirase a los documentos metodolgicos anteriores sobre esta cuestin.16, 17, 30, 43, 44
Consideraciones convencionales para determinar el tamao de la informacin
Se ha argumentado que el tamao de la muestra necesaria para que un metanlisis
sea concluyente y confiable, debera ser, por lo menos, tan grande como el tamao
de la muestra necesaria para detectar el efecto verdadero de la intervencin en un
ensayo clnico con un tamao de muestra suficiente.1,2,4,6,11,12 En concordancia con
esta constructo, el tamao mnimo necesario de informacin (nmero de pacientes)
en un metanlisis puede ser derivado usando esta conocida frmula:
ISPatients = 2 (Z1-/2 + Z1-)2 2 2 / 2
donde es el riesgo mximo deseado de obtener un resultado falso positivo (error tipo
I) y es el riesgo mximo deseado de obtener un resultado falso negativo (error tipo
II ), y donde Z1-/2 y Z1- son los (1- /2) y (1- ) distribucin estndar normal de los
quantiles.1,2,4,6,11,12 Observe que el uso de /2 en lugar de significa que el tamao
de la informacin es construida asumiendo una prueba estadstica bilateral. Para los
datos binarios, = PC - PE denota una estimacin a priori para un efecto de la
intervencin realista o mnimamente importante (PC y PE siendo la proporcin con un
resultado en el grupo control y el del grupo de intervencin, respectivamente), donde
27
2 = P* (1 - P*), que es la varianza asociada, y suponiendo que P* = (PC + PE) / 2 (es
decir, que los grupos de intervencin y de control son iguales en tamao). Para los
datos continuos, denota, una estimacin a priori de la diferencia entre las medias de
los dos grupos de intervencin y 2 indica la varianza asociada.
Alternativas al nmero de pacientes acumulados
En el metanlisis de datos binarios, la informacin y la precisin en un metanlisis
dependen principalmente del nmero de eventos de un desenlace. Por lo tanto, se
puede argumentar que en el contexto de las consideraciones de tamao de la
informacin de un metanlisis, el nmero requerido de eventos es una medida ms
apropiada que el nmero necesario de pacientes. Bajo el supuesto de que un nmero
igual de pacientes son aleatorizados a las dos intervenciones investigadas en todos
los ensayos, el nmero requerido de eventos puede ser determinado de la siguiente
manera:
ISEvents = PC*IS/2 + PE*IS/2
donde ISEvents es el nmero requerido de eventos para un metanlisis concluyente y
fiable, y PC y PE son como se definen en el prrafo anterior.
La informacin estadstica (informacin Fischer) es una medida estadstica de la
informacin contenida en un conjunto de datos (dado el modelo estadstico que sea
asumido).45 En el metanlisis estndar comparando dos intervenciones, la informacin
estadstica es simplemente el recproco de la varianza combinada.46 En un
metanlisis, la informacin estadstica es una medida tericamente ventajosa, ya que
combina tres factores en una sola medida: nmero de pacientes, nmero de eventos
y el nmero de ensayos. Esta medida proporciona una propuesta simple para las
consideraciones del tamao de la muestra de un metanlisis. Los datos metanalticos
se consideran como algo anlogo a la acumulacin de datos en un nico ensayo y la
informacin estadstica requerida viene dada por:
ISStatistical = (Z1- /2 + Z1- )2/2
Donde ISStatistical es la informacin estadstica verdadera alcanzada en el metanlisis,
es el riesgo mximo deseado de error tipo I, Z1- /2 es el percentil estndar normal
(1- /2), es el riesgo mximo deseado de error tipo II, Z1- es el percentil estndar
normal (1- ) y es efecto pre-especificado (mnimamente relevante) de alguna
intervencin.30, 45
28
El factor de ajuste de la heterogeneidad
Los ensayos incluidos en un metanlisis, a menudo, incluyen pacientes de un amplio
abanico de grupos de poblacin, utilizan diferentes regmenes de una intervencin y
con diferentes diseos de estudio, y varan en la calidad metodolgica (es decir, el
riesgo de sesgo o error sistemtico). Por todas estas razones, es natural esperar
un mayor grado de variacin en los datos del metanlisis en comparacin con los
datos de un solo ensayo.13, 47 Tal variacin adicional se conoce como la
heterogeneidad (o variacin entre ensayos).13, 47 Debido a que el aumento de la
variacin puede disminuir la precisin de los resultados, las consideraciones de
tamao de la informacin deben incorporar todas las fuentes de variacin en un
metanlisis, incluyendo heterogeneidad.4,6,11,12 Uno de los enfoques para la
incorporacin de la heterogeneidad en consideraciones de tamao de la informacin
es multiplicar el tamao de la informacin requerida en un metanlisis por algn factor
de ajuste de heterogeneidad.6,23 Recientemente, un factor similar de ajuste de
heterogeneidad ha sido propuesto para la estimacin del tamao de la muestra en un
solo ensayo clnico.48
El factor de ajuste de la heterogeneidad se conceptualiza a travs de los supuestos
subyacentes que hacemos para nuestro modelo de metanlisis. En el modelo de
efecto fijo, se supone que todos los ensayos incluidos pueden ser vistos como
repeticiones del mismo ensayo (con respecto al diseo y conduccin). Por lo tanto, el
tamao de la informacin requerida para un metanlisis de modelo de efecto fijo sea
concluyente y efectivo puede calcularse de la misma manera que el tamao de
muestra necesario para un ensayo clnico individual. En el modelo de efectos
aleatorio, se supone que los ensayos incluidos provienen de una distribucin de
posibles ensayos (con respecto al diseo y conduccin). Por definicin, la varianza en
un modelo de efectos aleatorios es siempre mayor que en un modelo de efecto fijo.
Por lo tanto, un ajuste del factor de heterogeneidad debe tener en cuenta el aumento
en la variacin en que un metanlisis incurre desde pasar de la hiptesis de efecto fijo
para el supuesto de efectos aleatorio. Un ajuste preciso se puede lograr haciendo que
el factor de ajuste de heterogeneidad sea igual a la razn de la varianza total en el
metanlisis de modelo de efectos aleatorio y de la varianza total en el metanlisis de
modelo de efecto fijo.6, 23 Por consiguiente, el factor de ajuste de heterogeneidad es
siempre igual o mayor que 1. Suponiendo ISFixed denote el tamao de la informacin
necesaria para un metanlisis de modelo de efecto fijo dado por la ecuacin (1), R
denota la varianza total en el metanlisis con modelo de efectos aleatorio y F denota
la varianza total en el modelo de metanlisis de efecto fijo, el tamao de la informacin
ajustada por heterogeneidad se puede calcular usando la siguiente frmula:
29
RRandom Fixed
F
IS IS
Dado que los efectos anticipados de la intervencin en los modelos de efecto fijo - (F)
y de modelos de efectos aleatorios (R) - son aproximadamente iguales (es decir, dado
R=F), se puede demostrar matemticamente que en el caso especial donde todos
los ensayos en un metanlisis tengan el mismo peso, el factor de ajuste de
heterogeneidad (AF) se expresa de la siguiente manera:
2
1
1
R
F
AFI
Donde I2 es el factor de inconsistencia comnmente utilizado para medir la
heterogeneidad en un metanalisis.47
Es importante recordar que, en cualquier caso donde los pesos de los ensayos no
sean iguales, utilizando I2 dar lugar a una subestimacin del factor de ajuste, y por lo
tanto, una subestimacin del tamao de la informacin requerida.23 En esta situacin,
se puede definir una medida de la diversidad (D2)) como la cantidad necesaria para
satisfacer la ecuacin:
1
2*
1
1
1
k
i
iR
k
Fi
i
w
AFD
w
donde wi denota los pesos de los ensayos en el modelo de efecto fijo y wi* indica los
pesos de los ensayos en el modelo de efectos aleatorio. La solucin de la ecuacin
con respecto a D2, se obtiene:
1
* 1 2
2 1 1
1 1
1 1
k k
i i
i iR F F
k k
R Ri i
i i
w w
D
w w
Donde 2 indica la variacin entre ensayos. Una propiedad ventajosa de la medida de
diversidad, D2, es que las derivaciones anteriores son generalizables a cualquier
modelo de metanlisis. Por lo tanto, si queremos realizar un metanlisis de algunos
ensayos mediante un modelo de efectos aleatorios alternativo con varianza total VR,
la medida de diversidad y el correspondiente factor de ajuste simplemente se toma la
expresin:
30
2 R F R
R F
D and AF
Las estimaciones de la variabilidad, y, en particular, la variabilidad entre ensayos,
pueden estar sujetos al error aleatorio y al sesgo.41, 47, 49, 50 Por esta razn, y en
algunas situaciones, el uso de D2 o I2 basado en los datos disponibles puede ser
inadecuada. En el metanlisis que incluye solamente un nmero limitado de ensayos
(por ejemplo, menos de 10 ensayos), las estimaciones de la heterogeneidad y de la
varianza entre ensayos pueden ser tan poco fiables como las estimaciones del efecto
de intervencin de ensayos clnicos aleatorizados pequeos (por ejemplo, ensayos
con menos de 100 pacientes). Cuando un metanlisis est sujeto a sesgo de
tendencia temporal (es decir, cuando los ensayos, la mayora con resultados positivos,
han sido publicados), por lo general se subestima la varianza entre los ensayos. Esta
subestimacin ocurre porque el conjunto de ensayos incluidos tempranamente es
probable que reproduzcan una estimacin del efecto similar a la de la intervencin
(positiva).50 Los metanlisis posteriores- actualizaciones-, es probable que incluyan
ms ensayos con resultados neutros o incluso negativos, en cuyo caso las
estimaciones de la heterogeneidad sern mayores.
Para los metanlisis con un esperado nmero pequeo de ensayos, se sugiere hacer
una estimacin a priori sobre el grado previsto de heterogeneidad. Si se permite
que H muestre una estimacin conceptual de D2, podemos utilizar la siguiente frmula
en un clculo a priori:
1
1AF
H
Por ejemplo, si se espera que un metanlisis incluya un grado leve de heterogeneidad,
sobre la base de lo que sabemos sobre el tema clnico, las diferencias observadas
entre los ensayos incluidos, las diferencias esperadas entre presente y futuro, y el
alcance de la revisin- uno puede optar por definir H como el 25 %. En este caso, la
AF se estima en 1,33. Si se espera un moderado grado de heterogeneidad, se puede
optar por definir H como el 50 %, y AF sera entonces estimada en 2,00. Si se espera
gran heterogeneidad, entonces H puede llegar a ser del 75 % y el AF se estima en
4,00.
Debido a que el grado de la heterogeneidad esperado puede ser difcil estimar cuando
un metanlisis solo incluye pocos ensayos, se recomienda que los usuarios del TSA
realicen anlisis de sensibilidad para esta variable. Por ejemplo, se podra concebir
grados mximos y mnimo realistas o aceptables de heterogeneidad para un
metanlisis dado. Como un ejemplo, se podra especular que el grado mnimo
31
aceptable de heterogeneidad estadstica sera 20 %. Tambin se podra decidir que si
la heterogeneidad estadstica supera el 60 %, entonces la medicin del efecto en los
subgrupos, en lugar de la estimacin del efecto del tratamiento estimado mediante la
combinacin de los ensayos, sera ms apropiada. En este caso, no debera ser
realizado el metanlisis. En este ejemplo, se podra usar el promedio de los dos, (60
% + 20 %)/2 = 40 %, para el clculo del tamao de la informacin primaria, pero
reconociendo que el tamao de la informacin requerida puede ser tan grande como
el basado en el 60 % de ajuste de la heterogeneidad o tan baja como el basado en el
20 %. Como otro ejemplo, se podra concebir la construccin de un nmero de
mejores y peores escenarios de casos (cualesquiera que sean) mediante la
adicin de futuros ensayos imaginario para el metanlisis actual.
Este enfoque permitira evaluar la solidez y la fiabilidad de la estimacin D2 y construir
un espectro de grados realistas o aceptables de heterogeneidad que fcilmente
podran ser utilizados para el anlisis de sensibilidad.
Estimacin de la proporcin de eventos del grupo control y un supuesto efecto
de la intervencin
La estimacin de la proporcin de eventos del grupo control y un probable efecto de
la intervencin son determinantes importantes para calcular el tamao de la
informacin necesaria al usar TSA. Por lo tanto, debe hacerse todo lo posible para
que estas estimaciones sean lo ms precisa y verdadera posible.
Para los datos binarios, la proporcin de eventos del grupo control se puede estimar
mediante el uso de la experiencia clnica y la evidencia de reas relacionadas. Una
estimacin a priori de un efecto objetivo de la intervencin se expresa generalmente
como una reduccin relativa del riesgo (RRR). Cuando la disponibilidad de la
evidencia, acerca de la intervencin bajo investigacin, es limitada se puede estimar
un efecto clnicamente relevante de la intervencin mediante el uso de la experiencia
clnica y las pruebas de las reas relacionadas. Un ejemplo se puede encontrar en un
artculo de Pogue y Yusuf, en el que la proporcin de eventos del grupo control, Pc, y
un RRR a priori se basaron en las experiencias de las reas relacionadas en
cardiologa.1,2 Pogue y Yusuf aplicaron consideraciones del tamao de la informacin
a dos metanlisis conocidos bien destacados en cardiologa: La estreptoquinasa
intravenosa en infarto agudo de miocardio y magnesio intravenoso en infarto agudo
de miocardio. Ellos postularon que para la mayora de los principales resultados
vasculares, como la muerte, pudiera ser sensato esperar una mortalidad del 10% en
el grupo control. Pogue y Yusuf, adems, consideraron un ejemplo de una intervencin
32
terica para la prevencin de la mortalidad despus de un infarto al miocardio.
Sealaron que los verdaderos tratamientos eficaces para reducir el riesgo de eventos
cardiovasculares, tales como la muerte, haban generado unos RRRs de 10 %, 15 %,
o -en el mejor de los casos- 20 %.
Para cualquier pregunta clnica, la decisin tiene que ser realizada sobre qu valores
son adecuados para el Pc y RRR. La proporcin anticipada de eventos en el grupo de
intervencin (experimental), PE, a continuacin, se pueden obtener usando la frmula
PE = Pc (1- RRR). Posteriormente, el PE hipottica y Pc pueden ser introducidos en la
frmula para el tamao de la informacin requerida.
La inferencia realizada sobre los efectos de intervencin verdadera prevista en un rea
de intervencin a otra puede ser problemtica porque una estimacin a priori puede a
menudo representar aproximaciones pobres de la verdad. La literatura de ensayos
clnicos est llena de ejemplos de clculos del tamao de la muestra realizados sobre
la base de los efectos sobreestimados de las intervenciones previstas. No hay ninguna
razn de por qu esto debera ser diferente para los clculos del tamao de
informacin para un metanlisis.
Si los ensayos aleatorizados ya han investigado el efecto de una intervencin,
entonces, una recoleccin de tales estimados se puede usar para cuantificar mejor el
efecto de la intervencin prevista. Sin embargo, no todos los ensayos aportan
estimaciones vlidas, y se debe tener cuidado en asegurarse de la validez de los
estimadores de los efectos de la intervencin utilizados para el clculo del efecto
anticipado de una intervencin dada.
Muchos ensayos producen sobreestimacin de los efectos de la intervencin
investigada debido al informe selectivo de resultados y riesgos de sesgo (es decir, los
errores sistemticos debido a la inadecuada generacin de la secuencia de
asignacin, ocultamiento inadecuado de la asignacin, el enmascaramiento
inadecuado, prdida durante el seguimiento, u otros mecanismos). 13,51-58 Tales
ensayos se pueden clasificar en ensayos con alto riesgo de sesgo.13 Al contrario, los
ensayos que generen estimaciones vlidas del efecto de la intervencin pueden ser
clasificados como ensayos con bajo riesgo de sesgo.13 Si la evidencia sobre el efecto
de la intervencin investigada est disponible a partir de ensayos con bajo riesgo de
sesgo, sera apropiado establecer un efecto esperado a priori de la intervencin
utilizando un metanlisis de estos ensayos.6,11,12 Sin embargo, las situaciones
metanalticas que requieren clculos del tamao de la informacin a menudo se
producen cuando la evidencia es escasa. Aunque una serie de ensayos con bajo
riesgo de sesgo estn disponibles para la aproximacin de un efecto de verdadera la
intervencin prevista, la estimacin combinada de estos ensayos todava puede estar
33
sujeto a considerable error aleatorio, el sesgo de desfase del tiempo, y el sesgo de
publicacin. Por lo tanto, un efecto esperado a priori de la intervencin sobre la base
de la estimacin del efecto combinado de metanlisis de los ensayos con bajo riesgo
de sesgo solo es fiable en la medida en que este metanlisis puede considerarse libre
de grandes errores aleatorios. Adems, solo es vlido en la medida en que puede
considerarse libre de sesgo de desfase del tiempo y de publicacin.
No es posible recomendar una tcnica para definir los efectos de intervencin para los
clculos del tamao de la informacin. Ms bien, las consideraciones del tamao de
la informacin deben basarse en las fluctuaciones de proporciones crebles de
eventos del grupo control, efectos de la intervencin y errores de tipo I y II. Las
consideraciones adecuadas para el clculo del tamao de la muestra para un ensayo
clnico no solo se basan en un solo nmero. En su lugar un rango de tamaos de
muestras aceptable se produce a partir de una gama de efectos posibles de
tratamiento, la proporcin de eventos del grupo de control, y los errores tipo I y tipo II,
lo que proporciona un razonable intervalo de tamaos de muestra en el cual se
encuentre un nmero apropiado de pacientes para obtener un ensayo clnico
concluyente. Del rango producido de tamaos de muestra, se seleccionara una
primaria y dejar que el tamao de la muestra acte como clculo de sensibilidad
(potencia). Se recomienda que las consideraciones de tamao de la informacin para
metanlisis sigan la misma construccin. Las RRR y PC obtenidos de estudios con
bajo riesgo de sesgo fcilmente podran combinarse a priori con un rango de efectos
de intervencin utilizando la metodologa del mejor y peor escenario realistas, lo
que proporciona una gama de informacin en la cual sustentarse el metanlisis para
generar inferencias metanalticas concluyentes.
Limitaciones
El tamao de la informacin requerida para un metanlisis (sea determinada como el
nmero requerido de pacientes, eventos o informacin estadstica) tiene limitaciones.
En los ensayos clnicos aleatorizados, es razonable asumir que la distribucin de los
factores de pronstico en los pacientes aleatorizados se asemeja a la de la poblacin
de referencia. En las revisiones sistemticas con metanlisis, los ensayos se incluyen
normalmente sobre la base de unos criterios de inclusin que se deciden a priori en el
protocolo de la revisin sistemtica. Debido a que los criterios de inclusin (y
exclusin) en los ensayos clnicos casi nunca son idnticos y debido a que los ensayos
suelen variar en tamao de las muestras, es poco probable que los metanalistas y
autores de las revisiones sistemticas tengan control sobre la distribucin de los
factores pronsticos. Si en una actualizacin de la revisin sistemtica se modifican
34
los criterios de inclusin, los autores no podrn predecir con precisin la distribucin
de los factores pronsticos entre los ensayos recientemente publicados. Los factores
pronsticos basales pueden tener un considerable impacto sobre las tasas de
incidencia en el grupo de control. En esta situacin, puede ser apropiado hacer un
intento previo de cuantificar la diferencia entre la incidencia basal en la poblacin del
metanlisis y, en la poblacin de referencia, y luego realizar una serie de anlisis de
sensibilidad post hoc si es necesario.
Los efectos comparativos de las intervenciones mnimamente importantes (tambin
conocidos como diferencias mnimamente importantes) no siempre pueden ser
similares en todos los ensayos incluidos. Por ejemplo, si la poblacin de pacientes
investigados entre los ensayos experimenta diferentes riesgos de eventos adversos,
la diferencia mnimamente importante tambin puede diferir entre los ensayos. Esta
variacin es el resultado del propsito clnico. Para cualquier intervencin mdica, la
posibilidad de beneficio debe ser superior a cualquier aumento en el riesgo de dao.
Una poblacin con mayor riesgo de dao necesitar una mayor posibilidad de
beneficio para hacer un tratamiento que valga la pena. Cuando las diferencias
mnimamente importantes varan entre los ensayos, las consideraciones de tamao
de la informacin todava pueden ser sensibles. Sin embargo, es importante recordar
que la inferencia acerca de las conclusiones de un metanlisis solo se puede
generalizar a la poblacin de pacientes para los que se aplican a priori la diferencia
mnimamente importante.
Cuando el tamao de la informacin requerida es definida por el nmero requerido de
pacientes o eventos, el problema de la heterogeneidad impredecible puede ser tratado
mediante la previsin de algn grado mximo apropiado de la heterogeneidad y en
consecuencia ajustar el tamao de la informacin requerida.4 La aparente limitacin
de este enfoque es que el grado de heterogeneidad esperada es a la vez difcil de
adivinar y estimar cuando solo unos pocos ensayos clnicos estn disponibles. Aunque
se recomienda el anlisis de sensibilidad sobre el grado de ajuste de la
heterogeneidad, estos anlisis pueden todava ser inapropiados si el grado
esperado(s) de la heterogeneidad no refleja el verdadero grado de heterogeneidad en
el cual los metanlisis incurrirn a medida que se publiquen nuevos ensayos clnicos.
Cuando el tamao de la informacin requerida se define por la informacin estadstica
necesaria, la frmula para el tamao de la informacin requerida no requiere una
estimacin del grado previsto de heterogeneidad. Por el contrario, la informacin real
en el metanlisis (la informacin estadstica estimada) incorpora directamente la
heterogeneidad a travs de la variacin estimada entre los ensayos.
35
Esto, sin embargo, presenta una limitacin en que la informacin estadstica
acumulada solo es fiable en la medida en que la estimacin de la varianza entre
ensayos sea fiable. Las posibles soluciones a este problema implican el uso de una
metodologa ms compleja para ajustar la incertidumbre asociada a la estimacin de
la variacin entre ensayos. Una opcin es utilizar el enfoque de efectos aleatorios por
Biggerstaff-Tweedie, que incorpora la incertidumbre asociada a la estimacin de la
varianza entre los ensayos cuando se utiliza el estimador convencional de
DerSimonian-Laird (vase la seccin 2.1.3).41 Otra opcin es utilizar metanlisis
Bayesiano, donde una distribucin a priori es delineada para la varianza entre
ensayos.
La prueba estadstica acumulada (curva Z)
Como se mencion en la seccin 2.1.2., la prueba del metanlisis para significacin
estadstica utiliza una prueba estadstica tipo Wald. Este estadstico est dado por el
logaritmo del efecto combinado de la intervencin dividido por su error estndar13 y
que comnmente se conoce como el estadstico Z o el valor Z. Bajo el supuesto de
que las dos intervenciones investigadas no difieren (la hiptesis nula) el valor Z ser
aproximadamente una distribucin estndar normal (una distribucin normal con
media 0 y desviacin estndar 1). Cuanto mayor sea el valor absoluto de un valor Z
observado, ms fuerte es la evidencia estadstica de que las dos intervenciones
investigadas sean diferentes. Si el valor Z absoluto observado es sustancialmente
mayor que 0, es habitual concluir que la diferencia observada entre el efecto de las
dos intervenciones no solo se explica por la influencia del azar. En esta situacin, la
diferencia entre las dos intervenciones se describe como estadsticamente
significativa. Por definicin, un valor P es la probabilidad de encontrar diferencias
observadas, o uno ms extremo, si la hiptesis nula fuera verdadera. En la prctica,
el valor P es el valor que se utiliza para evaluar la significacin estadstica. El valor P
se obtiene a partir del valor de Z (vase la seccin 2.1.2 para los detalles
matemticos); estas dos medidas representan dos maneras diferentes de comunicar
la misma informacin, y son intercambiables. Por ejemplo, un valor de p bilateral
menor que el 5 % es lo mismo que un valor absoluto de Z mayor que 1,96 y viceversa.
Cada vez que un metanlisis es actualizado, se calcula un nuevo valor Z. Por tanto,
una serie de valores consecutivos Z, procede de una serie de actualizaciones del
metanlisis. Para inspeccionar la evolucin de las pruebas de significacin, la serie de
valores Z puede ser trazada con respecto a la informacin acumulada (pacientes
acumulados, eventos o informacin estadstica), produciendo de este modo una curva
que se conoce comnmente como la curva Z.1, 2, 4, 6, 11, 12
36
Los problemas con las pruebas de significacin en el
metanlisis
Como se mencion en el captulo 1, las pruebas de significacin convencional en el
metanlisis fallan en relacionar las pruebas estadsticas observadas y los valores de
p con la solidez de la evidencia disponible y el nmero de pruebas de significacin
repetidas.1-4, 6, 11, 12 La consecuencia de esta omisin es un aumento en el riesgo de
obtener un resultado metanaltico falso positivo. Esta seccin proporciona
descripciones conceptuales y estadsticas, con un nivel bsico a intermedio, de las
pruebas de significacin en el metanlisis y los problemas que resultan de no
incorporar la solidez de la evidencia y el nmero de pruebas de significacin repetidas
en el proceso.
Criterios generales para las pruebas de significacin
La pruebas de significacin convencional trabajan con un riesgo mximo de error tipo
I, , que tambin funciona como el umbral para cuando los valores de p se consideran
pruebas de significacin estadstica. Los valores p y valores de Z son intercambiables
en la evaluacin de la significancia estadstica. Como se mencion, para cada umbral
de valor p, , existe un valor umbral Z correspondiente, Z. Por ejemplo, si deseamos
un riesgo de error tipo I bilateral de un mximo del 5 % solo deberamos considerar
valores absolutos Z superiores a 1,96 como prueba de significacin estadstica. Pero
si deseamos un error mximo de tipo I bilateral del 1 % solo debemos considerar
valores absolutos de Z superiores a 2,58 como evidencia de significacin estadstica.
Asuma que Pr (X|Y) indica la probabilidad de que el evento X se produce debido a que
el evento Y es verdad (o se ha producido), y que |Z| representa el valor absoluto de Z.
En general, nos enfrentamos al reto de determinar adecuadamente el umbral, c, que
har que las siguientes ecuaciones sean verdaderas
Pr(|Z|c | H0 is true) (2)
Pr(|Z|=c | H0 is true) = (3)
Para las secciones tericas restantes sobre pruebas de significacin repetidas
(secciones 2.2.2 a 2.2.5), asumiremos que todas las pruebas estadsticas son
bilaterales. Tambin asumiremos que todos los valores estadsticos de pruebas, Z,
son valores absolutos. Asumimos esto ltimo debido a que el lgebra involucrada hace
ms sencillo realizar ese proceso. Por ejemplo, en la definicin de los umbrales
37
bilaterales de una prueba estadstica no absoluta, habra que considerar la
probabilidad de que Pr(Z-c or Zc | ... ) en vez de Pr(|Z|c | ... ).
Los problemas con las pruebas de significacin repetida
Las pruebas sencillas convencionales de significacin pueden considerarse fiables si
suficientes datos se han acumulado. En el metanlisis, una sola prueba de
significacin puede ser considerada confiable una vez que el tamao de la informacin
requerida es superada.1-4,6,11,12,20,59 Si realizamos una sola prueba para la significacin
estadstica en o despus de un metanlisis que ha superado su tamao de informacin
requerida, las pruebas de significacin estadstica solo implican la determinacin de
un umbral adecuado, c, que har que las ecuaciones (2) y (3) sean ciertas. Por
ejemplo, para = 5 % consideraramos c = 1,96 apropiado si los datos del metanlisis
anteriormente no haban sido sometidos a pruebas de significacin.
Cuando un metanlisis acumulado es sometido a pruebas de significacin ms de una
vez (antes superando su tamao de informacin requerido), la situacin se vuelve ms
compleja. Considerando el ejemplo donde un metanlisis se actualiza una primera vez
y donde se utiliza el error mximo, convencional, tipo I de 5 %. En esta situacin, el
primer metanlisis producir un valor de Z, Z1, y la actualizacin del metanlisis
producir otro, Z2. Si el primer metanlisis genera un valor Z mayor que 1,96, las dos
intervenciones investigadas se declaran significativamente diferentes. Sin embargo, si
el primera metanlisis no es significativo (es decir, Z1 < 1,96), las dos intervenciones
pueden todava ser declaradas estadsticamente significativa si la actualizacin del
metanlisis genera un valor Z mayor que 1,96 (es decir, si Z2 1,96). Por las leyes de
la teora bsica de la probabilidad, la probabilidad de qu