Upload
alex-rendon
View
74
Download
0
Embed Size (px)
Citation preview
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS BIOLÓGICAS
INSTITUTO DE BIOTECNOLOGÍA
Construcción de un modelo in silico de la interacción entre el factor de trascripción Brn3a y la región promotora URR de la variante 16 del Virus del papiloma humano en un contexto de
terapia génica contra el Cáncer de Cérvix
TESIS QUE PRESENTA
JAVIER ALEJANDRO RENDÓN CARRILLO
TESIS COMO REQUISITO PARA OBTENER EL TÍTULO PROFESIONAL DE:
LICENCIADO EN BIOTECNOLOGÍA GENÓMICA
San Nicolás de los Garza, N.L. 2 de Junio del 2014
RC-‐07-‐026 REV.00-‐09/06
II
CONSTRUCCIÓN DE UN MODELO IN SILICO DE LA INTERACCIÓN ENTRE EL FACTOR DE TRASCRIPCIÓN BRN3A Y LA REGIÓN PROMOTORA URR DE LA VARIANTE 16 DEL VIRUS DEL PAPILOMA HUMANO EN UN CONTEXTO DE TERAPIA GÉNICA CONTRA EL CÁNCER DE CÉRVIX
TESIS
PRESENTADA COMO REQUISITO PARA OBTENER EL TÍTULO PROFESIONAL DE:
LICENCIADO EN BIOTECNOLOGÍA GENÓMICA
JAVIER ALEJANDRO RENDÓN CARRILLO
APROBADA:
COMISIÓN DE EXAMEN: DR. JOSÉ MARÍA VIADER SALVADÓ ________________________________
PRESIDENTE M.C. JOSÉ CLAUDIO MORENO ROCHA ________________________________
SECRETARIO DRA. MARTHA GUERRERO OLAZARÁN ________________________________
VOCAL DR. JUAN ANTONIO GALLEGOS LÓPEZ ________________________________
SUPLENTE
RC-‐07-‐026 REV.00-‐09/06
III
CONSTRUCCIÓN DE UN MODELO IN SILICO DE LA INTERACCIÓN ENTRE EL FACTOR DE TRASCRIPCIÓN BRN3A Y LA REGIÓN PROMOTORA URR DE LA VARIANTE 16 DEL VIRUS DEL PAPILOMA HUMANO EN UN CONTEXTO DE TERAPIA GÉNICA CONTRA EL CÁNCER DE CÉRVIX
TESIS
PRESENTADA COMO REQUISITO PARA OBTENER EL TÍTULO PROFESIONAL DE:
LICENCIADO EN BIOTECNOLOGÍA GENÓMICA
JAVIER ALEJANDRO RENDÓN CARRILLO
APROBADA:
COMISIÓN DE TESIS: DR. JOSÉ MARÍA VIADER SALVADÓ ________________________________
DIRECTOR M.C. JOSÉ CLAUDIO MORENO ROCHA ________________________________
CO-‐DIRECTOR DRA. MARTHA GUERRERO OLAZARÁN ________________________________
SECRETARIO DR. JUAN ANTONIO GALLEGOS LÓPEZ ________________________________
SUPLENTE
RC-‐07-‐026 REV.00-‐09/06
IV
CONSTRUCCIÓN DE UN MODELO IN SILICO DE LA INTERACCIÓN ENTRE EL FACTOR DE TRASCRIPCIÓN BRN3A Y LA REGIÓN PROMOTORA URR DE LA VARIANTE 16 DEL VIRUS DEL PAPILOMA HUMANO EN UN CONTEXTO DE TERAPIA GÉNICA CONTRA EL CÁNCER DE CÉRVIX
TESIS
PRESENTADA COMO REQUISITO PARA OBTENER EL TÍTULO PROFESIONAL DE:
LICENCIADO EN BIOTECNOLOGÍA GENÓMICA
JAVIER ALEJANDRO RENDÓN CARRILLO
APROBADA:
COMISIÓN DE TESIS: DR. JOSÉ MARÍA VIADER SALVADÓ ________________________________
DIRECTOR M.C. JOSÉ CLAUDIO MORENO ROCHA ________________________________
CO-‐DIRECTOR
RC-‐07-‐026 REV.00-‐09/06
V
ÍNDICE
V. Dedicatoria .................................................................................................................. VII
VI. Agradecimientos ......................................................................................................... VIII
VII. Lista de abreviaturas ..................................................................................................... IX
VIII. Lista de tablas ................................................................................................................ X
IX. Lista de figuras ............................................................................................................ XII
X. Resumen ................................................................................................................... XIV
1. Introducción ................................................................................................................... 1
2. Importancia .................................................................................................................... 2
3. Hipótesis ........................................................................................................................ 3
4. Objetivos ........................................................................................................................ 3 4.1 Objetivo general: ................................................................................................................ 3 4.2 Objetivos específicos: ......................................................................................................... 3
5. Antecedentes ................................................................................................................. 3 5.1 Epidemiología y etiología del cáncer cérvicouterino .......................................................... 3 5.2 Brn3a y el desarrollo del CaCu mediante la regulación del VPH ........................................ 5 5.3 Sitios de unión de los homeodominios ............................................................................... 6 5.4 Reconocimiento específico de una secuencia de ADN por los dominios POU ................... 7 5.5 Predicción de la estructura tridimensional de una proteína .............................................. 9
5.5.1 Modelaje por homología ........................................................................................... 10 5.5.2 Modelaje por reconocimiento de plegamientos ........................................................ 11 5.5.3 Modelaje por predicción Ab-‐initio ............................................................................. 11
6. Metodología ................................................................................................................ 12 6.1 Materiales y equipo .......................................................................................................... 12 6.2 Estrategia General ............................................................................................................ 12 6.3 Construcción y validación de la estructura tridimensional de la proteína Brn3a ............ 13 6.4 Construcción y validación del modelo tridimensional de interacción de la estructura
tridimensional de Brn3a con la región URR de tres subtipos de VPH-‐16 .......................... 13 6.4.1 Construcción del modelo tridimensional de interacción Brn3a con la región URR de
VPH-‐16 .......................................................................................................................... 13 6.4.2 Determinación de la energía del complejo proteína-‐ADN ............................................ 14
6.5 Optimización y cálculo de la energía de interacción de los modelos tridimensionales de
interacción de Brn3a con los tres subtipos de VPH-‐16 ..................................................... 14
7. Resultados ................................................................................................................... 15 7.1 Construcción y validación de la estructura tridimensional de la proteína Brn3a. ........... 15 7.2 Construcción y validación del modelo tridimensional de interacción de la estructura
tridimensional de Brn3a con la región URR de tres subtipos de VPH-‐16 .......................... 19 7.2.1 Construcción del modelo tridimensional de interacción Brn3a con la región URR de
VPH-‐16 ....................................................................................................................... 19 7.2.2 Determinación de la energía del complejo proteína-‐ADN ......................................... 27 7.2.3 Optimización y cálculo de la energía de interacción de los modelos tridimensionales
de interacción de Brn-‐3a con los tres subtipos de VPH-‐16 en forma de logo. ............ 33
VI
8. Discusión ...................................................................................................................... 36
9. Literatura citada ........................................................................................................... 40
VII
DEDICATORIA
Con todo mi cariño y mi amor para las personas que hicieron todo en la vida para que yo pudiera lograr mis sueños, por motivarme y darme la mano cuando sentía que el camino se terminaba, a ustedes por siempre mi corazón y mi agradecimiento. A mi madre y padre.
Sapere aude.
VIII
AGRADECIMIENTOS Agradezco por este trabajo en primer lugar: a mis padres por todo su apoyo para finalizar la licenciatura, asimismo al Doctor José Ma. Viader Salvadó por permitirme terminar este proyecto & al M.C. José Claudio Rocha Moreno. Un agradecimiento muy especial a la Dra. Elisa Shaefer Satu por su asesoría personal en programación, instalación y ejecución del software necesario para la implementación del trabajo. Se agradece al Centro Nacional de Supercómputo (CNS) del IPICYT, A.C. por los recursos de Supercómputo proporcionados asignados, los cuales se enlistan a continuación: Thubat Kaal. Agradezco por igual a mis amigos Marco, Aracely y muy especialmente a Laura por todo el apoyo para poder continuar con el presente proyecto y concluirlo a pesar de todos los inconvenientes y retos técnicos que presento.
IX
LISTA DE ABREVIATURAS
ARN Ácido ribonucleico °C Grados Celsius CaCu Cáncer Cérvicouterino ADN Ácido desoxirribonucleico et al. Et alii (y colaboradores) g Gramos h Horas K Grados Kelvin kb Kilobase=mil pares de bases kDa Kilodaltones M Concentración Molar mA Miliamperes mg Miligramos min Minutos μg Microgramo μL Microlitro μM Micromolar mL Mililitros mM Concentración Milimolar N° Número NaCl Cloruro de sodio NaOH Hidróxido de sodio NCBI National Center for Biotechnology Information ng Nangramos nm Nanómetros ns Nanosegundos LCR Región larga de control pb Pares de bases ps picosegundos P Fósforo RMSD Raíz cuadrada media de la desviación de posiciones atómicas s Segundos SD Desviación estándar t Tiempo to Tiempo inicial URR Región reguladora río arriba V Volts VPH-‐16 Virus del papiloma humano variante 16 % Porcentaje 3D Tridimensional
X
LISTA DE TABLAS
TABLA
DESCRIPCIÓN
PÁGINA
1 VPH y su asociación con las principales enfermedades que origina obtenida del reporte anual de la Secretaria de Salud. 4
2
Lista de las 20 proteínas con mayor identidad y valor E mas alto, listadas por su clave pdb generado por el archivo ejecutable build_profile.py obtenidas de Modeller.
16
3
Matriz de distancias de identidad de secuencia, se presenta la clave del archivos pdb que presentaron mayor identidad en secuencia a Brn3a.
16
4 Criterios para seleccionar el archivo pdb que servirá como modelo para construir la estructura tridimensional de Brn3a.
17
5
Evaluación mediante los 3 criterios de inclusión para escoger la mejor estructura tridimensional para construir el modelo de Brn3a.
17
6
Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por Modeller.
18
7
Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo ejecutable ligand.py.
19
8
Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo ejecutable loop-‐refine.py.
20
9
Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo ejecutable loop-‐refine.py.
22
10
Cantidad de ángulos diédricos Ψ (psi) y Φ (phi) favorables permitidos y atípicos que del total de aminoácidos de la estructura tridimensional Brn3a-‐ADN.
24
11 11 A: Energía total previa a la simulación molecular 11 B: Energía total al final de la simulación molecular 29
12 Resultados de la dinámica molecular por MMPBSA. 36
XI
LISTA DE FIGURAS
FIGURA
DESCRIPCIÓN
PÁGINA
1 Estructura de un factor de transcripción el cual contiene un homeodominio. 6
2
Interacciones del motivo hélice-‐giro-‐hélice de la proteína Antennapedia de D. melanogaster (código PDB: 1AHD) con los surcos mayores y menores del ADN, obtenido de la base de datos Protein Data Bank (www.rcsb.org).
7
3
a) Alineamiento de secuencias de aminoácidos de los dominios POU de las proteínas humanas Brn-‐5, Oct-‐1 y Pit-‐1. Los residuos conservados están resaltados en letra negrita. Los residuos de POUS y POUH implicados en los enlaces de puentes de hidrógeno con el ADN están resaltados. b) Representación esquemática de la estructura del dominio POU de Brn-‐5. El dominio POUS se muestra en color rosa, el enlazador en amarillo y POUH en verde. Las hélices de los dominios POU están numeradas como se muestra en el alineamiento de la parte superior. (N) extremo amino-‐terminal, (C) extremo carboxilo-‐terminal.
8
4 Procedimiento del modelaje por homología. 10
5
Esquema que presenta en forma de jerarquía las rutas de acceso a los archivos ejecutables del presente trabajo, de esta manera se ordenaron las carpetas contenidas dentro del directorio Modelaje_básico.
15
6
Dominios y familias de proteínas relacionadas a los dominios presentes en la secuencia de Brn3a, la familia POU a la izquierda y la familia de los homeodominios a la derecha, descritos en la base de datos "Conserved Domains" del NCBI y localizados mediante la herramienta BLASTp.
15
7
Gráfico que muestra el puntaje DOPE de cada aminoácido comparado con la estructura PDB 2XSD usada como modelo base. La región enmarcada por el rectángulo corresponde al bucle de la región interdominios donde se presenta un incremento de energía.
18
8
Gráfico que muestra el puntaje DOPE de cada aminoácido de la nueva estructura PDB Brn3a.B99990001 la cual se encuentra en interacción con el ADN (azul) obtenido de el archivo pdb 2XSD, comparado con la estructura PDB 2XSD (verde) usada como modelo comparativo, la región enmarcada por el rectángulo corresponde a la región interdominio donde presenta un incremento de energía.
20
9
Gráfico que muestra el puntaje DOPE de cada aminoácido de la
21
XII
nueva estructura PDB Brn3a.BL0006001 el cual fue el mejor modelo de Brn3a en interacción con el ADN denominado Brn3a-‐looprefine (rojo), comparado con la estructura PDB 2XSD (verde) usada como control o modelo comparativo, en azul se muestra el modelo previo sin el proceso de refinamiento de bucle, la región enmarcada por el rectángulo corresponde al bucle en la región C terminal del archivo pdb Brn3a la cual muestra un incremento de la energía por un arreglo termodinámicamente desfavorable de los aminoácidos.
10
Gráfico que muestra el puntaje DOPE de cada aminoácido comparado con el archivo pbb 2XSD como control presentado en verde, en rojo se muestra el modelo Brn3a.BL00040001.pdb de Brn3a en interacción con el ADN denominado Brn3a-‐looprefine (rojo), en azul se muestra el archivo pdb que contiene el modelo previo Brn3a.B99990001 sin el proceso de refinamiento de bucle denominado Brn3aligand.
22
11
A la derecha se presenta la estructura tridimensional de Brn3a unida a DNA, se muestra en gradiente de color de azul (mas preciso) a rojo (menos preciso) los Å de error la región del enlazador (en rojo) la cual presenta mas de 3.5 Å de error, a la izquierda se muestran los valores de torsión, solvatación, interacción de átomos y Cβ, relación SSE, relación ACC, donde al final de la barra se observa el valor de cada uno de estos criterios, la barra negra indica que tan beneficioso o perjudicial es cada valor para la estabilidad de la proteína.
23
12
Se presentan los gráficos de Ramachandran de la estructura de interacción Brn3a-‐ADN, de izquierda a derecha en orden de aparición se muestra el gráfico general de la estructura donde se presenta en el limite del gráfico el residuo No 49 correspondiente a cisteína, este residuo no se no se tomo en cuenta en la validación final debido a que se encuentra en región límite del gráfico y en otros gráficos aparece como favorecido, el segundo gráfico presenta los residuos de Valina e Isoleucina, el tercer gráfico se muestran los residuos de pre Prolina, el cuarto los residuos aminoacídicos de Glicina, en el quinto los residuos de trans Prolina en la cual se muestra el residuo No. 38 con un valor atípico por lo cual se deberá modificar su posición espacial mas adelante con dinámica molecular, el sexto y último gráfico presenta solamente los residuos de la Prolina en posición Cis.
25
13
A: Secuencia nucleotídica que se encuentra en la estructura pdb OCT-‐6 (2XSD) indicándose a la izquierda la cadena a la cual pertenecen en el archivo pdb. La secuencia nucleotídica se mutó con el programa X3DNA. V1: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 1 del archivo pdb V1. V2: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 2 del archivo pdb V2. V5: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 5 del archivo pdb V5. Las letras en negrita indican las
26
XIII
bases nucleotídicas que se mutaron. B: Representación esquemática del modelo de Brn3a-‐ADN donde se representa el ADN en forma de palos y la proteína en forma de lazos.
14
Figura 14. Se muestran en orden ascendente a descendente los resultados de la minimización energética donde se equilibró la energía potencial y energía total de cada molécula de cada uno de los complejos Bn3a en unión al ADN de la región URR de cada subtipo de VPH-‐16. Las figuras mostradas a la derecha presentan la energía total de cada molécula contra el tiempo total que fue de 5 picosegundos, los gráficos mostrados a la izquierda presentan la energía potencial de cada molécula contra el tiempo total que fue de 5 picosegundos. Figura 14 A: Subtipo 1. Figura 14 B: Subtipo 2. Figura 14 C: Subtipo 5.
27,28
15
Se muestran en orden ascendente a descendente los resultados de la simulación de la dinámica molecular. Se presentan en forma de gráfica la energía potencial y energía total de cada molécula de cada uno de los complejos Bn3a en unión al ADN de la región URR de cada subtipo de VPH-‐16. Las figuras mostradas a la derecha presentan la energía total de cada molécula. Los gráficos mostrados a la izquierda presentan la energía potencial de cada molécula. Figura 14 A: Subtipo 1. Figura 14 B: Subtipo 2. Figura 14 C: Subtipo 5.
30
16
Se muestran en orden descendente las gráficas del RMSD de los Cα de las estructuras pdb obtenidas del proceso de simulación de dinámica molecular contra los 1000 picosegundos de la simulación. Se presenta en orden descendente subtipo 1 como figura 15 A, subtipo 2 como figura 16 B y subtipo 5 como figura 16 C. LS: limite superior. M: media. LI: limite inferior.
31,32
17 A: Densidad del complejo Brn3a-‐VPH16 subtipo 1. B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1.
33
18 A: Energía potencial del complejo Brn3a-‐VPH16 subtipo 1. B: RMSD del complejo Brn3a-‐VPH16 subtipo 1.
34
19
A: Densidad del complejo Brn3a-‐VPH16 subtipo 1. B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1. C: Energía total del complejo Brn3a-‐VPH16 subtipo 1. D: RMSD del complejo Brn3a-‐VPH16 subtipo 1.
35
20
Figura 20. Secuencia nucleotídica consenso de la región URR de VPH-‐16 .
36
XIV
RESUMEN
Javier Alejandro Rendón Carrillo Fecha de graduación: Mayo de 2014 Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Instituto de Biotecnología Titulo de Estudio: CONSTRUCCIÓN DE UN MODELO IN SILICO DE LA INTERACCIÓN ENTRE EL FACTOR DE TRASCRIPCIÓN BRN3A Y LA REGIÓN PROMOTORA URR DE LA VARIANTE 16 DEL VIRUS DEL PAPILOMA HUMANO EN UN CONTEXTO DE TERAPIA GÉNICA CONTRA EL CÁNCER DE CÉRVIX. Candidato para obtener el título profesional de Licenciado en Biotecnología Genómica Área de estudio: Biotecnología. Propósito y método de estudio: Se estableció un modelo tridimensional de interacción del factor de transcripción humano Brn3a con la región URR de tres subtipos de VPH-‐16 para el diseño de una vacuna génica contra el CaCu. Para ello se construyó y validó un modelo tridimensional de la proteína Brn3a utilizando modelaje por homología con Modeller, se validaron los modelos construidos con MolProbity y QMEAN. Posteriormente se construyó el modelo tridimensional de la interacción de la proteína Brn3a con una secuencia nucleotídica similar a la región URR de VPH-‐16 empleando el programa Modeller, el modelo tridimensional de la proteína Brn3a y la estructura tridimensional de la secuencia nucleotídica contenida en el archivo PDB de clave 2XSD. Con el programa X3DNA, se mutaron las secuencias nucleotídicas de los archivos pdb que contienen los modelos tridimensional de interacción proteína-‐ADN en unión a la secuencia nucleotídica de la región URR de tres subtipos de VPH-‐16, de esta manera se obtuvieron tres modelos tridimensionales de interacción de la proteína Brn3a con la región URR de los tres subtipos de VPH-‐16 subtipo 1, subtipo 2, y subtipo 5, los cuales se validaron con MolProbity y QMEAN. Se mejoraron los tres modelos tridimensionales de interacción de la proteína Brn3a con la región URR de VPH-‐16 empleando un proceso de minimización de energía con el programa Amber 12. Por último, se optimizaron los modelos tridimensionales de interacción de Brn3a con cada uno de los tres subtipos de VPH-‐16 empleando el programa Amber y se calcularon las energías de interacción del complejo proteína-‐ADN. Contribuciones y conclusiones: Se generó información sobre la energía de interacción de Brn3a con las secuencias de VPH-‐16 y en base a los resultados obtenidos se concluye que la secuencia nucleotídica de VPH-‐16 subtipo 1 presenta la mayor afinidad a Brn3a, con la cual se abre la posibilidad de crear una vacuna génica contra el VPH-‐16. DIRECTOR DE TESIS CO-‐DIRECTOR DE TESIS __________________________ ____________________________ DR. JOSÉ MARÍA VIADER SALVADÓ M.C. JOSÉ CLAUDIO MORENO ROCHA
1
1. Introducción
La transcripción es el proceso en que la información codificada en el ADN se transcribe a ARN mensajero. La síntesis del ARN la realiza la ARN polimerasa, pero para la iniciación y progresión del proceso se necesita la participación de un gran número de proteínas (factores de transcripción) que posibilitan el acoplamiento de la ARN polimerasa al promotor del gen en concreto y la síntesis del mensajero en una cantidad precisa. La regulación de forma específica de la síntesis de cada proteína depende de los factores de transcripción. Los factores de transcripción son proteínas que coordinan y regulan la expresión de un gen o de un grupo de genes. En muchos casos regulan su propia expresión y también es frecuente que regulen a otros factores de transcripción. Estos factores interaccionan con regiones específicas del ADN, con elementos de la maquinaria de transcripción y con moléculas que activan o inhiben su actividad. Su función es conectar los estímulos externos e internos de la célula actuando como transductores de señales. El conjunto de los factores de transcripción de una célula dibuja una red transcripcional cuyas conexiones determinan el conjunto de genes que se expresan en un determinado momento (transcriptoma).
La diferenciación celular depende de la expresión de un patrón específico de genes, lo que está en gran medida determinado por el perfil de factores de transcripción expresados en cada tipo celular. Dentro de este perfil hay factores de transcripción cuya expresión está constantemente activa los cuales son responsables de la expresión de los genes constitutivos, y hay otros que cuya expresión se activa o inhibe en respuesta a estímulos externos.
Los factores de transcripción se clasifican en familias según su estructura tridimensional. Para pertenecer a la misma familia las proteínas deben poseer al menos un 25% de identidad entre ellas, además de estar relacionadas evolutivamente. La familia de los factores de transcripción POU (Pit-‐1, Oct-‐1, Unc-‐86) poseen un papel determinante en el desarrollo estructural de los organismos, esta familia contiene un dominio estructural bipartito denominado dominio POU. El dominio POU es un dominio proteico el cual se une a ADN o ARN y está altamente conservado en la mayoría de los eucariotas. Un dominio proteínico se define como una unidad compacta, de características globulares, que suele comprender entre 30 a 150 aminoácidos y se considera que su conformación tridimensional está determinada por su secuencia de aminoácidos, los cuales se pliegan de forma independiente al resto de la proteína, por lo que poseen una estructura y función distinguible de otras regiones de la proteína. La familia de factores de transcripción POU contiene por lo regular dos subdominios uno denominado homeodominio y otro denominado POU, este último subdominio está más conservado en eucariotas que el homeodominio. Estos subdominios trabajan en sinergia para activar la transcripción de varios genes. Cabe destacar a la sub-‐familia de proteínas POU IV por su importancia en el desarrollo del sistema nervioso del embrión humano, específicamente a los factores de transcripción Brn3a y Brn-‐3b. Estos factores poseen papeles antagónicos, el factor de transcripción Brn3a está implicado en el desarrollo del tubo neural, mientras que el factor de transcripción Brn-‐3b inhibe a Brn3a; estos factores pertenecen a la familia POU debido que comparten un dominio estructural de 150 a 160 aminoácidos el cual está presente en las proteínas Pit-‐1, Oct-‐1 y Unc-‐86 que tienen función regulatoria. El dominio POU deriva su nombre de la identificación original en los loci homeóticos de Drosophila. Este dominio se caracteriza por un dominio de unión a ADN separado por una región de 15 a 20 aminoácidos unida a un homeodominio el cual está relacionado con las proteínas homeobox.
2
El dominio de unión a ADN de la proteína Brn3a ha sido estudiado con antelación donde se logró determinar la secuencia de unión al ADN. Estos estudios se basaron en los sitios homólogos de otras proteínas tales como Oct-‐1 (el octámero TAATGARAT se ha descrito como un sitio de unión específico para dicha proteína). Cabe destacar que en diversos estudios se ha correlacionado el papel de activación de estos factores en los genes virales, puesto que los virus poseen secuencias de unión a estos factores de transcripción. En el presente estudio se decidió construir tres modelos tridimensionales de la interacción del sitio de unión del factor de transcripción Brn3a con la secuencia nucleotídica de la región URR correspondiente a tres subtipos del virus del papiloma humano variante 16 (VPH-‐16), mediante herramientas bioinformáticas para el posterior diseño de una vacuna génica. El genoma del VPH consiste de una molécula de ADN circular de doble cadena, aproximadamente de 8 kb. Se divide en tres regiones: la región larga de control, LCR o URR, que no contiene regiones codificantes; las regiones E1 a E8 que codifican para las proteínas de expresión temprana; y las regiones L1 y L2 que codifican para las proteínas de expresión tardía en el ciclo de vida del virus. La importancia del presente trabajo reside en que en el experimento de Turner et al., 1997 se encontraron ocho sitios de unión de factores de transcripción en el genoma del VPH-‐16 con la secuencia nucleotídica ta/taatnanta/t los cuales están distribuidos en el 20% del genoma del virus. Estos sitios no están ligados a la activación de la expresión de los factores de transcripción del genoma viral ni de los oncogenes, puesto que no son regiones codificantes y se encuentran frecuentemente cerca de los extremos 3’ de los genes tardíos del VPH. A pesar de ello estudios de afinidad demostraron que los factores de transcripción humanos que contienen el dominio POU interaccionan con estos sitios y activan la expresión cinco genes virales denominados E6, E7, E5, E4, y E2. Es necesario contar con un modelo de interacción molecular de la proteína Brn3a y la región URR del VPH-‐16 debido a que la activación de la expresión de genes virales se encuentra correlacionada con el desarrollo de Cáncer cérvicouterino (CaCu). Una vacuna génica del CaCu podría ser un vector con una secuencia nucleotídica que presente una mayor afinidad por Brn3a que la URR silvestre. Una consecuencia directa de tal vector sería la disminución de la transcripción de proteínas oncogénicas del VPH. En el presente proyecto, por medio de técnicas computacionales avanzadas se construirán modelos de interacción entre Brn3a y las secuencias de la región promotora URR de los suptipos 1, 2 y 5 del VPH-‐16 que permitirán predecir la especificidad de unión de Brn3a por dichas secuencias. Esto permitirá a futuro la elección de secuencias nucleotídicas específicas dentro de cientos de posibilidades para el desarrollo de una vacuna génica.
2. Importancia El cáncer de cérvix o cérvicouterino (CaCu) es la segunda causa de muerte por cáncer en mujeres tanto en México como a nivel mundial (Rapose, 2009), afectando principalmente a mujeres en edad productiva (Parkin et al., 2006; Agosti et al., 2007). La infección genital con el VPH es un factor necesario para el desarrollo del cáncer de cérvix (Walboomers et al., 1999). El VPH se destaca por ser el virus de transmisión sexual más frecuente a nivel mundial (Rapose, 2009). Por esto es necesario construir un modelo in silico que analice la especificidad de la unión entre el factor de transcripción Brn3a y un fragmento de ADN de la región promotora URR de VPH-‐16, el cual permitirá diseñar sitios específicos de unión a Brn3a para el desarrollo y construcción de vectores virales terapéuticos dirigidos contra el CaCu.
3
3. Hipótesis Mediante herramientas bioinformáticas se podrá confeccionar un modelo tridimensional de la interacción entre el factor de transcripción Brn3a y la secuencia nucleotídica de la región promotora URR de tres subtipos del VPH-‐16.
4. Objetivos
4.1 Objetivo general:
Establecer un modelo tridimensional de interacción del factor de transcripción humano Brn3a con la región URR de tres subtipos de VPH-‐16 para el diseño de una vacuna génica contra el CaCu.
4.2 Objetivos específicos:
• Construir y validar un modelo tridimensional de la proteína Brn3a.
• Construir y validar el modelo tridimensional de interacción de la proteína Brn3a con la región URR de tres subtipos de VPH-‐16.
• Optimizar los modelos tridimensionales de interacción de Brn3a con cada uno de los
tres subtipos de VPH-‐16 y calcular las energías de interacción del complejo proteína-‐ADN.
5. Antecedentes
5.1 Epidemiología y etiología del cáncer cérvicouterino El cáncer de cérvix o cérvicouterino (CaCu) es la segunda causa de muerte por cáncer en mujeres tanto en México como a nivel mundial (Rapose, 2009), afectando principalmente a mujeres en edad productiva (Parkin et al., 2006; Agosti et al., 2007). La infección genital con el virus del papiloma humano (VPH) es un factor necesario para el desarrollo del cáncer de cérvix (Walboomers et al., 1999). El VPH se destaca por ser el virus de transmisión sexual más frecuente a nivel mundial (Rapose, 2009). En la tabla 1 se muestra la relación entre el VPH y las principales patologías infecciosas que origina de las cuales algunas pueden progresar a cáncer debido a su potencial oncogénico. El Sistema Nacional de Salud Mexicano brinda atención médica aproximadamente a 9,000 casos de CaCu invasor y se registran 4,000 muertes anualmente (Walboomers et al.; 1999). En el año 2001, se reportaron 4,051 muertes en mujeres por CaCu, con una tasa de mortalidad de
4
8.8 por cada 100,000 mujeres. Para el año 2002 se registraron 4,323 casos con una tasa de 8.6 por 100,000 mujeres (Estadísticas de la Secretaria de Salud; 2002). Sin embargo, este tipo de cáncer es absolutamente prevenible y su tratamiento es relativamente fácil, cuando el diagnóstico es oportuno. El CaCu es de etiología infecciosa y desde la perspectiva de la salud pública se está consciente que los programas de control no han funcionado como se esperaba. La experiencia de países desarrollados ha permitido demostrar que la mejor opción para disminuir la mortalidad por CaCu es la detección y el tratamiento oportuno de lesiones precursoras y lesiones malignas por medio de programas de detección oportuna del CaCu y del VPH (World Health Organization, 1995). El genoma de VPH tiene una longitud aproximada de 8 kb y su organización se encuentra prácticamente establecida. Este virus contiene nueve genes, los cuales dependiendo del momento de su transcripción durante la infección viral, se dividen en genes tempranos (E1, E2, E3, E4, E5, E6, E7 y E8) y genes tardíos (L1 y L2). La expresión de estos genes está controlada por una región promotora río arriba del gen E6 (Gloss et al., 1987), denominada unidad reguladora no codificada (URR) o también unidad larga de control (LCR), de 0.4 a 1 kb de longitud, esencial para funciones reguladoras del genoma durante la replicación, así como para servir de origen de replicación del ADN y actuar como una región potenciadora de la transcripción viral por promotores de síntesis del ARN.
Tabla 1: VPH y su asociación con las principales enfermedades que origina obtenida del
reporte anual de la Secretaria de Salud.
5
Los genes de expresión tempranos codifican para proteínas responsables de las funciones de transformación celular, replicación y de la persistencia del ADN integrado en las células a las que infecta. De este grupo destacan las proteínas codificadas por los genes E1 y E2 que intervienen en la replicación viral, las proteínas codificadas por los genes E2 en sinergia con E4 para facilitar la amplificación del genoma viral y la expresión de proteínas tempranas y sobre todo, las que intervienen en los procesos de transformación celular codificadas por los genes E5, E6 y E7. Las regiones E6/E7 tienen un especial interés ya que poseen un importante papel en los mecanismos de transformación celular. Estas regiones están siempre virtualmente expresadas en los cánceres asociados al VPH. Las proteínas codificadas por estos genes virales se unen y ubiquitinan a las proteínas supresoras de tumores p53, pRB y Rb105, induciendo su degradación, desregulando el ciclo celular y provocando el bloqueo de la apoptosis. Existen vacunas eficientes en la prevención de neoplasias cervicales intraepiteliales de grado 2 y 3 causadas por los VPH-‐16 y 18, aunque todavía no se conoce el grado de protección contra otro tipo de VPH como VPH-‐31, 33, 35, 45, 52, y 58. El alto costo es también un factor limitante para su aplicación en países en vías de desarrollo (Lowy, 2006; Agosti et al., 2007).
5.2 Brn3a y el desarrollo del CaCu mediante la regulación del VPH Uno de los factores de transcripción que se une al sitio URR del VPH es Brn3a. Esta proteína pertenece a la subfamilia 4 de las proteínas POU, identificada en el GenBank del NCBI como POU4F1 y está conformada por 3 miembros homólogos: Brn3a, Brn-‐3b, Brn-‐3c (Guerrero et al., 1993). Brn3a juega un papel importante en el proceso del desarrollo del tubo neural durante la embriogénesis regulando el balance entre proliferación y diferenciación celular, por lo que ejerce una gran influencia en el destino celular neuronal. Sin embargo, su abundancia declina llegando a ser ausente en neuronas maduras. Por otra parte, se ha detectado la sobreexpresión de este factor en diversos tipos de cáncer como el cáncer de próstata, neuroblastoma, neuroendocrino y CaCu. Respecto al CaCu, diversos estudios en pacientes han demostrado la sobreexpresión del ARNm de Brn3a en tejido tumoral de hasta 300 veces comparada con el tejido circundante (Ndisang et al., 1998). La sobreexpresión de este factor transcripcional se ha visto correlacionada con la activación de la expresión génica del VPH, principalmente de los oncogenes E6 y E7, los cuales alteran la tasa de crecimiento celular tanto in vivo como in vitro. Se han detectado alteraciones específicas en las secuencias del URR de los subtipos 1, 2 y 5 del VPH-‐16 las cuales están correlacionadas con el aumento en la tasa de transcripción de los oncogenes virales. De manera similar se han identificado variantes en las secuencias de la región E5 de VPH-‐16, que están asociadas con diferencias en los niveles de transcripción viral de los oncogenes virales, ocasionando la inducción de la neoplasia, encontrando al subtipo 2 asociado positivamente al desarrollo de CaCu. Aunado a esto se ha reportado que el subtipo 2 presenta mayores niveles de expresión de los oncogenes E6 y E7, estos oncogenes son activados por el factor de transcripción Brn3a. Se ha demostrado experimentalmente que la región URR de variantes de VPH presentan una afinidad a los factores de transcripción Brn3a y Brn-‐3b, sin embargo ambas proteínas se antagonizan. En el subtipo 2 del VPH-‐16, el factor de transcripción Brn3a es más afín a dicha secuencia que Brn-‐3b promoviendo la activación de la región URR y con ello la expresión de los
6
oncogenes E6 y E7, contrario a la función de la proteína Brn-‐3b, la cual en ensayos de silenciamiento de Brn3a ha regulado negativamente la expresión de dichos genes (Ndisang et al., 2001). Se ha identificado la presencia de Brn3a en las líneas celulares cervicales C33 y SiHa (Ndisang et al., 1999). Experimentos de sobreexpresión de Brn3a en células SiHa con el genoma de VPH-‐16 han demostrado que la concentración de Brn3a inherente en este tipo celular se encuentra en cantidades saturantes para la expresión de E6, ya que presenta el mismo efecto que el mostrado por los tratamientos exógenos con dicha proteína. La reducción de los niveles de expresión de Brn3a in vivo reduce los niveles de expresión del gen E6 y del gen antiapoptótico Bcl-‐2, así como la inducción de la tumorogénesis (Ndisang et al., 1999, 2001). Por el contrario la sobreexpresión de Brn-‐3b resulta en la disminución de la transcripción de los genes del VPH (Ndisang et al., 1999), mientras que una disminución de Brn-‐3b presenta efectos similares a la sobreexpresión de Brn3a (Ndisang et al., 2001). La sobreexpresión de Brn-‐3b in vivo presenta un efecto inhibitorio de la expresión de los oncogenes E6 (Ndisang et al., 2001). Con base en el papel que juega Brn3a en la interacción y activación de la URR del VPH se han sugerido varias vías terapéuticas posibles contra el CaCu. Algunas alternativas son la alteración de la actividad de Brn3a por medios farmacológicos, o bien una reducción de la actividad del promotor Brn3a (Ndisang et al., 1999, 2001). La terapia genética abre el camino hacia el diseño de vectores plasmídicos o adenovirales como tratamiento.
5.3 Sitios de unión de los homeodominios La homeocaja es una secuencia nucleotídica que codifica para un dominio de alrededor de 60 aminoácidos (figura 1), que se encuentra en muchos organismos eucariotas, cuyo nombre deriva de su identificación en los loci homeóticos de la mosca de la fruta (Drosophila melanogaster). En los genes homeóticos de D. melanogaster a menudo el homeodominio está cerca del extremo C-‐terminal de las proteínas producto de estos genes.
Figura 1. Estructura de un factor de transcripción el cual contiene un homeodominio.
7
El homeodominio puesto que es un subdominio suele combinarse con otros segmentos o dominios en los factores de transcripción, como pasa con las proteínas Oct (de unión de octámero), donde una cadena conservada de 75 aminoácidos, llamada región POU, se localiza cerca de una región que simula el homeodominio, tal y como sucede con Brn3a. El homeodominio se encarga de la unión con el ADN (figura 2), este posee la capacidad de reconocimiento, donde la región C-‐terminal del homeodominio es idéntico en secuencia al segmento hélice-‐giro-‐hélice de los represores procarióticos. La diferencia entre ambas estructuras radica en la longitud de la hélice que reconoce al ADN, la hélice-‐3 la cual contiene 17 aminoácidos de longitud que son parte del homeodominio en comparación a los 9 aminoácidos del represor λ.
Figura 2. Interacciones del motivo hélice-‐giro-‐hélice de la proteína Antennapedia de D. melanogaster (código PDB: 1AHD) con los surcos mayores y menores del ADN, obtenido de la base de datos Protein Data Bank (www.rcsb.org).
La hélice-‐3 se une con el surco mayor del ADN y establece el mayor número de contactos entre la proteína y el ácido nucleico, de los cuales, muchos de los que orientan la hélice en el surco mayor son con la columna de fosfatos, de manera que no son específicos para la secuencia del ADN, sino que se encuentran sobre todo en una cara de la doble hélice y flanquean las bases con las que se hacen contactos específicos. Los contactos restantes son del brazo N-‐terminal del homeodominio, secuencia inmediata a la primera hélice, y se proyecta hacia el surco menor. Así las regiones N-‐terminal y C-‐terminal del homeodominio son las principales encargadas de hacer contacto con el ADN.
5.4 Reconocimiento específico de una secuencia de ADN por los dominios POU Pit, Unc, Oct son proteínas de la familia POU que se encuentra muy conservada evolutivamente entre especies. Además de la proteína Brn3a incluye a gran variedad de miembros tales como Pit-‐1, Oct-‐1, Oct-‐2, Unc-‐86, Brn-‐5, Brn-‐3b (Herr & Cleary, 1995). El dominio POU de unión a ADN característico de dicha familia se compone de dos subdominios: POUS y POUH. El subdominio amino-‐terminal específico (POUS) contiene alrededor de 75 aminoácidos y el subdominio homeo carboxi-‐terminal POUH contiene 60 aminoácidos. Los dos subdominios se encuentran unidos por una región flexible híper variable que contiene de 15 a 56 aminoácidos llamada linker o enlazador. Los subdominios POUS y POUH tienen estructuras independientes, sin embargo la flexibilidad del linker permite su interacción mutua y en puntos específicos con el ADN (Herr & Cleary, 1995), (figura 3).
8
Estudios cristalográficos recientes elucidaron la estructura del complejo proteína Brn-‐5 unida a ADN, determinándose que los dominios POUS y POUH se unen al surco mayor del ADN en posición opuesta (Pereira & Kim, 2009). El subdominio POUS se une a la secuencia nucleotídica atgc en sentido 5’, mientras que el subdominio POUH se une a la secuencia aaat en sentido 3’, ambos subdominios se unen en la misma cadena de ADN. Las subunidades POUS y POUH no interaccionan directamente. Los dos subdominios contienen un motivo hélice-‐giro-‐hélice (HTH) formado por las hélices alfa-‐2 y alfa-‐3 distribuidas perpendicularmente, de las cuales la hélice alfa-‐3 permite la unión con el ADN. La estructura HTH de POUS está estabilizada por las hélices alfa-‐1 y alfa-‐4, mientras que la estructura HTH de POUH está estabilizada por la hélice alfa-‐1. La capacidad de las proteínas de la familia POU para activar a sus promotores blanco está influenciada por varios factores. Uno de ellos es atribuido a la variabilidad del linker entre los subdominios, proporcionando una gran diversidad de sitios de reconocimiento en el ADN blanco por parte de las proteínas POU. El fragmento peptídico linker entre los dominios se comporta como un estabilizador de los subdominios POUS y POUH de Brn-‐5 (Pereira & Kim, 2009). Además la estructura cristalizada de Oct-‐1 sugiere que Oct-‐1 no tiene una estructura rígida, ya que en los experimentos realizados no se logró localizar la presencia del linker en el mapa de densidad electrónica.
Por otro lado las proteínas de la familia POU pueden compartir sitios de unión preferenciales
Figura 3. a) Alineamiento de secuencias de aminoácidos de los dominios POU de las proteínas humanas Brn-‐5, Oct-‐1 y Pit-‐1. Los residuos conservados están resaltados en letra negrita. Los residuos de POUS y POUH implicados en los enlaces de puentes de hidrógeno con el ADN están resaltados. b) Representación esquemática de la estructura del dominio POU de Brn-‐5. El dominio POUS se muestra en color rosa, el enlazador en amarillo y POUH en verde. Las hélices de los dominios POU están numeradas como se muestra en el alineamiento de la parte superior. (N) extremo amino-‐terminal, (C) extremo carboxilo-‐terminal.
Subdominio específico -‐ POU
Subdominio homeo -‐ POU
9
que se traslapan y que son capaces de unirse a secuencias nucleotídicas con afinidades diversas. Por ejemplo, los factores Oct-‐1 y Oct-‐2 reconocen exactamente la misma secuencia nucleotídica encontrada en varios promotores, y a su vez el factor Pit-‐1 se une in vitro e in vivo a esta secuencia común aunque en menor afinidad (Li et al., 1993). Los factores Oct-‐1, Brn3a y Brn-‐3b se unen a la secuencia del promotor viral URR en VPH-‐16, en la secuencia nucleotídica atgcaatt. El factor ubicuo Oct-‐1 se expresa en células cervicales lo que contribuye normalmente a inhibir la actividad del promotor viral URR en VPH-‐16, contrario al efecto de Brn3a (Morris et al., 1993). Esta última proteína activa también al promotor inmediato-‐temprano (Immediate-‐Early) del virus herpes simplex (VHS-‐IE3) por medio de la secuencia nucleotídica tatgarat (Dawson et al., 1996). Las modificaciones al contexto del sitio de unión a ADN también tienen efectos variables. En el caso del factor de transcripción Brn3a en unión con el promotor viral en VHS-‐IE3, únicamente es necesario que se conserve el espacio entre los sitios de unión a ADN, efecto contrario al causado por Brn-‐3b (Dawson et al., 1996). A diferencia de esto la represión de dicho promotor por Oct-‐2.4 y Oct-‐2.5 depende del contexto nucleotídico además del espacio entre los sitos de unión (Dawson et al., 1996). El dominio POU puede influenciar su propia asociación con una proteína co-‐reguladora en un sitio diferente. Un buen ejemplo es el complejo VP16-‐inducido que sirve como activador al promotor IE del virus del herpes simplex (Herr & Cleary, 1995). Aunque el dominio POU se encuentra altamente conservado, la región linker le confiere a estas proteínas la capacidad de adoptar varias conformaciones para su unión con el ADN que se traducen en cambios posicionales y direccionales entre POUS y POUH (Li et al., 1993). Ensayos in vitro han demostrado que los efectos antagonistas de las proteínas Brn3a y Brn-‐3b son invertidos al intercambiar la isoleucina de Brn-‐3b por la valina de Brn3a en la posición 22 de la región POU (Morris et al., 1994, 1997). Debido al complejo proceso de reconocimiento entre ADN y proteínas, es importante realizar estudios que permitan elucidar secuencias exactas de interacción de Brn3a con la secuencia URR de VPH-‐16 con el fin de diseñar nuevas estrategias terapéuticas en el combate contra el CaCU.
5.5 Predicción de la estructura tridimensional de una proteína
Aunque la estructura de Brn3a no se conoce experimentalmente, existe la posibilidad de inferirla in silico utilizando modelos de predicción. Existen varios métodos que permiten predecir una estructura tridimensional protéica. De forma general, se distinguen tres métodos:
1. Modelaje por comparación o modelaje por homología. 2. Modelaje por reconocimiento de plegamientos. 3. Modelaje por predicción Ab-‐initio.
La estrategia utilizada para predecir la estructura tridimensional de una proteína es determinante para obtener un buen modelo tridimensional, lo cual requiere generalmente la integración de varios de los métodos conocidos (Ding et al., 2008). El estado de los avances de los métodos de predicción de estructuras tridimensionales de
10
proteínas se puede valorar con los experimentos CASPs (Critical Assessment of Techniques for Protein Structure Prediction o Evaluación crítica de las técnicas de predicción de la estructura de proteínas) que son rondas donde se predice la estructura tridimensional de proteínas y se comparan con estructuras tridimensionales dilucidadas por cristalografía (Jauch et al., 2007; Ben-‐David et al., 2009). Actualmente existen dos limitantes en los procesos de predicción y validación de estructuras tridimensionales, lo que requiere una mejora o implementación de nuevos métodos. Primero, no se puede predecir cualquier estructura in silico: durante la ronda experimental de 2008, de las 13 estructuras tridimensionales a predecir, 4 predicciones no fueron aceptables para ninguno de los grupos participantes (Ben-‐David et al., 2009). Segundo, los criterios de evaluación de la similitud entre la predicción y la estructura experimental aún no están bien definidos (Jauch et al., 2007; Ben-‐David et al., 2009).
5.5.1 Modelaje por homología El modelaje por homología permite predecir una estructura tridimensional desconocida de una proteína blanco por medio de la comparación de su secuencia con secuencias de proteínas templado cuyas estructuras tridimensionales son conocidas (figura 4). Las principales etapas son:
a. La selección de templados. b. El alineamiento con la secuencia blanco.
Figura 4. Procedimiento del modelaje por homología.
11
c. El refinamiento para resolver las regiones de baja similitud.
El modelaje por homología se utiliza frecuentemente con el fin de descubrir nuevos medicamentos o para guiar experimentos de mutagénesis (Costanzi, 2008). También se utiliza para estudios de relación de estructura – actividad (QSAR), los cuales buscan relaciones cuantitativas entre actividad y estructura de una biomolécula (Costanzi, 2008).
El proceso de alineamiento de secuencias es crítico. Rost determinó que si la identidad de las secuencias en los alineamientos es del 30%, el 90% de los modelos que sean predichos por homología serán acertados, mientras que si esta identidad es del 20% sólo el 10% de los modelos serán acertados, a esta característica Rost la denominó la zona de incertidumbre (Rost 1999). Si se obtienen valores mayores al 50% de identidad entre la secuencia de las proteínas blanco y de las proteínas templado se producen predicciones de alta calidad (hasta 3Å de resolución). Por el contrario, valores de 25 a 30% de identidad producen predicciones propensas a presentar errores (Floudas et al., 2006).
El programa 3D-‐Coffe (O’Sullivan et al., 2004) permite un mejor alineamiento secuencia-‐estructura en comparación con otros programas, particularmente para identidades por debajo del 50% (Dalton & Jackson, 2007). En las estructuras complejas los pasos de refinamiento permiten mejorar la predicción hasta 0.5 Å.
En comparación con SWISS-‐MODEL (Schewede et al., 2003) o Builder (Koehl & Delarue, 1994), Modeller (Sali & Blundell, 1993), SegMod/ENCAD (Levitt, 1992) y Nest (Petrey et al., 2003) son los programas que presentan mejores resultados en cuanto a resolución y predicción de los modelos tridimensionales (Wallner & Elofsson, 2005), siendo éste último el que mejor resuelve las estructuras tipo bucle (Dalton & Jackson, 2007).
5.5.2 Modelaje por reconocimiento de plegamientos El método de reconocimiento de plegamientos asume que las estructuras tridimensionales de las proteínas están más conservadas que las secuencias. Existen diversas técnicas para llevar a cabo dicho reconocimiento, tales como la predicción de estructuras secundarias y comparaciones avanzadas de secuencias o pruebas de compatibilidad de secuencias con un plegamiento tridimensional conocido (Floudas et al., 2006). Estos métodos han tenido éxito en los experimentos CASPs (Jauch et al., 2007; Ben –David et al., 2009). Este método asegura que la secuencia es compatible con cualquiera de los miembros de un conjunto de estructuras proteicas conocidas. Esto se produce al colocar los residuos “desconocidos” de la proteína a lo largo de la cadena principal de una estructura tridimensional de una proteína conocida, para luego determinar la estabilidad de las cadenas laterales de la estructura tridimensional de la proteína desconocida en esa disposición y luego deslizar la secuencia de la proteína que no se conoce su estructura a lo largo de la proteína que sí se conoce su estructura tridimensional, esto se realiza residuo por residuo repitiendo el cálculo (Voet, 2006).
5.5.3 Modelaje por predicción Ab-‐initio El modelaje por predicción Ab-‐initio consiste en encontrar la estructura tridimensional proteica
12
más estable que corresponde a la conformación que posee la menor energía libre según la hipótesis de Anfinsen (Anfinsen, 1973). Este método se utiliza con cualquier secuencia, independientemente al conocimiento previo de la estructura, permitiendo así predicciones de novo. En este método se utilizan primero campos de fuerza simplificados en los cuales se mueven los residuos, seguido por un refinamiento con un potencial de átomos totales (Fluodas et al., 2006; Jamal Rahi et al., 2008; Shaeffer et al., 2008; Rohs et al., 2009). Estos modelos tratan de predecir la estructura tridimensional desconocida de una proteína comenzando desde cero, y se basan en principios físicos con los cuales se construyen algoritmos que intentar imitar el plegado de las proteínas, o bien pueden aplicar un método estocástico para buscar la conformación más estable termodinámicamente. Este método requiere de vastos recursos computacionales, como las supercomputadoras, puesto que la cantidad de información a procesar es enorme, esto además los vuelve muy costosos
6. Metodología
6.1 Materiales y equipo
Se utilizaron dos sistemas operativos diferentes, el primer sistema operativo fue Mac OS X Mavericks 10.9.2 ejecutado en una Apple Mac Book Pro con un procesador Intel Core i5 de 2.5 GHz con 8 Gb de RAM, el segundo sistema operativo fue Red Hat Enterprise Linux Server release 6.2 ejecutado remotamente en el clúster de Supercómputo del IPN en el equipo IBM iDataPlex denominado Thubat Kaal con los siguientes procesadores: Intel Xeon 8-‐core E5-‐2680 a 2.7 GHz, Intel Xeon 8-‐core a 2.7 GHz, 2 CPU's Intel Xeon 8-‐core a 2.7 GHz y 2 CPU's Intel Xeon 8-‐core a 2.7 GHz con 288 Gb de RAM.
6.2 Estrategia General En primer lugar se construyo y valido un modelo tridimensional de la proteína Brn3a utilizando modelaje por homología con el programa Modeller y validado por MolProbity y QMEAN. Posteriormente se construirá el modelo tridimensional de la interacción de la proteína Brn3a con una secuencia nucleotídica similar a la región URR de VPH-‐16 empleando el programa Modeller se construyo el modelo tridimensional de la proteína Brn3a en formato PDB unida a la secuencia nucleotídica descrita en el archivo PDB de clave 1AU7. Con el programa X3DNA, se mutaron las secuencias nucleotídicas del modelo tridimensional de interacción proteína-‐ADN, las mutaciones fueron con el objeto de que hacer coincidir a la secuencia con la secuencia nucleotídica de la región URR de los tres subtipos de VPH-‐16. De esta manera se obtuvieron tres modelos tridimensionales de interacción de la proteína Brn3a con la región URR de los tres subtipos de VPH-‐16 subtipo 1, subtipo 2 y subtipo 3 los cuales se validaron con los programas MolProbity y QMEAN. Se optimizaron los tres modelos tridimensionales de interacción de la proteína Brn3a con la región URR de VPH-‐16 empleando un proceso de minimización de energía con el programa Amber 12. Por último se calcularon las energías de interacción del complejo proteína-‐ADN.
13
6.3 Construcción y validación de la estructura tridimensional de la proteína Brn3a
La estructura terciaria de Brn3a fue elucidada in silico mediante un modelo de homología. Se determinó una estructura tridimensional templado mediante la herramienta Blastp del National Center for Biotechnology Information (NCBI) empleando la secuencia aminoácidica de Brn3a (clave GenBank NP_006228) contra la base de datos de estructuras tridimensionales PDB del Protein Data Bank. Se descartaron las estructuras tridimensionales cuya secuencia aminoácidica presenten una identidad menor al 30% con la secuencia de Brn3a. De las estructuras tridimensionales, se eligió a la plantilla que presento la mayor identidad en secuencia con Brn3a y que a su vez presento la mejor estructura experimental en cuanto a resolución cristalográfica, y su secuencia se alineo con la secuencia de Brn3a. Se calculo o predijo el modelo tridimensional de Brn3a con el programa Modeller. El modelo fue evaluado utilizando los programas MolProbity y QMEAN (Benkert et al., 2009). Se ejecutaron todos los comandos desde la terminal del equipo de cómputo, en este caso se utilizó el sistema operativo de Unix con la versión de Ubuntu 10.4, así como Mac OS X versión 10.8.2 Lion. En ambos sistemas se realizaron todos los comandos del programa Modeller con la misma versión del programa, la versión 9.11. Todos los comandos del programa Modeller ejecutan programas específicos los cuales se escribieron en el lenguaje de programación Python. Este lenguaje de alto nivel posee una sintaxis muy limpia que favorece a que el código sea legible. Además tiene licencia de código abierto la cual es compatible con la licencia pública general de GNU en que basan los sistemas Unix. Se ejecutaron los comandos de modelado básico del programa Modeller. Una vez obtenido el modelo, se utilizó el programa Loop-‐refine para corregir los bucles en la estructura tridimensional de la proteína y se validó el modelo construido con los programas Molprobity y QMEAN. El modelo fue aceptable según los criterios de validación obtenidos en dichos programas y se procedió al próximo paso.
6.4 Construcción y validación del modelo tridimensional de interacción de la estructura tridimensional de Brn3a con la región URR de tres subtipos de VPH-‐16
6.4.1 Construcción del modelo tridimensional de interacción Brn3a con la región URR de VPH-‐16
Se utilizó la conformación estructural tridimensional de la proteína Brn3a determinada previamente y se estableció la estructura de Brn3a en interacción con la secuencia de unión a la variante 1 del VPH-‐16 con el software Modeller. Se usó el programa Ligand el cual genero un modelo tridimensional de la proteína Brn3a unida a la secuencia nucleotídica extraída de un archivo PDB de clave 1AU7. Esta clave corresponde a la estructura tridimensional de la proteína con mayor identidad a Brn3a por ello sirvió como modelo base. Con el programa X3DNA se mutó la secuencia nucleotídica del modelo de interacción ADN-‐proteína (Brn3a-‐ADN) para obtener la secuencia nucleotídica de la región URR VPH-‐16. El programa X3DNA se ejecutó desde la terminal del equipo de cómputo y se usó el comando mutate bases de X3DNA. En el comando a ejecutar se especifico en primer lugar la cadena del modelo
14
tridimensional en formato PDB donde se realizó el cambio, en segundo lugar el número del nucleótido a mutar y en tercer lugar se escribió con una letra el código del nucleótido que sustituyo al que se desea mutar. El resultado generó un nuevo modelo tridimensional en formato PDB. Para lograr mutar todos los nucleótidos necesarios se repitió el proceso anterior, nucleótido por nucleótido, generando un nuevo modelo por cada mutación utilizando el modelo PDB previamente creado. Este paso se repitió generando las secuencias correspondientes a los demás subtipos de VPH-‐16. Se emplearon los parámetros del campo de fuerza CHARMM.
6.4.2 Determinación de la energía del complejo proteína-‐ADN
Se utilizó el programa Amber 12 con el campo de fuerza parm99, y un modelo de agua implícito. No se aplicó un de punto de exclusión. Para evitar choques estéricos, se permitió el reacomodo libre de átomos de hidrógeno y bases nucleicas. Se limitó el movimiento de la proteína y la cadena de ADN mediante muelles con una constante de 1.0 kcal/mol. Previo al cálculo de la energía, se aplicaron 2500 pasos de minimización con el método “steepest descent” y 2500 pasos de minimización con el método del gradiente conjugado para asegurar la convergencia de los modelos generados. Se realizó el paso anterior para cada conformación a analizar (complejo ADN-‐proteína de los tres subtipos de VPH-‐16).
6.5 Optimización y cálculo de la energía de interacción de los modelos tridimensionales de interacción de Brn3a con los tres subtipos de VPH-‐16
Se optimizaron los procesos de predicción de estructura y de cuantificación de las energías de interacción utilizando algoritmos de rápida predicción (Wolf & de Leeuw 2008; Ding et al., 2008). Asimismo, se optimizo la ejecución paralela de los modelos en un cluster. Para ello se uso el programa Amber que es un software especializado en dinámica molecular que puede simular ecuaciones Newtonianas para sistemas con millones de partículas y está diseñado especialmente para biomoléculas como proteínas, lípidos y ácidos nucleicos. Amber se ejecutó desde la terminal puesto que no posee interfaz gráfica. Se utilizó el archivo PDB obtenido del paso anterior con Amber, el cual contenía la estructura tridimensional de la interacción entre Brn3a y la región URR de VPH-‐16, y se cuantificaron las energías de interacción de Brn3a con la región URR de los tres subtipos VPH-‐16. Con este proceso se optimizo el modelo tridimensional y se corrigieron regiones de plegamiento.
15
7. Resultados
7.1 Construcción y validación de la estructura tridimensional de la proteína Brn3a.
Se genero 1 archivo dentro de una carpeta denominada Modelaje_básico ver figura 5, en esta carpeta se encontraba la secuencia aminoácidica de Brn3a bajo el nombre de Brn3a.ali, esta secuencia se uso para generar el archivo pdb_95.fas el cual contiene todas la secuencias obtenidas mediante la herramienta BLAST de página web del National Center for Biotechnology information (NCBI), las secuencias se guardaron en formato PIR. La subcarpeta Atom_files dentro de la carpeta Modelaje_básico contenía los archivos pdb con las coordenadas en el espacio de los átomos que conforman las estructuras tridimensionales obtenidas mediante la herramienta BLAST. Figura 5. Esquema que presenta en forma de jerarquía las rutas de acceso a los archivos ejecutables del presente trabajo, de esta manera se ordenaron las carpetas contenidas dentro del directorio Modelaje_básico. En la figura 6 se muestra la los resultados obtenidos por la herramienta BLAST donde se muestran las dos familias de proteínas relacionadas a los dominios presentes en la secuencia de Brn3a, localizados mediante la herramienta BLASTp en la página web del National Center for Biotechnology information (NCBI) empleando la secuencia aminoácidica de Brn3a (clave GenBank NP_006228) contra la base de datos de estructuras tridimensionales pdb del Protein Data Bank (PDB). Los dominios fueron identificados comparando la secuencia aminoácidica contra la base de datos CDD (Conserved Domain Database ) de BLASTp y solo se mostraron los que estaban en la base de datos del PDB. Se obtuvieron 109 secuencias blanco de las que se seleccionaron solo 51 debido a que el resto se encontraba debajo de la zona de incertidumbre. En la figura 6 se observan los dos subdominios conservados en la región final de la proteína uno de ellos es el subdominio POU y otro el homeodominio, la imagen muestra que este subdominio realiza interacciones directas con el ADN como lo describen los antecedentes.
Figura 6. Dominios y familias de proteínas relacionadas a los dominios presentes en la secuencia de Brn3a, la familia POU a la izquierda y la familia de los homeodominios a la derecha, descritos en la base de datos "Conserved Domains" del NCBI y localizados mediante la herramienta BLASTp.
Modelaje _basico
Brn3a.ali
pdb_95.fas
Atom_Biles
16
En la tabla 2 se presentan las 20 claves de los archivos pdb que contienen las coordenadas en el espacio de los átomos que conforman las estructuras tridimensionales. Las claves pdb de las proteínas fueron obtenidas mediante la herramienta BLASTp. Comparando la secuencia aminoácidica de Brn3a contra la base de datos de estructuras tridimensionales pdb del Protein Data Bank. Las secuencias aminoácidicas fueron filtradas para seleccionar a las proteínas 1AU7 y 2XSD como los mejores modelos de acuerdo a su identidad y valor E contra Brn3a. La identidad (mayor identidad se obtiene un modelo más preciso) y el valor E (mas cercano a 0 se obtiene un modelo más preciso) son los dos principales criterios para seleccionar la mejor plantilla para generar el modelo tridimensional de Brn3a. Tabla 2: Lista de las 20 proteínas con mayor identidad y valor E mas alto, listadas por su clave
pdb generado por el archivo ejecutable build_profile.py obtenidas de Modeller.
* Se abreviaron los encabezados de la segunda y tercera columna con el número 1 y número 2, el 1 es el número de residuos aminoácidicos de la secuencia, el 2 es el numero de iteraciones del algoritmo de Modeller.
Se construyo una matriz de distancias. De la tabla anterior se seleccionaron los 6 archivos pdb que contienen las coordenadas en el espacio de los átomos que conforman las estructuras tridimensionales que presentaron mayor identidad a la secuencia aminoácidica de Brn3a. El triángulo superior muestra el número de residuos idénticos a la secuencia aminoácidica de Brn3a, el triángulo inferior muestra el % de identidad en secuencia. Tabla 3: Matriz de distancias de identidad de secuencia, se presenta la clave del archivos pdb
que presentaron mayor identidad en secuencia a Brn3a.
Columna1 1AU7 2XSD 1CQTA 1OCTC 3L1PA 3L1PB
1AU7 130 1 1 2 1 1
2XSD 1 128 8 9 11 11
1CQTA 1 6 129 106 74 74
1OCTC 2 7 82 131 70 70
3L1PA 1 9 57 53 145 142
3L1PB 1 9 57 53 98 147
Código PDB 1 2 N° de residuos Inicio de alineamiento Fin del alineamiento Puntaje Identidad Valor E
1AU7 165 5 153 22 165 141 54 9.60E-‐05 1CQTA 183 2 152 27 181 148 47 7.00E-‐05 1CQTB 185 2 152 29 183 148 47 6.90E-‐05 1E3O 179 2 152 23 178 148 47 1.30E-‐04 1GT0C 178 2 152 23 177 148 46 1.20E-‐04 1HF0A 178 2 152 23 177 148 46 1.20E-‐04 1HF0B 178 2 152 23 177 148 46 1.20E-‐04 1O4XA 186 2 152 27 181 148 48 5.40E-‐05 1OCTC 175 3 152 20 173 147 47 7.90E-‐05 2XSDC 185 6 152 35 178 143 54 1.20E-‐05 3D1NI 172 6 150 26 170 142 41 2.10E-‐03 3D1NJ 171 6 150 25 169 142 41 2.10E-‐03 3D1NK 172 6 150 26 170 142 41 2.10E-‐03 3D1NL 172 6 150 26 170 142 41 2.10E-‐03 3D1NM 172 6 150 26 170 142 41 2.10E-‐03 3D1NN 173 6 150 27 171 142 41 2.10E-‐03 3D1NO 170 6 150 24 168 142 41 2.10E-‐03 3D1NP 173 6 150 27 171 142 41 2.10E-‐03 3L1PA 175 5 151 30 173 141 51 3.70E-‐04 3L1PB 175 5 151 30 173 141 51 3.70E-‐04
17
La tabla 4 presenta los dos criterios de inclusión principales para seleccionar el archivo pdb que se usara como modelo para construir la estructura tridimensional de Brn3a. Debido al valor que presentó 2XSD y 1AU7 en cuanto a identidad de secuencia y resolución cristalográfica se seleccionaron como los mejores modelos para construir la estructura tridimensional de Brn3a. El valor de resolución cristalográfica permite construir una estructura tridimensional más precisa por modelaje con homología cuando el valor es mas cercano a 0. Tabla 4: Criterios para seleccionar el archivo pdb que servirá como modelo para construir la
estructura tridimensional de Brn3a. La tabla 5 se usó para comparar y seleccionar el archivo pdb con que se construyó la estructura tridimensional de Brn3a. El valor R fue uno de los criterios más importantes para seleccionar al archivo pdb. Los valores cristalográficos los cuales son el valor R y la resolución cristalográfica cuando el valor es mas cercano a 0 se obtienen modelos más precisos cuando se utiliza el modelaje por homología. El factor R es una medida de las diferencias en los patrones de difracción observados y calculados. Entre más pequeño sea este valor mejor se ajusta el modelo a los datos experimentales (se desea que el factor R < 0.2). La identidad de la secuencia de ADN que se encuentra en el archivo pdb 2XSD con la secuencia nucleotídica de la región URR de VPH16 (identidad de secuencia 70%) fue el factor definitivo para seleccionar el archivo pdb 2XSD.
Tabla 5: Evaluación mediante los 3 criterios de inclusión para escoger la mejor estructura tridimensional para construir el modelo de Brn3a.
Se muestran con un * los criterios cristalográficos. Los modelos tridimensionales en formato PDB generados por Modeller utilizando el archivo pdb 2XSD se presentan en la tabla 6 con sus respectivos perfiles energéticos, debido a su importancia los perfiles DOPE (mientras más pequeño el valor es mas estable termodinámicamente) y GA341 (más cercano a 1 es mas preciso el modelo tridimensional) se seleccionó a Brn3a.B99990003.pdb como el mejor modelo tridimensional construido por el programa. El valor DOPE es
Código PDB Resolución cristalográfica
Porcentaje de Identidad en secuencia
1AU7 2.3 Å 54 2XSD 2.0 Å 54 1CQTA 3.2 Å 47 1OCTC 3.0 Å 48 3L1PA 2.8 Å 51 3L1PB 2.8 Å 51
Archivo PDB Valor R* Resolución cristalográfica* Identidad a Brn3a
1AU7 0.23 2.3 Å 54 2XSD 0.198 2.05 Å 54
18
Tabla 6: Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por Modeller. La estructura número 4 (Brn3a.B99990004.pdb) fue seleccionada debido a su valor DOPE y GA341 para construir el modelo de Brn3a en interacción con el DNA. El análisis de validación de la estructura tridimensional de Brn3a se presenta en la figura 7 donde la energía DOPE se muestra por residuo aminoácidico de Brn3a contra la estructura de 2XSD. Esta gráfica es el resultado de la minimización de energía de los bucles en la estructura tridimensional de Brn3a tras ser corregidos por el archivo ejecutable looprefine.py. El modelo construido y optimizado se validó con los programas Molprobity y QMEAN. Acorde con los criterios de QMEAN el modelo presentó errores en 6 Å en la región interdominio. Igualmente fuerón identificados por Molprobity. Los rotámeros erróneos y choques estéricos fueron corregidos con la optimización del modelo con el programa Amber.
MODELO MOLPDF DOPE GA341
Brn3a.B99990001.pdb 1665.54187 -‐13961.95605 1
Brn3a.B99990002.pdb 2703.74683 -‐12594.87891 1
Brn3a.B99990003.pdb 1819.4043 -‐14326.72559 1
Brn3a.B99990004.pdb 1691.96265 -‐13392.82422 1
Brn3a.B99990005.pdb 1916.22791 -‐13456.32715 1
Brn3a.B99990006.pdb 1801.36853 -‐13854.13574 1
Brn3a.B99990007.pdb 1788.70483 -‐13771.97559 1
Brn3a.B99990008.pdb 1722.06458 -‐14091 1
Brn3a.B99990009.pdb 2736.51709 -‐12917.14258 1
Brn3a.B99990010.pdb 1891.42981 -‐14097.02832 1
Figura 7. Gráfico que muestra el puntaje DOPE de cada aminoácido comparado con la estructura PDB 2XSD usada como modelo base. La región enmarcada por el rectángulo corresponde al bucle de la región interdominios donde se presenta un incremento de energía.
Posición del alineamiento
Puntaje DOPE
por re
siduo
19
7.2 Construcción y validación del modelo tridimensional de interacción de la estructura tridimensional de Brn3a con la región URR de tres subtipos de VPH-‐16
7.2.1 Construcción del modelo tridimensional de interacción Brn3a con la región URR de VPH-‐16
En la tabla 7 se presentan los nombres de los archivos pdb de los modelos tridimensionales de la interacción de la proteína Brn3a con la secuencia de ADN parecida a la región URR de VPH-‐16 y obtenida del archivo pdb 2XSD generados por Modeller utilizando el script ligand.py con sus respectivos perfiles energéticos. Estos modelos PDB se encuentran unidos al DNA el cual fue copiado del modelo PDB 1AU7 por su identidad en secuencia a la región URR de VPH-‐16, los perfiles DOPE y GA341 se presentan en la tercera y cuarta columna respectivamente. Se seleccionó a Brn3a.B99990001.pdb como el mejor modelo tridimensional construido por el programa debido a su puntuación del parámetro DOPE (el menor) y GA341 (igual a 1).
Tabla 7: Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo
ejecutable ligand.py. El análisis de validación del archivo pdb Brn3a.B99990001 que contiene la estructura tridimensional de Brn3a en unión a la secuencia nucleotídica similar a la región URR de VPH-‐16 se presenta en la figura 8. La energía DOPE se muestra por residuo aminoacídico de Brn3a contra la estructura de 2XSD. Esta gráfica es el resultado de la minimización de energía de los bucles en la estructura tridimensional de Brn3a tras ser corregidos por el archivo ejecutable looprefine.py. La región C terminal de Brn3a mostró un incremento de la energía por un arreglo termodinámicamente desfavorable de los aminoácidos.
MODELO MOLPDF DOPE GA341
Brn3a.B99990001.pdb 1993.96 -‐11974.69 1
Brn3a.B99990002.pdb 1882.40 -‐11190.74 1
Brn3a.B99990003.pdb 2070.81 -‐11818.44 1
Brn3a.B99990004.pdb 1958.50 -‐11888.73 1
Brn3a.B99990005.pdb 2019.44 -‐11294.67 1
Brn3a.B99990006.pdb 1976.97 -‐11759.99 1
Brn3a.B99990007.pdb 1922.72 -‐11242.20 1
Brn3a.B99990008.pdb 1987.85 -‐11897.29 1
Brn3a.B99990009.pdb 2056.30 -‐11277.06 1
Brn3a.B99990010.pdb 1993.80 -‐11451.67 1
20
Figura 8: Gráfico que muestra el puntaje DOPE de cada aminoácido de la nueva estructura PDB Brn3a.B99990001 la cual se encuentra en interacción con el ADN (azul) obtenido de el archivo pdb 2XSD, comparado con la estructura PDB 2XSD (verde) usada como modelo comparativo, la región enmarcada por el rectángulo corresponde a la región interdominio donde presenta un incremento de energía. En la tabla 8 se presentan los archivos pdb que contienen los modelos tridimensionales construidos en primer ciclo de refinamiento estructural generados por Modeller utilizando el script loop-‐refine.py. El script loop-‐refine.py funciona mediante una minimización energética por un método iterativo. Se modeló la región que abarca del aminoácido 70 al 105. El programa loop-‐refine.py generó 10 estructuras tridimensionales optimizando la región interdominio. La estructura Brn3a.BL00060001.pdb con un valor DOPE de -‐12779.72 y GA341 de 1 fue el mejor modelo creado tal como se presenta en la tercera y cuarta columna respectivamente. Tabla 8: Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo ejecutable loop-‐refine.py.
MODELO MOLPDF DOPE GA341
Brn3a.BL00010001.pdb 1993.96 -‐11837.82 1
Brn3a.BL00020001.pdb 1882.40 -‐11852.94 1
Brn3a.BL00030001.pdb 2070.81 -‐12186.81 1
Brn3a.BL00040001.pdb 1958.51 -‐10818.17 1
Brn3a.BL00050001.pdb 2019.44 -‐10147.17 1
Brn3a.BL00060001.pdb 1976.97 -‐12779.72 1
Brn3a.BL00070001.pdb 1922.73 -‐12259.41 1
Brn3a.BL00080001.pdb 1987.86 -‐11678.15 1
Brn3a.BL00090001.pdb 2056.30 -‐10671.55 1
Brn3a.BL00100001.pdb 1993.80 -‐10687.07 1
Puntaje DOPE
por re
siduo
Posición del alineamiento
21
En la figura 9 se muestra el gráfico de el puntaje DOPE de cada aminoácido del nuevo archivo pdb Brn3a.BL0006001 el cual fue el modelo de Brn3a en interacción con el ADN seleccionado. Se compara el modelo actual contra el modelo anterior Brn3a.B99990001 y contra el archivo pdb 2XSD usado como control. Se observa claramente como se optimizo mediante una minimización energética la región interdominio. La región C terminal del archivo pdb Brn3a.BL0006001 mostró un incremento de la energía por un arreglo termodinámicamente desfavorable de los aminoácidos.
Figura 9: Gráfico que muestra el puntaje DOPE de cada aminoácido de la nueva estructura PDB Brn3a.BL0006001 el cual fue el mejor modelo de Brn3a en interacción con el ADN denominado Brn3a-‐looprefine (rojo), comparado con la estructura PDB 2XSD (verde) usada como control o modelo comparativo, en azul se muestra el modelo previo sin el proceso de refinamiento de bucle, la región enmarcada por el rectángulo corresponde al bucle en la región C terminal del archivo pdb Brn3a la cual muestra un incremento de la energía por un arreglo termodinámicamente desfavorable de los aminoácidos. En la tabla 9 se presentan los modelos tridimensionales del segundo ciclo de refinamiento estructural generados por Modeller utilizando el script loop-‐refine.py. Se modeló la región que abarca del aminoácido 150 al 158 (C terminal). El programa loop-‐refine.py generó 10 estructuras tridimensionales optimizando la región C terminal. La estructura Brn3a.BL00040001.pdb fue seleccionada por su valor DOPE con un total de -‐12953.200195 y GA341 de 1 como se muestra en la tercera y cuarta columna respectivamente.
Puntaje DOPE
por re
siduo
Posición del alineamiento
22
Tabla 9: Puntuaciones de energía de acuerdo a los 3 algoritmos de evaluación usados por Modeller que corresponden a las estructuras tridimensionales (PDB) generados por el archivo
ejecutable loop-‐refine.py. En la figura 10 se muestra el gráfico de el puntaje DOPE de cada aminoácido del nuevo archivo pdb Brn3a.BL0004001 el cual fue el modelo de Brn3a en interacción con el ADN seleccionado. Se compara el modelo actual contra el modelo anterior Brn3a.B99990001 y contra el archivo pdb 2XSD usado como control. Se puede observar como se optimizó el perfil energético derivado de un plegamiento termodinámicamente estable de la región C terminal de el modelo previo.
Figura 10. Gráfico que muestra el puntaje DOPE de cada aminoácido comparado con el archivo pbb 2XSD como control presentado en verde, en rojo se muestra el modelo Brn3a.BL00040001.pdb de Brn3a en interacción con el ADN denominado Brn3a-‐looprefine (rojo), en azul se muestra el archivo pdb que contiene el modelo previo Brn3a.B99990001 sin el proceso de refinamiento de bucle denominado Brn3aligand.
MODELO MOLPDF DOPE GA341
Brn3a.BL00010001.pdb 1993.96 -‐12548.38 1
Brn3a.BL00020001.pdb 1882.40 -‐12781.05 1
Brn3a.BL00030001.pdb 2070.81 -‐12638.90 1
Brn3a.BL00040001.pdb 1958.51 -‐12953.20 1
Brn3a.BL00050001.pdb 2019.44 -‐12783.43 1
Brn3a.BL00060001.pdb 1976.97 -‐12540.14 1
Brn3a.BL00070001.pdb 1922.73 -‐11740.19 1
Brn3a.BL00080001.pdb 1987.86 -‐12320.75 1
Brn3a.BL00090001.pdb 2056.30 -‐12727.31 1
Brn3a.BL00100001.pdb 1993.80 -‐11835.12 1
Puntaje DO
PE por re
siduo
Posición del alineamiento
23
Para validar la estructura tridimensional de Brn3a en interacción con el DNA se usaron los programas Molprobity y QMEAN. Los valores obtenidos en la página web QMEAN del Instituto Suizo de bioinformática fueron los mencionados a continuación. El modelo generado presentó una estructura más estable en la región interdominio entre los dos dominios respecto al modelo tridimensional de Brn3a que no incluía el ADN como se muestra en la figura 11. El error de plegamiento se disminuyó a 4 Å en la región interdominio. Un valor Z = 0.03. El valor Z representa una estimación de la calidad absoluta del modelo relacionándola con las puntuaciones obtenidas por las estructuras de referencia resueltas experimentalmente mediante cristalografía de rayos X. El valor Z mientras más cercano a 0 es un modelo más similar a los modelos resueltos experimentalmente por cristalografía de rayos X. Un valor global QMEAN = 0.753% (mientras mas cercano a 1 es más adecuado). La función de puntuación QMEAN estima la calidad global de los modelos en base a la combinación de seis descriptores estructurales (torsión, solvatación, desviaciones de carbonos β, relación SSE y relación ACC) . El primer valor obtenido fue el valor de torsión fue de -‐1.25 (indica si los ángulos Ψ (psi) y Φ (phi) están en una conformación correcta). El valor de solvatación fue de -‐1 (mientras mayor a 0 es un valor más adecuado) el cual indica el grado de exposición de los aminoácidos. El valor de las desviaciones de carbonos β fue de -‐1.33 (mientras mayor a 0 es un valor más adecuado). El valor de carbonos β indica si la interacciones de los carbonos son adecuadas. El valor de interacción de los átomos fue de 0.63 (mientras mayor a 0 es un valor más adecuado). El valor de interacción de todos los átomos indica si hay impedimentos estéricos en la conformación. La relación-‐SSE la cual es la correlación entre la estructura secundaria predicha de la secuencia blanco (con el programa PSIPRED) y la estructura secundaria calculada del modelo (con el programa DSSP) fue de -‐0.40 (mientras mayor a 0 es un valor más adecuado). El valor de relación-‐SSE indica si la estructura calculada posee una conformación correcta. El valor de la relación-‐ACC que corresponde a la relación entre la accesibilidad a solventes relativa predicha usando el algoritmo ACCpro (aminoácidos enclaustrados/expuestos) y la accesibilidad relativa a solventes derivado del programa DSSP (> 25% de accesibilidad è expuesta) fue de 0.40 relación-‐SSE. Estos datos se muestran en la figura 12. El error estimado de los residuos aminoacídicos es visualizado utilizando un gradiente de color de azul (regiones más estables) a rojo (regiones mas inestables, debido a que presentan un error estimado superior a 3,5 Å) tal como se muestra en la figura 12.
Figura 11. A la derecha se presenta la estructura tridimensional de Brn3a unida a DNA, se muestra en gradiente de color de azul (mas preciso) a rojo (menos preciso) los Å de error la región del enlazador (en rojo) la cual presenta mas de 3.5 Å de error, a la izquierda se muestran los valores de torsión, solvatación, interacción de átomos y Cβ, relación SSE, relación
Valor Z
24
ACC, donde al final de la barra se observa el valor de cada uno de estos criterios, la barra negra indica que tan beneficioso o perjudicial es cada valor para la estabilidad de la proteína. En la tabla 10 se muestran los valores Ψ (psi) y Φ (phi). Estos valores están clasificados según su estado conformacional (favorable, permitido y atípico). El estado conformacional indica si los pares de ángulos Ψ (psi) y Φ (phi) que conforman la estructura secundaria de una proteína están en la posición correcta. Estos ángulos definen regiones del diagrama de Ramachandran que corresponden a elementos de estructura secundaria (helices alfa y láminas beta). En este caso se muestran los resultados para el archivo pdb de la interacción Brn3a-‐ADN. Como se puede observar solo se presentó un ángulo desfavorable en el aminoácido número 38 el cual corresponde a una prolina ver figura 12. Mediante la tabla 10 se observó que el 99.3% de los ángulos poseen una adecuada conformación, solo el 0.6% posee una conformación inadecuada. Tabla 10: Cantidad de ángulos diédricos Ψ (psi) y Φ (phi) favorables permitidos y atípicos que del total de aminoácidos de la estructura tridimensional Brn3a-‐ADN. En la figura 12 se muestra por medio de los diagramas de Ramachandran descargados de la página web de Molprobity. En el diagrama de Ramachandran se muestran todas las combinaciones posibles de ángulos diédricos Ψ (psi) contra Φ (phi). Basándose en cálculos en los que se utilizan radios de Van der Waals y ángulos de enlace conocidos, las conformaciones consideradas posibles son las que entrañan poca o ninguna interferencia estérica. Las áreas limitadas de azul claro reflejan conformaciones sin solapamiento estérico y por lo tanto están totalmente permitidas; el área limitada por el azul obscuro indica conformaciones que están permitidas sí se permite cierta flexibilidad en los ángulos de enlace. La estereoquímica de los residuos L-‐aminoácidos origina la asimetría de la representación. Las representaciones para otros residuos aminoácidos de la serie L sin ramificaciones en sus cadenas laterales son prácticamente idénticas. Los márgenes permitidos para los residuos aminoácidos ramificados tales como Val, Ile y Thr son algo más pequeños que para Ala. El residuo de Gly, el que tiene menos impedimentos estéricos, presenta un margen mucho más amplio de conformaciones permitidas. El margen para los residuos de Pro esta muy restringido debido a que el valor de Φ (phi) está limitado a un margen entre -‐35° a -‐85° debido a su cadena lateral cíclica. Por lo tanto como se observó en el residuo aminoácidica número 38 que corresponde a una prolina, este aminoácido posee la capacidad de encontrarse en un ángulo cis y trans y la configuración del enlace peptídico de la prolina dependerá específicamente de las fuerzas generadas por la estructura tridimensional plegada única de cada proteína. El valor del ángulo Φ (phi) que fue de -‐40° se encontró dentro de los límites permitidos para este aminoácido no sino para su ángulo Ψ (psi) que fue de 90°. Esto indicó que es posible que su ángulo estuviera en el lugar incorrecto debido a un inadecuado plegamiento tridimensional de la proteína Brn3a encontrada en el archivo pdb que se analizó. Este plegamiento incorrecto se resolverá en la minimización energética posterior.
Zona Brn3a
Favorecida 149 (95.5%) Permitida 6 (3.8%) Atípica 1 (0.6%)
25
Figura 12. Se presentan los gráficos de Ramachandran de la estructura de interacción Brn3a-‐ADN, de izquierda a derecha en orden de aparición se muestra el gráfico general de la estructura donde se presenta en el limite del gráfico el residuo No 49 correspondiente a cisteína, este residuo no se no se tomo en cuenta en la validación final debido a que se
Caso general
Valina e Isoleucina
Prolina
Glicina
Trans-‐prolina
Cis-‐prolina
95.5% (149/156) de los residuos se encuentran en la región ideal (98%). 98.7 % (154/156) de los residuos se encuentran en la región limite (99.8%).
26
encuentra en región límite del gráfico y en otros gráficos aparece como favorecido, el segundo gráfico presenta los residuos de Valina e Isoleucina, el tercer gráfico se muestran los residuos de pre Prolina, el cuarto los residuos aminoacídicos de Glicina, en el quinto los residuos de trans Prolina en la cual se muestra el residuo No. 38 con un valor atípico por lo cual se deberá modificar su posición espacial mas adelante con dinámica molecular, el sexto y último gráfico presenta solamente los residuos de la Prolina en posición Cis. En la figura 13 se muestran los resultados de las mutaciones de los nucleótidos del archivo pdb de la interacción de Brn3a con el ADN copiado de 2XSD (Brn3a.BL00040001.pdb). Se cambiaron las bases nucleotídicas del archivo pdb y se les hizo coincidir con la región URR de VPH-‐16 con el programa X3DNA. Se presentan en orden de inferior a superior las secuencias obtenidas con el comando mutate bases. La primera secuencia muestra la secuencia nucleotídica de la cadena B y C las contienen las coordenadas en el espacio de los átomos que conforman el ADN del archivo PDB de la proteína 2XSD, el segundo denominado V1 pertenece a la secuencia nucleotídica del subtipo 1 de VPH-‐16 donde se realizaron 5 mutaciones obteniendo como resultado un nuevo modelo (Brn3a_m.pdb), el tercer modelo denominado V2 pertenece a la secuencia nucleotídica del subtipo 2 de VPH-‐16 donde se realizaron 4 mutaciones obteniendo como resultado un nuevo modelo (Brn3a_m2.pdb) URR de VPH-‐16, el cuarto modelo denominado V5 pertenece a la secuencia nucleotídica del subtipo 5 de VPH-‐16 donde se realizaron 4 mutaciones obteniendo como resultado un nuevo modelo (Brn3a_m3.pdb). 153 154 155 156 157 158 159 160 161 162 163
B 5’ A T G C A T G A G G A 3’
C 3’ T A C G T A C T C C 5’ 173 172 171 170 169 168 167 166 165 164
Figura 13. A: Secuencia nucleotídica que se encuentra en la estructura pdb OCT-‐6 (2XSD) indicándose a la izquierda la cadena a la cual pertenecen en el archivo pdb. La secuencia nucleotídica se mutó con el programa X3DNA. V1: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 1 del archivo pdb V1. V2: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 2 del archivo pdb V2. V5: Secuencia nucleotídica de la región URR de VPH-‐16 subtipo 5 del archivo pdb V5. Las letras en negrita indican las bases nucleotídicas que se mutaron. B:
153 154 155 156 157 158 159 160 161 162 163
B 5’ A T G C A A T T A G G 3’
C 3’ T A C G T T A A T C 5’
173 172 171 170 169 168 167 166 165 164
153 154 155 156 157 158 159 160 161 162 163
B 5’ A T G A A T T A T T G 3’
C 3’ T A C T T A A T A A 5’
173 172 171 170 169 168 167 166 165 164
153 154 155 156 157 158 159 160 161 162 163
B 5’ A T G A G T T A T T G 3’
C 3’ T A C T C A A T A A 5’
173 172 171 170 169 168 167 166 165 164
2XSD
V1
V2
V5
B A
27
Representación esquemática del modelo de Brn3a-‐ADN donde se representa el ADN en forma de palos y la proteína en forma de lazos.
7.2.2 Determinación de la energía del complejo proteína-‐ADN
En la serie de figuras número 14 se presentan los resultados de la minimización energética en forma de gráfica de la estructura tridimensional en formato PDB de cada modelo de Brn3a en unión a la secuencia nucleotídica de cada subtipo de VHP-‐16. Se repitió la minimización energética para cada conformación a analizar (complejo ADN-‐proteína, ADN solo, proteína sola correspondiente a cada uno de los tres subtipos de VPH-‐16). Se muestran en orden ascendente a descendente subtipo 1 (figura 13 A), subtipo 2 (figura 13 B), y subtipo 5(figura 13 C). Se observó como se equilibro la energía potencial de cada molécula mostrada a la derecha y la energía total de cada molécula mostrada a la izquierda contra el tiempo de 5 picosegundos. En cada grafica de la figura 13 se presenta de color negro la serie de datos correspondiente al complejo (Brn3a-‐ADN), en rojo la serie de datos correspondiente a la proteína (Brn3a) y de color verde la serie de datos correspondiente al ADN (secuencia nucleotídica de cada subtipo correspondiente a cada modelo pdb. En todas las gráficas de la figura 13 observamos que no hay cambios abruptos en la energía potencial y total del sistema debido a que alcanzan una fase estacionaria. En base a estos resultados se concluyó que se alcanza un equilibrio termodinámico demostrando que el sistema es estable después de la minimización energética.
Ene
rgía (K
cal/m
ol)
Ene
rgía (K
cal/m
ol)
Tiempo (ps) Tiempo (ps)
Energía potencial Energía total
Figura 14 A: Subtipo 1
28
Figura 14. Se muestran en orden ascendente a descendente los resultados de la minimización energética donde se equilibró la energía potencial y energía total de cada molécula de cada uno de los complejos Bn3a en unión al ADN de la región URR de cada subtipo de VPH-‐16. Las figuras mostradas a la derecha presentan la energía total de cada molécula contra el tiempo total que fue de 5 picosegundos, los gráficos mostrados a la izquierda presentan la energía potencial de cada molécula contra el tiempo total que fue de 5 picosegundos. Figura 14 A: Subtipo 1. Figura 14 B: Subtipo 2. Figura 14 C: Subtipo 5. En la tabla 11 A se presentan las energías totales de las moléculas que conforman cada uno de los tres modelos de interacción en formato pdb de Brn3a con la región URR de los tres subtipos de VPH-‐16. Se muestra la energía de cada molécula en kcal/mol previo al calculo de la simulación de la dinámica molecular. Se denominaron de la siguiente manera VPH16V1 (subtipo 1), VPH16V2 (subtipo2), VPH16V5 (subtipo 5). Para calcular la energía utilizamos la ecuación de la sumatoria de energía total del sistema mostrada a continuación.
𝐸!"#$%&'" − 𝐸!"#$%í!" − 𝐸!"# = 𝐸!"#ó! Ecuación 1. Se presenta la ecuación del calculo de energía de unión de un sistema de 2 o más moléculas utilizado para determinar la energía de unión del complejo Brn3a-‐ADN
Energía total Energía potencial
Ene
rgía (K
cal/m
ol)
Ene
rgía (K
cal/m
ol)
Tiempo (ps) Tiempo (ps)
Energía total Energía potencial
Tiempo (ps) Tiempo (ps)
Ene
rgía (K
cal/m
ol)
Ene
rgía (K
cal/m
ol)
Figura 14 B: Subtipo 2
Figura 14 C: Subtipo 5
29
En la tabla 11 B se muestran los resultados tras la simulación de la dinámica molecular. En la ultima fila se presentan las energías de unión donde observamos al final de segunda columna que la energía de unión del modelo VPH-‐16 subtipo 1 es la que presenta una mayor energía de unión frente a los otros subtipos.
En la serie de figuras n.° 15 se presentan los resultados de la simulación de la dinámica molecular de la estructura tridimensional en formato pdb de cada modelo de Brn3a en unión a la secuencia nucleotídica de cada subtipo de VHP-‐16. Se repitió la simulación de la dinámica molecular para cada conformación a analizar (complejo ADN-‐proteína, ADN, proteína correspondiente a cada uno de los tres subtipos de VPH-‐16). Se muestran en orden ascendente a descendente subtipo 1 (gráfica 6a), subtipo 2 (gráfica 6b), y subtipo 5 (gráfica 6c), en las graficas se presenta como se equilibró la energía potencial (kcal/mol) de cada molécula mostrada a la derecha y la energía total (kcal/mol) de cada molécula mostrada a la izquierda contra el tiempo que fue de 10 ps. En cada grafica se presenta de color negro la serie de datos correspondiente al complejo (Brn3a-‐ADN), en rojo la serie de datos correspondiente a la proteína (Brn3a) y de color verde la serie de datos correspondiente al ADN (secuencia nucleotídica de cada subtipo correspondiente a cada modelo PDB. En todas las graficas observamos que no hay cambios abruptos en la energía potencial y total del sistema por lo que se alcanza un equilibrio termodinámico demostrando que el sistema es estable después de la simulación de la dinámica molecular.
Tabla 11 A: Energía total previo a la simulación molecular.
Tabla 11 B: Energía total al final de la simulación molecular.
30
Energía total Energía potencial
Ene
rgía (kcal/m
ol)
Ene
rgía (kcal/m
ol)
Tiempo (ps)
Ene
rgía (K
cal/m
ol)
Ene
rgía (K
cal/m
ol)
Tiempo (ps) Tiempo (ps)
Energía total Energía potencial
Energía total Energía potencial
Ene
rgía (kcal/m
ol)
Ene
rgía (kcal/m
ol)
Tiempo (ps) Tiempo (ps)
Tiempo (ps)
Figura 15 A: Subtipo 1
Figura 15 C: Subtipo 5
Figura 15 B: Subtipo 2
Tiempo (ps)
31
Figura 15. Se muestran en orden ascendente a descendente los resultados de la simulación de la dinámica molecular. Se presentan en forma de gráfica la energía potencial y energía total de cada molécula de cada uno de los complejos Bn3a en unión al ADN de la región URR de cada subtipo de VPH-‐16. Las figuras mostradas a la derecha presentan la energía total de cada molécula. Los gráficos mostrados a la izquierda presentan la energía potencial de cada molécula. Figura 15 A: Subtipo 1. Figura 15 B: Subtipo 2. Figura 15 C: Subtipo 5. En la serie de figuras 16 se presentan los resultados de la Raíz cuadrada media de la desviación de las posiciones atómicas (RMSD) de los Cα (eje Y) contra el tiempo de la simulación molecular que fue de 10 ps. El RMSD es la medida de la distancia media entre los átomos (por lo general los átomos del Cα) de proteínas superpuestas. Se mide la similitud en la estructura tridimensional por el RMSD de las coordenadas atómicas de los Cα después de la superposición de las coordenadas atómicas de proteínas diferentes (archivos en formato pdb). Las mejores estructuras tienen valores de RMSD para el esqueleto del proteína (cadena de Cα) menores a 1.0 Å, lo que significa que no hay grandes movimientos en el esqueleto o que coexisten diferentes conformaciones en la solución (Andrade et al. 2005). El RMSD de las estructuras tridimensionales en formato pdb obtenidas del proceso de simulación de dinámica molecular, fueron generadas por Amber superponiendo las coordenadas atómicas iniciales de la estructura de interacción de Brn3a-‐ADN contra las nuevas coordenadas atómicas de la misma estructura tras 1 ps se repitió este ciclo con las coordenadas atómicas nuevas comparando las anteriores hasta que se completaron los 1000 picosegundos de la simulación. Se presenta en orden descendente subtipo 1 como figura 15 A, subtipo 2 como figura 15 B y subtipo 5 como figura 15 C. Se delimitaron con líneas punteadas los límites máximos y mínimos que se alcanzaron durante la simulación molecular en el RMSD de las 3 estructuras pdb analizadas y se indicó con una línea sin puntos la media. En base a los resultados se determinó que los sistemas fueron conformacional y termodinámicamente estables debido a que no hubo cambios abruptos o terminación del RMSD antes de los 1000 ps. El sistema se mantiene en un rango promedio de 1.65 Å durante la simulación molecular con un rango de cambios de ± 1.8 Å. Esto validó el proceso de la determinación de la energía del complejo proteína-‐ADN y se puede proceder a la optimización del modelo.
M
LS
LI
Figura 16 A: Subtipo 1
32
Figura 16. Se muestran en orden descendente las gráficas del RMSD de los Cα de las estructuras pdb obtenidas del proceso de simulación de dinámica molecular contra los 1000 picosegundos de la simulación. Se presenta en orden descendente subtipo 1 como figura 15 A, subtipo 2 como figura 16 B y subtipo 5 como figura 16 C. LS: limite superior. M: media. LI: limite inferior.
M
LS
LI
M
LS
LI
Figura 16 C: Subtipo 5
Figura 16 B: Subtipo 2
33
7.2.3 Optimización y cálculo de la energía de interacción de los modelos tridimensionales de interacción de Brn-‐3a con los tres subtipos de VPH-‐16 en forma de logo.
La energía libre de interacción (∆Gunión, Kcal·∙mol-‐1) de los modelos de interacción de Brn3a-‐VPH16 se calculó empleando el método MM-‐PBSA (mecánica molecular área de superficie de Poisson Boltzmann) (Miller et al, 2012), con el módulo GB33 implementado en Amber (MMPBSA.py), (Stymiest L., 2005). Los complejos de interacción Brn3a-‐VPH16 fueron preparados para la dinámica molecular utilizando el programa tleap (Salomon-‐Ferrer R., 2013). Con el campo de fuerza ff99bsc0. Los complejos de interacción Brn3a-‐VPH16 fueron embebidos en una figura octaédrica (TIP3P) de moléculas de agua con un margen de 12 a lo largo de cada dimensión. Se añadieron iones Cloro y Sodio para neutralizar las cargas del sistema. Los sistemas finales fueron conformados por un total de 78549 átomos. Los complejos solvatados fueron equilibrados mediante una corta minimización energética consistente en 300 ps de calentamiento y 300 ps de equilibrado de densidad con restricciones débiles, seguido de 600 ps a presión constante a 300 K. Todas las simulaciones fueron llevadas a cabo bajo agitación de átomos de hidrógeno, en paso de 2 fs, y haciendo uso de la dinámica de Langevin para el control de temperatura de los sistemas. Los resultados fueron graficados en la serie de figuras 17. En la figura 17 A se muestra la densidad del sistema (complejo-‐ADN) en g/cm3 contra el tiempo 600 ps. Se observó como tras alcanzar los 100 ps de simulación el sistema se ha equilibrado a una densidad de aproximadamente 1.015 g/cm3 lo cual es razonable, debido a que la densidad del agua líquida pura a 300 K es de aproximadamente 1,00 g/cm3. En la figura 17 B se observó como la temperatura de nuestro sistema comenzó en 0 K y posteriormente aumentó a 300 K tras alcanzar los 50 ps durante un período de 600 ps, la temperatura se mantuvo constante durante el resto de la simulación que indica el uso de la dinámica de Langevin de regulación de la temperatura tuvo éxito.
Figura 17: A: Densidad del complejo Brn3a-‐VPH16 subtipo 1. B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1.
g/cm
3
Tiempo (ps)
Figura 17 A: Densidad del complejo Brn3a-‐VPH16 subtipo 1.
Figura 17 B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1.
34
Se graficaron la energía total del sistema y el RMSD de los Cα de los modelos de interacción Brn3a-‐VPH16 obtenidos en el paso anterior con Amber (ver figura 18 A y 18 B). Con ello se determinó que los modelos se encontraban adecuadamente equilibrados. En la figura 18 A se observó como la energía aumentó durante los primeros ps que corresponden al calentamiento nuestro sistema de 0 K a 300 K. La energía se mantuvo constante durante el resto de la simulación demostrando la estabilidad termodinámica del complejo de interacción Brn3a-‐VPH16. La figura 18 B corresponde a la gráfica del RMSD durante la simulación no se observo ningún cambio abrupto o interrupción en la continuidad de la grafica lo cual indicaría que el sistema no es estable. El RMSD aumentó durante la simulación hasta estabilizarse a los 170 ps indicando que se puede proceder a la simulación molecular. Se realizaron los mismos pasos para los modelos de interacción Brn3a-‐VPH16 subtipo 2 y subtipo 5. Los tres sistemas se comportaron idénticamente por lo cual se presentan la serie de figuras 17 y 18 solo una ocasión.
Figura 18: A: Energía potencial del complejo Brn3a-‐VPH16 subtipo 1. B: RMSD del complejo Brn3a-‐VPH16 subtipo 1. La fase de la producción de la simulación molecular fue realizada en las mismas condiciones que el proceso de equilibrado previo durante 20 ns, con registro de las coordenadas atómicas cada 10 ps. Para el cálculo de la energía libre de unión y solvatación del complejo fueron utilizados el método MMPBSA como describe (Gohlke & Case, 2004). Los resultados fueron graficados en la serie de figuras 19. En la figura 19 A se muestra la densidad del sistema (complejo-‐ADN) en g/cm3 contra el tiempo 2500 ps. Se observó como tras alcanzar los 100 ps de simulación el sistema se ha equilibrado a una densidad de aproximadamente 1.015 g/cm3 lo cual es razonable, debido a que la densidad del agua líquida pura a 300 K es de aproximadamente 1,00 g/cm3. En la figura 19 B se observó como la temperatura de nuestro sistema comenzó en 0 K y posteriormente aumentó a 300 K tras alcanzar los 50 ps durante un período de 600 ps, la temperatura se mantuvo constante durante el resto de la simulación que indica el uso de la dinámica de Langevin de regulación de la temperatura tuvo éxito. Se graficaron la energía total del sistema y el RMSD de los Cα de los modelos de interacción Brn3a-‐VPH16 obtenidos en el paso de equilibramiento del sistema con Amber (ver figura 19 A y 19 B). Con ello se determinó que los modelos se encontraban adecuadamente equilibrados. En la figura 19 C se observó como la energía aumentó durante los primeros ps que
g/cm
3 Ene
rgía (kcal/m
ol)
RMSD
Figura 18 A: Energía potencial del complejo Brn3a-‐VPH16 subtipo 1.
Figura 18 D: RMSD del complejo Brn3a-‐VPH16 subtipo 1.
35
corresponden al calentamiento nuestro sistema de 0 K a 300 K. La energía se mantuvo constante durante el resto de la simulación demostrando la estabilidad termodinámica del complejo de interacción Brn3a-‐VPH16. La figura 19 D corresponde a la gráfica del RMSD durante la simulación no se observo ningún cambio abrupto o interrupción en la continuidad de la grafica lo cual indicaría que el sistema no es estable. Esto se llevo a cabo durante 20 ns repitiendo los pasos de la simulación por 2500 ps por 8 veces para completar los 20 ns. 20 ns es el tiempo mínimo establecido para aceptar los resultados de una simulación de dinámica molecular (Gohlke & Case, 2004).
Figura 19: A: Densidad del complejo Brn3a-‐VPH16 subtipo 1. B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1. C: Energía total del complejo Brn3a-‐VPH16 subtipo 1. D: RMSD del complejo Brn3a-‐VPH16 subtipo 1. En la tabla 12 se presentan las energías totales de las moléculas que conforman cada uno de los tres modelos de interacción Brn3a-‐VHP16 en unión a la secuencia nucleotídica de cada uno de los tres subtipos de VPH-‐16 denominados VPH16V1 (subtipo 1), VPH16V2 (subtipo2), VPH16V5 (subtipo 5), obtenidas por método MMPBSA. Se muestran los resultados tras la simulación de la dinámica molecular, en la primera columna se muestra la energía total en base a dos modelos el de nacimiento general y el Poisson-‐Boltzman, en base a estos dos se
g/cm
3
Figura 19 A: Densidad del complejo Brn3a-‐VPH16 subtipo 1.
Figura 19 C: Energía total del complejo Brn3a-‐VPH16 subtipo 1.
Figura 19 D: RMSD del complejo Brn3a-‐VPH16 subtipo 1.
Tiempo (ps) Tiempo (ps)
Tiempo (ps) Tiempo (ps)
RMSD
Ene
rgía (kcal/m
ol)
K
g/cm
3
Figura 19 B: Temperatura del complejo Brn3a-‐VPH16 subtipo 1.
36
presentan las energías de unión donde observamos al final de segunda columna que la energía de unión del modelo VPH-‐16 subtipo 1 es la que presenta una mayor energía de unión frente a los otros subtipos de VPH-‐16.
Tabla 12. Resultados de la dinámica molecular por MMPBSA
En la figura 20 se muestra las secuencia nucleotídica consenso de la región URR de VPH-‐16 que se une a Brn3a la cual fue formada tomando en cuenta la energía de unión que presenta cada base nucleotídica de los 3 subtipos de VPH-‐16 subtipo 1, subtipo 2 y subtipo 5, obtenida gracias al método MMPBSA. EL logo fue obtenido de la pagina de WebLogo http://weblogo.berkeley.edu . En base a los resultados obtenidos se concluyó que las bases nucleotídicas más conservadas en las secuencias son la timina en la 2da posición, la adenina en la 3ra posición, adenina en la 4ta posición, la guanina en la 7ma posición, citosina en la 8va posición, adenina en la 9 posición y timina en la 10ma posición. Esto indico que son las bases nucleotídicas TAA son las que hacen interacción especifica con la hélice alfa-‐3 del subdominio POUS de Brn3a permitiendo la unión con el ADN mediante los aminoácidos Glicina 45 y Serina 46. Mientras que las bases nucleotídicas GCAT son las que hacen contacto con la hélice alfa-‐3 del subdominio POUH mediante los aminoácidos Glicina 147 , Argenina 146 y Argenina 139. Estas interacciones son las esperadas debido a que fueron reportadas anteriormente en proteínas con alta homología a Brn3a como Pit1, Oct1 y Brn5 (Pereira & Kim, 2009).
Figura 20. Secuencia nucleotídica consenso de la región URR de VPH-‐16 .
8. Discusión
Se establececio un modelo tridimensional de interacción del factor de transcripción humano Brn-‐3a con la región URR de tres subtipos de VPH-‐16 para el diseño de una vacuna génica contra el CaCu, se realizó el presente proyecto en tres etapas: primera etapa, se construyó y validó un modelo tridimensional de la proteína Brn-‐3a. segunda etapa, se construyó y validó el modelo tridimensional de interacción de la proteína Brn-‐3a con la región URR de tres subtipos de VPH-‐16. Tercera etapa, se optimizaron los modelos tridimensionales de interacción de Brn-‐3a con cada uno de los tres subtipos de VPH-‐16 y se calcularon las energías de interacción del
37
complejo proteína-‐ADN. Al no contar con una hipótesis que probar solo se presentaron los resultados del presente trabajo Para concretar el presente trabajo no hubo problemas mayores con los sistemas operativos usados, puesto que están basados en la plataforma UNIX, más sin embargo fue necesario homologar las librerías de python en ambos sistemas operativos y actualizar versiones del software utilizado para que fueran las mismas en ambos sistemas, esto fue necesario para ejecutar Modeller y Amber, el segundo obstáculo fue compilar el software AMBER, Amber esta basado en C++, la compilación completa del programa tomo un día entero debido a las múltiples librerías y códigos necesarios que fueron descargados en automático por el programa de la red, en un comienzo falló la compilación del programa debido a que tanto Ubuntu como MAC OSX fueron actualizados y con ello se eliminaron algunas rutas de acceso y librerías necesarias por el compilador. Fue necesario la instalación de otras herramientas para que fuera completado el proceso de compilación, una vez instalado y probado el software para validar la correcta compilación se comenzó a programar, se utilizó Amber el cual esta basado en fortran uno de los primeros lenguajes de programación. En cuanto a los resultados del experimento cabe mencionar los siguientes puntos, el primero de ellos fue el tiempo de ejecución puesto que fue extremadamente largo para algunos programas, es decir días, mientras que para otros solo tomo unos minutos ejecutar los comandos; como segundo punto fue aplicar correctamente los códigos y controladores de Amber y Modeller para escribir los programas que calcularon la energía de unión por el modelo de Poisson – Boltzman. Con los resultados obtenidos se interpretó la manera en las interacciones de la proteína como afectan la energía de unión del complejo ADN – proteína, concluyendo que secuencia posee mayor afinidad al sitio de reconocimiento de la proteína Brn3a. La metodología MMPBSA nos permitió resolver por medio de un procedimiento mas preciso la energía de unión del complejo ADN-‐proteína, aunque los recursos necesarios para dicho procedimiento fueron altamente demandantes por ejemplo el tiempo de simulación en una sola computadora para una sola simulación de la dinámica molecular fue reducido de un mes a solo 78 horas en 96 procesadores, esto fue posible gracias a los recursos del Centro Nacional de Supercómputo, utilizando la supercomputadora en clúster Tubaat Kaal fue posible realizar todos los cálculos con el tiempo de 20 nanosegundos el cual es el mínimo permitido para publicar los datos en una revista internacional. Los cálculos de estructuras tridimensionales de proteínas por homología ofrecen una poderosa base para los métodos que predicen las características estructurales de una nueva proteína sin estructura 3D resuelta, basándose en su similitud con estructuras 3D de proteínas conocidas y sus secuencias de proteínas. La similitud en la secuencia completa o en un fragmento de gran tamaño, permite la predicción y modelización de todos los dominios estructurales, mientras que las estadísticas derivadas de las distribuciones de las características locales de estructuras de proteínas conocidas permite que sea posible predecir características de las proteínas con estructuras 3D desconocida. En nuestro caso se tiene conocimiento de proteínas con dominios altamente idénticos en secuencia aminoácidica como la familia de proteínas POU, es el primer reporte que se hace sobre un modelo por homología de la proteína Brn3a, asociada a las enfermedades oncogénicas especialmente a CaCu, lo que permite proponer el presente modelo como una herramienta importante para el estudio estructural y de funciones de la mencionada proteína, de tal manera que se desarrollen propuestas de investigaciones adicionales. Mas sin embargo ha sido de gran soporte los modelos 3D generados por homología y validados por cristalografía de rayos X de otras proteínas de la familia POU, como demostró Gopalsamy et. al. 2004, Calista K. et. al. 2005, el dominio POU es un dominio proteico altamente conservado y que puede ser modelado a partir de la secuencia aminoácidica con una precisión del 90% si la identidad en secuencia es mayor al 70%. La respuesta del trabajo actual no solo recae en la propuesta de un modelo para la proteína Brn3a humana, sino en la validación del modelo por diversos métodos, para proponer un modelo confiable y realista. A pesar de iniciar con una plantilla
38
molde con de 54% de similitud en la secuencia de aminoácidos, cuando la semejanza de la secuencia entre la plantilla molde y la secuencia del problema es inferior al 42%, se aumenta la probabilidad que el modelo resultante sea inapropiado, lo cual queda bien definido por el efecto denominado zona de incertidumbre (Rost 1999), en nuestro caso no sucedió de esta manera por lo que los modelos generados presentaron una baja incertidumbre, por lo tanto los modelos generados fueron confiables. La zona de incertidumbre permite establecer que el modelo obtenido es bueno, ya que a pesar de iniciar con una plantilla molde de una similaridad no muy alta, produjo un resultado validado por diversas herramientas bioinformáticas, que permite aproximar nuestro modelo a una realidad biológica. En comparación de los resultados y metodología utilizados por (Diaz et. al., Sali et. al., Wolf et. al.) en todos ellos es posible construir un modelo tridimensional de la región o dominio, en nuestro caso el dominio POU con la mayor identidad en secuencia aminoácidica a la proteína objetivo, a pesar de ello aun es complicado obtener modelos de la proteína completa debido a la baja identidad en secuencia y la ausencia de modelos similares, no solo los dominios activos o regiones funcionales de estas, sin embargo los modelos generados posen una buena estereoquímica. Para validar los modelos creados se utilizo la herramienta DOPE utilizada por Sali et. al., este método de validación fue contrastado con el servidor QMEAN del portal swissprot, se comprobaron los valores Qmean y Z-‐score de los modelos. El valor Qmean mide los errores de modelo comparándolo con los modelos no redundantes del mismo tamaño, estimando su fiabilidad entre 0-‐1 (0-‐ 100%). El Z-‐score medio de un modelo de Rayos X de alta resolución es de 0. La evaluación de la calidad de un modelo es un aspecto clave desde que se desarrollaron los primeros métodos de predicción de estructura de proteínas, siendo importante resaltar que el modelo presente que se propone, se evaluó positivamente con el empleo de diversos métodos de validación de uso internacional mas ampliamente usados fue el de los diagramas de Ramachandran, la ubicación de los ángulos y de las torsiones de los enlaces de los aminoácidos que forman la estructura secundaria evaluada se encuentran dentro de niveles aceptados y permitidos, obteniéndose una validación suficiente para el modelo propuesto como se observa en la figura 12. Se utilizo el programa Amber 12 para el calculo de la energía de interacción de Brn3a-‐ADN tal como se utiliza en la metodología utilizada por Wang et. al. Con el campo de fuerza parm99SB, un modelo de agua implícito y sin punto de exclusión se generaron los archivos de topología y las coordenadas de los átomos para el complejo, ADN y proteína. Una ventaja de Amber es que el programa Tleap agrega automáticamente los hidrógenos y revisa las interacciones entre los átomos generando una reporte donde presenta los átomos que pueden presentar impedimentos estéricos. Un punto importante es tener presente la configuración de los protones, le permite a uno para comprobar el estado de protonación de los residuos protonables. Por defecto tleap utiliza los estados de protonación más comunes para estos residuos. Por ejemplo, para el residuo aminoacidico histidina HIS su forma predeterminada de protonación es ε. Se tuvo especial cuidado con los aminoácidos CIS, HIS y GLU en el presente trabajo debido a que su carga afectaría etapas posteriores del cálculo. Con los archivos de topología se realizó una minimización energética para posteriormente correr pruebas de dinámica molecular obteniendo la energía de estabilización del complejo. Para el cálculo de las energías con AMBER, las posiciones de los hidrógenos fueron minimizadas primero esto es necesario como determinan trabajos previos como el de Wang et. al., García et. al., esto es debido a que pequeños cambios en las distancias entre los átomos pueden afectar la energía de unión gran medida. La aplicación de procedimientos de minimización significa que una mutación en una base posiblemente afecta la energía en otra base, en otras palabras, los resultados de las mutaciones en diferentes posiciones de base serán no aditivos. Se realizo la minimización y para evitar choques estéricos, se permitió el reacomodo libre de átomos de hidrógeno y bases nucleicas. Se limito el movimiento de la proteína y la cadena de
39
ADN mediante muelles con una constante de 1.0 kcal/(molA2). Se aplicaron 2500 pasos de minimización con el método “steepest descent” y 2500 pasos de minimización con el método del gradiente conjugado para asegurar la convergencia de los modelos generados, para nuestro modelo de solvente implícito usamos el modelo GB de Hawkins, Cramer y Truhlar. Tras calentar y equilibrar los tres sistemas comprobamos la estabilidad de nuestra minimización energética, que puede ser afectada debido a la inestabilidad, falta de hidrogenación y otras variables. En la serie de graficas 5 observamos que no hay cambios abruptos en la energía potencial del sistema y se alcanza un equilibrio demostrando que el sistema es estable después de la minimización. Se repitió la minimización energética para cada conformación a analizar (complejo ADN-‐proteína, ADN, proteína de los tres subtipos de VPH-‐16). Comprobamos en la serie de graficas 16 con el RMSD la adecuada conformación de el complejo ADN-‐proteína para los 3 modelos analizados, en relación al calculo de la energía de unión del complejo fueron obtenidos los 3 datos de cada uno de los subtipos de VPH-‐16 resultando VPH-‐16 subtipo 1 como el modelo con la mayor energía de unión frente a los otros dos modelos, este resultado sin embargo debe ser optimizado de una manera más precisa para calcular con mayor precisión la energía de unión para esto utilizaremos el método MMPBSA. Los modelos utilizados en paso anterior fueron solvatados en una caja octaédrica de aproximadamente 18 mil moléculas de agua usando el sistema modelo TIP3P el fin de imitar el comportamiento fisiológico de las moléculas debido a que Brn3a es una proteína citológica debe estar solubilizada en agua. En el presente los tres modelos de interacción DNA-‐proteina fueron equilibrados, calentados y su carga eléctrica fue igualada a 0 con el fin de evitar que las cargas de las cadenas de ADN y los grupos funcionales de los aminoácidos causaran interacciones con la simulación molecular, en comparación con la metodología utilizada en el trabajo realizado por Furini et. al., se utilizó una mayor capacidad de cómputo con un total de 96 procesadores en 6 nodos del cluster Tubat Kaal del CNS, lo cual facilito la obtención de resultados, una vez obtenida la equilibración inicial de los datos se procedió al protocolo de la simulación molecular la cual tomo un total de 78 por cada uno de los modelos de interacción Brn3a-‐ADN de la secuencia de VPH-‐16, tras ejecutar la simulación molecular procedimos al protocolo MMPBSA, con el cual se obtuvieron las energías de unión siendo de nueva cuenta el subtipo 1 el de mayor energía de unión, esto es un resultado esperado debido a que la literatura señala la correlación entre la expresión del RNAm de Brn3a y el RNAm del gen E6 de VPH-‐16 subtipo 1 con una r = 70 (Ndisang et. al. 2006), mientras que el subtipo 2 posee una r = 80, en base a esto debemos analizar mas a fondo las interacciones de otros promotores rio arriba de esta región puesto que podemos determinar que aunque Brn3a presenta una mayor afinidad por la secuencia de VPH-‐16 subtipo 1, el subtipo 2 presenta una mayor correlación con la expresión de el oncogén E6, la respuesta yace nuevamente en las regiones rio arriba de esta secuencia donde se unen mas promotores de transcripción los cuales pueden incrementar la expresión y la interacción de Brn3a con la secuencia de VPH-‐16, Ndisang et. al. determina 4 mutaciones rio arriba y una deleción de 38 pb en el subtipo 2, de las cuales cabe mencionar a la deleción como un optimizador de la unión de diversos promotores debido a la mayor proximidad entre ellos ocasionada por la deleción, este estudio puede servir como una manera de trabajar para diseñar un modelo de vacuna génica contra VPH -‐16 con la información generada. En base a los resultados se concluyo que el modelo propuesto de interacción Bnr3a – VPH16 es un modelo con una adecuada conformación debido a que cumplió con los parámetros físicos y estequiométricos de estabilidad. Por lo tanto fue posible llegar a desarrollar un modelo de interacción con el cual se pueden desarrollar modelos moleculares de vacunas génicas contra el VPH específicamente para la variante 16 del virus. Estos modelos funcionarían como agentes competitivos contra el virus los cuales no evitarían necesariamente que lleve a cabo su ciclo de replicación viral sino evitarían que los oncogenes fuesen activados en este virus, con esto se propone reducir la mortandad por metástasis del cáncer ocasionado por la detección tardía de
40
VPH, este modelo además serviría como una guía para implementar otros agentes que controlen el nivel de expresión de estos oncogenes. Por lo tanto es posible desarrollar una vacuna génica con la secuencia nucleotídica de VPH-‐16 subtipo 1 para disminuir la progresión a cáncer cérvicouterino. La presente metodología permitirá desarrollar una metodología mas accesible que el scrennig molecular para desarrollar fármacos altamente específicos.
9. Literatura citada
1. Agosti, J.M. & Goldie, S. J., 2007. Introducing HPV Vaccine in Developing Countries -‐Key Challenges and Issues New England Journal of Medicine 2007; 356:1908-‐1910.
2. Anfisen, C.B., 1973. Principles that govern the folding of protein chains. Science. 1973 Jul 20;181(4096):223-‐30.
3. Ben-‐David, M et. al., 2009. Assessment of CASP8 structure predictions for template free targets. Proteins , 77 Suppl 9, 50-‐65.
4. Benkert, P., Künzli, M. & Schwede, T., 2009. QMEAN server for protein model quality estimation. Nucleic Acids Research, 37 (Web Server issue), W510-‐514.
5. Clifford, G. Et. al., 2006. Chapter 3: HPV type-‐distribution in women whit and without cervical neoplasic diseases. Vaccine, 24 (Supplement 3), S26-‐S34.
6. Costanzi, S., 2008. On the applicability of GPCR homology models to computer-‐aided drug discovery: a comparison between in silico and crystal structures of the β2-‐adrenergic receptor. Journal of Medicinal Chemistry, 51(10), 2907-‐2914.
7. Dalton, J. A., Jackson, R.M., 2007. An evaluation of automated homology-‐modelling methods at low target–template sequence similarity. Bioinformatics, 23(15), 1901-‐1908.
8. Dawson, S. J. et al., 1996. The ability of POU family transcription factors to activate or repress gene expression is dependent on the spacing and context of their specific response elements. Biochemical Journal, 314(Pt 2), 439-‐443.
9. Ding, F. et al., 2008. Ab Initio folding of proteins with all-‐atom discrete molecular dynamics. Structure (London, England: 1993), 16(7), 1010-‐1018.
10. Floudas, C. et al., 2006. Advances in protein structure prediction and de novo protein design: A review. Chemical Engineering Science, 61(3), 966-‐988.
11. Guerrero, M.R. et al., 1993. Brn-‐3.0: a POU-‐domain protein expressed in the sensory, immune, and endocrine systems that functions on elements distinct from know octamer motifs. Proceedings of the National Academy of Sciences of the United States of America, 90(22), 10841-‐10845.
12. Gloss, B. et al., 1987. The upstream regulatory region of the human papilloma virus-‐16 contains an E2 protein-‐independent enhancer which is specific for cervical carcinoma cells and regulated by glucocorticoid hormones. The EMBO Journal, 6(12), 3735-‐3743.
13. Gohlke, H., Case, D., 2004. Converging Free Energy Estimates: MM-‐PB(GB)SA Studies on the Protein–Protein Complex Ras–Raf , J Comput Chem 25: 238–250, 2004.
14. Herr, W., Cleary, M.A., 1995. The POU domain: versatility in transcriptional regulation by a flexible two-‐in-‐one DNA-‐binding domain. Genes and Development, 9(14), 1679-‐1693.
15. Ho, G.Y. et al., 1998. Natural history of cervic-‐vaginal papillomavirus infection in young women. N. England Journal Medicine, 338(7), 423-‐428.
16. Jamal Rahi, S. et al., 2008. Predicting transcription factor specificity with all-‐atom models. Nucleic Acids Research, 36, 6209-‐6217.
17. Jauch, R. et al., 2007. Assessment of CASP7 structure predictions for template free targets. Proteins: Structure, Function and Bioinformatics, 69(S8), 57-‐67.
41
18. Kämmer, C. et al., 2002. Variants of the long control region and the E6 oncogene in European human papillomavirus type 16 isolates: implications for cervical disease. British Journal of Cancer, 86(2), 269-‐273.
19. Koehl, P., Delarue, M., 1994. Applications of a self-‐consistent mean field theory to predict protein side chains conformation and estimate their conformational entropy. Journal of Molecular Biology, 239(2), 249-‐275.
20. Levitt. M., 1992. Accurate modeling of protein conformation by automatic segment matching. Journal of Molecular Biology. 226(2), 507-‐533
21. Li, P. et al. 1993. Spacing and orientation of bipartite DNA binding motifs as potential functional determinants for POU domain factors. Genes and Development, 7(12B), 2483-‐2496.
22. Lowy, D. R., 2006. Prophylactic human papillomavirus vaccines. Journal of Clinical Investigation, 116(5), 1167-‐1173.
23. Morris, P. et al., 1993. The octamer binding site in the HPV16 regulatory region produces opposite effects on gene expression in cervical and non-‐cervical cells. Nucleic Acids Research., 21(4), 1019-‐1023.
24. Morris, P. et al., 1997. A single residue within the homeodomain of the Brn-‐3 POU family transcription factors determines whether they activate or repress the SNAP-‐25 promoter. Neuroreport , 8(8), 2041-‐2045.
25. Morris, P. et al., 1994. The opposite and antagonistic effects of the closely related POU family transcription factors Brn-‐3a and Brn-‐3b on the activity of a target promoter are dependent on differences in the POU domain. Molecular Cell Biology., 14(10), 6907-‐6914.
26. Ndisang, D. et al., 2001. The Brn-‐3a transcription factor plays a key role in regulating the growth of cervical cancer cells in vivo. Oncogene, 20(35), 4899-‐4903.
27. Ndisang, D., Budhram-‐Mahadeo, V., Latchman, D. S., 1999. The Brn-‐3a transcription factor plays a critical role in regulating human papilloma virus gene expression and determining the growth characteristics of cervical cancer cells. Journal of Biological Chemistry, 274(40), 28521-‐28527.
28. Ndisang, D. et al., 2006. Diferential regulation of different human papilloma virus variants by the POU family transcription factor Brn-‐3a. Oncogene, 25(1), 51-‐60.
29. Ndisang, D. et al., 1998. The HPV activating cellular transcription factor Brn-‐3a is overexpressed in CIN3 cervical lesions. Journal of Clinical Investigation, 101(8), 1687-‐1692.
30. Nobbenhuis, M.A. et al., 1999. Relation of human papilloma virus status to cervical lesions and consequences for cervical-‐cancer screening: a prospective study. The Lancet, 354 (9172), 20-‐25.
31. O´Sullivan, O. et al., 2004. 3DCoffee: combining protein sequences and structures within multiple sequence alignments. Journal of Molecular Biology, 340(2), 385-‐395.
32. Paavonen, J., 2007. Human papilloma virus infection and the development of cervical cancer and related genital neoplasia. International Journal of Infectious Diseases, 11, S3-‐S9.
33. Parkin, D.M., Bray, F., 2006. Chapter 2: The burden of HPV-‐related cancers. Vaccine, 24 (Supplement 3), S11-‐S25.
34. Pereira, J. H., Kim, S., 2009. Structure of human Brn-‐5 transcription factor in complex with CRH gene promoter. Journal of Structural Biology, 167(2), 159-‐165.
35. Petrey, D. et al., 2003. Using multiple structure alignments fast model building, and energetic analysis in fold recognition and homology modeling. Proteins, 53 Suppl 6, 430-‐435.
36. Rapose, A., 2009. Human papilloma virus and genital cancer. Indian Journal of Dermatology, Venereology and Leprology, 75(3), 236-‐243; quiz 243-‐244.
37. Rohs, R., et al. 2009. Nuance in the double helix and its role in Protein-‐DNA recognition. Current opinion in structural biology, 19(2), 171-‐177.
42
38. Sali, A., Blundel, T. L., 1993. Comparative protein modelling by satisfaction of spatial restrains. Journal of Molecular Biology, 234(3), 779-‐815.
39. Schaeffer, R. D., Fersht, A., Daggett, V., 2008. Combining experiment and simulation in protein folding: closing the gap for small model systems. Current Opinion in Structural Biology, 18(1), 4-‐9.
40. Schwede, T. et al., 2003. SWISS-‐MODEL: An automated protein homology-‐modeling server. Nucleic Acids Research, 31(13), 3381-‐3385.
41. Walboomers, J. M. M., et al., 1999. Human papilloma virus is a necessary cause of invasive cervical cancer worldwide. The Journal of Pathology, 189(1), 12-‐19.
42. Wallner, B., Elofsson, A., 2005. All are not equal: A benchmark of different homology modeling programs. Protein Science: A Publication of the Protein Society, 14(5), 1315-‐1327.
43. Wolf, M. G., de Leeuw, S. W., 2008. Fast in-‐silico protein folding by introduction of alternating hydrogen bond potentials. Biophysical Journal, 94(10), 3742-‐3747.
44. The World Health Report 1995. Bridging the gaps. World Health Organization, Geneva. http://www.who.int/whr/1995/en/whr95_en.pdf.
45. Estadísticas de mortalidad en México: Muertes registradas en el 2001. Salud Pública de México 2002; 44:565-‐81.
46. Carlson, B. M., 2010, Embriología Humana y Biología del Desarrollo, 3ra edición. 47. Voet, D., Voet, J., 2006, Bioquímica, editorial panamericana, 3ra edición, (pp 314).