Upload
sarai-coraline
View
58
Download
0
Embed Size (px)
Citation preview
BIOINFORMATICA 2001 JOSIFF SAMUEL FLORES REYES
LICENCIATURA EN BIOQUIMICA DIAGNOSTICA 7 DE JUNIO DEL 2014
Herramientas
ExPASy
ASESORAS:
M. EN C. MARITERE DOMNGUEZ ROJAS
P.BQD LARISA ANDREA GONZLEZ SALCEDO
ExPASy es el portal de Recursos de Bioinformtica que lanz el Instituto Suizo de
Bioinformtica (SIB) en junio del 2011, que proporciona acceso a bases de datos
cientficos y le herramientas de software en diferentes reas de la ciencias
biolgicas, incluidas la protemica, la genmica, la filogenia, biologa de sistema,
gentica de poblaciones, transcriptmica, etc.. En este portal se pueden encontrar
muchos recursos pertenecientes a SIB, as como de asociaciones externas.
Liga de acceso: http://www.expasy.org/
1. Barra de bsqueda y lista de las categoras de informacin dentro de la base
de datos, igualmente se aprecia el botn ayuda que nos muestra un breve
tutorial sobre como buscar.
2. Lista desplegable de bases de datos o herramientas de la pgina.
a. Visual Guidance: Muestra de forma grfica diferentes opciones de
bsqueda de lo general a lo particular, sus categoras son: DNA, RNA,
protena, clula, organismo y poblacin.
b. Categories: Muestra las principales categoras como esta organizada
la informacin, al seleccionar alguna se despliegan ms subcategoras
hasta localizar un tema determinado.
c. Resources AZ: Muestra en orden alfabtico las fuentes de
informacin, previendo links de enlaces externos a ExPASy.
d. Links/Documentation: Muestra otros servicios de la plataforma.
C
3. Fuentes populares: Muestra los accesos de sitios asociados a la base de
datos que son de importancia, tales como Uniprot y Prosite.
4. Apartado de actividad resiente en la pgina.
Al igual que otras bases de datos permite realizar la bsqueda de informacin de
forma general en todas la base de datos o ir navegando entre las diferentes
categoras para revisar los recursos disponibles empleado la coincidencia exacta
del trmino a buscar o la deteccin de trminos similares.
Dependiendo la informacin a buscar la plataforma nos provee de enlaces externos
a otras bases de datos o herramientas que nos sirven para el anlisis in silico, siendo
estas herramientas el objetivo de este tutorial, al ser muchas no se abordaran todas
pero si algunas que nos permiten facilitar el labor analtico.
Para ejemplificar el uso de estas herramientas se empleara tanto el gen como la
protena de CTLA4, protena relacionada con la enfermedad celiaca autoinmune
as como la diabetes mellitus.
>gi|15778585|gb|AF414120.1| Homo sapiens CTLA4 (CTLA4) mRNA, complete cds
CTTCTGTGTGTGCACATGTGTAATACATATCTGGGATCAAAGCTATCTATATAAAGTCCTTGATTCTGTG
TGGGTTCAAACACATTTCAAAGCTTCAGGATCCTGAAAGGTTTTGCTCTACTTCCTGAAGACCTGAACAC
CGCTCCCATAAAGCCATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTACCAGGA
CCTGGCCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTGGCCCA
GCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTATGCATCTCCAGGCAAA
GCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAGGTGACTGAAGTCTGTGCGGCAACCT
ACATGATGGGGAATGAGTTGACCTTCCTAGATGATTCCATCTGCACGGGCACCTCCAGTGGAAATCAAGT
GAACCTCACTATCCAAGGACTGAGGGCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTAC
CCACCGCCATACTACCTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAG
ATTCTGACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTCCTCAC
AGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTCTATGTGAAAATGCCC
CCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATTCCCATCAATTGAGAAACCATTATGA
AGAAGAGAGTCCATATTTCAATTTCCAAGAGCTGAGGCAATTCTAACTTTTTTGCTATCCAGCTATTTTT
ATTTGTTTGTGCATTTGGGGGGAATTCATCTCTCTTTAATATAAAGTTGGATGCGGAACCCAAATTACGT
GTACTACAATTTAAAGCAAAGGAGTAGAAAGACAGAGCTGGGATGTTTCTGTCACATCAGCTCCACTTTC
AGTGAAAGCATCACTTGGGATTAATATGGGGATGCAGCATTATGATGTGGGTCAAGGAATTAAGTTAGGG
AATGGCACAGCCCAAAGAAGGAAAAGGCAGGGAGCGAGGGAGAAGACTATATTGTACACACCTTATATTT
ACGTATGAGACGTTTATAGCCGAAATGATCTTTTCAAGTTAAATTTTATGCCTTTTATTTCTTAAACAAA
TGTATGATTACATCAAGGCTTCAAAAATACTCACATGGCTATGTTTTAGCCAGTGATGCTAAAGGTTGTA
TTGCATATATACATATATATATATATATATATATATATATATATATATATATATATATATTTTAATTTGA
TAGTATTGTGCATAGAGCCACGTATGTTTTTGTGTATTTGTTAATGGTTTGAATATAAACACTATATGGC
AGTGTCTTTCCACCTTGGGTCCCAGGGAAGTTTTGTGGAGGAGCTCAGGACACTAATACACCAGGTAGAA
CACAAGGTCATTTGCTAACTAGCTTGGAAACTGGATGAGGTCATAGCAGTGCTTGATTGCGTGGAATTGT
GCTGAGTTGGTGTTGACATGTGCTTTGGGGCTTTTACACCAGTTCCTTTCAATGGTTTGCAAGGAAGCCA
CAGCTGGTGGTATCTGAGTTGACTTGACAGAACACTGTCTTGAAGACAATGGCTTACTCCAGGAGACCCA
CAGGTATGACCTTCTAGGAAGCTCCAGTTCGATGGGCCCAATTCTTACAAACATGTGGTTAATGCCATGG
ACAGAAGAAGGCAGCAGGTGGCAGAATGGGGTGCATGAAGGTTTCTGAAAATTAACACTGCTTGTGTTTT
TAACTCAATATTTTCCATGAAAATGCAACAACATGTATAATATTTTTAATTAAATAAAAATCTGTGGTGG
TCGTTTTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Permite a partir de una secuencia de protena generar en base a una tabla de
codones generar la secuencia de ADN mostrando diferentes marcos como la
secuencia no degenerada de codificacin ms probable, as como una secuencia
consenso derivada de todos los posibles codones para cada aminocido, igual se
puede utilizar para disear cebadores de PCR que deseen hibridarse a una
secuencia de codificacin sin secuencia de una especie relacionada.
Nota: Para todas las herramientas de traduccin o traduccin inversa es importante considerar que
lo nico que se traduce a su protena es el CDS, por lo tanto esta herramienta nos proporcionara el
CDC completo ms no la secuencia de mRNA completa.
Se inserta la secuencia de
aminocidos de la protena de inters
Este apartado es la tabla de codificacin de
codones que se desee utilizar, la
predeterminada es la empleada para la E. coli
Secuencia de nucletidos
con la mayora de los
codones probables.
Secuencia de nucletidos
en base a los codones
consenso.
Lista de probabilidades
por segmentos.
Con la herramienta Translate podemos traducir una secuencia de nucletidos de
ADN o ARN a una secuencia de aminocidos de la protena.
Se selecciona el tipo de formato de salida, el
predeterminado es verbose el cual inicia con el
aminocido metionina y termina con el codn de paro
(UAG, UAA, UGA) tambin esta forma coloca espacios entre cada residuo.
Por ltimo se selecciona el cdigo
gentico que desea emplear para
traducir existen opciones como el
estndar, tipos de decodificacin
genticas mitocondriales y otros. Se
selecciona Translate sequence.
Esta herramienta nos mostrara las posibles traducciones que se pueden realizar de
acuerdo a cada frame, comnmente se selecciona el traducto ms grande, sin
embrago se deben de tomar con cierto grado de asertividad.
Por ejemplo en base a la secuencia del gen CTLA4 su secuencia de aminocidos
ya traducida seria el 53 Frame 3.
Se inserta la secuencia de
nucletidos de DNA o RNA a traducir.
Permite identificar de forma muy rpida los genes involucrados a alguna
enfermedad con registro en Swiss-Prot y/o TrEMBL.
Esto indica que segn MeSH est clasificada como un
sndrome de mala absorcin.
Se reportan las protenas y/o variantes de estas asociadas a la enfermedad.
Se inserta el nombre de la enfermedad (ingles)
Esta herramienta permite estimar la distribucin isotpica terica de un pptido o
protena, un polinucletido o un compuesto qumico a partir de su composicin
(secuencia de aminocidos, secuencia de nucletidos o su frmula qumica.
Tambin Isotopident es capaz de calcular su masa mono isotpica, as como de
predecir la combinacin de isotopo ms probable.
1. Se inserta el nombre de la estructura a predecir
2. Se selecciona el tipo de composicin que se introducir (ej. Secuencia de
nucletidos, secuencia de aminocidos, estructura qumica etc..)
3. Cifras significativas: por defecto, tres dgitos significativos se muestran en la
salida. El usuario puede cambiarlo para obtener los resultados con cuatro,
dos, o incluso un dgito significativo.
4. Se copia el formato FASTA o los caracteres de inters a analizar.
La informacin que se muestra ser la siguiente:
En el primer cuadro nos presenta el nmero de tomos de cada elemento y su respectiva masa, posteriormente
la masa mono isotpica, y la mejor combinacin monoisotpica considerando las interacciones qumicas, en la
parte central es una grafico de distribucin y en la seccin derecha informacin de probabilidad de que suceda
esta combinacin.
Esta si bien no es una herramienta como tal, me pareci importante agregarla para
poder compartirla con mis compaeros Bioqumicos y afines, tal vez solo como una
integracin de toda la bioqumica que nos han enseado y que nos tendramos que
llevar al finalizar, quiz no de memoria pero si conocerla y poder comprender los
diversos procesos metablicos. Aqu podremos navegar sobre cada ruta de forma
independiente o integrada, las ventajas es que est actualizada a los cambios de
nombre que puedan sufrir algunos compuestos y muy completa.
Imagen de Vas metablicas celulares.
Imagen de procesos Celulares y moleculares.
Es un repertorio de informacin con respecto a la nomenclatura de Enzimas. Se
basa en las Recomendaciones del Comit de Nomenclatura de la Unin
Internacional de Bioqumica y Biloga Molecular (IUBMB) y se describe cada tipo de
enzima caracterizada por un nmero otorgado por la Comisin de Enzimas.
Formas de acceder a la Enzima.
Por ejemplo para la xido Ntrico Sintasa se reporta lo siguiente:
Permite buscar los diversos motivos o estructuras de protenas importantes a travs
de su secuencia consenso, empleando alineamientos con otras bases de datos.
Numero de
Clasificacin
de la EC
Nombre de
la Enzima
Otros nombres
que recibe la
enzima
Se inserta solo la secuencia consenso
obtenida de PROSITE.
Imagen de los mltiples alineamientos para la identificacin de la secuencia
consenso.
Se puede dar clic en la entrada para obtener ms informacin, como algunos
sinnimos en oras bases de datos, la imagen del dominio.
Y ms abajo podemos encontrar su funcin, similaridad y otras notas de importancia
biolgica.
Nombre del motivo
o dominio, y su
nmero de EC.
Alineamiento de la
secuencia consenso
contra otras bases
de datos.
Mayor informacin
sobre la entrada.
Y su secuencia de aminocidos
Realiza una bsqueda de dominios y motivos en la base de datos de Pfam,
mediante diversos alineamientos secuenciales, caracterizando as mismo la
probabilidad de que se presente dicho dominio mediante datos estadsticos.
Se debe de introducir el formato FASTA de las secuencias de dominios a analizar,
tambin se pueden hacer alineamientos secuenciales mltiples, se emple la
secuencia que proporcionaba como ejemplo, y se report debajo el dominio que
probablemente es. Este programa trabajo con algoritmos estadsticos que
proporcionan valores de penalizacin para decir el posible error.
Esta herramienta permite identificar los sitios de anclaje de diversos microrganismos
patagones como probables factores de virulencia asociados a este, principalmente
son cadenas de oligosacridos.
Por ejemplo la bacteria Staphylococcus aureus tiene el siguiente sitio de enlace:
Permite la comparacin de diferentes estructuras proteicas determinadas por
diferentes mtodos, aprecindose la similitud entre cada uno de estos y sus
discrepancias. Tambin permite determinar la estructura tridimensional de la
protena con base a la secuencia de aminocidos, realizando comparaciones en las
bases de datos.
Se introduce el nombre del microrganismo a buscar.
Se mostraran las diferentes entradas que se tienen de todas la estructuras de
CTLA4, as como el mtodo de identificacin, la cita de referencia y otros
parmetros como el porcentaje de identidad.
Tambin podemos cambiar de pestaa y apreciar
las diferencia conformacionales entre cada
estructura y visualizarla en un apartado en forma
3D, donde podemos rotarla y hacer algunos
cambios de colores.
Se introduce la secuencia de aminocidos de la protena.
En la misma plataforma podemos insertar la opcin de realizar modelo, donde en
base a la secuencia de aminocidos predice las posibles estructuras y conformacin
tridimensional.
Posible estructura tridimensional de CTLA4 segn SWISS-MODEL
Son un paquete de herramientas de la base de datos EBI, que permiten realizar
traducciones o retro traducciones a partir de la secuencia nucleotdica.
Funciona de forma similar a la herramienta de traduccin antes mencionada, solo
se introduce el formato FASTA del gen a traducir y se selecciona el tipo de cdigo
gentico, es conveniente cambiar el FRAME a todos para poder visualizar el que
mejor convenga y listo se da clic en Submit.
Visualizacin de los 3 primeros Frames
de la secuencia, el correcto es el 3 al
igual que en las herramientas de
ExPASy.
Se inserta el formato FASTA del gen
Permite identificar las regiones de promotores dentro del gen, la interfaz es muy fcil
de manejar solo es necesario introducir el nombre del gen y automticamente se
reportan los contenidos de diversas bases de datos de ENSEMBL.
Secuencias
promotoras
del gen CTLA4
en H. sapiens
Introducir nombre del gen
Esta herramienta es an ms integrativa porque permite realizar la transcripcin y
traduccin de forma ms rpida y directa, sin embrago no nos permite visualizar
diferentes marcos de lectura; es decir, solo transcribe y traduce de forma lineal.
Esta herramienta es sumamente fcil de utilizar, solo se debe de ver que secuencia
se tiene, por ejemplo yo tengo la secuencia de mRNA del gen CTLA4, por lo tanto
lo introduzco al apartado de DNA sequence y lo nico que esta har ser cambiar
todas las Timinas por Uracilos, para la traduccin solo se decodifica de acuerdo al
cdigo gentico estndar, los caracteres que aparecen dentro de cada cuadro son
respectivamente la secuencia de DNA, la secuencia de mRNA y la secuencia de
aminocidos de la protena.
Ejemplo de esquema de gen- transcripcin- traduccin para el gen CTLA4.
Nota: Recordar que solo se traduce el CDC de una protena y tomar en cuenta el
arco de lectura para poder usar de forma adecuada la herramienta.
Esta hermanita permite convertir la secuencia de DNA y RNA a sus equivalentes
pero de forma Antiparalela, complementaria, y algunas modificaciones como
cambiar los nucletidos de Timina por Uracilo o viceversa o cambiarlo a mayscula
o minscula. Suele ser til para el diseo de primers en especial para visualizar la
localizacin del reverse primer.
Se ingresa la secuencia en formato FASTA sin la descripcin de la protena solo
la secuencia nucleotdica.
Seleccionar si la secuencia ingresada es DNA o
RNA
Cuadro de opciones de modificacin, as como una opcin de ejemplo y la
opcin de reajustar.
A continuacin se mostrara de forma grfica el uso de cada opcin de modificacin:
Secuencia original de la protena CTLA4, DNA que transcribe para el mRNA (EBI:
L15006.1)
>ENA|L15006|L15006.1 Homo sapiens Ig superfamily CTLA-4 mRNA, complete cds. :
Location:1..672
ATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTGCCAGGACCTGG
CCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTG
GCCCAGCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTAT
GCATCTCCAGGCAAAGCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAG
GTGACTGAAGTCTGTGCGGCAACCTACATGACGGGGAATGAGTTGACCTTCCTAGATGAT
TCCATCTGCACGGGCACCTCCAGTGGAAATCAAGTGAACCTCACTATCCAAGGACTGAGG
GCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTACCCACCGCCATACTAC
CTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAGATTCT
GACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTC
CTCACAGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTC
TATGTGAAAATGCCCCCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATT
CCCATCAATTGA
En la forma antiparalela se observan las bases complementarias pero iniciando
desde el final.
La forma complementaria tiene el mismo inicio solo que se muestran las bases
complementarias segn las reglas de Chargaff.
La forma inversa nos proporciona la secuencia original solo que iniciando desde el
final.
La opcin T to U muestra la misma secuencia original en el mismo orden solo que
cambia todas las timinas por uracilos
La opcin U to T no produce ninguna cambio ya que la secuencia es de DNA por lo
que no contiene bases de Uracilo; Las opciones LCase y UCase, muestra en
maysculas o minsculas la secuencia original respectivamente.