Herramientas ExPASy

BIOINFORMATICA 2001 JOSIFF SAMUEL FLORES REYES

LICENCIATURA EN BIOQUIMICA DIAGNOSTICA 7 DE JUNIO DEL 2014

Herramientas

ExPASy

ASESORAS:

M. EN C. MARITERE DOMNGUEZ ROJAS

P.BQD LARISA ANDREA GONZLEZ SALCEDO

ExPASy es el portal de Recursos de Bioinformtica que lanz el Instituto Suizo de

Bioinformtica (SIB) en junio del 2011, que proporciona acceso a bases de datos

cientficos y le herramientas de software en diferentes reas de la ciencias

biolgicas, incluidas la protemica, la genmica, la filogenia, biologa de sistema,

gentica de poblaciones, transcriptmica, etc.. En este portal se pueden encontrar

muchos recursos pertenecientes a SIB, as como de asociaciones externas.

Liga de acceso: http://www.expasy.org/

1. Barra de bsqueda y lista de las categoras de informacin dentro de la base

de datos, igualmente se aprecia el botn ayuda que nos muestra un breve

tutorial sobre como buscar.

2. Lista desplegable de bases de datos o herramientas de la pgina.

a. Visual Guidance: Muestra de forma grfica diferentes opciones de

bsqueda de lo general a lo particular, sus categoras son: DNA, RNA,

protena, clula, organismo y poblacin.

b. Categories: Muestra las principales categoras como esta organizada

la informacin, al seleccionar alguna se despliegan ms subcategoras

hasta localizar un tema determinado.

c. Resources AZ: Muestra en orden alfabtico las fuentes de

informacin, previendo links de enlaces externos a ExPASy.

d. Links/Documentation: Muestra otros servicios de la plataforma.

C

3. Fuentes populares: Muestra los accesos de sitios asociados a la base de

datos que son de importancia, tales como Uniprot y Prosite.

4. Apartado de actividad resiente en la pgina.

Al igual que otras bases de datos permite realizar la bsqueda de informacin de

forma general en todas la base de datos o ir navegando entre las diferentes

categoras para revisar los recursos disponibles empleado la coincidencia exacta

del trmino a buscar o la deteccin de trminos similares.

Dependiendo la informacin a buscar la plataforma nos provee de enlaces externos

a otras bases de datos o herramientas que nos sirven para el anlisis in silico, siendo

estas herramientas el objetivo de este tutorial, al ser muchas no se abordaran todas

pero si algunas que nos permiten facilitar el labor analtico.

Para ejemplificar el uso de estas herramientas se empleara tanto el gen como la

protena de CTLA4, protena relacionada con la enfermedad celiaca autoinmune

as como la diabetes mellitus.

>gi|15778585|gb|AF414120.1| Homo sapiens CTLA4 (CTLA4) mRNA, complete cds

CTTCTGTGTGTGCACATGTGTAATACATATCTGGGATCAAAGCTATCTATATAAAGTCCTTGATTCTGTG

TGGGTTCAAACACATTTCAAAGCTTCAGGATCCTGAAAGGTTTTGCTCTACTTCCTGAAGACCTGAACAC

CGCTCCCATAAAGCCATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTACCAGGA

CCTGGCCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTGGCCCA

GCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTATGCATCTCCAGGCAAA

GCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAGGTGACTGAAGTCTGTGCGGCAACCT

ACATGATGGGGAATGAGTTGACCTTCCTAGATGATTCCATCTGCACGGGCACCTCCAGTGGAAATCAAGT

GAACCTCACTATCCAAGGACTGAGGGCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTAC

CCACCGCCATACTACCTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAG

ATTCTGACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTCCTCAC

AGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTCTATGTGAAAATGCCC

CCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATTCCCATCAATTGAGAAACCATTATGA

AGAAGAGAGTCCATATTTCAATTTCCAAGAGCTGAGGCAATTCTAACTTTTTTGCTATCCAGCTATTTTT

ATTTGTTTGTGCATTTGGGGGGAATTCATCTCTCTTTAATATAAAGTTGGATGCGGAACCCAAATTACGT

GTACTACAATTTAAAGCAAAGGAGTAGAAAGACAGAGCTGGGATGTTTCTGTCACATCAGCTCCACTTTC

AGTGAAAGCATCACTTGGGATTAATATGGGGATGCAGCATTATGATGTGGGTCAAGGAATTAAGTTAGGG

AATGGCACAGCCCAAAGAAGGAAAAGGCAGGGAGCGAGGGAGAAGACTATATTGTACACACCTTATATTT

ACGTATGAGACGTTTATAGCCGAAATGATCTTTTCAAGTTAAATTTTATGCCTTTTATTTCTTAAACAAA

TGTATGATTACATCAAGGCTTCAAAAATACTCACATGGCTATGTTTTAGCCAGTGATGCTAAAGGTTGTA

TTGCATATATACATATATATATATATATATATATATATATATATATATATATATATATATTTTAATTTGA

TAGTATTGTGCATAGAGCCACGTATGTTTTTGTGTATTTGTTAATGGTTTGAATATAAACACTATATGGC

AGTGTCTTTCCACCTTGGGTCCCAGGGAAGTTTTGTGGAGGAGCTCAGGACACTAATACACCAGGTAGAA

CACAAGGTCATTTGCTAACTAGCTTGGAAACTGGATGAGGTCATAGCAGTGCTTGATTGCGTGGAATTGT

GCTGAGTTGGTGTTGACATGTGCTTTGGGGCTTTTACACCAGTTCCTTTCAATGGTTTGCAAGGAAGCCA

CAGCTGGTGGTATCTGAGTTGACTTGACAGAACACTGTCTTGAAGACAATGGCTTACTCCAGGAGACCCA

CAGGTATGACCTTCTAGGAAGCTCCAGTTCGATGGGCCCAATTCTTACAAACATGTGGTTAATGCCATGG

ACAGAAGAAGGCAGCAGGTGGCAGAATGGGGTGCATGAAGGTTTCTGAAAATTAACACTGCTTGTGTTTT

TAACTCAATATTTTCCATGAAAATGCAACAACATGTATAATATTTTTAATTAAATAAAAATCTGTGGTGG

TCGTTTTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

Permite a partir de una secuencia de protena generar en base a una tabla de

codones generar la secuencia de ADN mostrando diferentes marcos como la

secuencia no degenerada de codificacin ms probable, as como una secuencia

consenso derivada de todos los posibles codones para cada aminocido, igual se

puede utilizar para disear cebadores de PCR que deseen hibridarse a una

secuencia de codificacin sin secuencia de una especie relacionada.

Nota: Para todas las herramientas de traduccin o traduccin inversa es importante considerar que

lo nico que se traduce a su protena es el CDS, por lo tanto esta herramienta nos proporcionara el

CDC completo ms no la secuencia de mRNA completa.

Se inserta la secuencia de

aminocidos de la protena de inters

Este apartado es la tabla de codificacin de

codones que se desee utilizar, la

predeterminada es la empleada para la E. coli

Secuencia de nucletidos

con la mayora de los

codones probables.

Secuencia de nucletidos

en base a los codones

consenso.

Lista de probabilidades

por segmentos.

Con la herramienta Translate podemos traducir una secuencia de nucletidos de

ADN o ARN a una secuencia de aminocidos de la protena.

Se selecciona el tipo de formato de salida, el

predeterminado es verbose el cual inicia con el

aminocido metionina y termina con el codn de paro

(UAG, UAA, UGA) tambin esta forma coloca espacios entre cada residuo.

Por ltimo se selecciona el cdigo

gentico que desea emplear para

traducir existen opciones como el

estndar, tipos de decodificacin

genticas mitocondriales y otros. Se

selecciona Translate sequence.

Esta herramienta nos mostrara las posibles traducciones que se pueden realizar de

acuerdo a cada frame, comnmente se selecciona el traducto ms grande, sin

embrago se deben de tomar con cierto grado de asertividad.

Por ejemplo en base a la secuencia del gen CTLA4 su secuencia de aminocidos

ya traducida seria el 53 Frame 3.

Se inserta la secuencia de

nucletidos de DNA o RNA a traducir.

Permite identificar de forma muy rpida los genes involucrados a alguna

enfermedad con registro en Swiss-Prot y/o TrEMBL.

Esto indica que segn MeSH est clasificada como un

sndrome de mala absorcin.

Se reportan las protenas y/o variantes de estas asociadas a la enfermedad.

Se inserta el nombre de la enfermedad (ingles)

Esta herramienta permite estimar la distribucin isotpica terica de un pptido o

protena, un polinucletido o un compuesto qumico a partir de su composicin

(secuencia de aminocidos, secuencia de nucletidos o su frmula qumica.

Tambin Isotopident es capaz de calcular su masa mono isotpica, as como de

predecir la combinacin de isotopo ms probable.

1. Se inserta el nombre de la estructura a predecir

2. Se selecciona el tipo de composicin que se introducir (ej. Secuencia de

nucletidos, secuencia de aminocidos, estructura qumica etc..)

3. Cifras significativas: por defecto, tres dgitos significativos se muestran en la

salida. El usuario puede cambiarlo para obtener los resultados con cuatro,

dos, o incluso un dgito significativo.

4. Se copia el formato FASTA o los caracteres de inters a analizar.

La informacin que se muestra ser la siguiente:

En el primer cuadro nos presenta el nmero de tomos de cada elemento y su respectiva masa, posteriormente

la masa mono isotpica, y la mejor combinacin monoisotpica considerando las interacciones qumicas, en la

parte central es una grafico de distribucin y en la seccin derecha informacin de probabilidad de que suceda

esta combinacin.

Esta si bien no es una herramienta como tal, me pareci importante agregarla para

poder compartirla con mis compaeros Bioqumicos y afines, tal vez solo como una

integracin de toda la bioqumica que nos han enseado y que nos tendramos que

llevar al finalizar, quiz no de memoria pero si conocerla y poder comprender los

diversos procesos metablicos. Aqu podremos navegar sobre cada ruta de forma

independiente o integrada, las ventajas es que est actualizada a los cambios de

nombre que puedan sufrir algunos compuestos y muy completa.

Imagen de Vas metablicas celulares.

Imagen de procesos Celulares y moleculares.

Es un repertorio de informacin con respecto a la nomenclatura de Enzimas. Se

basa en las Recomendaciones del Comit de Nomenclatura de la Unin

Internacional de Bioqumica y Biloga Molecular (IUBMB) y se describe cada tipo de

enzima caracterizada por un nmero otorgado por la Comisin de Enzimas.

Formas de acceder a la Enzima.

Por ejemplo para la xido Ntrico Sintasa se reporta lo siguiente:

Permite buscar los diversos motivos o estructuras de protenas importantes a travs

de su secuencia consenso, empleando alineamientos con otras bases de datos.

Numero de

Clasificacin

de la EC

Nombre de

la Enzima

Otros nombres

que recibe la

enzima

Se inserta solo la secuencia consenso

obtenida de PROSITE.

Imagen de los mltiples alineamientos para la identificacin de la secuencia

consenso.

Se puede dar clic en la entrada para obtener ms informacin, como algunos

sinnimos en oras bases de datos, la imagen del dominio.

Y ms abajo podemos encontrar su funcin, similaridad y otras notas de importancia

biolgica.

Nombre del motivo

o dominio, y su

nmero de EC.

Alineamiento de la

secuencia consenso

contra otras bases

de datos.

Mayor informacin

sobre la entrada.

Y su secuencia de aminocidos

Realiza una bsqueda de dominios y motivos en la base de datos de Pfam,

mediante diversos alineamientos secuenciales, caracterizando as mismo la

probabilidad de que se presente dicho dominio mediante datos estadsticos.

Se debe de introducir el formato FASTA de las secuencias de dominios a analizar,

tambin se pueden hacer alineamientos secuenciales mltiples, se emple la

secuencia que proporcionaba como ejemplo, y se report debajo el dominio que

probablemente es. Este programa trabajo con algoritmos estadsticos que

proporcionan valores de penalizacin para decir el posible error.

Esta herramienta permite identificar los sitios de anclaje de diversos microrganismos

patagones como probables factores de virulencia asociados a este, principalmente

son cadenas de oligosacridos.

Por ejemplo la bacteria Staphylococcus aureus tiene el siguiente sitio de enlace:

Permite la comparacin de diferentes estructuras proteicas determinadas por

diferentes mtodos, aprecindose la similitud entre cada uno de estos y sus

discrepancias. Tambin permite determinar la estructura tridimensional de la

protena con base a la secuencia de aminocidos, realizando comparaciones en las

bases de datos.

Se introduce el nombre del microrganismo a buscar.

Se mostraran las diferentes entradas que se tienen de todas la estructuras de

CTLA4, as como el mtodo de identificacin, la cita de referencia y otros

parmetros como el porcentaje de identidad.

Tambin podemos cambiar de pestaa y apreciar

las diferencia conformacionales entre cada

estructura y visualizarla en un apartado en forma

3D, donde podemos rotarla y hacer algunos

cambios de colores.

Se introduce la secuencia de aminocidos de la protena.

En la misma plataforma podemos insertar la opcin de realizar modelo, donde en

base a la secuencia de aminocidos predice las posibles estructuras y conformacin

tridimensional.

Posible estructura tridimensional de CTLA4 segn SWISS-MODEL

Son un paquete de herramientas de la base de datos EBI, que permiten realizar

traducciones o retro traducciones a partir de la secuencia nucleotdica.

Funciona de forma similar a la herramienta de traduccin antes mencionada, solo

se introduce el formato FASTA del gen a traducir y se selecciona el tipo de cdigo

gentico, es conveniente cambiar el FRAME a todos para poder visualizar el que

mejor convenga y listo se da clic en Submit.

Visualizacin de los 3 primeros Frames

de la secuencia, el correcto es el 3 al

igual que en las herramientas de

ExPASy.

Se inserta el formato FASTA del gen

Permite identificar las regiones de promotores dentro del gen, la interfaz es muy fcil

de manejar solo es necesario introducir el nombre del gen y automticamente se

reportan los contenidos de diversas bases de datos de ENSEMBL.

Secuencias

promotoras

del gen CTLA4

en H. sapiens

Introducir nombre del gen

Esta herramienta es an ms integrativa porque permite realizar la transcripcin y

traduccin de forma ms rpida y directa, sin embrago no nos permite visualizar

diferentes marcos de lectura; es decir, solo transcribe y traduce de forma lineal.

Esta herramienta es sumamente fcil de utilizar, solo se debe de ver que secuencia

se tiene, por ejemplo yo tengo la secuencia de mRNA del gen CTLA4, por lo tanto

lo introduzco al apartado de DNA sequence y lo nico que esta har ser cambiar

todas las Timinas por Uracilos, para la traduccin solo se decodifica de acuerdo al

cdigo gentico estndar, los caracteres que aparecen dentro de cada cuadro son

respectivamente la secuencia de DNA, la secuencia de mRNA y la secuencia de

aminocidos de la protena.

Ejemplo de esquema de gen- transcripcin- traduccin para el gen CTLA4.

Nota: Recordar que solo se traduce el CDC de una protena y tomar en cuenta el

arco de lectura para poder usar de forma adecuada la herramienta.

Esta hermanita permite convertir la secuencia de DNA y RNA a sus equivalentes

pero de forma Antiparalela, complementaria, y algunas modificaciones como

cambiar los nucletidos de Timina por Uracilo o viceversa o cambiarlo a mayscula

o minscula. Suele ser til para el diseo de primers en especial para visualizar la

localizacin del reverse primer.

Se ingresa la secuencia en formato FASTA sin la descripcin de la protena solo

la secuencia nucleotdica.

Seleccionar si la secuencia ingresada es DNA o

RNA

Cuadro de opciones de modificacin, as como una opcin de ejemplo y la

opcin de reajustar.

A continuacin se mostrara de forma grfica el uso de cada opcin de modificacin:

Secuencia original de la protena CTLA4, DNA que transcribe para el mRNA (EBI:

L15006.1)

>ENA|L15006|L15006.1 Homo sapiens Ig superfamily CTLA-4 mRNA, complete cds. :

Location:1..672

ATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTGCCAGGACCTGG

CCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTG

GCCCAGCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTAT

GCATCTCCAGGCAAAGCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAG

GTGACTGAAGTCTGTGCGGCAACCTACATGACGGGGAATGAGTTGACCTTCCTAGATGAT

TCCATCTGCACGGGCACCTCCAGTGGAAATCAAGTGAACCTCACTATCCAAGGACTGAGG

GCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTACCCACCGCCATACTAC

CTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAGATTCT

GACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTC

CTCACAGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTC

TATGTGAAAATGCCCCCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATT

CCCATCAATTGA

En la forma antiparalela se observan las bases complementarias pero iniciando

desde el final.

La forma complementaria tiene el mismo inicio solo que se muestran las bases

complementarias segn las reglas de Chargaff.

La forma inversa nos proporciona la secuencia original solo que iniciando desde el

final.

La opcin T to U muestra la misma secuencia original en el mismo orden solo que

cambia todas las timinas por uracilos

La opcin U to T no produce ninguna cambio ya que la secuencia es de DNA por lo

que no contiene bases de Uracilo; Las opciones LCase y UCase, muestra en

maysculas o minsculas la secuencia original respectivamente.

Documents

Herramientas ExPASy