Herramientas ExPASy

Embed Size (px)

Citation preview

  • BIOINFORMATICA 2001 JOSIFF SAMUEL FLORES REYES

    LICENCIATURA EN BIOQUIMICA DIAGNOSTICA 7 DE JUNIO DEL 2014

    Herramientas

    ExPASy

    ASESORAS:

    M. EN C. MARITERE DOMNGUEZ ROJAS

    P.BQD LARISA ANDREA GONZLEZ SALCEDO

  • ExPASy es el portal de Recursos de Bioinformtica que lanz el Instituto Suizo de

    Bioinformtica (SIB) en junio del 2011, que proporciona acceso a bases de datos

    cientficos y le herramientas de software en diferentes reas de la ciencias

    biolgicas, incluidas la protemica, la genmica, la filogenia, biologa de sistema,

    gentica de poblaciones, transcriptmica, etc.. En este portal se pueden encontrar

    muchos recursos pertenecientes a SIB, as como de asociaciones externas.

    Liga de acceso: http://www.expasy.org/

    1. Barra de bsqueda y lista de las categoras de informacin dentro de la base

    de datos, igualmente se aprecia el botn ayuda que nos muestra un breve

    tutorial sobre como buscar.

    2. Lista desplegable de bases de datos o herramientas de la pgina.

    a. Visual Guidance: Muestra de forma grfica diferentes opciones de

    bsqueda de lo general a lo particular, sus categoras son: DNA, RNA,

    protena, clula, organismo y poblacin.

    b. Categories: Muestra las principales categoras como esta organizada

    la informacin, al seleccionar alguna se despliegan ms subcategoras

    hasta localizar un tema determinado.

    c. Resources AZ: Muestra en orden alfabtico las fuentes de

    informacin, previendo links de enlaces externos a ExPASy.

    d. Links/Documentation: Muestra otros servicios de la plataforma.

    C

  • 3. Fuentes populares: Muestra los accesos de sitios asociados a la base de

    datos que son de importancia, tales como Uniprot y Prosite.

    4. Apartado de actividad resiente en la pgina.

    Al igual que otras bases de datos permite realizar la bsqueda de informacin de

    forma general en todas la base de datos o ir navegando entre las diferentes

    categoras para revisar los recursos disponibles empleado la coincidencia exacta

    del trmino a buscar o la deteccin de trminos similares.

    Dependiendo la informacin a buscar la plataforma nos provee de enlaces externos

    a otras bases de datos o herramientas que nos sirven para el anlisis in silico, siendo

    estas herramientas el objetivo de este tutorial, al ser muchas no se abordaran todas

    pero si algunas que nos permiten facilitar el labor analtico.

    Para ejemplificar el uso de estas herramientas se empleara tanto el gen como la

    protena de CTLA4, protena relacionada con la enfermedad celiaca autoinmune

    as como la diabetes mellitus.

    >gi|15778585|gb|AF414120.1| Homo sapiens CTLA4 (CTLA4) mRNA, complete cds

    CTTCTGTGTGTGCACATGTGTAATACATATCTGGGATCAAAGCTATCTATATAAAGTCCTTGATTCTGTG

    TGGGTTCAAACACATTTCAAAGCTTCAGGATCCTGAAAGGTTTTGCTCTACTTCCTGAAGACCTGAACAC

    CGCTCCCATAAAGCCATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTACCAGGA

    CCTGGCCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTGGCCCA

    GCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTATGCATCTCCAGGCAAA

    GCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAGGTGACTGAAGTCTGTGCGGCAACCT

    ACATGATGGGGAATGAGTTGACCTTCCTAGATGATTCCATCTGCACGGGCACCTCCAGTGGAAATCAAGT

    GAACCTCACTATCCAAGGACTGAGGGCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTAC

    CCACCGCCATACTACCTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAG

    ATTCTGACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTCCTCAC

    AGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTCTATGTGAAAATGCCC

    CCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATTCCCATCAATTGAGAAACCATTATGA

    AGAAGAGAGTCCATATTTCAATTTCCAAGAGCTGAGGCAATTCTAACTTTTTTGCTATCCAGCTATTTTT

    ATTTGTTTGTGCATTTGGGGGGAATTCATCTCTCTTTAATATAAAGTTGGATGCGGAACCCAAATTACGT

    GTACTACAATTTAAAGCAAAGGAGTAGAAAGACAGAGCTGGGATGTTTCTGTCACATCAGCTCCACTTTC

    AGTGAAAGCATCACTTGGGATTAATATGGGGATGCAGCATTATGATGTGGGTCAAGGAATTAAGTTAGGG

    AATGGCACAGCCCAAAGAAGGAAAAGGCAGGGAGCGAGGGAGAAGACTATATTGTACACACCTTATATTT

    ACGTATGAGACGTTTATAGCCGAAATGATCTTTTCAAGTTAAATTTTATGCCTTTTATTTCTTAAACAAA

    TGTATGATTACATCAAGGCTTCAAAAATACTCACATGGCTATGTTTTAGCCAGTGATGCTAAAGGTTGTA

    TTGCATATATACATATATATATATATATATATATATATATATATATATATATATATATATTTTAATTTGA

    TAGTATTGTGCATAGAGCCACGTATGTTTTTGTGTATTTGTTAATGGTTTGAATATAAACACTATATGGC

    AGTGTCTTTCCACCTTGGGTCCCAGGGAAGTTTTGTGGAGGAGCTCAGGACACTAATACACCAGGTAGAA

    CACAAGGTCATTTGCTAACTAGCTTGGAAACTGGATGAGGTCATAGCAGTGCTTGATTGCGTGGAATTGT

    GCTGAGTTGGTGTTGACATGTGCTTTGGGGCTTTTACACCAGTTCCTTTCAATGGTTTGCAAGGAAGCCA

    CAGCTGGTGGTATCTGAGTTGACTTGACAGAACACTGTCTTGAAGACAATGGCTTACTCCAGGAGACCCA

    CAGGTATGACCTTCTAGGAAGCTCCAGTTCGATGGGCCCAATTCTTACAAACATGTGGTTAATGCCATGG

    ACAGAAGAAGGCAGCAGGTGGCAGAATGGGGTGCATGAAGGTTTCTGAAAATTAACACTGCTTGTGTTTT

    TAACTCAATATTTTCCATGAAAATGCAACAACATGTATAATATTTTTAATTAAATAAAAATCTGTGGTGG

    TCGTTTTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

  • Permite a partir de una secuencia de protena generar en base a una tabla de

    codones generar la secuencia de ADN mostrando diferentes marcos como la

    secuencia no degenerada de codificacin ms probable, as como una secuencia

    consenso derivada de todos los posibles codones para cada aminocido, igual se

    puede utilizar para disear cebadores de PCR que deseen hibridarse a una

    secuencia de codificacin sin secuencia de una especie relacionada.

    Nota: Para todas las herramientas de traduccin o traduccin inversa es importante considerar que

    lo nico que se traduce a su protena es el CDS, por lo tanto esta herramienta nos proporcionara el

    CDC completo ms no la secuencia de mRNA completa.

    Se inserta la secuencia de

    aminocidos de la protena de inters

    Este apartado es la tabla de codificacin de

    codones que se desee utilizar, la

    predeterminada es la empleada para la E. coli

    Secuencia de nucletidos

    con la mayora de los

    codones probables.

    Secuencia de nucletidos

    en base a los codones

    consenso.

    Lista de probabilidades

    por segmentos.

  • Con la herramienta Translate podemos traducir una secuencia de nucletidos de

    ADN o ARN a una secuencia de aminocidos de la protena.

    Se selecciona el tipo de formato de salida, el

    predeterminado es verbose el cual inicia con el

    aminocido metionina y termina con el codn de paro

    (UAG, UAA, UGA) tambin esta forma coloca espacios entre cada residuo.

    Por ltimo se selecciona el cdigo

    gentico que desea emplear para

    traducir existen opciones como el

    estndar, tipos de decodificacin

    genticas mitocondriales y otros. Se

    selecciona Translate sequence.

    Esta herramienta nos mostrara las posibles traducciones que se pueden realizar de

    acuerdo a cada frame, comnmente se selecciona el traducto ms grande, sin

    embrago se deben de tomar con cierto grado de asertividad.

    Por ejemplo en base a la secuencia del gen CTLA4 su secuencia de aminocidos

    ya traducida seria el 53 Frame 3.

    Se inserta la secuencia de

    nucletidos de DNA o RNA a traducir.

  • Permite identificar de forma muy rpida los genes involucrados a alguna

    enfermedad con registro en Swiss-Prot y/o TrEMBL.

    Esto indica que segn MeSH est clasificada como un

    sndrome de mala absorcin.

    Se reportan las protenas y/o variantes de estas asociadas a la enfermedad.

    Se inserta el nombre de la enfermedad (ingles)

  • Esta herramienta permite estimar la distribucin isotpica terica de un pptido o

    protena, un polinucletido o un compuesto qumico a partir de su composicin

    (secuencia de aminocidos, secuencia de nucletidos o su frmula qumica.

    Tambin Isotopident es capaz de calcular su masa mono isotpica, as como de

    predecir la combinacin de isotopo ms probable.

    1. Se inserta el nombre de la estructura a predecir

    2. Se selecciona el tipo de composicin que se introducir (ej. Secuencia de

    nucletidos, secuencia de aminocidos, estructura qumica etc..)

    3. Cifras significativas: por defecto, tres dgitos significativos se muestran en la

    salida. El usuario puede cambiarlo para obtener los resultados con cuatro,

    dos, o incluso un dgito significativo.

    4. Se copia el formato FASTA o los caracteres de inters a analizar.

    La informacin que se muestra ser la siguiente:

    En el primer cuadro nos presenta el nmero de tomos de cada elemento y su respectiva masa, posteriormente

    la masa mono isotpica, y la mejor combinacin monoisotpica considerando las interacciones qumicas, en la

    parte central es una grafico de distribucin y en la seccin derecha informacin de probabilidad de que suceda

    esta combinacin.

  • Esta si bien no es una herramienta como tal, me pareci importante agregarla para

    poder compartirla con mis compaeros Bioqumicos y afines, tal vez solo como una

    integracin de toda la bioqumica que nos han enseado y que nos tendramos que

    llevar al finalizar, quiz no de memoria pero si conocerla y poder comprender los

    diversos procesos metablicos. Aqu podremos navegar sobre cada ruta de forma

    independiente o integrada, las ventajas es que est actualizada a los cambios de

    nombre que puedan sufrir algunos compuestos y muy completa.

    Imagen de Vas metablicas celulares.

    Imagen de procesos Celulares y moleculares.

  • Es un repertorio de informacin con respecto a la nomenclatura de Enzimas. Se

    basa en las Recomendaciones del Comit de Nomenclatura de la Unin

    Internacional de Bioqumica y Biloga Molecular (IUBMB) y se describe cada tipo de

    enzima caracterizada por un nmero otorgado por la Comisin de Enzimas.

    Formas de acceder a la Enzima.

    Por ejemplo para la xido Ntrico Sintasa se reporta lo siguiente:

    Permite buscar los diversos motivos o estructuras de protenas importantes a travs

    de su secuencia consenso, empleando alineamientos con otras bases de datos.

    Numero de

    Clasificacin

    de la EC

    Nombre de

    la Enzima

    Otros nombres

    que recibe la

    enzima

    Se inserta solo la secuencia consenso

    obtenida de PROSITE.

  • Imagen de los mltiples alineamientos para la identificacin de la secuencia

    consenso.

    Se puede dar clic en la entrada para obtener ms informacin, como algunos

    sinnimos en oras bases de datos, la imagen del dominio.

    Y ms abajo podemos encontrar su funcin, similaridad y otras notas de importancia

    biolgica.

    Nombre del motivo

    o dominio, y su

    nmero de EC.

    Alineamiento de la

    secuencia consenso

    contra otras bases

    de datos.

    Mayor informacin

    sobre la entrada.

    Y su secuencia de aminocidos

  • Realiza una bsqueda de dominios y motivos en la base de datos de Pfam,

    mediante diversos alineamientos secuenciales, caracterizando as mismo la

    probabilidad de que se presente dicho dominio mediante datos estadsticos.

    Se debe de introducir el formato FASTA de las secuencias de dominios a analizar,

    tambin se pueden hacer alineamientos secuenciales mltiples, se emple la

    secuencia que proporcionaba como ejemplo, y se report debajo el dominio que

    probablemente es. Este programa trabajo con algoritmos estadsticos que

    proporcionan valores de penalizacin para decir el posible error.

  • Esta herramienta permite identificar los sitios de anclaje de diversos microrganismos

    patagones como probables factores de virulencia asociados a este, principalmente

    son cadenas de oligosacridos.

    Por ejemplo la bacteria Staphylococcus aureus tiene el siguiente sitio de enlace:

    Permite la comparacin de diferentes estructuras proteicas determinadas por

    diferentes mtodos, aprecindose la similitud entre cada uno de estos y sus

    discrepancias. Tambin permite determinar la estructura tridimensional de la

    protena con base a la secuencia de aminocidos, realizando comparaciones en las

    bases de datos.

    Se introduce el nombre del microrganismo a buscar.

  • Se mostraran las diferentes entradas que se tienen de todas la estructuras de

    CTLA4, as como el mtodo de identificacin, la cita de referencia y otros

    parmetros como el porcentaje de identidad.

    Tambin podemos cambiar de pestaa y apreciar

    las diferencia conformacionales entre cada

    estructura y visualizarla en un apartado en forma

    3D, donde podemos rotarla y hacer algunos

    cambios de colores.

    Se introduce la secuencia de aminocidos de la protena.

  • En la misma plataforma podemos insertar la opcin de realizar modelo, donde en

    base a la secuencia de aminocidos predice las posibles estructuras y conformacin

    tridimensional.

    Posible estructura tridimensional de CTLA4 segn SWISS-MODEL

  • Son un paquete de herramientas de la base de datos EBI, que permiten realizar

    traducciones o retro traducciones a partir de la secuencia nucleotdica.

    Funciona de forma similar a la herramienta de traduccin antes mencionada, solo

    se introduce el formato FASTA del gen a traducir y se selecciona el tipo de cdigo

    gentico, es conveniente cambiar el FRAME a todos para poder visualizar el que

    mejor convenga y listo se da clic en Submit.

    Visualizacin de los 3 primeros Frames

    de la secuencia, el correcto es el 3 al

    igual que en las herramientas de

    ExPASy.

    Se inserta el formato FASTA del gen

  • Permite identificar las regiones de promotores dentro del gen, la interfaz es muy fcil

    de manejar solo es necesario introducir el nombre del gen y automticamente se

    reportan los contenidos de diversas bases de datos de ENSEMBL.

    Secuencias

    promotoras

    del gen CTLA4

    en H. sapiens

    Introducir nombre del gen

  • Esta herramienta es an ms integrativa porque permite realizar la transcripcin y

    traduccin de forma ms rpida y directa, sin embrago no nos permite visualizar

    diferentes marcos de lectura; es decir, solo transcribe y traduce de forma lineal.

    Esta herramienta es sumamente fcil de utilizar, solo se debe de ver que secuencia

    se tiene, por ejemplo yo tengo la secuencia de mRNA del gen CTLA4, por lo tanto

    lo introduzco al apartado de DNA sequence y lo nico que esta har ser cambiar

    todas las Timinas por Uracilos, para la traduccin solo se decodifica de acuerdo al

    cdigo gentico estndar, los caracteres que aparecen dentro de cada cuadro son

    respectivamente la secuencia de DNA, la secuencia de mRNA y la secuencia de

    aminocidos de la protena.

    Ejemplo de esquema de gen- transcripcin- traduccin para el gen CTLA4.

    Nota: Recordar que solo se traduce el CDC de una protena y tomar en cuenta el

    arco de lectura para poder usar de forma adecuada la herramienta.

  • Esta hermanita permite convertir la secuencia de DNA y RNA a sus equivalentes

    pero de forma Antiparalela, complementaria, y algunas modificaciones como

    cambiar los nucletidos de Timina por Uracilo o viceversa o cambiarlo a mayscula

    o minscula. Suele ser til para el diseo de primers en especial para visualizar la

    localizacin del reverse primer.

    Se ingresa la secuencia en formato FASTA sin la descripcin de la protena solo

    la secuencia nucleotdica.

    Seleccionar si la secuencia ingresada es DNA o

    RNA

    Cuadro de opciones de modificacin, as como una opcin de ejemplo y la

    opcin de reajustar.

  • A continuacin se mostrara de forma grfica el uso de cada opcin de modificacin:

    Secuencia original de la protena CTLA4, DNA que transcribe para el mRNA (EBI:

    L15006.1)

    >ENA|L15006|L15006.1 Homo sapiens Ig superfamily CTLA-4 mRNA, complete cds. :

    Location:1..672

    ATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTGCCAGGACCTGG

    CCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTG

    GCCCAGCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTAT

    GCATCTCCAGGCAAAGCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAG

    GTGACTGAAGTCTGTGCGGCAACCTACATGACGGGGAATGAGTTGACCTTCCTAGATGAT

    TCCATCTGCACGGGCACCTCCAGTGGAAATCAAGTGAACCTCACTATCCAAGGACTGAGG

    GCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTACCCACCGCCATACTAC

    CTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAGATTCT

    GACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTC

    CTCACAGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTC

    TATGTGAAAATGCCCCCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATT

    CCCATCAATTGA

    En la forma antiparalela se observan las bases complementarias pero iniciando

    desde el final.

    La forma complementaria tiene el mismo inicio solo que se muestran las bases

    complementarias segn las reglas de Chargaff.

  • La forma inversa nos proporciona la secuencia original solo que iniciando desde el

    final.

    La opcin T to U muestra la misma secuencia original en el mismo orden solo que

    cambia todas las timinas por uracilos

    La opcin U to T no produce ninguna cambio ya que la secuencia es de DNA por lo

    que no contiene bases de Uracilo; Las opciones LCase y UCase, muestra en

    maysculas o minsculas la secuencia original respectivamente.