8
Cognos.6q http://cognos. bio6q.net INTRODUCCIÓN A LA BIOINFORMÁTICA Francesc Caralt Rafecas http:// www.bio6q.net 23/06/2014 INTRODUCCIÓN Qué es la bioinformática? Cuál es su utilidad? En este artículo (tema) introductorio, se exponen las ideas básicas que rigen esta rama del conocimiento a la par que se recorren, a modo de repaso y muy superficialmente, algunos conceptos elementales de filogenética, genómica y proteómica necesarios para adentrarnos en el mundo de la bioinformática. Se pretende con ello, dar a conocer esta disciplina científica que se halla en una fase de intensa expansión y que, sin lugar a dudas, juega y jugará un papel importante tanto en la investigación biológica y biomédica, como en su aplicación clínica. TABLA DE CONTENIDO Concepos básicos La vida. Ácidos nucleicos. Redes. Bases de datos Contenido. Acceso. Flujo de información. Conservación, anotaciones y control de calidad. Recursos tecnológicos. Filogenética Clasificación biológica y nomenclatura. Uso de secuencias para determinar relaciones filogenéticas. LINES & SINES. Búsquedas de secuencias y similaridades entre ellas en bases de datos. Proteómica Concepto Estructura proteínica y naturaleza gerárquica de la arquitectura. Clasificación de las proteínas. Predicción e ingeniería de la estructura proteínica. Porteomas y transcriptomas. Biología de sistemas. Implicaciones clínicas. CONTENIDO En las últimas décadas hemos presenciado tanto el progreso y modernización de las técnicas y aparatos de laboratorio, como el auge desmesurado de la tecnologías de la información y comunicación. En definitiva, una revolución tecnológica que, entre otros campos, ha afectado también a la biología molecular y a la informática. Ante tal escenario, la comunidad científica no ha dudado ni un momento en aprovechar las cualidades multifuncionales, organizativas y multiproceso de estas herramientas para poner orden y procesar de manera sistemática la gran cantidad de datos que en el campo de la biología (especialmente en el campo de la biología molecular) se van generando. De esta combinación cooperativa de ambas disciplinas -informática y biología- ha surgido la disciplina científica denominada Bioinformática. Así pues, la bioinformática puede describirse como: “una disciplina científica que utiliza las tecnologías de la Versión: V001R006 (23/06/2014), Ref: A0011 Página 1 de 8

Introducción a la bioinformatica

Embed Size (px)

Citation preview

Page 1: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

INTRODUCCIÓN A LA BIOINFORMÁTICAFrancesc Caralt Rafecas

http:// www.bio6q.net

23/06/2014

INTRODUCCIÓN

Qué es la bioinformática? Cuál es su utilidad? En este artículo (tema) introductorio, se exponenlas ideas básicas que rigen esta rama del conocimiento a la par que se recorren, a modo derepaso y muy superficialmente, algunos conceptos elementales de filogenética, genómica yproteómica necesarios para adentrarnos en el mundo de la bioinformática. Se pretende con ello,dar a conocer esta disciplina científica que se halla en una fase de intensa expansión y que, sinlugar a dudas, juega y jugará un papel importante tanto en la investigación biológica y biomédica,como en su aplicación clínica.

TABLA DE CONTENIDO

• Concepos básicos◦ La vida.◦ Ácidos nucleicos.◦ Redes.

• Bases de datos◦ Contenido.◦ Acceso.◦ Flujo de información.◦ Conservación, anotaciones y control de calidad.

• Recursos tecnológicos.• Filogenética

◦ Clasificación biológica y nomenclatura.◦ Uso de secuencias para determinar relaciones filogenéticas.◦ LINES & SINES.◦ Búsquedas de secuencias y similaridades entre ellas en bases de datos.

• Proteómica◦ Concepto◦ Estructura proteínica y naturaleza gerárquica de la arquitectura.◦ Clasificación de las proteínas.◦ Predicción e ingeniería de la estructura proteínica.◦ Porteomas y transcriptomas.

• Biología de sistemas.• Implicaciones clínicas.

CONTENIDO

En las últimas décadas hemos presenciado tanto el progreso y modernización de las técnicas y aparatos delaboratorio, como el auge desmesurado de la tecnologías de la información y comunicación. En definitiva,una revolución tecnológica que, entre otros campos, ha afectado también a la biología molecular y a lainformática. Ante tal escenario, la comunidad científica no ha dudado ni un momento en aprovechar lascualidades multifuncionales, organizativas y multiproceso de estas herramientas para poner orden yprocesar de manera sistemática la gran cantidad de datos que en el campo de la biología (especialmente enel campo de la biología molecular) se van generando. De esta combinación cooperativa de ambasdisciplinas -informática y biología- ha surgido la disciplina científica denominada Bioinformática.

Así pues, la bioinformática puede describirse como: “una disciplina científica que utiliza las tecnologías de la

Versión: V001R006 (23/06/2014), Ref: A0011 Página 1 de 8

Page 2: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

información para organizar, analizar y distribuir información biológica con la finalidad de responderpreguntas complejas en biología. Es un área de investigación multidisciplinaria, la cual puede serampliamente definida como la interfase entre dos ciencias: Biología y Computación, y está impulsada por laincógnita del genoma humano y la promesa de una nueva era en la cual la investigación genómica puedeayudar drásticamente a mejorar la condición y calidad de vida humana”.

Conceptos básicos

Quizás, y ante todo, lo primero y más básico seria definir el concepto de “vida” desde el punto de vista de labioinformática y la biología de sistemas: la vida en la tierra es un complejo sistema, en constante evolución,que se auto-perpetúa y que se encuentra distribuido en el espacio y en el tiempo. La vida está compuesta deorganismos individuales, cada uno con un tiempo vital finito y con características únicas (exceptuando, claroestá, a los clones). Es necesario pues, definir el concepto de “organismo”: un organismo biológico es unaocurrencia natural con estrategias de auto-reproducción que efectúa manipulaciones controladas de materia,energía e información.

La base de información sobre la que se sustenta la vida se encuentra en el núcleo celular; se trata del DNA.El DNA se compone de dos cadenas polinucleotídicas (ácidos nucleicos) que tienen la capacidad dealmacenar la información que codifica las secuencias de aminoácidos que formarán las proteínas. El DNAtambién dispone de mecanismos para su autoreplicación; la casi perfección de estos mecanimos es esencialpara la estabilidad de la herencia, pero un cierto grado de imperfección también es importante, de otro modola evolución no tendría lugar en los organismos asexuales. El DNA estructuralmente se define como unadoble hélice antiparalela. Cada una de las hebras dispone de dos extremos, un extremo amino (denominado5') y un extremo carboxilo (denominado 3'). A partir los genes de los genes del DNA y mediante dosprocesos -la transcripción y la traducción- se producen las proteínas correspondientes; hay que tener encuenta que las proteínas son las moléculas responsables de gran parte de la estructura y actividadbioquímica del organismo. La transcripción consiste, a grandes rasgos y simplificando, en la síntesis de unamolécular de mRNA (RNA mensajero) a partir de un gen del DNA, lo cual se realiza en la dirección 5' → 3'.En el caso de los eucariontes, después de la transcripción es necesario un procesado (corte y empalme) delRNA obtenido, con la finalidad de eliminar las partes no codificantes (intrones), con lo que el mRNAprocesado acaba siendo una concatenación de exones. Posteriormente, el mRNA viaja al exterior del núcleodonde es traducido. La traducción se lleva a cabo en los ribosomas y consiste en la síntesis de una cadenaaminoacídica a partir de los codones del mRNA de acuerdo con las equivalencias que establece el códigogenético.Los aminoácidos necesarios para dicha síntesis son suministrados por el tRNA (RNA detransferencia). Los ácidos nucléicos, son cadenas poliméricas de nucleótidos. Los nucleótidos secaracterizan por sus bases; puede ser A (adenina), T(timina), U(uracilo), C(citosina) y G(guanina)1. Esimportante destacar que la secuencia de aminoácidos de una proteína condiciona su estructuratridimensional.

En el análisis de vías metabólicas, uno se percata de que las moléculas pueden tener varios "socios" con loscuales interaccionar en diferentes vías; estos conjuntos de interacciones de diferentes moléculas formanredes. Como es de suponer, los mismos conjuntos de moléculas pueden estar conectados por diferentestipos de relaciones, formando así diferentes redes, las cuales pueden ser redes físicas (interacción proteína-proteína) o redes lógicas (encargadas del control de las cascadas de reacciones); obviamente las redesfísicas y lógicas operan en paralelo y de forma complementaria.

Bases de datos

La unidad de distribución de colecciones de distintos tipos de información biológica es la base de datos.Estas bases de datos incluyen un archivo de información, un esquema (estructura u organización lógica dela información) y herramientas para acceder a la base de datos. El contenido de estas bases de datos sepuede clasificar en dos tipos: bases de datos de archivo de información biológica y bases de datosderivadas. Las bases de datos de archivo de información biológica, contienen información sobre lassecuencias de ADN y proteínas, como también información sobre sus variaciones (compilaciones dehaplotipos2 y mutaciones asociadas a enfermedades), también contienen estructuras de ácidos nucleicos yestructuras de proteínas, datos de patrones de expresión proteínica, datos sobre vías metabólicas, datossobre interacciones de redes y regulación, y datos enfocados a organismos (genomas).

1.- La equivalencia entre los tripletes de bases (codones) y los aminoácidos que codifican constituye el código genético.2.- Combinación de alelos de varios loci.

Versión: V001R006 (23/06/2014), Ref: A0011 Página 2 de 8

Page 3: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

Hay que tener en cuenta que la interfaz con el usuario es importantísima en las bases de datos, ya que unabase de datos sin modos de acceso efectivos, es prácticamente inútil. Para que la información cumpla sufunción es imprescindible que la base de datos tenga un buen diseño, de tal manera que la informacióndisponga de una organización lógica adecuada, coherente con el funcionamiento de nuestra mente, y deacuerdo a las posibles necesidades. Referente a dichas necesidades, hay que tener en cuenta que lasconsultas más habituales son, a grandes rasgos, de cuatro tipos distintos; dos de ellas con solucionesconsolidadas y las otras dos con soluciones en estudio (no consolidadas aún, por la dificultad de losalgoritmos que conllevan):

• Tipología de consultas con soluciones de diseño consolidadas:◦ Dada un secuencia de nucleótidos (o fragmento), encontrar secuencias en la base de datos que

son similares.◦ Dada la estructura de una proteína (o fragmento), buscar estructuras similares en la base de

datos.• Tipología de consultas con soluciones de diseño aún en estudio:

◦ Dada una secuencia de una proteína de estructura no conocida, encontrar secuencias queadopten estructuras tridimensionales similares.

◦ Dada la estructura de una proteína, encontrar secuencias que correspondan a estructurassimilares.

Pero las bases de datos deben ser alimentadas por información, y esa información es introducida por loscientíficos. Éstos introducen los datos correspondientes a conjuntos coherentes de resultadosexperimentales, respetando siempre los formatos y contenidos apropiados que vienen establecidos por lasdirectrices de diseño. Es, por lo tanto, de vital importancia entender que el control de calidad debe sersiempre parte del proceso de conservación de datos.

En los últimos años la gran proliferación de bases de datos, ha provocado que los mismos resultadosexperimentales sean introducidos en distintas bases de datos. Tampoco es obligado que así sea, con lo quese produce, indirectamente, una dispersión de datos que puede dificultar la localización de la informaciónque interese encontrar. En consecuencia, desde hace ya algún tiempo, se persigue la integración afinada delos distintos sitios (bases de datos) y herramientas que ellos proporcionan, motivado ello por la crecientedemanda de acceso simultáneo a bases de datos. Este trabajo de integración intenta acabar con laconfusión que genera la multitud de bases de datos dispersas, proporcinando un acceso a todas ellas desdeun punto de acceso único. Hasta aquí, la interacción, es todo ventajas, pero también arrastra algunosinconvenientes: por una parte aumenta la complejidad de uso, con lo que se requiere de manuales deusuarios (e incluso helpdesk) para obtener información, y por otra parte, la unificación de archivos quepuede surgir en el proceso de integración viene acompañada frecuentemente de la fragmentación de lasrutas de acceso. Como solución al aumento de complejidad de uso ya mencionado, se presentan las basesde datos virtuales, que están pensadas para proporcionar ámbitos y funciones individuales, otorgándolesimplicidad al uso de una base de datos en unas condiciones determinadas; permitiendo así adaptar la basede datos a las necesidades de los investigadores.

La comunidad científica y médica precisa que los datos de las bases de datos sean fiables. De ahí laimportancia del control de calidad ya mentado. Para procurar la calidad de las bases de datos hay queconsiderar que éstas contienen datos de dos naturalezas distintas: por una parte están los datos “en bruto”procedentes de los resultado experimentales y que son el objeto principal del almacenamiento; pero por otrolado no hay que descuidar, ni mucho menos desmerecer, las anotaciones relacionadas a dichos datosexperimentales. Estas anotaciones comprenden información contextual relevante como puede ser: el origende los datos, método utilizado para la determinación de los datos, identidad del investigador, enlaces a otrasbases de datos (información relacionada), tablas de características (lista tabulada de los segmentos de lassecuencias que tienen significado biológico -al menos el conocido hasta el momento-), y como no,anotaciones sobre la interpretación de los datos experimentales. Para el tratamiento sistematizado ycomputerizado de las mencionadas anotaciones es necesario definir un vocabulario específico y controlado.En lo referente a los posibles errores; es obvio que ambos tipos de información -datos de resultadosexperimentales y anotaciones- pueden presentar error, aunque hay que tener en cuenta que las anotacionesson la parte más vulnerable, y consecuentemente más propicia a presentar errores, dado que tienen mayorvariabilidad en el tiempo y, precisamente por ello, deben ser actualizadas con más frecuencia. Así pues, conla finalidad de que las anotaciodes no queden desfasadas durante el transcurso del tiempo, deben

Versión: V001R006 (23/06/2014), Ref: A0011 Página 3 de 8

Page 4: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

contemplarse procedimientos de revisión y actualización de la información, los cuales se complementan conprocesos automatizados de re-anotación que facilitan y agilizan el mantenimiento. Es por ello necesarioconsiderar las bases de datos como entes “vivos” en el sentido de que son cambiantes y van evolucionandocon el tiempo. Por último hay que considerar que la calidad de las bases de datos no solo depende de suinformación, también depende de los recursos relacionados (enlazados) a ella (son anotaciones), éste es,sin lugar a dudas, una de los argumentos a favor de la interacción de bases de datos.

Recursos tecnológicos:

La bioinformática existe y es posible gracias a las nuevas tecnologías; mediante programas sofisticados quepermiten el almacenaje y análisis de datos, y redes de telecomunicaciones que posibilitan la rápidadistribución y acceso a la información.

Es importante, sin embargo, organizar adecuadamente los recursos tecnológicos para que se conviertan enherramientas útiles; es decir, aplicar criterios y métodos de ingeniería para el correcto diseño de soluciones:definir algoritmos eficaces y eficientes, organizar los datos para que respondan eficientemente a lasconsultas, diseño apropiado de las herramientas de análisis, etc.

Es imprescindible que un bioinformático domine la programación. De la misma manera que un mecánicoconstruye físicamente una máquina que ha diseñado un ingeniero, el programador debe programar elprograma que previamente ha diseñado. Así, un buen bioinformático debe estar capacitado para el análisis,el diseño y para la posterior programación. En cuanto a la programación se usan distintos lenguajes, segúnel tipo de programa que deba implementarse se puede utilizar C/C++, Java, PHP, PERL, etc. Pero hay quetener en cuenta que por la rapidez de desarrollo que proporciona y por la facilidad de manejar cadenas decaracteres (como las secuencias de ADN, o de aminoácidos) PERL es probablemente el más utilizado,aunque también se utilizan mucho lenguajes relacionados: RUBY y PYTHON.

Pero las habilidades necesarias no se reducen simplemente a conocer un lenguaje; el bioinformático debedisponer también de las habilidades suficientes que le permitan utilizar un conjunto de tecnologíascomplentarias entre ellas: uso de herramientas web, creación y mantenimiento de sitios web, dominio delsistema operativo, uso correcto de las herramientas de propósito general (procesador de textos, hoja decálculo, etc.), uso de gestores de bases de datos, programación SQL, etc.

Filogenética:

Actualmente, el sistema que se utiliza para la clasificación de los seres vivos está basado en el sistemabinomial de Carl Von Linneo (1707-1778). Este sistema clasifica por medio de la observación de lassimilaridades utilizando las categorías taxonómicas de reino, filum, clase, orden, familia, género y especie.Obviamente, y desde el campo de la sistemática, el sistema ha ido evolucionado con el tiempo añadiéndoseen él categorías taxonómicas adicionales que permiten afinar dicha clasificación. Posteriormente, y graciasal trabajo de Charles Robert Darwin (1809-1882) que se concretó con la publicación del origen de lasespecies en el año 1859, se llega a la conclusión de que la clasificación sistemática de las especies, basadaen sus similaridades, refleja en realidad la filogenia de las mismas; lo cual es representable en un árbolcuyos nodos corresponden a ancestros comunes entre especies.

Ante tal afirmación surge inmediatamente la duda: hasta que punto las similaridades entre dos especiesreflejan que existe una especie ancestral común (en el árbol filogenético se entiende)? Para responder aesta pregunta, cabe diferenciar previamente dos conceptos: analogía y homología. Se entiende porhomología aquellas semejanzas entre especies procedentes de caracteres derivados de una especie que,evolutivamente hablando, proceden de un ancestro común, mientras que el concepto de analogía se refierea semejanzas entre especies no heredadas de un mismo ancestro común. Un par de ejemplos aclaratoriosson los siguientes:

• Las alas de las aves y los murciélagos son análogas ya que sus orígenes evolutivos sonindependientes, pero su apariencia es similar porqué ambas estructuras evolucionaron para realizarla misma función; se trata de un caso de evolución convergente (como sucede siempre en lasanalogías).

• Los brazos humanos y las aletas de las ballenas tienen el mismo ancestro común aunque no tenganla misma función. Es este caso se trata de una homología.

Volviendo ahora a la pregunta planteada, y a la vista de los conceptos recién expuestos, se llega a la

Versión: V001R006 (23/06/2014), Ref: A0011 Página 4 de 8

Page 5: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

conclusión de que la sistemática clásica, basada en la observación de similaridades, puede inducir a errorprecisamente por confusión entre analogía y homología. Este tipo de confusiones son las que explican lareclasificación de muchas especies en el árbol filogenético (que la comunidad científica está llevando acabo), al obtener resultados de estudios moleculares que aclaran estas confusiones. Del análisis desecuencias, se obtiene así una evidencia más clara y fidedigna de la relación entre especies.

Con este fin, funciona muy bien el análisis de secuencias en los organimos superiores y se complementamuy bien con los métodos tradicionales (anatomía comparativa, paleontología, y embriología) quecontribuyen importantemente en dicha labor. Pero en el caso de los microorganismos, la clasificacióndeviene mucho más compleja, principalmente por dos motivos: por una parte es más difícil seleccionar loscaracteres clasificatorios, y por otro lado, la gran cantidad de transferencia lateral de genes distorsionaconsiderablemente el escenario de trabajo.

En la actualidad la raíz del árbol filogenético de los seres vivos se divide en tres dominios principales:Bacteria (procariontes), Archea (también son procarinotes e incluyen a los termófilos extremos, halófilosextremos y reductores de sulfato y metanógenos), y Eurakya (eucariontes). De resultados de análisisgenéticos se ha concluido que el dominio Archea está más relacionado con el dominio Eurakya que conBacteria, basándose en ello se ha plantado que en el dominio Archea se hallan los organismos vivientesmás parecidos al organismo ancestral que ocuparía la raíz del árbol de la vida.

El uso de secuencias para determinar las relaciones filogenéticas entre especies, consiste en elalineamiento de dichas secuencias y en el análisis de las coincidencias que se detectan. Estas coincidenciasson candidatas a ser consideradas como homologías, pero no siempre es tan sencillo; pueden existir otrasexplicaciones para tales coincidencias:

• La alta similitud en las cadenas podría ser indispensable para que la molécula realizara su tarea, locual se puede confirmar comparando la misma secuencia en especies filogenéticamente máslejanas.

• Podría tratarse también de casos de evolución convergente; presiones del entorno similares queproporcionan soluciones evolutivas muy parecidas.

• Diferentes velocidades evolutivas pueden presentar mayor número de cambios en secuencias deespecies emparentadas más cercanamente que con otras especies más distantes.

• Las similitudes de las secuencias podrían ser debidas a la transferencia de un mismo gen desdeespecies de otra familia; por ejemplo a través de un virus.

Aún conscientes de los errores que se pueden producir (especialmente por el caso de las distintasvelocidades evolutivas), el análisis de similaridades en las secuencias de genomas y proteínas, estáconsiderado el método más fiable para establecer relaciones filogenéticas; aún cuando en ocasiones sepueden conseguir resultados no significativos y en otros erróneos. Por ello siempre es necesario valorar losresultados obtenidos por medio del criterio experto que puede y debe ampararse en otras disciplinascientíficas para dilucidar las dudas minimizando así el margen de error.

Los dos problemas principales que aparecen al intentar inferir filogenias a partir de comparaciones de genesson; por una lado el ancho rango de variación de similaridad que llega a desvirtuar el significado estadístico,y por el otro, la existencia de varias velocidades de evolución entre diferentes ramas del árbol evolutivo.Para ayudar a la determinación de las relaciones filogenéticas, frecuentemente se utilizan las SINEs (ShortInterspersed Nuclear Elements) y LINEs (Long Interspersed Nuclear Elements). Ambos conceptos serefieren a piezas de DNA ajeno que ha sido insertado en los cromosomas de un organismo multicelular poragentes foráneos como pueden ser los retrovirus; la diferencia entre ambos estriba en la longitud de losmismos, tal y como indican sus siglas en inglés. Los más importantes para lo que nos ocupa son los SINE.Los SINE son insertados aleatoriamente en una porción no codificante del genoma por transcrición reversade RNA y su importancia radica en que la existencia de SINEs similares en el mismo locus, en dos especiesdistintas, implica que ambas especies tienen un ancestro común en el cual tuvo lugar la inserción. Lainserción de SINE parece ser irreversible, la única opción seria que se produjera una delección a granescala o una translocación que afectara exactamente la longitud del SINE; ambos casos con unaprobabilidad prácticamente nula, lo cual hace de los SINE un buen aliado para ayudar a la inferencia defilogenias.

Existe ya, actualmente, un volumen de datos impresionante distribuido entre las distintas bases de datos

Versión: V001R006 (23/06/2014), Ref: A0011 Página 5 de 8

Page 6: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

que contienen información de genómica y/o proteómica. Para ello es útil utilizar portales de internet (sitiosweb de internet) que centralizan la información y recursos de muchas de esas bases de datos, tal y como yase ha expuesto. Un ejemplo de ello es el portal de recursos para la bioinformática ExPASy(http://www.expasy.org). Mediante el buscador de este sitio, podemos lanzar una consulta a una base dedatos de las que centraliza el sitio, o quizás más útil, lanzar una consulta a todas las bases de datos con lafinalidad de averiguar en cual de ellas podemos encontrar tanto la información que buscamos, como lainformación que nos puede ofrecer.

Con la finalidad de que el acceso a la información de las bases de datos sea universal, ha sidoimprescindible establecer una serie de formatos para estandarizar la escritura/lectura de secuencias deaminoácidos o de nucleótidos. El formato más extendido es FASTA, es un formato de texto en el que lospares de bases o los aminoácidos se representan utilizando códigos de una letra única; la primera línea delfichero de texto (que empieza con el símbolo “>”) proporciona un nombre y un identificador único, así comoinformación adicional. Las líneas siguientes del fichero contienen la secuencia de letras que representa lasecuencia en cuestión3. Un ejemplo de este formato, para el citocromo b humano, es el siguiente:

>self | HUMAN30398 | ENSP00000354554 | CYB_HUMANMTPMRKTNPLMKLINHSFIDLPTPSNISAWWNFGSLLGACLILQITTGLFLAMHYSPDASTAFSSIAHITRDVNYGWIIRYLHANGASMFFICLFLHIGRGLYYGSFLYSETWNIGIILLLATMATAFMGYVLPWGQMSFWGATVITNLLSAIPYIGTDLVQWIWGGYSVDSPTLTRFFTFHFILPFIIAALATLHLLFLHETGSNNPLGITSHSDKITFHPYYTIKDALGLLLFLLSLMTLTLFSPDLLGDPDNYTLANPLNTPPHIKPEWYFLFAYTILRSVPNKLGGVLALLLSILILAMIPILHMSKQQSMMFRPLSQSLYWLLAADLLILTWIGGQPVSYPFTIIGQVASVLYFTTILILMPTISLIENKMLKWA

La comparación de secuencias se realiza alineando y emparejando las secuencias que se desean compararpara poner así de relieve las coincidencias y diferencias que entre ellas existen. Según el objetivo que sepersiga con la comparación de las secuencias, se puede realizar un emparejamiento global (alineamiento deuna secuencia entera con otra), emparejamiento local (emparejamiento de una región de una secuencia conuna región de otra), “Motif match” (buscar coincidencias de una secuencia corta dentro de otra larga) yemparejamiento múltiple (alineamiento de múltiples secuencias). Cuando existen muchas semejanzas alalinear una secuencia de una especie ancestral con sus especies hijas, inmediatamente se sospecha de quese puede tratar de un caso de homología; pero, como ya se ha expuesto anteriormente, no siempre es así.

Existen herramientas que automatizan el emparejamiento y que permiten realizar búsquedas rápidamenteen las bases de datos. Una de las herramientas más utilizadas con este fin es PSI-BLAST (NCBI, NationalCenter for Biotechnology Information). En este tipo de herramientas es importante conocer dos parámetrosque circunscriben la búqueda y afectan directamente a la utilidad de los resultados obtenidos. Por un ladoestá la sensitividad y por el otro la selectividad. Se entiende por sensitividad la capacidad de seleccionartambién secuencias distantes a la de referencia, mientras que la selectividad es la capacidad de seleccionaraquellas similaridades certeras a la secuencia de referencia. Es importante calibrar el compromiso entreambos parámetros con la finalidad de obtener el mínimo número de falsos resultados, lo cual permite untrabajo más rápido y eficiente (no hay que olvidar que el volumen de datos con el que se suele trabajar, eselevado).

Proteómica

La proteómica es la disciplina científica que se encarga del estudio y caracterización de todo el conjunto deproteínas expresadas de un genoma (proteoma). Es objeto pues de esta rama de la ciencia, la identicación,categorización y clasificación de las proteínas con respecto a su función y a las interacciones queestablecen entre ellas. Por ello, la proteómica persigue caracterizar las redes funcionales que establecen lasproteínas, así como su dinámica durante los proceos fisiológicos y patológicos.

Como es sabido, las proteínas desempeñan una gran variedad de funciones en los seres vivos; entre ellas:estructurales, catalizadoras de reacciones químicas, transporte, almacenaje, regulación, control de latranscripción de genes, reconocimiento y adhesión (en tareas inmunitarias), etc. Esta gran variedad defunciones está relacionada con una gran diversidad de formas, las cuales son posibles gracias a laexistencia de una gran variedad de patrones de plegamiento. Subyacentes a este elevado número depatrones se detectan dos estructuras básicas comunes, la hélice alfa y la lámina plegada β, a la vez queunos principios comunes tales como el empaquetamiento denso de los átomos en el interior de lasproteínas. A efectos prácticos, el empaquetamiento puede ser considerado como un tipo de condensación o

3.- En el siguiente artículo de la Wikipedia se puede encontrar el formato detallado: http://es.wikipedia.org/wiki/Formato_FASTA.

Versión: V001R006 (23/06/2014), Ref: A0011 Página 6 de 8

Page 7: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

cristalización intramolecular.

Existe una naturaleza gerárquica en la arquitectura proteica, de tal manera que se puede distinguir cuatrotipos de estructuras básicas relacionados gerárquicamente: estructura primaria (secuencia de aminoácidoscon suconjunto de enlaces primarios), estructura secundaria (hélices alfa, láminas plegadas β, así como lospatrones de puente de hidrógeno en la cadena principal) , estructura terciaria (ensamblamiento einteracciones de las hélices y láminas en el espacio), y estructura cuaternaria (ensamblamiento espacial delas subunidades -monómeros- en el caso de proteínas compuestas por más de una subunidad). Además delas estucturas básicas y siguiendo el crierio jerárquico, existen estructuras adicionales denominadas, enconjunto, estructuras supersecundarias. Entre estas estructuras se describen:

• Patrones recurrentes de interacción entre hélices y láminas: horquilla de hélice alfa, horquilla β yunidad β-α-β.

• Dominios: unidades compactas dentro del patrón de plegamiento que parecen tener estabilidadindependiente.

• Proteínas modulares: se trata de proteínas con múltiples dominios que contienen copias dedominios relacionados próximamente. Es el caso, por ejemplo, de la fibronectina que está formadapor tres dominios (F1, F2 y F3) que se repiten de acuerdo con la siguiente expresión(F1)6(F2)2(F1)3(F3)15(F1)3.

Precisamente la naturaleza gerárquica de la arquitectura proteínica sirve de base para distintos sistemas declasificación de proteínas, entre los cuales, el más general, clasifica por estructura secundaria y terciaria.

El plegamiento de las proteínas (estructura tridimensional) viene dictado por la secuencia de aminoácidos dela proteína con la ayuda de las chaperoninas que catalizan el plegado. Ante este hecho, es inevitable pensaren la posibilidad de elaborar un algoritmo que calcule la estructura automáticamente a partir de la secuenciade aminoácidos. Pero, la realidad es que los intentos actuales para alcanzar esta meta no han dado elresultado esperado. Hasta el momento se ha logrado la predicción de la estructura secundaria, también sehan logrado calcular estructuras tridimensionales aproximadas al comparar secuencias de aminoácidossimilares (la calidad de los resultados obtenidos dependerá, obviamente, de la semejanza entre las cadenasde aminoácidos que se comparan). Uno de los recursos más potentes en Internet que ayudan en este tipode tareas es The Worldwide Protein Data Bank (wwwPDB).

En el laboratorio puede llevarse a cabo la modificación de proteínas y ácidos nucléicos a voluntad, cuandoello se hace planificadamente con la finalidad de conseguir un objetivo concreto, se habla de Ingeniería deProteínas que es un campo del conocimiento que se aplica, cada vez más, en la medicina, en la industriaquímica, en la producción de biofuel, en bioremediación, etc. Con ello se puede dotar a viejas proteínas denuevas funciones o, simplemente, crear nuevas proteínas. Es importante destacar que las proteínasnaturales obedecen tanto a los principios de la química física como a los mecanismos de la evolución,mientras que las proteínas modificadas/creadas por la ingeniería (sintéticas), obedecen solo a los principiosde la química-física, pero no a los designios o limitaciones de la evolución.

En proteómica se manejan frecuentemente dos conceptos: el proteoma y el transcriptoma. El proteomacelular es la totalidad de proteínas expresadas en una célula particular bajo condiciones de medioambiente yetapa de desarrollo (ciclo celular) específicas. Por otro lado, el transcriptoma es la parte del genomatranscrito a ARNm, bajo condiciones medioambientales y de desarrollo concretas. Para obtener el proteomao transcriptoma existen distintos tipos de herramientas: DNA microarrays4, secuenciación de RNA5 yespectrografía de masas6.

Biología de sistemas

La biología de sistemas es una rama de la ciencia, interdisciplinaria, que se encarga de la investigación de

4.- Sirve para la determinación de patrones de expresión de distintas proteínas mediante detección de mRNA's , o para la detección de diferentesvariaciones en las secuencias de genes. Se aplica a: identificación de individualidades genéticas en tejidos y organismos, investigación de procesos yestados celulares, diagnóstico de enfermedades genéticas, diagnóstico de enfermedades infeccionsas, definición de tratamientos médicospersonalizados, identificación de probabilidades de padecer una enfermedad concreta, resistencia a patógenos, medición de variaciones temporales enla expresión proteínica, etc.5.- La secuenciación directa de RNA reemplaza a los microarrays como método para determinar patrones de transcripción.6.- Es una técnica física capaz de caracterizar moléculas mediante la medida de masas de sus iones. Se aplica a: identificación rápida de loscomponentes de una mezcla compleja de proteínas, secuenciación parcial de proteínas y ácidos nucleicos, análisis de modificaciones post-transcripcionales, proporciona información sobre conformaciones estáticas, dinámicas -incluyendo plegamiento y agregación- e interacciones, etc.

Versión: V001R006 (23/06/2014), Ref: A0011 Página 7 de 8

Page 8: Introducción a la bioinformatica

Cognos.6qhttp://cognos. bio6q.net

los procesos biológicos, analizándolos desde la óptica de la teoría de sistemas para así dilucidar lasinteracciones entre los elementos (internos y externos) que influyen en su desarrollo; se persigue, con ello,conseguir representar matemáticamente el sistema objeto de estudio. La finalidad es conseguir un enfoqueglobal u holístico que nos permite comprender íntegramente el funcionamiento de los sistemas (procesos)biológicos a la par que nos proporciona el entendimiento de cómo sus interacciones internas y con otrossistemas conllevan el nacimiento de propiedades emergentes.

Aunque la aplicación de la biología de sistemas en el campo de las ciencias de la vida tiene un bastoalcance,las lineas principales de trabajo actualmente se centran en:

• El estudio de patrones del interior celular y del organismo. Se hace referencia aquí a patrones deinteracciones (proteína-proteína, proteína-ácido nucléico), patrones de vías metabólicas y control decascadas, así como patrones de expresión de proteínas. Todos estos patrones presentan unaspecto dinámico (por ejemplo, el flujo de metabolitos a través de enzimas, o el flujo de informaciónque controla la cascada) y un aspecto estático (por ejemplo, una red de interacciones entreproteínas).

• La comparación de sucesos, actividades, e interacciones de genes y proteínas a través de distintasespecies.

Implicaciones clínicas

En el campo de la medicina, la bioinformática está colaborando en el diagnóstico de enfermedades y riesgode enfermedad. También se utiliza en el estudio genético de la respuesta a determinadas terapias, lo cualabre la puerta para la aplicación de tratamientos personalizados. Otro uso importante está en laidentificación de los objetivos de los medicamentos, permitiendo así trabajar en la eliminación o, mejor dichopaliación, de los efectos colaterales. En la terapia génica es también un gran aliado, para determinar, porejemplo, si un gen es ausente lo cual permite reemplazarlo, si técnicamente es posible, o ante laincapacidad de hacerlo, suplir su producto.

El futuro tanto de la investigación biomédica como de su aplicación clínica, pasa por comprender losprocesos patológicos de manera global (enfoque de la biología de sistemas), posiblemente involucrandomás de una diana terapéutica o biomarcador. Los avances en secuenciación genómica y la integración condiferentes disciplinas, entre las cuales la bioinformática juega un papel destacado, permiten que estaaproximación sea ya una realidad.

BIBLIOGRAFÍA

(1) Introduction to Bioinformatics (Fourth Edition). Arthur M. Lesk. Ed. Oxford (2) Biología (séptima edición). Campbell & Reece. Editorial Médica Panamericana.

(3) Bioquímica (Tercera edición). Mathews, Van Holde, Ahern. Editorial Perason-Addison Wesley(4) Wikipedia (http://en.wikipedia.org/wiki/Main_Page)

Versión: V001R006 (23/06/2014), Ref: A0011 Página 8 de 8