12
Capítulo 4 Versão 0.7 Alinhamento entre duas sequências Teoria Um dos procedimentos centrais da Bioinformática é o alinhamento entre os monômeros de duas sequências macromoleculares. Ao fazer esse alinhamento, admite-se que há homologia entre essas sequências. A homologia é um conceito fundamental da Biologia. Historicamente, o conceito de homologia modificou-se profundamente com a aceitação universal da evolução biológica dentro do meio científico. O termo homologia foi inicialmente cunhado por Richard Owen, em 1848, para se referir a estruturas similares de organismos diferentes baseado no conceito de "arquétipo", ou plano estrutural do corpo desses organismos. Posteriormente, o termo “homologia” foi redefinido com base na evolução biológica para designar a mesma estrutura que estava presente no ancestral comum a esses organismos. Assim, atualmente nos referimos à homologia de monômeros em uma macromolécula como o estabelecimento da hipótese de que dois monômeros em duas sequências macromoleculares distintas, foram o mesmo monômero de uma macromolécula de um indivíduo ancestral comum aos indivíduos que possuem as sequências que estão sendo analisadas. Assim, podemos verificar o comportamento evolutivo das sequências macromoleculares, a partir do que aconteceu entre elas desde quando eram a mesma. Um monômero de uma macromolécula, seja um nucleotídeo de uma cadeia de ácido nucleico, seja um resíduo de amino–ácido de uma cadeia polipeptídica, durante a evolução, pode ter quatro tipos de destinos: 1. Permanecer o mesmo. 2. Ser substituído por outro monômero. 3. Ser suprimido (“deletado”). 4. Ser duplicado. 5. Fazer parte de um trecho que fica invertido. 6. Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por dois fatores: a ocorrência ou não de uma mutação genética e a sobrevivência subsequente dos indivíduos que portem a macromolécula resultante. Os casos de 2 a 6 são agrupados sob o termo genérico “mutação”. As mutações são resultados genéticos de processos de natureza química/bioquímica/fisiológica que ocorrem no nível dos ácidos nucléicos ou dos cromossomos. Tais processos abrangem desde uma simples alteração em um único nucleotídeo até a produção de um gameta diploide que, ao unir-se a outro gameta também diploide, pode gerar uma duplicação genômica global. As mutações que correspondem a uma alteração de um nucleotídeo podem originar-se de um fenômeno químico de natureza quântica, a tautomeria, um tipo de isomeria causado por mudanças intermitentes na configuração eletrônica de ligações duplas de moléculas orgânicas. Por exemplo, durante a maior parte do

Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

  • Upload
    dinhdan

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Capítulo4Versão0.7AlinhamentoentreduassequênciasTeoria

UmdosprocedimentoscentraisdaBioinformáticaéoalinhamentoentre os monômeros de duas sequências macromoleculares. Ao fazer essealinhamento,admite-sequeháhomologiaentreessassequências.Ahomologiaéumconceito fundamentaldaBiologia.Historicamente,oconceitodehomologiamodificou-se profundamente com a aceitação universal da evolução biológicadentro do meio científico. O termo homologia foi inicialmente cunhado porRichard Owen, em 1848, para se referir a estruturas similares de organismosdiferentes baseado no conceito de "arquétipo", ou plano estrutural do corpodesses organismos. Posteriormente, o termo “homologia” foi redefinido combasenaevoluçãobiológicaparadesignaramesmaestruturaqueestavapresenteno ancestral comum a esses organismos. Assim, atualmente nos referimos àhomologia demonômeros emumamacromolécula comoo estabelecimentodahipótese de que dois monômeros em duas sequências macromolecularesdistintas,foramomesmomonômerodeumamacromoléculadeumindivíduoancestral comum aos indivíduos que possuem as sequências que estão sendoanalisadas.

Assim, podemos verificar o comportamento evolutivo dassequências macromoleculares, a partir do que aconteceu entre elas desdequandoeramamesma.

Ummonômerodeumamacromolécula,sejaumnucleotídeodeumacadeia de ácido nucleico, seja um resíduo de amino–ácido de uma cadeiapolipeptídica,duranteaevolução,podeterquatrotiposdedestinos:

1.Permaneceromesmo.2.Sersubstituídoporoutromonômero.3.Sersuprimido(“deletado”).4.Serduplicado.5.Fazerpartedeumtrechoqueficainvertido.6.Fazerpartedeumtrechoqueétranslocado.

Cada ocorrência destas acima, é determinada por dois fatores: aocorrênciaounãodeumamutaçãogenéticaeasobrevivênciasubsequentedosindivíduos que portem a macromolécula resultante. Os casos de 2 a 6 sãoagrupadossobotermogenérico“mutação”.

As mutações são resultados genéticos de processos de naturezaquímica/bioquímica/fisiológica que ocorrem no nível dos ácidos nucléicos oudoscromossomos.Taisprocessosabrangemdesdeumasimplesalteraçãoemumúniconucleotídeoatéaproduçãodeumgametadiploideque,aounir-seaoutrogameta também diploide, pode gerar uma duplicação genômica global. Asmutações que correspondem a uma alteração de um nucleotídeo podemoriginar-sedeumfenômenoquímicodenaturezaquântica,atautomeria,umtipodeisomeriacausadopormudançasintermitentesnaconfiguraçãoeletrônicadeligaçõesduplasdemoléculasorgânicas.Porexemplo,duranteamaiorpartedo

Page 2: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

tempo,aguaninaficaemsuaformacetônica,mas,emcercade1/400dotempo,aguaninaadotaaformaenólica.Comessaforma,aguaninaemparelha-secomatimina. Se a polimerização ocorre durante o estado enólico da guanina, háincorporação de um nucleotídeo com base alterada. Além da tautomeria, háoutrostiposdealteraçãoquímicadasbasesnitrogenadasquecausamtrocasnaincorporação de nucleotídeos que estão sendo sintetizados. Além disso, parahavero fenômenodemutaçãopropriamentedita,énecessárioqueodanonãoseja reparado, pois em todos os seres vivos há sistemas enzimáticos quedetectamealteramaslesõesqueexistemnoDNA(sistemasdereparo).

Alémdealteraçõesemumúniconucleotídeo,podemocorrerlesõesonde são inseridos ou retirados um oumais nucleotídeos da cadeia de ácidosnucléicos.Essasalteraçõessãochamadasdedeleçõeseinserções(destinos3e4respectivamente). Há ainda a possibilidade de inversão, onde um trechointermediário de uma cadeia de ácido nucléico fica invertido (destino 5), e atranslocação(destino6),ondeumtrechodacadeiadeácidonucléicosedestacadeumtrechodogenomaeéposteriormenteinseridoemumoutrotrecho.

Podehaveraindaalteraçõesdemaiorextensãonomaterialgenético,tais como duplicações ou deleções que envolvem um cromossomo inteiro. Nocasodogenomacomoumtodopodehaverofenômenodepoliploidização,queéamultiplicaçãodetodoogenoma.Entretanto,essasalteraçõesexcedemoescopodaquiloqueocorredentrodassequênciasmacromoleculareseserãoabordadasnoscapítulosqueabordemessetema.

Sejaqualforotipodemutação,elasocorremmuitomaisraramentedo que o evento de replicação normal. A razão disso acontecer é que osmecanismos de replicação são muito precisos, com confiabilidade superior a99,999%!

Quandohásubstituição,asproporçõesemqueelasocorremnãosãoiguais. Isso é uma observação de natureza empírica, ou seja, feita a partir daanálisedosprópriosdados.Quandosecomparasequênciasdemacromoléculasmuitosemelhantesdetamanhosiguais,porexemploentreassequênciasabaixo:

0 1 2 3 4 5 Pos: 12345678901234567890123456789012345678901234567890 Seq1:CAAATAGTCGCATACGCTAACATACCACATGCTAATGGAACATACCGCCA Seq2:CACATAGCCGCATGCGCTAACATACCGCATGTTAATGCAACATACCGTCA

Verificamosqueastransições(A<>GeC<>T,posições8,14,27,32e

48)sãomaisfrequentesqueastransversões(A<>C;A<>T;G<>C;G<>T,posições3 e38). Isso aconteceporqueas transiçõesnãoalteramonúmerodeanéisdacadeia da base nitrogenada (A e G, guanina e citosina são bases nitrogenadaspúricas, têm dois anéis, C e T, citosina e timina são bases nitrogenadaspirimídicas, têmumanelnacadeia).Comoonúmerodecadeiasnãoéalteradonasmutaçõesdotipotransição, ficamaisdifícilqueasproteínasdosistemadereparodeDNA“percebam”alteraçõesnafitadupla,oquenãoacontecequandoháumatransversãoeaformadafitasealterasignificantemente.

Outraobservaçãoempíricaéqueassubstituiçõesnãosedistribuemuniformemente ao longo das cadeias dasmacromoléculas, existem regiões emque elas ocorrem mais frequentemente e regiões em que elas ocorrem com

Page 3: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

frequênciamenor. Isso não se deve a umviésmutacional,mas sim como queaconteceapósaocorrênciadasmutações.

Uma vez ocorrida uma mutação, o destino dela vai depender dareproduçãoedasobrevivência do indivíduo formado.Seamutaçãoemsinãoalterar as probabilidades de sobrevivência e de reprodução do indivíduoportador, o que determinará a sua manutenção na população serão fatoresindependentes da mutação propriamente dita, que podem ser consideradoscomoaleatórios(resultantesdoacaso)comrelaçãoàela.

Ao longo das cadeias macromoleculares existe variação nasensibilidadedemudançademonômeroscomrelaçãoaopapeldesempenhadopela macromolécula. Existe mudança com relação à sensibilidade e nãonecessariamente em relação à importância daquele trecho no papeldesempenhado. Por exemplo, suponha que uma determinada moléculamantenha seupapel bioquímico somente se houver entre23 a 27monômerosentreduasposiçõesqueefetivamenteestejamrelacionadasa essepapel.Essasposições envolvidas no espaçamento, são importantes para a manutenção dafuncionalidadedamolécula,masnãoparaasensibilidadeàssubstituições.

Essa sensibilidade das posições da macromolécula em relação amudançasédiretamenteproporcionalàintensidadedeseleçãonaturalnegativaqueocorreuduranteasgeraçõesquesepassaram.

Amaneira comoa sensibilidade àsmodificações varia ao longodasequência de monômeros é diferente para cada macromolécula. Do ponto devistateórico,éesperadoqueasregiõesondehajafortedependênciadaestruturaquímica dosmonômeros em relação à função desempenhada sejam as regiõesmais sujeitas àmaior intensidade da seleção natural negativa. Por exemplo, acadeia lateral da histidina tem propriedades dissociativas que a tornam umdoador/receptor de elétrons eficiente na catálise de reações que envolvemtransferências de elétrons. Embora as histidinas presentes nas estruturas dasenzimasenvolvidasemcatálisesde reaçõesdeóxido-reduçãopossamestarnosítioativodamolécula,aprevisãomaisreconhecidaéaquela inversa:Sabemosondeémaisprovávelqueestejaamoléculadehistidinaemumsítioativoporquenormalmenteestánaporçãoditamaisconservadadamolécula.

Assim,aposiçãodomonômeroafetaaprobabilidadecomquehajasubstituições aceitas, ou seja, mutações que passem pelo crivo da seleçãonatural.Anaturezadomonômeroafetaaprobabilidadedamutação,comovimosnocasodastransições,maisprováveisdeocorrerqueastransversões.

Atéaquifalamosdeintensidadedeseleçãonaturalnegativa,ouseja,aquelaqueimpedequehajamodificaçõesnaquiloquejáexiste.Aseleçãonaturalpositivaseriaaquelaquefavoreceosmutantesquesurgem,porfazeremcomqueosindivíduosqueasportemtenhamprobabilidademaiordesobreviveredeixardescendentesdoqueosdemais.Nesseaspecto,nãoháteoriasólidaqueembasequaisquer previsões quanto à ocorrência aumentada ou diminuída de haverseleçãonaturalpositiva.Oquese imaginaéqueasmacromoléculasexistemhátantotempoquegrandepartedesuaestruturajáestejaotimizadaemrelaçãoàsuafunção.

Com relação às inserções e deleções, existe pouca contribuição dateoriaemrelaçãoaoqueseesperaqueaconteçaaolongodaevolução.Asúnicasobservações que podem ser feitas nesse sentido dizem respeito às regiõesrepetitivasdogenoma,tambémconhecidascomodebaixacomplexidade.

Page 4: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Imagineotrechodeumasequênciadenucleotídeosaseguir:

0 1 2 Pos: 12345678901234567890 Seq1: 5’CGATGCTACACAGATGCCGC 3’

Essasequênciaemparelha-secomasuacomplementarassim:

0 1 2 Pos: 12345678901234567890 Seq1: 5’CGATGCTACACAGATGCCGC 3’ .................... Seq1’:3’GCTACGATGTGTCTACGGCG 5’

Nessecasocadaemparelhamentocorretoestárepresentadoporumponto entre as letras das cadeias. Suponha que a cadeia 5’->3’ esteja sendosintetizadausandocomomoldeacadeiacomplementar:

0 1 Pos: 1234567890 Seq1: 5’CGATGCTACA 3’ (cadeia crescente) .......... Seq1’:3’GCTACGATGTGTCTACGGCG 5’ (cadeia molde)

Suponha que haja um deslocamento de um nucleotídeo para adireitanacadeiaqueestásendosintetizada:

0 1 Pos: 1234567890 Seq1:5’ CGATGCTACA 3’ (cadeia crescente) Seq1’:3’GCTACGATGTGTCTACGGCG 5’ (cadeia molde)

Nessecasonãoháqualqueremparelhamentocorretoe,portanto,acadeianãocontinuaráasersintetizada.

Se, noentanto, a seguinte sequênciadenucleotídeosestiver sendosintetizada:

0 1 Pos: 1234567890 Seq1: 5’CGATGCGGGG 3’ (cadeia crescente) .......... Seq1’:3’GCTACGCCCCCCCCGGCG 5’ (cadeia molde)

Sehouverumdeslocamento,comonocasoanterior:

0 1 Pos: 1234567890 Seq1: 5’ CGATGCGGGG 3’ (cadeia crescente) .... Seq1’:3’GCTACGCCCCCCCCGGCG 5’ (cadeia molde)

Poderá haver crescimento da cadeia pois há quatroemparelhamentos corretos que sustentarão a dupla hélice imediatamenteanterioràposiçãodeincorporaçãodopróximonucleotídeo.

Page 5: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Assim,ofatodehaverregiõesrepetitivas,aumentaaprobabilidadedeinserçõesoudeleçõesporcausadofenômenoconhecidocomoescorregãodapolimerase(“polymeraseslippage”eminglês).

Resumindo, temos bases teóricas sólidas para afirmarmos, apropósitoderealizaroalinhamento,ouescolheramelhorhipótesedehomologiamonômeroamonômeroentreumpardesequênciasmacromolecularesque:1. As substituições do tipo transição são mais prováveis que aquelas do tipo

transversão.2.Inserçõesedeleçõessãomaisprováveisemregiõesdebaixacomplexidade.

Todas as demais regras são “ad hoc”, ou seja, são sujeitas às

propriedadesdasmacromoléculasconsideradas!

AlgoritmosdealinhamentoExistem três tipos de alinhamento: Global, local ou semi-global.

Começaremospeloalinhamento local, cuja teoriaébemconhecida,pelomenosnonívelcomputacional.

Alinhamentolocal

O alinhamento local é aquele em que temos duas sequênciasmacromoleculares que sabemos serem homólogas e nas quais, durante aevolução que ocorreu desde o ancestral comum entre elas houve eventos desubstituiçãoedeinserçãoe/oudeleção.

Vamossuporumcasomuitíssimosimplesque jánospermite tirarconclusõesmuitoimportantessobreanaturezadoproblema:

Sejamasduassequênciasabaixocomapenastrêsnucleotídeos:

AGT AAT

Poderíamostentarinferirqualeraasequênciadoancestral?Arigor,não! Poderia muito bem ter havido um ancestral com a sequência CCC quepassoupelosseguintesestados:

AGT / CCC -> ACC -> ACT \ AAT Tempo->Isso poderia ter acontecido no caso de haver diversos ancestrais,

comsequências[CCC],[ACC]e[ACT].Assim,quandonosreferimosaancestraishipotéticos,nosreferimossempreaoancestralcomummaisrecente(ACMRouMRCA,dasiglaeminglês).Alémdisso, tambémutilizamosumaregrabásicadaCiência, que tem cunho filosófico, que é a regra da parcimônia. Segundo essaregra, ao havermais que uma possibilidade, escolhemos aquelamais simples,quenocasonãoseriaaqueladoancestralcomsequênciaACT,masAGTouAAT,ondeteriahavidoapenasumamudançaeumadassequênciaspermaneceucomoadoancestral.Aregradaparcimôniatambéméconhecidacomoa"navalhadeOccam", por ter sido estabelecida pelo filósofo inglês William de Occam, noséculo XVI, navalha que corta metaforicamente as possibilidades supérfluas.Suponha,noentanto,queapossibilidadedeterhavidoinserçãooudeleçãofosse

Page 6: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

muito maior do que aquela de haver substituição. Nesse caso, um cenáriopossívelseria:

AGT / ACGT \ ACT Tempo->

Nessecaso,comoosnucleotídeosG eCnãoseriamhomólogoseo

alinhamento,pararefletirissoficariaassim:

A-GTAC_T

Comodecidir?

Como vimos, o problemado alinhamento é análogo ao da fórmulacom duas incógnitas, por exemplo, x + y = 8. Uma fórmula assim sozinha nãopodesersolucionada,amenosquehajaumaoutrafórmula,porexemplo,x-y=2.Pararesolverumalinhamentoprecisamosdeumoutrotipodeinformaçãoe,nocasodosalgoritmosdealinhamento,seutilizadepontuaçõesdiferentesparaoseventosdeinserção/deleçãoeparaoeventodesubstituição.Apropósito,nãohá como se saber, quando se compara duas sequências demacromoléculas, sehouveumeventodeinserçãodeummonômeroemumadelasouumeventodedeleção na outra. Por isso se usa o termo indel (contração dos sufixos deinserçãoedeleção)

Nessecaso,seformosminimizarapontuaçãoeadotarmosovalorde1pontoparaindele3pontosparasubstituição,valeoalinhamento:

A-GTAC_T

Seapontuaçãofosse1pontoparaindele1pontoparasubstituição,teríamos,comoresultado:

AGT ACT

Em qualquer dos casos, não teríamos como saber a sequênciaportadapeloancestral.

Algoritmosdealinhamentos1.Alinhamentosglobais

O alinhamento global é aquele realizado entre sequências demacromoléculas,decomprimentodiferenteounão,cujasextremidadessesabemser homólogas. Essa situação acontece, por exemplo, quando se deseja alinharfragmentos de DNA que foram amplificados com o mesmo par deoligonucleotídeosiniciadores(primers).

Umalgoritmoingênuoenvolveriaumaadiçãosequencialdelacunas(gaps, em inglês), em todas as posiçõespossíveis como cálculo, para cadaum

Page 7: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

dos alinhamentos feitos, da pontuação obtida. Tal algoritmo seria exato, oproblemadeleéqueconsumiriatemposinaceitáveis,mesmoparasequênciasdetamanhosmodestos.

O primeiro algoritmo desenvolvido para alinhamento global entredois trechos de sequênciasmacromoleculares foi o algoritmo deNeedleman eWunsch, elaborado em 1970. Ele se utiliza da técnica chamada programaçãodinâmica, que parte do princípio que um problema pode ser dividido emsubproblemasmenores.

EtapasdoalgoritmodeNeedleman-Wunsch

Duassequênciasaseremalinhadassãoarranjadasortogonalmente,conformeafigura1.

Figura1.AlgoritmodeNeedleman-Wunsch.Duassequênciasdetamanhomen,queseassumecomohomólogassãoarranjadasortogonalmenteemumamatrizcomm+1linhasen+1colunas.

Preenchemosaposição(0,0)comovalor0.Aseguir,paratodovalor

de linha igual a 0, para cada coluna começando em 1, se adiciona o valor depenalidadededeleção(nocaso=-1)aovalordacéluladacolunaanterior.Faz-seomesmo para cada linha =0, começando na linha começando em 1, conformemostradonafigura2:

Page 8: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Figura2.Etapa2doalgoritmodeNeedleman-Wunsch.Aseguir,calculamos,emcadacélula,ovalordapontuaçãodela,de

acordo com as penalidades de inserção, deleção ou mal-emparelhamento(mismatcheminglês),conformemostradonafigura3.

Figura 3. Cálculo da pontuação da matriz com o algoritmo de Needleman-Wunsch.AMatrizépercorrida linhaapós linha, atéaúltimacoluna.C(a,b)éoconteúdodacéluladamatriznacoluna"a",linha"b".

Para encontrar o melhor alinhamento, a partir da célula inferior

direita, é traçado um caminho que percorre os maiores valores, conformemostradonafigura4.

Page 9: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Figura 4. Alinhamento produzido pelo algoritmo de Needleman-Wunsch.Partindo da última célula (inferior direita), chega-se à primeira (superioresquerda)percorrendoumcaminhonoqualsesegueacélulacommaiorvalor.Cada vez que há um caminho na horizontal, insere-se uma lacuna na posiçãoseguinte da sequência que está na vertical, cada vez que há um caminho navertical,insere-seumalacunanasequênciaqueestánahorizontal.2.Alinhamentoslocais

Comoexemplodealinhamento local,exemplificaremosoalgoritmode Smith e Waterman, elaborado em 1980. Assim como no algoritmo deNeedleman-Wunsch, duas sequências são dispostas ortogonalmente, como nafigura1.Aseguir,alinhaeacolunadeíndice0sãopreenchidascomovalor0,comonafigura5.

Page 10: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Figura5.EtapadeiniciaçãodoalgoritmodeSmith-Waterman.Paratodalinhaoucoluna=0,ovalor0écolocadonamatriz.

Aseguir,assimcomonousodoalgoritmodeNeedlemaneWunsch,oalgoritmodeSmitheWatermanbaseia-sanocálculodeumapontuaçãocomvalorespré-estipulados.Umadiferença importanteéquevaloresnegativosnãosãoadmitidos.Nafigura6semostraocálculodosvaloresdascélulas.

Figura6.PontuaçãodamatrizcomoalgoritmodeSmithWaterman.C(a,b)éoconteúdodacéluladamatriznacoluna"a",linha"b".Notequevaloresabaixode0nãosãoadmitidos.

Page 11: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Apartirdamatriz,porsetratardealgoritmodealinhamentolocal,aênfase está na busca de "ilhas" de valores diagonais alto, que refletem aexistênciadesubsequênciasconservadasentreassequênciasconsideradas.

Mais para o início desse capítulo, vimos que existe um viésmutacional, quenocasodemutaçõesneutraspodetercomoconsequênciaumviésdesubstituição,mutaçõesdotipotransiçãosãomaisfrequentesqueaquelasdo tipo transição. Par lidar com esse fenômeno, podemos usar umamatriz depontuaçãoquepodeserrepresentadacomomostradonatabela1.

Tabela 1.Esquemadepontuaçãoconsiderando-sequehámaiorprobabilidadede haver substituições do tipo transição do que do tipo transversão, compenalidademaiorparaestas.

A C G TA 1 -1 -1/2 -1C -1 1 -1 -1/2G -1/2 -1 1 -1T -1 -1/2 -1 1No caso de alinhamentos de resíduos de aminoácidos em

polipeptídeoshá certamenteviéses substitucionais, que refletema "tolerância"evolutivaentresubstituiçõesdeaminoácidos.Issoocorrepoisnãoseesperaquemutaçõesqueresultamemaminoácidosquimicamentemuitoparecidosalteremmuito o conjunto forma/função do polipeptídeo correspondente. Essa é umapropriedade extensamente verificada empiricamente. Logo após a obtençãodesequênciasmacromolecularesessefenômenofoiobservado.Jáem1978,amatrizPAM foi elaborada para que, nos estudos de evolução de sequênciasmacromoleculares, esse tipo de viés passasse a ser considerado. A sigla PAMorigina-sedaexpressãoeminglês"pointacceptedmutations",ouseja,mutaçõesdepontoaceitas.Oquefazcomqueumamutaçãosejaaceitaounãorelaciona-secomoefeitomédiodotipodemutaçãonasensibilidadeevolutiva.AnalisemosamatrizPAM,apresentadanatabela2.

Page 12: Capítulo 4 Versão 0 - Instituto de Biociênciasdreyfus.ib.usp.br/bio456/cap4b.pdf · Fazer parte de um trecho que é translocado. Cada ocorrência destas acima, é determinada por

Tabela2.MatrizPAM100.Osresíduosdeaminoácidosestãorepresentadospelocódigode1letra.Oscódigosdeambiguidadenãoestãomostrados. A R N D C Q E G H I L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 I -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 -9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5

A=alanina,R=arginina,A Matriz PAM 100 foi determinada de acordo com o seguinte

procedimento. Tomou-se, no banco de dados de sequências polipeptídicasdisponíveisnaépoca,umsubconjuntodeparesdesequênciasquetivessem,nomáximo99%desemelhançaentresi.Apartirdessassequências,se tabulouostipos de mutação que ocorriam, com suas proporções. Para evitar números"quebrados", essas proporções foram multiplicadas por 100 e mostradas natabela. Omaior valor damatriz PAMda tabela 2 é 12, que corresponde a nãomudançadotriptofano.Omenorvaloré-9.Eleocorrediversasvezesnamatriz.Existemmuitasoutrasmatrizesquepodemserusadasdependendodocontexto,umavezqueexistemcontingênciaseviésesnamaneiracomoaseleçãonaturalageemdiferentesmoléculas.Outrosalgoritmosdealinhamento. Osalgoritmosusadosemgrandesbancosdedadossão,noentanto,bemdiferentes do que aqueles aqui mostrados. Entretanto, os princípios aquimostrados continuam presentes. O algoritmo BLAST, por exemplo, empregadoemprocuraporsequênciasnoGenBank,baseia-senaocorrênciade"palavras",algo como "AGCTG". Assim, uma sequência nucleotídica contém uma série depalavras,quenoalgoritmodeSmith-Watermancorrespondeailhasdiagonaisdevaloresaltos.