Upload
dinhdan
View
216
Download
0
Embed Size (px)
Citation preview
Capítulo4Versão0.7AlinhamentoentreduassequênciasTeoria
UmdosprocedimentoscentraisdaBioinformáticaéoalinhamentoentre os monômeros de duas sequências macromoleculares. Ao fazer essealinhamento,admite-sequeháhomologiaentreessassequências.Ahomologiaéumconceito fundamentaldaBiologia.Historicamente,oconceitodehomologiamodificou-se profundamente com a aceitação universal da evolução biológicadentro do meio científico. O termo homologia foi inicialmente cunhado porRichard Owen, em 1848, para se referir a estruturas similares de organismosdiferentes baseado no conceito de "arquétipo", ou plano estrutural do corpodesses organismos. Posteriormente, o termo “homologia” foi redefinido combasenaevoluçãobiológicaparadesignaramesmaestruturaqueestavapresenteno ancestral comum a esses organismos. Assim, atualmente nos referimos àhomologia demonômeros emumamacromolécula comoo estabelecimentodahipótese de que dois monômeros em duas sequências macromolecularesdistintas,foramomesmomonômerodeumamacromoléculadeumindivíduoancestral comum aos indivíduos que possuem as sequências que estão sendoanalisadas.
Assim, podemos verificar o comportamento evolutivo dassequências macromoleculares, a partir do que aconteceu entre elas desdequandoeramamesma.
Ummonômerodeumamacromolécula,sejaumnucleotídeodeumacadeia de ácido nucleico, seja um resíduo de amino–ácido de uma cadeiapolipeptídica,duranteaevolução,podeterquatrotiposdedestinos:
1.Permaneceromesmo.2.Sersubstituídoporoutromonômero.3.Sersuprimido(“deletado”).4.Serduplicado.5.Fazerpartedeumtrechoqueficainvertido.6.Fazerpartedeumtrechoqueétranslocado.
Cada ocorrência destas acima, é determinada por dois fatores: aocorrênciaounãodeumamutaçãogenéticaeasobrevivênciasubsequentedosindivíduos que portem a macromolécula resultante. Os casos de 2 a 6 sãoagrupadossobotermogenérico“mutação”.
As mutações são resultados genéticos de processos de naturezaquímica/bioquímica/fisiológica que ocorrem no nível dos ácidos nucléicos oudoscromossomos.Taisprocessosabrangemdesdeumasimplesalteraçãoemumúniconucleotídeoatéaproduçãodeumgametadiploideque,aounir-seaoutrogameta também diploide, pode gerar uma duplicação genômica global. Asmutações que correspondem a uma alteração de um nucleotídeo podemoriginar-sedeumfenômenoquímicodenaturezaquântica,atautomeria,umtipodeisomeriacausadopormudançasintermitentesnaconfiguraçãoeletrônicadeligaçõesduplasdemoléculasorgânicas.Porexemplo,duranteamaiorpartedo
tempo,aguaninaficaemsuaformacetônica,mas,emcercade1/400dotempo,aguaninaadotaaformaenólica.Comessaforma,aguaninaemparelha-secomatimina. Se a polimerização ocorre durante o estado enólico da guanina, háincorporação de um nucleotídeo com base alterada. Além da tautomeria, háoutrostiposdealteraçãoquímicadasbasesnitrogenadasquecausamtrocasnaincorporação de nucleotídeos que estão sendo sintetizados. Além disso, parahavero fenômenodemutaçãopropriamentedita,énecessárioqueodanonãoseja reparado, pois em todos os seres vivos há sistemas enzimáticos quedetectamealteramaslesõesqueexistemnoDNA(sistemasdereparo).
Alémdealteraçõesemumúniconucleotídeo,podemocorrerlesõesonde são inseridos ou retirados um oumais nucleotídeos da cadeia de ácidosnucléicos.Essasalteraçõessãochamadasdedeleçõeseinserções(destinos3e4respectivamente). Há ainda a possibilidade de inversão, onde um trechointermediário de uma cadeia de ácido nucléico fica invertido (destino 5), e atranslocação(destino6),ondeumtrechodacadeiadeácidonucléicosedestacadeumtrechodogenomaeéposteriormenteinseridoemumoutrotrecho.
Podehaveraindaalteraçõesdemaiorextensãonomaterialgenético,tais como duplicações ou deleções que envolvem um cromossomo inteiro. Nocasodogenomacomoumtodopodehaverofenômenodepoliploidização,queéamultiplicaçãodetodoogenoma.Entretanto,essasalteraçõesexcedemoescopodaquiloqueocorredentrodassequênciasmacromoleculareseserãoabordadasnoscapítulosqueabordemessetema.
Sejaqualforotipodemutação,elasocorremmuitomaisraramentedo que o evento de replicação normal. A razão disso acontecer é que osmecanismos de replicação são muito precisos, com confiabilidade superior a99,999%!
Quandohásubstituição,asproporçõesemqueelasocorremnãosãoiguais. Isso é uma observação de natureza empírica, ou seja, feita a partir daanálisedosprópriosdados.Quandosecomparasequênciasdemacromoléculasmuitosemelhantesdetamanhosiguais,porexemploentreassequênciasabaixo:
0 1 2 3 4 5 Pos: 12345678901234567890123456789012345678901234567890 Seq1:CAAATAGTCGCATACGCTAACATACCACATGCTAATGGAACATACCGCCA Seq2:CACATAGCCGCATGCGCTAACATACCGCATGTTAATGCAACATACCGTCA
Verificamosqueastransições(A<>GeC<>T,posições8,14,27,32e
48)sãomaisfrequentesqueastransversões(A<>C;A<>T;G<>C;G<>T,posições3 e38). Isso aconteceporqueas transiçõesnãoalteramonúmerodeanéisdacadeia da base nitrogenada (A e G, guanina e citosina são bases nitrogenadaspúricas, têm dois anéis, C e T, citosina e timina são bases nitrogenadaspirimídicas, têmumanelnacadeia).Comoonúmerodecadeiasnãoéalteradonasmutaçõesdotipotransição, ficamaisdifícilqueasproteínasdosistemadereparodeDNA“percebam”alteraçõesnafitadupla,oquenãoacontecequandoháumatransversãoeaformadafitasealterasignificantemente.
Outraobservaçãoempíricaéqueassubstituiçõesnãosedistribuemuniformemente ao longo das cadeias dasmacromoléculas, existem regiões emque elas ocorrem mais frequentemente e regiões em que elas ocorrem com
frequênciamenor. Isso não se deve a umviésmutacional,mas sim como queaconteceapósaocorrênciadasmutações.
Uma vez ocorrida uma mutação, o destino dela vai depender dareproduçãoedasobrevivência do indivíduo formado.Seamutaçãoemsinãoalterar as probabilidades de sobrevivência e de reprodução do indivíduoportador, o que determinará a sua manutenção na população serão fatoresindependentes da mutação propriamente dita, que podem ser consideradoscomoaleatórios(resultantesdoacaso)comrelaçãoàela.
Ao longo das cadeias macromoleculares existe variação nasensibilidadedemudançademonômeroscomrelaçãoaopapeldesempenhadopela macromolécula. Existe mudança com relação à sensibilidade e nãonecessariamente em relação à importância daquele trecho no papeldesempenhado. Por exemplo, suponha que uma determinada moléculamantenha seupapel bioquímico somente se houver entre23 a 27monômerosentreduasposiçõesqueefetivamenteestejamrelacionadasa essepapel.Essasposições envolvidas no espaçamento, são importantes para a manutenção dafuncionalidadedamolécula,masnãoparaasensibilidadeàssubstituições.
Essa sensibilidade das posições da macromolécula em relação amudançasédiretamenteproporcionalàintensidadedeseleçãonaturalnegativaqueocorreuduranteasgeraçõesquesepassaram.
Amaneira comoa sensibilidade àsmodificações varia ao longodasequência de monômeros é diferente para cada macromolécula. Do ponto devistateórico,éesperadoqueasregiõesondehajafortedependênciadaestruturaquímica dosmonômeros em relação à função desempenhada sejam as regiõesmais sujeitas àmaior intensidade da seleção natural negativa. Por exemplo, acadeia lateral da histidina tem propriedades dissociativas que a tornam umdoador/receptor de elétrons eficiente na catálise de reações que envolvemtransferências de elétrons. Embora as histidinas presentes nas estruturas dasenzimasenvolvidasemcatálisesde reaçõesdeóxido-reduçãopossamestarnosítioativodamolécula,aprevisãomaisreconhecidaéaquela inversa:Sabemosondeémaisprovávelqueestejaamoléculadehistidinaemumsítioativoporquenormalmenteestánaporçãoditamaisconservadadamolécula.
Assim,aposiçãodomonômeroafetaaprobabilidadecomquehajasubstituições aceitas, ou seja, mutações que passem pelo crivo da seleçãonatural.Anaturezadomonômeroafetaaprobabilidadedamutação,comovimosnocasodastransições,maisprováveisdeocorrerqueastransversões.
Atéaquifalamosdeintensidadedeseleçãonaturalnegativa,ouseja,aquelaqueimpedequehajamodificaçõesnaquiloquejáexiste.Aseleçãonaturalpositivaseriaaquelaquefavoreceosmutantesquesurgem,porfazeremcomqueosindivíduosqueasportemtenhamprobabilidademaiordesobreviveredeixardescendentesdoqueosdemais.Nesseaspecto,nãoháteoriasólidaqueembasequaisquer previsões quanto à ocorrência aumentada ou diminuída de haverseleçãonaturalpositiva.Oquese imaginaéqueasmacromoléculasexistemhátantotempoquegrandepartedesuaestruturajáestejaotimizadaemrelaçãoàsuafunção.
Com relação às inserções e deleções, existe pouca contribuição dateoriaemrelaçãoaoqueseesperaqueaconteçaaolongodaevolução.Asúnicasobservações que podem ser feitas nesse sentido dizem respeito às regiõesrepetitivasdogenoma,tambémconhecidascomodebaixacomplexidade.
Imagineotrechodeumasequênciadenucleotídeosaseguir:
0 1 2 Pos: 12345678901234567890 Seq1: 5’CGATGCTACACAGATGCCGC 3’
Essasequênciaemparelha-secomasuacomplementarassim:
0 1 2 Pos: 12345678901234567890 Seq1: 5’CGATGCTACACAGATGCCGC 3’ .................... Seq1’:3’GCTACGATGTGTCTACGGCG 5’
Nessecasocadaemparelhamentocorretoestárepresentadoporumponto entre as letras das cadeias. Suponha que a cadeia 5’->3’ esteja sendosintetizadausandocomomoldeacadeiacomplementar:
0 1 Pos: 1234567890 Seq1: 5’CGATGCTACA 3’ (cadeia crescente) .......... Seq1’:3’GCTACGATGTGTCTACGGCG 5’ (cadeia molde)
Suponha que haja um deslocamento de um nucleotídeo para adireitanacadeiaqueestásendosintetizada:
0 1 Pos: 1234567890 Seq1:5’ CGATGCTACA 3’ (cadeia crescente) Seq1’:3’GCTACGATGTGTCTACGGCG 5’ (cadeia molde)
Nessecasonãoháqualqueremparelhamentocorretoe,portanto,acadeianãocontinuaráasersintetizada.
Se, noentanto, a seguinte sequênciadenucleotídeosestiver sendosintetizada:
0 1 Pos: 1234567890 Seq1: 5’CGATGCGGGG 3’ (cadeia crescente) .......... Seq1’:3’GCTACGCCCCCCCCGGCG 5’ (cadeia molde)
Sehouverumdeslocamento,comonocasoanterior:
0 1 Pos: 1234567890 Seq1: 5’ CGATGCGGGG 3’ (cadeia crescente) .... Seq1’:3’GCTACGCCCCCCCCGGCG 5’ (cadeia molde)
Poderá haver crescimento da cadeia pois há quatroemparelhamentos corretos que sustentarão a dupla hélice imediatamenteanterioràposiçãodeincorporaçãodopróximonucleotídeo.
Assim,ofatodehaverregiõesrepetitivas,aumentaaprobabilidadedeinserçõesoudeleçõesporcausadofenômenoconhecidocomoescorregãodapolimerase(“polymeraseslippage”eminglês).
Resumindo, temos bases teóricas sólidas para afirmarmos, apropósitoderealizaroalinhamento,ouescolheramelhorhipótesedehomologiamonômeroamonômeroentreumpardesequênciasmacromolecularesque:1. As substituições do tipo transição são mais prováveis que aquelas do tipo
transversão.2.Inserçõesedeleçõessãomaisprováveisemregiõesdebaixacomplexidade.
Todas as demais regras são “ad hoc”, ou seja, são sujeitas às
propriedadesdasmacromoléculasconsideradas!
AlgoritmosdealinhamentoExistem três tipos de alinhamento: Global, local ou semi-global.
Começaremospeloalinhamento local, cuja teoriaébemconhecida,pelomenosnonívelcomputacional.
Alinhamentolocal
O alinhamento local é aquele em que temos duas sequênciasmacromoleculares que sabemos serem homólogas e nas quais, durante aevolução que ocorreu desde o ancestral comum entre elas houve eventos desubstituiçãoedeinserçãoe/oudeleção.
Vamossuporumcasomuitíssimosimplesque jánospermite tirarconclusõesmuitoimportantessobreanaturezadoproblema:
Sejamasduassequênciasabaixocomapenastrêsnucleotídeos:
AGT AAT
Poderíamostentarinferirqualeraasequênciadoancestral?Arigor,não! Poderia muito bem ter havido um ancestral com a sequência CCC quepassoupelosseguintesestados:
AGT / CCC -> ACC -> ACT \ AAT Tempo->Isso poderia ter acontecido no caso de haver diversos ancestrais,
comsequências[CCC],[ACC]e[ACT].Assim,quandonosreferimosaancestraishipotéticos,nosreferimossempreaoancestralcomummaisrecente(ACMRouMRCA,dasiglaeminglês).Alémdisso, tambémutilizamosumaregrabásicadaCiência, que tem cunho filosófico, que é a regra da parcimônia. Segundo essaregra, ao havermais que uma possibilidade, escolhemos aquelamais simples,quenocasonãoseriaaqueladoancestralcomsequênciaACT,masAGTouAAT,ondeteriahavidoapenasumamudançaeumadassequênciaspermaneceucomoadoancestral.Aregradaparcimôniatambéméconhecidacomoa"navalhadeOccam", por ter sido estabelecida pelo filósofo inglês William de Occam, noséculo XVI, navalha que corta metaforicamente as possibilidades supérfluas.Suponha,noentanto,queapossibilidadedeterhavidoinserçãooudeleçãofosse
muito maior do que aquela de haver substituição. Nesse caso, um cenáriopossívelseria:
AGT / ACGT \ ACT Tempo->
Nessecaso,comoosnucleotídeosG eCnãoseriamhomólogoseo
alinhamento,pararefletirissoficariaassim:
A-GTAC_T
Comodecidir?
Como vimos, o problemado alinhamento é análogo ao da fórmulacom duas incógnitas, por exemplo, x + y = 8. Uma fórmula assim sozinha nãopodesersolucionada,amenosquehajaumaoutrafórmula,porexemplo,x-y=2.Pararesolverumalinhamentoprecisamosdeumoutrotipodeinformaçãoe,nocasodosalgoritmosdealinhamento,seutilizadepontuaçõesdiferentesparaoseventosdeinserção/deleçãoeparaoeventodesubstituição.Apropósito,nãohá como se saber, quando se compara duas sequências demacromoléculas, sehouveumeventodeinserçãodeummonômeroemumadelasouumeventodedeleção na outra. Por isso se usa o termo indel (contração dos sufixos deinserçãoedeleção)
Nessecaso,seformosminimizarapontuaçãoeadotarmosovalorde1pontoparaindele3pontosparasubstituição,valeoalinhamento:
A-GTAC_T
Seapontuaçãofosse1pontoparaindele1pontoparasubstituição,teríamos,comoresultado:
AGT ACT
Em qualquer dos casos, não teríamos como saber a sequênciaportadapeloancestral.
Algoritmosdealinhamentos1.Alinhamentosglobais
O alinhamento global é aquele realizado entre sequências demacromoléculas,decomprimentodiferenteounão,cujasextremidadessesabemser homólogas. Essa situação acontece, por exemplo, quando se deseja alinharfragmentos de DNA que foram amplificados com o mesmo par deoligonucleotídeosiniciadores(primers).
Umalgoritmoingênuoenvolveriaumaadiçãosequencialdelacunas(gaps, em inglês), em todas as posiçõespossíveis como cálculo, para cadaum
dos alinhamentos feitos, da pontuação obtida. Tal algoritmo seria exato, oproblemadeleéqueconsumiriatemposinaceitáveis,mesmoparasequênciasdetamanhosmodestos.
O primeiro algoritmo desenvolvido para alinhamento global entredois trechos de sequênciasmacromoleculares foi o algoritmo deNeedleman eWunsch, elaborado em 1970. Ele se utiliza da técnica chamada programaçãodinâmica, que parte do princípio que um problema pode ser dividido emsubproblemasmenores.
EtapasdoalgoritmodeNeedleman-Wunsch
Duassequênciasaseremalinhadassãoarranjadasortogonalmente,conformeafigura1.
Figura1.AlgoritmodeNeedleman-Wunsch.Duassequênciasdetamanhomen,queseassumecomohomólogassãoarranjadasortogonalmenteemumamatrizcomm+1linhasen+1colunas.
Preenchemosaposição(0,0)comovalor0.Aseguir,paratodovalor
de linha igual a 0, para cada coluna começando em 1, se adiciona o valor depenalidadededeleção(nocaso=-1)aovalordacéluladacolunaanterior.Faz-seomesmo para cada linha =0, começando na linha começando em 1, conformemostradonafigura2:
Figura2.Etapa2doalgoritmodeNeedleman-Wunsch.Aseguir,calculamos,emcadacélula,ovalordapontuaçãodela,de
acordo com as penalidades de inserção, deleção ou mal-emparelhamento(mismatcheminglês),conformemostradonafigura3.
Figura 3. Cálculo da pontuação da matriz com o algoritmo de Needleman-Wunsch.AMatrizépercorrida linhaapós linha, atéaúltimacoluna.C(a,b)éoconteúdodacéluladamatriznacoluna"a",linha"b".
Para encontrar o melhor alinhamento, a partir da célula inferior
direita, é traçado um caminho que percorre os maiores valores, conformemostradonafigura4.
Figura 4. Alinhamento produzido pelo algoritmo de Needleman-Wunsch.Partindo da última célula (inferior direita), chega-se à primeira (superioresquerda)percorrendoumcaminhonoqualsesegueacélulacommaiorvalor.Cada vez que há um caminho na horizontal, insere-se uma lacuna na posiçãoseguinte da sequência que está na vertical, cada vez que há um caminho navertical,insere-seumalacunanasequênciaqueestánahorizontal.2.Alinhamentoslocais
Comoexemplodealinhamento local,exemplificaremosoalgoritmode Smith e Waterman, elaborado em 1980. Assim como no algoritmo deNeedleman-Wunsch, duas sequências são dispostas ortogonalmente, como nafigura1.Aseguir,alinhaeacolunadeíndice0sãopreenchidascomovalor0,comonafigura5.
Figura5.EtapadeiniciaçãodoalgoritmodeSmith-Waterman.Paratodalinhaoucoluna=0,ovalor0écolocadonamatriz.
Aseguir,assimcomonousodoalgoritmodeNeedlemaneWunsch,oalgoritmodeSmitheWatermanbaseia-sanocálculodeumapontuaçãocomvalorespré-estipulados.Umadiferença importanteéquevaloresnegativosnãosãoadmitidos.Nafigura6semostraocálculodosvaloresdascélulas.
Figura6.PontuaçãodamatrizcomoalgoritmodeSmithWaterman.C(a,b)éoconteúdodacéluladamatriznacoluna"a",linha"b".Notequevaloresabaixode0nãosãoadmitidos.
Apartirdamatriz,porsetratardealgoritmodealinhamentolocal,aênfase está na busca de "ilhas" de valores diagonais alto, que refletem aexistênciadesubsequênciasconservadasentreassequênciasconsideradas.
Mais para o início desse capítulo, vimos que existe um viésmutacional, quenocasodemutaçõesneutraspodetercomoconsequênciaumviésdesubstituição,mutaçõesdotipotransiçãosãomaisfrequentesqueaquelasdo tipo transição. Par lidar com esse fenômeno, podemos usar umamatriz depontuaçãoquepodeserrepresentadacomomostradonatabela1.
Tabela 1.Esquemadepontuaçãoconsiderando-sequehámaiorprobabilidadede haver substituições do tipo transição do que do tipo transversão, compenalidademaiorparaestas.
A C G TA 1 -1 -1/2 -1C -1 1 -1 -1/2G -1/2 -1 1 -1T -1 -1/2 -1 1No caso de alinhamentos de resíduos de aminoácidos em
polipeptídeoshá certamenteviéses substitucionais, que refletema "tolerância"evolutivaentresubstituiçõesdeaminoácidos.Issoocorrepoisnãoseesperaquemutaçõesqueresultamemaminoácidosquimicamentemuitoparecidosalteremmuito o conjunto forma/função do polipeptídeo correspondente. Essa é umapropriedade extensamente verificada empiricamente. Logo após a obtençãodesequênciasmacromolecularesessefenômenofoiobservado.Jáem1978,amatrizPAM foi elaborada para que, nos estudos de evolução de sequênciasmacromoleculares, esse tipo de viés passasse a ser considerado. A sigla PAMorigina-sedaexpressãoeminglês"pointacceptedmutations",ouseja,mutaçõesdepontoaceitas.Oquefazcomqueumamutaçãosejaaceitaounãorelaciona-secomoefeitomédiodotipodemutaçãonasensibilidadeevolutiva.AnalisemosamatrizPAM,apresentadanatabela2.
Tabela2.MatrizPAM100.Osresíduosdeaminoácidosestãorepresentadospelocódigode1letra.Oscódigosdeambiguidadenãoestãomostrados. A R N D C Q E G H I L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 I -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 -9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5
A=alanina,R=arginina,A Matriz PAM 100 foi determinada de acordo com o seguinte
procedimento. Tomou-se, no banco de dados de sequências polipeptídicasdisponíveisnaépoca,umsubconjuntodeparesdesequênciasquetivessem,nomáximo99%desemelhançaentresi.Apartirdessassequências,se tabulouostipos de mutação que ocorriam, com suas proporções. Para evitar números"quebrados", essas proporções foram multiplicadas por 100 e mostradas natabela. Omaior valor damatriz PAMda tabela 2 é 12, que corresponde a nãomudançadotriptofano.Omenorvaloré-9.Eleocorrediversasvezesnamatriz.Existemmuitasoutrasmatrizesquepodemserusadasdependendodocontexto,umavezqueexistemcontingênciaseviésesnamaneiracomoaseleçãonaturalageemdiferentesmoléculas.Outrosalgoritmosdealinhamento. Osalgoritmosusadosemgrandesbancosdedadossão,noentanto,bemdiferentes do que aqueles aqui mostrados. Entretanto, os princípios aquimostrados continuam presentes. O algoritmo BLAST, por exemplo, empregadoemprocuraporsequênciasnoGenBank,baseia-senaocorrênciade"palavras",algo como "AGCTG". Assim, uma sequência nucleotídica contém uma série depalavras,quenoalgoritmodeSmith-Watermancorrespondeailhasdiagonaisdevaloresaltos.