Upload
internet
View
106
Download
3
Embed Size (px)
Citation preview
RepeatMasker
• Aluno: Fred Ulisses maranhão
• Professora: Kátia S. Guimarães
• Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001
Introdução
• http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker/
• Função: Esconder repetições esparsas, regiões de baixa complexidade e repetições simples
• Desenvolvido e mantido por: Phil Green, University of Washington
Repetições
• Repetições esparsas
• Regiões de baixa complexidade (ex.: CT-rich)– Repetições simples (ex.: (TG)n )
O Problema
• Sequência de DNA com repetições são dificeis de montar e de pesquisar
• Mascar regiões repetitivas pode facilitar o trabalho de varias outras ferramentas computacionais– Ex.: PhredPhrap
O Algoritmo
• Busca de alinhamentos de melhor score
• Compara uma seqüência, com seqüências numa base de dados
• Procura alinhamentos locais
• Utiliza matrizes de similaridade
• Esconde com:– N para nucleotídeos– X para proteínas
O Algoritmo
• RepeatMasker
– cross_match + base de repetições
• swat
–Smith-Waterman Algorithm
Algoritmo de Smith-Waterman
• Programação dinâmica
• Matriz de alinhamentos
• Tempo: O(n*m); Espaço: O(n*m)
• Matriz de Dayhoff: matrizes PAM
e T A A C G G e 0 0 0 0 0 0 0 A 0 0 1 1 0 0 0 A 0 0 1 2 0 0 0 C 0 0 0 0 3 1 0 T 0 1 0 0 1 2 0
Matriz de alinhamentos
base de repetições
0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 2 0 0 0 0 0 0 0 3 1 0 0 1 0 0 1 2 0
Matriz de alinhamentosen
trad
a
Matriz PAM
A R N D ... Z X *A 2 -2 0 0 0 0 -8R -2 6 0 -1 ... 0 -1 -8N 0 0 2 2 1 0 -8D 0 -1 2 4 3 -1 -8. . . .. . . .. . . .Z 0 0 1 3 3 -1 -8X 0 -1 0 -1 ...-1 -1 -8* -8 -8 -8 -8 -8 -8 1
Entrada
• Seqüência– Formato Fasta – Modo de envio: html ou arquivo
• Opções
Opções
• Formato de retorno: html, arquivo tar ou links
• Modo de retorno: na própria janela ou por e-mail
• Velocidade/sensibilidade– Default– Slow: 3 vezes mais lento, 0 a 5% mais seqüências
encontradas– Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10%
mais seqüências
Opções
• Origem do DNA:– Primatas, roedores (otimizados)– Outros mamíferos, Arabidopsis, Drosophila– Outros vertebrados, gramíneas (recentes)– http://www.girinst.org/~server/repbase.html
Opções
• Mostrar alinhamentos (arquivo de alinhamentos)
• Não esconde repetições simples e DNA de baixa complexidade
• Esconde apenas repetições simples e DNA de baixa complexidade
Opções
• Apenas esconde Alus (específico para primatas)
• Esconde com “X” para distinguir regiões escondidas de “N”s já existentes na seqüência de entrada
• Gera uma “annotation table” com tamanho fixo de colunas
Outras Opções
• Opções menos comuns podem ser digitadas:– div (limita a porcentagem máxima de divergências num
alinhamento)– inv (por default, alinhamentos são no sentido das
seqüências de entrada. Com esta opção, ficam no sentido das repetições da base)
– frag (define o tamanho dos fragmentos com os quais o programa vai trabalhar)
– xsmall (regiões repetitivas em minúsculas, o resto em maiúsculas)
– small (toda a seqüência em minúsculas)
Saída
• Arquivos:– Seqüência original com regiões escondidas (masked
sequence)– Annotation file– Resumo (summary table)– Alinhamentos (opcional)
Masked Sequence
• Arquivo idêntico ao arquivo de entrada. Exceto pelas regiões Escondidas
Annotation File• Um resumo do arquivo de alinhamentos• Para cada casamento (match) mostra informações da
seqüência de entrada e da base de dados– Score– Porcentagem de
• Substituições, Deleções, Inserções
– Nome da seqüência de entrada– Na seqüência de entrada, posições de
• início, fim, distância da extremidade direita
– Marca de complemento. “C” = complemento– Nome e tipo da repetição– Na repetição, posições de
• início, fim, distância da extremidade direita
Summary Table
• Auto-explicativo
• Visão global e estatísticas sobre o que foi feito
Alinhamentos (Opcional)
• Mostra em detalhes os alinhamentos
• Legenda:– i: transition (g – a, c - t)– t: transvertion– ?: alinhado com incógnita
Aplicações
• Busca em base de dados– Evita casamentos dispendiosos em regiões não
codificantes– Ex.: antes do blast
• Associado a programas de predição de genes– Comparar a saida de ambos os programas– Incorporar RepeatMasker aos programas existentes
Referências
– Página oficial http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker/
– Base de repetições: Genetic Information Research Institute http://www.girinst.org/
– Notes on Interspersed Repeats: Um resumo dos principais tipos de repetições esparsas. http://globin.cse.psu.edu/globin/html/courses/spring2000/repeats.html
– National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/