3 встреча — Биоинформатика (продолжение) (А. Фединцев)

Preview:

DESCRIPTION

3 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику (продолжение) ВКонтакте: http://vk.com/scsc3 Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1c

Citation preview

Операции преобразования строк

Подстановка kill bill

Вставка kill skill

Удаление fear ear

1. Расстояние Хэмминга (подстановка)

dH(GCAT,CGAT) = 2

2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) = 3

Рекуррентная формула для расстояния Левенштейна

Подсчет расстояния Левенштейна

“ T E S T

S

E

T

i

j

“ T E S T

“ 0

S

E

T

Подсчет расстояния Левенштейна

0

0

“ T E S T

“ 0

S 1

E

T

Подсчет расстояния Левенштейна

Подсчет расстояния Левенштейна

“ T E S T

“ 0

S 1

E 2

T

Подсчет расстояния Левенштейна

“ T E S T

“ 0

S 1

E 2

T 3

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1

E 2

T 3

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1 1

E 2

T 3

Восстановление редакционного предписания

1) вертикальный переход — удаление символа из s1;

2) горизонтальный переход — вставка символа из s2 в s1;

3) диагональный переход — совпадение или замена.

Подсчет расстояния Левенштейна

“ T E S T

“ 0 1 2 3 4

S 1 1 2 2 3

E 2 2 1 2 3

T 3 2 2 2 2

Алгоритм в виде, описанном выше, требует O(n*m) операций и такую же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти.

Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.

Взвешенный редакционный граф

Цели выравнивания двух последовательностей:

- соизмерить их сходство и установить соответствие между остатками;

- отметить консервативные и вариабельные участки;

- высказать соображения об эволюционных взаимосвязях.

Схожие трехмерные структуры белков

Вставка в «синей» последовательности

Типы выравнивания

- Локальное – поиск фрагментов наиболее похожих друг на друга

домовой домовой домовойскупидом водомерка водомерка

- Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару

лесовоз ---лесо---воз ледоход лед---оход---

Рекуррентная формула алгоритма Нидлмана-Вунша

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1

R -2

T -3

T -4

E -5

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2

T -3

T -4

E -5

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3

T -4

E -5

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4

E -5

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -3

I -6

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

NY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

INTY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

EIN-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

TEINT-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

TTEINET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

RTTEINRET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

PRTTEINPRET-TY

_ P R E T T Y

_ 0 -1 -2 -3 -4 -5 -6

P -1 0 -1 -2 -3 -4 -5

R -2 -1 0 -1 -2 -3 -4

T -3 -2 -1 -1 -1 -2 -3

T -4 -3 -2 -2 -1 -1 -2

E -5 -4 -3 -2 -2 -2 -2

I -6 -5 -4 -3 -3 -3 -3

N -7 -6 -5 -4 -4 -4 -4

Все замены аминокислот не являются равновероятными и в ходе эволюции чаще происходят замены на сходные по физико-химическим свойствам аминокислоты!!!

Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.

Матрица РАМ 250

Матрица Blosum 45

Отличия матриц

Основными отличиями матриц РАМ и Blosum являются: 1) использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.

Recommended