Upload
sciencehit
View
101
Download
8
Embed Size (px)
Citation preview
Биоинформатикав сфере анализа данныхсеквенирования ДНК Панкратов Василий,
Институт генетики и цитологии НАН Беларуси
•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК
ПЛАН
•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК
ПЛАН
КТО ТАКИЕ БИОИНФОРМАТИКИ?
Экспериментальные биологи
Био-информатики
Вычислительныебиологи
5
ОБЛАСТИ ПРИМЕНЕНИЯ БИОИНФОРМАТИКИ
АНАЛИЗ ИЗОБРАЖЕНИЙ
https://promo.gelifesciences.com
МОДЕЛИРОВАНИЕ 3D СТРУКТУРЫ БЕЛКОВ
https://pdb101.rcsb.org/motm/14
АНАЛИЗ ДАННЫХ СЕКВЕНИРОВАНИЯ ДНК
•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК
ПЛАН
ЧТО ТАКОЕ ДНК?
https://commons.wikimedia.org/wiki/File:DNA_chemical_structure_2.svg
GC
AТ
ГЕНОМ ЧЕЛОВЕКА
КАКОВА ФУНКЦИЯ ДНК?
Белки
Инструменты
ДНК (гены)Архив
информации
РНК
Переносчикинформации
•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК
ПЛАН
ЧТО ТАКОЕ СЕКВЕНИРОВАНИЕ (SEQUENCING)?
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGA
•Диагностика заболеваний (в т.ч. пренатальная) •Подбор индивидуального лечения•Оценка риска развития заболеваний в будущем•Оценка предрасположенностей•Оценка риска развития заболеваний у детей
–«Подбор» детей и «дизайн» детей
ЗАЧЕМ СЕКВЕНИРОВАТЬ ГЕНОМЫ ЛЮДЕЙ?
•Подбор лечения для конкретного варианта бактерии или вируса•Более «осмысленная» селекция и биотехнология сельско-хозяйственных организмов
ЗАЧЕМ СЕКВЕНИРОВАТЬ ДРУГИЕ ГЕНОМЫ?
•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК
ПЛАН
СТОИМОСТЬ СЕКВЕНИРОВАНИЯ ГЕНОМА ЧЕЛОВЕКА
СТОИМОСТЬ СЕКВЕНИРОВАНИЯ
http://www.businessinsider.com/super-cheap-genome-sequencing-by-2020-2014-10
Стоимость секвенирования
Стоимость хранения и обработки данных
ЗАДАЧА 1 АНАЛИЗ ИСХОДНОГО СИГНАЛА
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGA
ИСХОДНЫЙ СИГНАЛ (ILLUMINA)
ИСХОДНЫЙ СИГНАЛ (PACIFIC BIOSCIENCE)
ИСХОДНЫЙ СИГНАЛ (OXFORD NANOPORE)
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC+SRR566546.971 HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50hhhhgfhhcghghggfcffdhfehhhhcehdchhdhahehffffde`[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50TGCATGATCTTCAGTGCCAGGACCTTATCAAGCGGTTTGGTCCCTTTGTT+SRR566546.972 HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50dhhhgchhhghhhfhhhhhdhhhhehhghfhhhchfddffcffafhfghe
ФОРМАТ FASTQ
ЗАДАЧА 2 СЖАТИЕ И ХРАНЕНИЕ ДАННЫХ
~ 108 записей
или~ 10-30 Гбайт
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC+SRR566546.971 HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50hhhhgfhhcghghggfcffdhfehhhhcehdchhdhahehffffde`[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50TGCATGATCTTCAGTGCCAGGACCTTATCAAGCGGTTTGGTCCCTTTGTT+SRR566546.972 HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50dhhhgchhhghhhfhhhhhdhhhhehhghfhhhchfddffcffafhfghe
ФОРМАТ FASTQ
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^Y
ПРОЧТЕНИЕ
•Оценить общий результат•Убрать короткие/низкокачественные прочтения•Обрезать прочтения по концам
ЗАДАЧА 3 КОНТРОЛЬ КАЧЕСТВА И ФИЛЬТРАЦИЯ
ЗАДАЧА 4.1 СБОРКА ГЕНОМА DE NOVO
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT
ACTAGCGAGCT
CGGACTGACTG
GCATCGGACTG
ACGCCGCTGCA
GCCGCTGCATCAAGCTGCGA
GCGACGCCG
TGACTGCATCGATGCATCGACTA
CTGCATCGACTACCGACTACGACTAG
ACGACTAGCGAGCT
СБОРКА ГЕНОМА DE NOVO
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT
ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCGCTGCA
GCCGCTGCATCAAGCTGCGA GCGACGCCG TGACTGCATCGA TGCATCGACTA
CTGCATCGACTAC CGACTACGACTAG
ACGACTAGCGAGCT
ТРУДНОСТИ СБОРКИ DE NOVO
Chaisson et al., 2015
ЗАДАЧА 4.2 РЕ-СЕКВЕНИРОВАНИЕ
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT
ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCGGCA
GCCGGCATCAAGCTGCGA GCGACGCCG TGACTGCATCGG TGCATCGGCTA
CTGCATCGGCTAC CGGCTACGACTAG
ACGACTAGCGAGCT
РЕ-СЕКВЕНИРОВАНИЕ
AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT
ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCG--GCA
GCCG--GCATCAAGCTGCGA GCGACGCCG TGACTGCATCGG TGCATCGGCTA
CTGCATCGGCTAC CGGCTACGACTAG
ACGACTAGCGAGCT
ПОИСК ОТЛИЧИЙ (МУТАЦИЙ)
ФОРМАТ VCF
ЗАДАЧА 5 ОЦЕНКА ПОКРЫТИЯ
70% с покрытием 5х
ТРУДНОСТИ ПРИ ОЦЕНКЕ ПОКРЫТИЯ
ТРУДНОСТИ ПРИ ОЦЕНКЕ ПОКРЫТИЯ
ЗАДАЧА 6 ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
•Проверить базы данных и статьи•Попробовать предсказать эффект мутации
– Укороченный белок– Замена аминокислоты в одной позиции белка– Изменение концентрации белка
КАК УЗНАТЬ ЭФФЕКТ МУТАЦИИ?
•Мутация Х – Обычно безвредна– В сочетании с мутацией Y заболевание
развивается всегда– В сочетании с мутацией Z заболевание
развивается при определенных внешних воздействиях
ВЗАИМОДЕЙСТВИЕ МУТАЦИЙ
•Перевод «сырого» сигнала в последовательность•Хранение исходных, промежуточных и конечных данных•Сборка геномов de novo и при ре-секвенировании•Оценка покрытия•Интерпретация – ответ на биологический вопрос•Создание единого удобного решения
БИОИНФОРМАТИЧЕСКИЕ ЗАДАЧИ
ДЕСЕРТ 1 БИОИНФОРМАТИЧЕСКИЕ ИГРУШКИ
http://phylo.cs.mcgill.ca/ https://fold.it/portal/
ДЕСЕРТ 2 ДНК-АРХИВ
Биоинформатикав сфере анализа данныхсеквенирования ДНК Панкратов Василий,
Институт генетики и цитологии НАН Беларуси
ДЕСЕРТ 2 ДНК-АРХИВ
ПОСТРОЕНИЕ И АНАЛИЗ ГЕННЫХ СЕТЕЙ
Marbach et al., 2012
БЕЛКИ
GSGAGA
20 букв
http://www.whrhs.org/Page/1051
ИСХОДНЫЙ СИГНАЛ (ION TORRENT)
ЗАДАЧА 4.1 СБОРКА ГЕНОМА DE NOVO
Knudsen et al., 2010
СБОРКА ГЕНОМА
SAM ФОРМАТ
ВЫРАВНИВАНИЕ НА РЕФЕРЕНСНЫЙ ГЕНОМ
РЕ-СЕКВЕНИРОВАНИЕ
КАК
Заболевание Хромосома
Ген Мутации
Фенилкетонурия 12 PAH Множество
Муковисцедоз 7 CFTRДелеция 3
нуклеотидов
Серповидноклеточная анемия 11 HBB Замена 1
нуклеотида
Гемофилия Х F9 Множество
ПРЕЖДЕВРЕМЕННЫЙ СТОП КОДОН
US National Library of Medicine
СДВИГ РАМКИ СЧИТЫВАНИЯ
US National Library of Medicine
ЗАМЕНА АМИНОКИСЛОТЫ
US National Library of Medicine