Галицына Александра Предсказание 3d...

10
Предсказание 3D организации структуры хроматина Drosophila melanogaster ".bedcode corporation" Курафеева Любовь Клеверов Денис Клеверов Максим Бельтюков Роман Галицына Александра

Upload: others

Post on 20-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Предсказание 3D организации структуры хроматина Drosophila melanogaster".bedcode corporation"Курафеева ЛюбовьКлеверов ДенисКлеверов МаксимБельтюков РоманГалицына Александра

Page 2: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Введение: традиционный подход к исследованию структуры хроматина

Топологически ассоциированные домены (ТАДы)

2

Page 3: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Введение: традиционный подход к исследованию структуры хроматина

Cubenas-Potts, 2017, NAR

3

● Поиск линейных зависимостей ● Отсутствие информации о геномном и эпигенетическом окружении ● Использование априорных моделей укладки хроматина

Page 4: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Постановка задачи

Описать зависимость пространственной организации хроматина от генетической и эпигенетической информации с помощью нейронной сети.

Этапы работы:

1. Формирование выборки признаков

2. Создание архитектуры сети и выбор метрики оценки качества предсказания

3. Обучение сети, оценка возможности предсказания структуры сетью

4

Page 5: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Входные данные и их предобработкаДля линии клеток Kc167 Drosophila melanogaster:

● Эксперимент Hi-C со сверхразрешением (250 bp, .cool)

○ Бинирование 1 Kbp○ Балансировка○ Нормировка на ожидаемое

1 Kbp cool

CTCF, Rad21, Beaf32, Su(Hw), RNA Pol II, CP190, Pc, Chromator, Pita, ZIPIC, ZW5H3K27me3, H3K4me1, H3K4me3, H3K9me2, etc.RNA-Seq

● Геномные и эпигенетические данные:○ Унификация форматов (.bed)○ Бинирование 1 Kbp с возможностью подсчета

специфических характеристик бина (mean, std, min, max, #peaks, #motifs, std(position))

5

Page 6: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Процесс работыПредобработка

данныхГенерация X

Генерация Y

Обучение модели

Бинированные .bed файлы

50

50

Бинированный .cool файл

6

Page 7: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Выбранные признаки

Карта корреляций Пирсона:

7

Page 8: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Примеры результатов

8

generated real

real

real

real

real

generated generated

generated generated

real

Page 9: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Практическая значимость

Генератор данных Hi-C без использования априорной

физической модели структуры хроматина

Модуль обработки геномных и эпигенетических данных

добавление новых данных

изменение функции и параметров бинирования

предсказание эффектов мутаций

предсказание эффектов изменения в посадке факторов и модификаций хроматина

интерпретация модели с помощью in siliсo мутагенеза

интерпретация модели с помощью анализа параметров

9

Page 10: Галицына Александра Предсказание 3D ...bioinformaticsinstitute.ru/sites/default/files/17... · 2018-06-25 · 2. Создание архитектуры

Итоги

Описать на языке входных данных обучающую и валидирующие выборки из существующих HiC карт и эпигенетических данных

Написан модуль обработки данных, позволяющий на лету выбирать интересующие белки/мотивы/etc. и генерировать новые признаки при необходимости

Написать нейросеть, которая бы по входным данным выдавала матрицу, имитирующую HiC карту.

Создана и протестирована архитектура сверточной нейронной сети

Получить возможность предсказывать взаимодействие хромосомы на основе эпигенетических данных

Данные недостаточно генерализуются, но определенная призрачная структура прослеживается

10