Распределения сайтов связывания транскрипционных факторов эукариот по данным иммунопреципитации хроматина и высокопроизводительного секвенирования



Pdf просмотр
страница1/21
Дата09.10.2017
Размер9.45 Mb.
ТипДиссертация
  1   2   3   4   5   6   7   8   9   ...   21

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ
НАУКИ ИНСТИТУТ ЦИТОЛОГИИ И ГЕНЕТИКИ СИБИРСКОГО
ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи

Орлов Юрий Львович

ПОЛНОГЕНОМНЫЙ КОМПЬЮТЕРНЫЙ АНАЛИЗ
РАСПРЕДЕЛЕНИЯ САЙТОВ СВЯЗЫВАНИЯ
ТРАНСКРИПЦИОННЫХ ФАКТОРОВ ЭУКАРИОТ ПО
ДАННЫМ ИММУНОПРЕЦИПИТАЦИИ ХРОМАТИНА И
ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ

03.01.09 – математическая биология, биоинформатика



Диссертация на соискание ученой степени доктора биологических наук

Научный консультант: академик РАН, д.б.н. Н.А. Колчанов


Новосибирск - 2014

2
ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ
5
Список сокращений
19
Глава 1. ОБЗОР ЛИТЕРАТУРЫ
20 1.1. ЗАДАЧИ КОМПЬЮТЕРНОГО АНАЛИЗА ГЕНОМНЫХ ДАННЫХ
21 1.1.1. Международные проекты геномных исследований
21 1.1.2. Статистические методы и алгоритмы
24 1.2 ТРАНСКРИПЦИЯ ГЕНОВ ЭУКАРИОТ
31 1.2.1. Транскрипция и транскрипционные факторы
31 1.2.2. Методы измерения экспрессии генов
33 1.3 РЕГУЛЯТОРНЫЕ УЧАСТКИ ГЕНОВ: ПРОМОТОРЫ И ЭНХАНСЕРЫ
37 1.3.1. Промоторы и энхансеры
37 1.3.2. Компьютерные методы распознавания регуляторных районов генов
43 1.3.3. Предсказание сайтов связывания нуклеосом
46 1.3.4. Полногеномные методы определения сайтов связывания транскрипционных факторов ChIP-seq и ChIP-PET
48 1.3.5. Задачи исследования распределения сайтов связывания транскрипционных факторов в геноме по данным ChIP-seq
56 1.4. ТРАНСКРИПЦИОННЫЕ ФАКТОРЫ – ОНКОГЕНЫ И ПРОБЛЕМЫ
ИССЛЕДОВАНИЯ ИХ РЕГУЛЯЦИИ
57 1.4.1. Транскрипционные факторы p53, STAT1, FOXA1 58 1.4.2. Транскрипционный фактор c-Myc
59 1.4.3. Транскрипционный фактор рецептор эстрогенов
62 1.4.4. Возникновение опухолей и регуляция транскрипции
64 1.4.5. Задачи анализа регуляции транскрипции онкогенов
69 1.5. ФАКТОРЫ ПОДДЕРЖАНИЯ ПЛЮРИПОТЕНТНОСТИ В
ЭМБРИОНАЛЬНЫХ СТВОЛОВЫХ КЛЕТКАХ
69 1.5.1. Эмбриональные стволовые клетки
70 1.5.2. Транскрипционные факторы плюрипотентности и репрограммирование
71 1.5.3. Эффективность репрограммирования и дополнительные факторы
75 1.5.4. Задачи по определению сайтов связывания факторов в ЭСК
78 1.6. ПРОСТРАНСТВЕННЫЕ КОНТАКТЫ ХРОМОСОМ В ЯДРЕ
79 1.6.1. Проблема исследования контактирующих участков хромосом
79 1.6.2. Методы определения хромосомных контактов с помощью секвенирования: 3С и Hi-C
81 1.6.3. Метод ChIA-PET
85 1.6.4. Постановка задач анализа данных ChIA-PET
88
ЗАКЛЮЧЕНИЕ ПО ОБЗОРУ ЛИТЕРАТУРЫ И ПОСТАНОВКА ЗАДАЧ
ИССЛЕДОВАНИЯ
89

3
ПЛАН И СТРУКТУРА ИССЛЕДОВАНИЯ
92
Глава 2. МОДЕЛИ РАСПРЕДЕЛЕНИЯ САЙТОВ СВЯЗЫВАНИЯ В
ГЕНОМЕ
95 2.1 Введение. Компьютерные модели и базы данных
95 2.2 Компьютерная обработка данных ChIP-seq
97 2.2.1. Компьютерный анализ профиля связывания ChIP-seq в геноме и статистическое определение пиков
100 2.2.2. Определение статистической значимости найденных пиков профиля связывания ChIP-seq
104 2.2.3. Фильтрация профиля связывания ChIP-seq по геномной аннотации
109 2.3. Метод оценки полноты (сатурации) эксперимента ChIP-seq
110 2.4. Определение генов-мишеней транскрипционных факторов по данным экспрессии генов на микрочипах
120 2.5 Оценка качества сигнала экспрессии на микрочипах Affymetrix
125 2.6. База данных RatDNA специализированных микрочипов генов крысы
140 2.7. Модели регуляторных районов транскрипции включающие антисенс транскрипты
145 2.8. Средства компьютерной интеграции данных
150
Заключение к Главе 2 153
Глава 3. КАРТЫ САЙТОВ СВЯЗЫВАНИЯ ПО ДАННЫМ ChIP-seq
155 3.1. Введение. Структура главы
155 3.2. Распределение сайтов связывания транскрипционного фактора c-Myc, определенное по методу ChIP-PET
156 3.3. Исследование распределения сайтов связывания ТФ рецептора эстрогенов
ER

с помощью ChIP-seq
170 3.4.
Распределение сайтов связывания транскрипционных факторов плюрипотентности по данным ChIP-seq
183 3.5 Регуляторные контуры взаимодействий генной сети по данным связывания транскрипционных факторов
188 3.6 Энхансеры и множественные локусы регуляции транскрипции по данным
ChIP-seq
191 3.7 Компьютерное исследование ко-локализации в геноме и построение тепловых карт кластеров сайтов связывания
202 3.8. Дальнейшие исследования ССТФ в ЭСК мыши с помощью ChIP-seq
205 3.9. Факторы репрограммирования и плюрипотентности
207 3.10. Сайты связывания в геноме в зависимости от дозового эффекта и взаимодействия ко-факторов на примере ССТФ Smad2 в ЭСК мыши
212 3.11. Геномные карты сайтов связывания ТФ для генома человека
215
Заключение к Главе 3 219

4
Глава 4. МОДИФИКАЦИИ ХРОМАТИНА И СВЯЗЫВАНИЕ
ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В ГЕНОМЕ
221 4.1. Введение к Главе 4.
221 4.2. Исследование нуклеосомной упаковки и расположения сайтов связывания транскрипционных факторов в геноме дрожжей
222 4.2. Исследование позиционирования нуклеосом и эффективности трансляции генов у дрожжей
232 4.2. Исследование ассоциации сайтов связывания ТФ с модификациями хроматина
237 4.4 Предсказание сайтов связывания в геноме человека с помощью компьютерной модели, учитывающей состояние хроматина
250 4.5. Общая зависимость доступности ССТФ от состояния хроматина опосредована присутствием нуклеосом на ДНК
258 4.6. Заключение к Главе. Общая проблема предсказания сайтов связывания на основе данных о модификациях хроматина
260
Глава 5. ХРОМОСОМНЫЕ КОНТАКТЫ И РЕГУЛЯЦИЯ
ТРАНСКРИПЦИИ В ГЕНОМЕ ЧЕЛОВЕКА
261 5.1. Введение к Главе 5. Проблема исследования хромосомных контактов
261 5.1. Принципы построения карт хромосомных взаимодействий и компьютерные модели
261 5.2. Анализ трехмерной структуры генома через секвенирование. ChIA-PET,
Hi-C технологии
263 5.3 Хромосомные контакты, опосредованные связыванием транскрипционного фактора ERα в геноме человека
265 5.4. Хромосомные контакты, опосредованные комплексом РНК-полимеразы II в геноме человека
270 5.5. Заключение к Главе 5 293
ЗАКЛЮЧЕНИЕ И ОБСУЖДЕНИЕ
295
ВЫВОДЫ ПО ДИССЕРТАЦИОННОЙ РАБОТЕ
298
Список публикаций по теме диссертации
300
Список литературы
307
ПРИЛОЖЕНИЕ
333


5
ВВЕДЕНИЕ
Актуальность проблемы
Начало XXI века ознаменовано значительными достижениями в молекулярной биологии и генетике, связанными с качественно новыми, полногеномными исследованиями. Создание высокопроизводительных автоматизированных систем секвенирования ДНК позволяет эффективно секвенировать (расшифровывать) протяженные последовательности ДНК, вплоть до целых геномов [1, 2]. Выполняются крупномасштабные проекты полного секвенирования геномов эукариот, что ведет к лавинообразному росту объема информации как о полных последовательностях геномов эукариот
(https://www.ncbi.nlm.nih.gov/genbank/statistics), так и о последовательностях регуляторных районов экспрессии генов. Качественный скачок в развитии технологий массового параллельного секвенирования, таких как Roche 454,
Illumina Solexa, SOLiD, за последние 5-10 лет дал импульс серии новых исследований в молекулярной биологии [2-5]. Продолжаются проекты по исследованию генетического разнообразия, полиморфизмов в популяциях [6, 7], - в настоящее время доступно более тысячи полностью секвенированных индивидуальных геномов человека. В основных молекулярно-генетических банках данных (EMBL, GenBank, DDBJ) накоплена информация о более чем 20 тысячах полностью секвенированных геномах микроорганизмов и полутора тысячах геномов эукариот, включая геном человека, причем объем расшифрованных последовательностей стремительно растет. Разработка методов высокого разрешения для анализа особенностей организации регуляторных районов генов и структуры хроматина в масштабе генома дает качественно новые данные для исследования молекулярных механизмов регуляции транскрипции генов и ставит новые задачи перед компьютерной геномикой и биоинформатикой, в том числе в проекте ENCODE [8].
В последние годы благодаря методам высокопроизводительного секвенирования
ChIP-seq, ChIP-on-chip, ChIP-PET и другим ChIP-технологиям, сопряженным с иммунопреципитацией хроматина (ChIP - Chromatin ImmunoPrecipitation), появился огромный массив качественно новых данных, позволяющих оценить регуляторный потенциал клетки, в том числе исследовать все сайты связывания заданного транскрипционного фактора в геноме [9-12].
Представляемая диссертационная работа посвящена применению современных математических и компьютерных методов анализа регуляции транскрипции эукариот с

6 использованием данных ChIP-экспериментов, связанных с секвенированием и иммунопреципитацией хроматина.
Исследование регуляции экспрессии генов эукариот в масштабе генома требует изучения сайтов связывания транскрипционных факторов (СТТФ), контролирующих транскрипцию генов, их геномной локализации, определения генов-мишеней ТФ.
Оценка числа сайтов связывания, предсказанных по нуклеотидной последовательности, только для одного транскрипционного фактора в геноме человека может достигать миллиона сайтов, что значительно превышает число генов в геноме [13]. В то же время, экспериментально установленное число сайтов варьирует от нескольких тысяч до десятков тысяч, превышая число потенциальных генов-мишеней. При этом большая часть сайтов связывания располагается в удаленных от генов районах, дистальных энхансерах, что затрудняет их компьютерное предсказание и экспериментальное исследование [3].
В последние десятилетия использовались такие подходы к определению сайтов связывания регуляторных белков, как футпринтинг ДНК, методы задержки пробы в геле (ретардация). Однако этими методами невозможно исследовать все сайты связывания транскрипционного фактора (ССТФ) в геноме. Прямое применение таких экспериментальных методов для поиска, сравнения, картирования огромного числа всех сайтов связывания, описания регуляторных районов генов в геноме невозможно из-за их большой трудоемкости и значительной стоимости.
Встают задачи исследования механизмов регуляции экспрессии генов на уровне транскрипции, связанные с развитием высокоэффективных экспериментальных методик измерения экспрессии генов, изучения динамических профилей транскрипции
[4], построения карт ДНК-белковых и регуляторных взаимодействий [3].
Существующие микрочиповые технологии позволяют изучать динамику экспрессии тысяч генов одновременно [14]. Систематизация и анализ этих огромных объемов экспериментальных данных геномики и транскриптомики является сложнейшей задачей, связанной как с фундаментальными вопросами биоинформатики и системной биологии, так и с биотехнологическими приложениями, медициной, фармацевтикой.
Методы иммунопреципитации хроматина (ChIP-on-chip, ChIP-PET, ChIP-seq) с последующим массовым параллельным секвенированием позволяют исследовать сайты связывания транскрипционных факторов в масштабе генома, ставя новые задачи биоинформатики для адекватной идентификации сайтов [9, 15-18]. Исследование структуры хроматина на уровне отдельных нуклеосом (модификаций метилирования и ацетилирования гистонов в определенных позициях) с помощью технологий ChIP-seq

7 качественно дополняет описание регуляторных районов генов в масштабе генома [13,
19, 20]. Важным направлением исследования является построение полногеномных карт известных регуляторов плюрипотентности NANOG, OCT4, SOX2, KLF4 в стволовых клетках человека и мыши. Использование иммунопреципитации хроматина позволяет экспериментально определить контакты удаленных районов хромосом, опосредованные белковыми комплексами [21-23]. Накопилось большое количество экспериментальных данных о роли трехмерной организации генома в регуляции экспрессии генов (удаленные энхансеры, пространственные домены), полученных с помощью технологий секвенирования. Недавно появившиеся методы исследования трехмерных хромосомных контактов Hi-C [24] и ChIA-PET [12] дают качественно новую информацию о регуляторных последовательностях в геноме.
Программы анализа геномных последовательностей на персональных компьютерах стали незаменимым инструментом в экспериментальной работе молекулярных биологов. За последние десятилетия был создан широкий круг программных продуктов, направленных на изучение свойств и структуры последовательностей
ДНК и белков
[2,
25-28], анализа нуклеотидных последовательностей сайтов связывания, представления их в форме весовых матриц, скрытых марковских моделей, и последующего распознавания сайтов в протяженных последовательностях [27], что дает основу для теоретического компьютерного описания регуляторных районов. Большинство алгоритмов, заложенных в эти программы, применяют технику теории вероятностей и математической статистики
[29], дискретной математики [30] для исследования статистических свойств и закономерностей в строении последовательностей биополимеров [27, 28]. Обработка больших объемов геномных данных требует уже использования высокопроизводительных вычислительных кластеров [28].
Важнейшей проблемой биоинформатики является проблема компьютерного исследования и поиска в геноме последовательностей, регулирующих экспрессию генов эукариот. Если раньше, в 1990-е годы, объектом исследования были одиночные последовательности и выборки последовательностей, небольшие компиляции данных и базы данных, отдельные хромосомы, и, соответственно, задачи анализа были ограничены имеющимся на тот момент объемом данных [31], то сейчас ставится задача полногеномного анализа с использованием гетерогенных интегрированных информационных ресурсов, касающихся различных аспектов организации геномов [8,
28]. К таким ресурсам, содержащим полногеномные данные, относятся базы данных экспрессии генов на микрочипах - Gene Expression Atlas [32], BioGPS [33], репозитарии

8 экспериментов секвенирования - GEO NCBI [34]), интегрированные средства хранения данных и визуализации геномной информации - Ensembl [35], UCSC Genome Browser
[36].
Одной из ключевых задач является полногеномный компьютерный анализ распределения сайтов связывания транскрипционных факторов в геноме человека и в модельных генах эукариот по данным иммунопреципитации хроматина и высокопроизводительного секвенирования, что ставит новые задачи перед биоинформатикой, представленные в настоящей работе.
Цель и задачи исследования
Цель работы – компьютерная реконструкция структуры регуляторных районов, контролирующих транскрипцию генов эукариот на основе анализа данных о положении сайтов связывания транскрипционных факторов в геноме, полученных с помощью технологии иммунопреципитации хроматина и высокопроизводительного секвенирования (ChIP-seq).
Для достижения этой цели решались следующие задачи:
1. Разработка методов анализа данных секвенирования ChIP-seq и создание статистической модели полногеномного распределения сайтов связывания транскрипционных факторов (ССТФ).
2. Компьютерная реконструкция полногеномных карт сайтов связывания транскрипционных факторов плюрипотентности c-Myc, Oct4, Nanog, Sox2, E2f1, n-Myc,
Tbx3, Eset, Nr5a2, Smad2 в геноме мыши. Реконструкция распределения сайтов связывания транскрипционных факторов MYC, PRDM14, ER

, FOXA1, OCT4, NANOG в геноме человека.
3.
Компьютерное исследование ассоциации сайтов связывания транскрипционного фактора ER

с определенными с помощью технологии ChIP-seq маркерами хроматина, в частности, модификациями гистона H3 (H3K4me3, H3K4me1,
H3K27me3, H3K9me3, H3K9ac, H3K14ac), и создание метода предсказания сайтов связывания транскрипционного фактора ER

в геноме человека на основе профилей модификаций гистонов.
4. Изучение роли хромосомных контактов в регуляции транскрипции генов человека на моделях РНК-полимеразы II и транскрипционного фактора ER

на основе компьютерного анализа полногеномных данных ChIP-seq и ChIA-PET.
Методические задачи, решавшиеся в диссертации, включали: разработку и компьютерную реализацию на языках С++ и R: (1) алгоритмов анализа полногеномных

9 профилей связывания транскрипционных факторов ChIP-seq; (2) алгоритмов анализа нуклеотидных последовательностей регуляторных районов, формируемых ССТФ;
(3) алгоритма анализа полноты эксперимента ChIP-seq и ChIP-PET; (4) алгоритма определения кластеров ССТФ в геноме: (5) программ обработки данных экспрессии генов на микрочипах; (6) программ интеграции данных геномной аннотации расположения генов и профилей ChIP-seq; (7) программ анализа профилей ChIA-PET и
ChIP-seq.
В качестве экспериментальной информации, которая была проанализирована с помощью компьютерных методов, разработанных автором диссертации, использовались данные, полученные соавторами научных публикаций Ng H.H., Kong S.
Joseph R., Liu E.T., Ruan Y., Wei C.L., Lee K.L., Clarke N. с помощью методов секвенирования ДНК в Геномном институте Сингапура, а также публично доступные данные секвенирования из GEO NCBI. Автор диссертации выражает своим коллегам благодарность за предоставление этих данных.
Научная новизна
Разработаны оригинальные программы анализа распределения сайтов связывания транскрипционных факторов в геноме на основе анализа данных секвенирования сопряженного с иммунопреципитацией хроматина ChIP-seq [16, 37, 38]. С помощью этих программ построены карты связывания транскрипционных факторов c-Myc, Oct4,
Nanog, Sox2, E2f1, n-Myc, Tbx3, Eset, Nr5a2, Smad2 в геноме мыши [3, 39-41], транскрипционных факторов c-Myc [9], ERα [13], PRDM14 в геноме человека [42], Zic3 в геноме рыбы D.rerio [43]. Все карты ССТФ были получены впервые.
Компьютерные программы интеграции данных о геномной локализации указанных выше ССТФ и уровнях экспрессии генов, измеренных с помощью микрочипов, позволили получить новые данные о регуляции транскрипции генов [3, 37,
44, 45]. Разработанная компьютерная база данных наборов проб микрочипов платформы Affymetrix U133, включающая оценки качества проб – однозначности картирования, соответствия целевым (таргетным) транскриптам, была новой на момент публикации, и использовалась для анализа присутствии транскриптов в цис-антисенс ориентации [46-49].
Исследование распределения нуклеосом в промоторных районах с помощью собственных компьютерных программ и анализа данных прямого секвенирования нуклеосомной ДНК дрожжей [50, 51] показало отсутствие предпочтения к

10 позиционированию нуклеосом in vivo по сравнению с данными in vitro и теоретическим предсказанием на основе контекста.
Компьютерный анализ впервые показал статистически значимую совместную локализацию сайтов связывания транскрипционных факторов Oct4, Sox2, Nanog, с одной стороны и c-Myc, n-Myc с другой, в эмбриональных стволовых клетках (ЭСК) мыши, рассчитанную по данным ChIP-seq [3, 40, 41]. Объединенные полногеномные карты расположения сайтов связывания транскрипционных факторов в геноме человека для эмбриональных стволовых клеток (ЭСК) впервые представлены в форме матриц сближенности (тепловых карт) [3, 52]. Впервые получено распределение сайтов связывания транскрипционного фактора PRDM14 в геноме для ЭСК человека и определен нуклеотидный мотив связывания [42].
Впервые построен компьютерный метод предсказания сайтов связывания ТФ ER

в масштабе генома на основе профилей модификации хроматина - ацетилирования и метилирования гистона H3 (H3K4me3, H3K4me1, H3K27me3, H3K9me3, H3K9ac,
H3K14ac), определенных с помощью технологии ChIP-seq в клеточных линиях MCF-7 и T47D [13, 37]. Данные по модификациям хроматина для 16 библиотек ChIP-seq в первый раз использовались в едином компьютерном исследовании для компьютерного предсказания связывания ER

С помощью разработанных автором компьютерных программ карты хромосомных контактов, опосредованных связыванием белка рецептора эстрогенов
ERα [21], полученные посредством технологии секвенирования парных концов ChIA-
PET в клетках MCF-7, впервые проанализированы совместно с данными ChIP-seq.
Впервые на основе компьютерного анализа интегрированных полногеномных данных о хромосомных контактах, опосредованных комплексами РНК-полимеразы II, сайтах связывания транскрипционных факторов, транскрипционной активности генов, и профилей модификаций гистонов для пяти клеточных линий в геноме человека показана положительная корреляция участков хромосомных контактов с модификациями гистонов, характеризующими открытое состояние хроматина
(H3K4me3, H3K9ac, H3K4me1) [12].
Теоретическое значение работы. Разработанная компьютерная статистическая модель распределения сайтов связывания транскрипционных факторов позволяет достоверно определять локализацию ССТФ в геноме и оценивать полноту эксперимента по координатам секвенированных прочтений ChIP-seq.

11
Построена компьютерная модель, обеспечивающая высокую точность предсказания локализации сайтов связывания транскрипционного фактора - рецептора эстрогенов ER

в геноме человека за счет одновременного анализа как нуклеотидных последовательностей, так и профилей модификации хроматина (ацетилирования и метилирования гистонов), рассчитанных по данным ChIP-seq.
Представлена компьютерная модель хромосомных петель регуляторных районов транскрипции в геноме человека, опосредованных комплексом РНК-полимеразы II основанная на данных ChIA-PET.
Научно-практическая ценность разработанных методов состоит в программах анализа регуляторных районов генов по данным секвенирования в масштабе генома, полученных картах сайтов связывания сайтов связывания транскрипционных факторов
Oct4, Nanog, Sox2, E2f1, n-Myc, c-Myc, Tbx3, Eset, Nr5a2, Smad2 в геноме мыши, онкогенов MYC и ERα в геноме человека.
Программный комплекс ICGenomics (https://www-bionet.sscc.ru/icgenomics/) для исследования регуляторных районов генов и функциональной аннотации геномных последовательностей обеспечивает существенное расширение методов компьютерного анализа полногеномных данных [44]. Разработана база данных цис-антисенс транскриптов и качества проб микрочипов Affymetrix U133 [46, 47], база данных экспрессии генов на микрочипах для крыс RatDNA [53] (свидетельство госрегистрации базы данных RatDNA № 621051 от 10.10.2012г.).
Созданное Интернет-доступное программное обеспечение позволяет выполнять анализ распределения сайтов связывания транскрипционных факторов, их функциональную аннотацию
(https://www-bionet.sscc.ru/icgenomics/, https://pixie.bionet.nsc.ru/ratdna/rat/index.php).
Разработан учебный курс по компьютерной геномике (Кафедра информационной биологии ФЕН НГУ), учебные материалы представлены на Школе молодых ученых по системной биологии и биоинформатике SBB-2013 (https://conf.nsc.ru/sbb2013), съезде- конференции ВОГиС-2013.
По тематике данной работы выполнены госконтракты Министерства образования и науки РФ на разработку программного обеспечения для геномных исследований
(№07.514.11.4003 «Разработка алгоритмов и программных систем для решения задач анализа последовательностей, возникающих в теоретической и прикладной геномике»,
№ 16.513.12.3107 «Проведение проблемно-ориентированных поисковых исследований в области ДНК-чипов в рамках технологической платформы «Медицина будущего»»,

12
№ 16.512.11.2274 «Проведение проблемно-ориентированных поисковых исследований по тематике технологической платформы "Медицина будущего" в области поиска молекулярных мишеней онкологических заболеваний с помощью биоинформационных и постгеномных технологий»), гранты РФФИ (00-04-49229-а, 01-07-90376-в, 02-07-
90355-в, 03-04-48506-а, 03-04-48555-а, 03-07-90181-в, 03-07-96833-р2003югра_в, 05-04-
49111-а, 05-07-90185-в, 05-07-98012-р_обь_в, 11-04-01771-а, 11-04-01888-а, 11-04-
92712-ИНД_а, 12-04-00897-а, 14-04-01906), Интеграционные проекты СО РАН (119), проект 8740 Минобрнауки России «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы «Интегрированная биоинформационная платформа анализа данных экспрессии генов в тканях мозга», начата работа по гранту
РНФ 14-14-00269.
Положения, выносимые на защиту
1) Разработанная статистическая модель полногеномного распределения сайтов связывания транскрипционного фактора позволяет оценивать полноту эксперимента по секвенированию и иммунопреципитации хроматина ChIP-seq и рассчитывать статистически значимые оценки нижней и верхней границ общего числа сайтов связывания в геноме для исследуемого фактора.
2) Полногеномные карты сайтов связывания транскрипционных факторов в эмбриональных стволовых клетках, построенные по данным ChIP-seq для c-Myc, Oct4,
Nanog, Sox2, E2f1, n-Myc, Tbx3, Eset, Nr5a2, Smad2 в геноме мыши свидетельствуют о совместной локализации групп сайтов связывания транскрипционных факторов Oct4,
Sox2, Nanog, с одной стороны, и c-Myc, n-Myc с другой.
3) Нуклеотидные последовательности, окружающие сайты связывания транскрипционного фактора Smad2 в геноме мыши, содержат специфические группы нуклеотидных мотивов, соответствующих потенциальным сайтам связывания других транскрипционных факторов. Эти мотивы различаются для сайтов связывания Smad2, найденных в эмбриональных стволовых клетках мыши при действии внешних факторов - белка Activin и ингибитора SB431542, соответственно.
4) Расположение сайтов связывания транскрипционного фактора ER

в геноме человека положительно ассоциировано с районами метилирования и ацетилирования гистонов нуклеосом H3K4me3, H3K4me1, H3K9ac и H3K14ac. Разработан компьютерный алгоритм для предсказания сайтов связывания ER

в геноме по ChIP- seq маркерам состояния хроматина; показана высокая точность предсказания с помощью этой модели.

13 5) Геномные области хромосомных контактов, опосредованных комплексом РНК- полимеразы II, обогащены сайтами связывания транскрипционных факторов и участками модификаций гистонов, связанными с активацией экспрессии генов.
Личный вклад автора.
Все представленные в диссертации результаты получены лично автором.
Публикации, представленные в данной работе, были написаны в соавторстве. Роль автора в статьях, где он не являлся первым автором или автором для переписки, обозначена как «analyzed the data» (компьютерный и теоретический анализ данных, статистическая обработка). Специально для данного исследования автором были написаны компьютерные программы анализа
ChIP-seq, статистического моделирования, сравнения геномных координат и геномной аннотации, оценки качества наборов проб микрочипов, анализа нуклеотидных контекстов, генерации базы данных цис-антисенс транскриптов, компьютерной симуляции полногеномных данных
ChIP-PET, ChIP-seq и ChIA-PET.
Ключевые биоинформатические разработки по анализу наборов проб экспрессионных микрочипов Affymetrix U133 представлены в публикациях, где автор диссертации является первым автором статей (Orlov et al. 2007a; Orlov et al., 2007b;
Орлов и соавт., 2011) [46, 47, 49]. База данных цис-антисенс транскриптов в геноме человека, интегрированная с расположением наборов проб Affymetrix U133, опубликована в статье (Grinchuk, ... Orlov et al., 2010) [48]. Методика анализа полноты эксперимента ChIP-seq представлена в работе (Orlov et al., 2009) [38]. Компьютерные программы, разработанные автором, и их применения описаны в работах (Orlov et al.,
2012; Kuznetsov, Orlov et al., 2007; Орлов и соавт. 2012; Орлов, 2014) [16, 37, 44, 55].
Применения к анализу экспрессии мобильных элементов представлены в работе (Орлов и соавт., 2011) [49].
В статье (Joseph, Orlov et al., 2010) [13] посвященной исследованию сайтов связывания транскрипционного фактора ER

в геноме человека автор диссертации имеет равное первое авторство.
Основные результаты применения разработанных компьютерных методов для анализа распределений сайтов связывания транскрипционных факторов представлены в статьях, написанных в соавторстве. В статье (Chen, … Orlov et al., 2008) [3] автор диссертации выполнил компьютерный анализ данных и оценил полноту эксперимента
ChIP-seq для 13 различных транскрипционных факторов. Программа анализа профиля
ChIP-seq, разработанная автором, использовалась в исследованиях транскрипционных факторов плюрипотентности для ЭСК мыши, опубликованных в статьях [39-41] (Yuan,

14
… Orlov et al., 2009; Heng, … Orlov et al., 2010; Han, … Orlov et al., 2010), а также (Lee,
… Orlov et al., 2011) [54].
В статье (Chia, … Orlov et al., 2010) [42] автором диссертации выполнен анализ сайтов связывания транскрипционного фактора PRDM14 и компьютерная реконструкция генных сетей плюрипотентности в ЭСК человека. В статье (Zhao, …
Orlov et al., 2007) [19] с помощью разработанных компьютерных моделей исследованы полногеномные данные модификаций гистонов H3K4me3 и H3K27me3. Обобщение анализа распределений ССТФ в ЭСК человека и мыши дано в статье (Heng, Orlov, Ng,
2010) [52]. В статье (Winata, …Orlov et al., 2013) [43] представлено применение разработанных автором программ для анализа расположения ССТФ в геноме D.rerio, впервые выполненном на данных ChIP-seq для этого организма.
Публикация (Zeller, … Orlov et al., 2006) [9] содержит описание применения компьютерных моделей ССТФ анализа эксперимента ChIP-PET для ТФ c-Myc. В работе (Goh, Orlov et al., 2010) [51] с помощью разработанной автором компьютерной программы исследован профиль плотности нуклеосом в геноме дрожжей. В статьях
(Fullwood, … Orlov et al., 2009) [21] и (Li, …Orlov et al., 2012) [12] вклад автора состоял в компьютерной обработке данных хромосомных контактов, полученных методом
ChIA-PET.
Работы автора, приведенные в списке литературы и не перечисленные выше, носили методический характер, и относились к применениям разработанных алгоритмов (Орлов и соавт. 2006; Воробьева, …, Орлов и соавт. 2005; Orlov et al.. 2006;
Guo, … Orlov et al., 2010; Путта, Орлов и соавт., 2011; Суслов, …. Орлов, 2013) [50, 56-
59], исследованию экспрессии генов на микрочипах (Кожевникова, … Орлов, 2012;
Kozhevnikova,… Orlov et al. 2013; Медведева, … Орлов, 2013) [45, 53, 60].
Апробация работы. Результаты были представлены на Пятой, Шестой, Седьмой,
Восьмой и Девятой Международных Конференциях по Биоинформатике и Регуляции
Структуры Генома (BGRS'06, BGRS'08, BGRS\SB-2010, BGRS\SB-2012 и BGRS\SB-
2014: Новосибирск, 2006, 2008, 2010, 2012 и 2014 гг.), конференциях HUGO (2008,
Хайдарабад, Индия; 2010, Монпелье, Франция; 2013, Сингапур), конференции-школе
CSHL-UK – 2007 (Хинкстон, Великобритания), Конференции A-STAR 2010г.
(Сингапур), Международном Симпозиуме по Биотехнологии (Москва, 2011), Школе по биоинформатике BREW-2011 (Тарту, Эстония), конференциях Постгеном-2011
(Новосибирск) и Постгеном-2012 (Казань), Конференции по интегративной
Биоинформатике IB-2012 (Ханчжоу, Китай), Международном Семинаре по Системной

15 биологии и медицине SysPatho-2012 (Санкт-Петербург), конференциях ВОГиС-2013
(Новосибирск), MCCMB-2013 (Москва), «Нейроинформатика-2014» (Москва).
Публикации. По теме диссертации опубликовано 33 печатные работы, из них 30
– статьи в научных изданиях (журналы по списку ВАК). Включая тезисы конференций, общее число публикаций по теме диссертации - 52.
Структура и объем работы
Диссертация состоит из пяти глав: «Обзор литературы», «Модели распределения сайтов связывания транскрипционных факторов в геноме», «Карты сайтов связывания по данным ChIP-seq», «Модификации хроматина и связывание транскрипционных факторов по данным ChIP-seq», «Хромосомные контакты и регуляция транскрипции в геноме человека». Вторая глава описывает разработку методов компьютерного анализа данных ChIP-seq и анализа экспрессии генов. Третья, четвертая и пятая главы описывают применение разработанных средств для анализа ССТФ в ЭСК человека и мыши, построение полногеномных карт, анализ распределения сайтов связывания рецептора эстрогенов ER

. В четвертой главе анализ ССТФ рассмотрен в контексте структуры хроматина и модификаций гистонов, в пятой – с точки зрения хромосомных контактов. Объем диссертации составляет 343 машинописных страницы, включая 119 рисунков и 28 таблиц. Список литературы содержит 521 ссылку.
Обзор литературы (Глава 1) содержит информацию о современных исследованиях регуляторных районах транскрипции в геноме человека, включая определение сайтов связывания с помощью технологий иммунопреципитации хроматина (ChIP).
Представлены исследования по регуляции экспрессии генов, связанных с образованием опухолей (ESR1, MYC, TP53), тканеспецифичной экспрессии в клеточных культурах.
Описаны подходы к изучению эмбриональных стволовых клеток (ЭСК) человека и мыши, показана роль транскрипционных факторов плюрипотентности в репрограммировании. Дан обзор проблем исследования трехмерных контактов хромосом в ядре с помощью секвенирования (методы 3C, Hi-C и ChIA-PET).
Рисунок 1.1 представляет логическую взаимосвязь Глав диссертационной работы, потоков данных и видов выполненного компьютерного анализа. Из схемы, представленной на рисунке, видно, что Глава 2 «Модели распределения сайтов связывания транскрипционных факторов в геноме» представляет компьютерные модели и алгоритмы, применение которых для полногеномного анализа сайтов связывания транскрипционных факторов (ССТФ) по данным ChIP-seq описано в следующей главе «Карты сайтов связывания по данным ChIP-seq».

16
Глава «Модели распределения сайтов связывания транскрипционных факторов в геноме»
Глава «Модификации хроматина и связывание транскрипционных факторов по данным ChIP-seq»
Глава «Карты сайтов связывания по данным ChIP-seq»
Применения компьютерных алгоритмов для построения и анализа карт расположения ССТФ в геноме
Компьютерные алгоритмы анализа профилей ChIP-PET и ChIP-seq,
определения сайтов связывания ТФ в геноме
Компьютерный анализ данных ChIP-seq о нуклеосомной упаковке, модификациях гистонов и связывании ТФ
Глава «Хромосомные контакты и регуляция транскрипции в геноме человека»
Компьютерная интеграция данных ChIA-PET
о хромосомных контактах и данных ChIP-seq о модификациях гистонов и ССТФ
Глава «Обзор литературы».
Постановка задач исследования
Приложение.
Коды компьютерных программ. Построенные карты ССТФ. Структуры и таблицы разработанных баз данных

Рис. 1.1. Взаимосвязь глав диссертационной работы.
Как показано на рисунке, дальнейшее применение анализа данных ChIP-seq представлено в Главах «Модификации хроматина и связывание транскрипционных факторов по данным ChIP-seq» и «Хромосомные контакты и регуляция транскрипции в геноме человека», которые также связаны между собой объектом исследования - данными о ССТФ и модификациях гистонов в геноме человека.
Глава 2 «Модели распределения сайтов связывания транскрипционных факторов в геноме» содержит описание разработанных методов и компьютерных моделей распределения сайтов связывания транскрипционных факторов в эукариотическом геноме на основе анализа профилей ChIP-seq. Представлены алгоритмы анализа данных ChIP-seq о связывании транскрипционных факторов в геноме и базы микрочиповых данных по экспрессии генов, разработанные автором [3, 9, 13, 16, 38].
Представлены модели регуляторных районов транскрипции, включающие антисенс транскрипты, описан анализ качества наборов проб микрочипа Affymetrix U133 [46, 47,

17 49], построение базы данных цис-антисенс транскриптов [48, 61]. Показаны примеры применения компьютерного анализа экспрессии генов на микрочипах для генов крысы
[45, 53]. Описаны общие средства компьютерной интеграции геномных данных, разработанные в ИЦиГ СО РАН [49, 50, 57-60], включая программный комплекс
ICGenomics [44].
Глава 3 «Карты сайтов связывания по данным ChIP-seq» посвящена описанию карт сайтов связывания транскрипционных факторов построенных автором по экспериментальным данным ChIP-seq в геноме человека, в геноме мыши и в геноме
D.rerio [9, 13, 39, 41-43, 54]. С помощью разработанных компьютерных программ обработки данных ChIP-PET и ChIP-seq были проанализированы исходные данные и определены сайты связывания транскрипционных факторов c-Myc, STAT1, FOXA1,
ERα, PRDM14 [9, 13, 42] в геноме человека, а также сайты связывания транскрипционных факторов Nanog, Oct4, Sox2, Klf4, E2f1, Esrrb, CTCF, n-Myc, c-Myc,
Smad1, STAT3, Tcfcp21l, Zfx, Suz12 в геноме мыши [3]. Исследовано распределение
ССТФ генов, ответственных за поддержание плюрипотентности в эмбриональных стволовых клетках (ЭСК) мыши; показано существование кластеров сайтов связывания факторов Oct4-Nanog-Sox2 [3]. Представлены аналогичные кластеры связывания OCT4-
NANOG-SOX2 в ЭСК в геноме человека [42, 52].
Глава 4 «Модификации хроматина и связывание транскрипционных факторов по данным ChIP-seq» содержит описание применения разработанных компьютерных методов к исследованию модификаций хроматина и связыванию транскрипционных факторов в геноме дрожжей [51, 62, 63] и в геноме человека [19]. Проанализированы полногеномные данные по модификациям гистонов (ацетилирования и метилирования гистона H3) и сайтам связывания транскрипционных факторов ERα, FOXA1 в геноме человека [13, 21, 37]. Представлен компьютерный метод предсказания сайтов связывания ERα в масштабе генома на основе профилей модификаций гистонов
(H3K4me3, H3K4me1, H3K27me3, H3K9me3, H3K9ac, H3K14ac), определенных с помощью технологии ChIP-seq. Представлено обсуждение результатов в связи с продолжающимися геномными исследованиями [12].
Глава 5 «Хромосомные контакты и регуляция транскрипции в геноме человека» представляет исследование хромосомных контактов, полученных с помощью массового параллельного секвенирования нуклеотидных последовательностей контактирующих участков хромосом по методу ChIA-PET для ERα и комплекса РНК- полимеразы II в геноме человека, с помощью разработанных автором диссертации компьютерных программ [12, 21, 64]. Показана ассоциация участков хромосомных

18 контактов с регуляторными районами транскрипции генов и модификациями хроматина в геноме человека [12].
В Приложении даны коды программ и схемы алгоритмов, таблицы, содержащие координаты сайтов в геноме, результаты анализа кластеризации ССТФ, описание использованных компьютерных ресурсов.
Научно-практическая ценность
Практическое применение методов анализа функциональных участков (ССТФ и регуляторных районов) состоит в возможности их исследования в масштабе генома генов с использованием современных технологий массового параллельного секвенирования. Программный комплекс ICGenomics [44] качественно дополняет существующие методы анализа нуклеотидных последовательностей. Научная ценность работы связана с количественными оценками контекстной структуры геномных последовательностей в эмбриональных стволовых клетках, что позволяет уточнить молекулярные механизмы поддержания плюрипотентности и дифференцировки.
Программы и материалы, разработанные в ходе подготовки диссертации, доступны для научно-образовательных целей в Интернете на сайте ИЦиГ СО РАН по адресам: https://bioinformatics.bionet.nsc.ru/, https://www-bionet.sscc.ru/icgenomics/, https://wwwmgs.bionet.nsc.ru/mgs/programs/complexity/, https://pixie.bionet.nsc.ru/ratdna/rat/index.php, https://conf.nsc.ru/sbb2013.
Благодарности
Автор выражает глубокую признательность научному консультанту академику
РАН Колчанову Н.А., сотрудникам ИЦиГ СО РАН Д.А. Афонникову и В.А.
Иванисенко за помощь в подготовке работы и обсуждение научных результатов, В.А.
Кузнецову за научную дискуссию на ранних этапах работы. Автор благодарен зарубежным коллегам Guoliang Li, Yijun Ruan, Ed Liu, Neil Clarke, Bing Lim, Huck-Hui
Ng за позитивный опыт работы и научного общения в международном научном коллективе.

19
Список сокращений
БД – база данных
ИПСК – индуцированные плюрипотентные стволовые клетки
Кб – килобаза, тысяча пар нуклеотидов
Мб – мегабаза, миллион пар нуклеотидов нт – нуклеотид
НТП – нетранслируемая последовательность п.о. – пара оснований ДНК
ССТФ – сайты связывания транскрипционных факторов т.п.н. – тысяча пар нуклеотидов
ТФ – транскрипционный фактор
ЭОПК – экспериментальный образец программного комплекса
ЭСК – эмбриональные стволовые клетки
Принятые англоязычные термины
3C (Chromosome Conformation Capture) – определение структуры хромосом
ChIA-PET (Chromatin Interaction Analysis by Paired-End-Tag sequencing) – метод анализа взаимодействий хроматина с помощью секвенирования парных концов
ChIP (Chromatin ImmunoPrecipitation) – иммунопреципитация хроматина
ChIP-chip – технология иммунопреципитации хроматина на микрочипе
ChIP-PET (Chromatin ImmunoPrecipitation - Paired-End-Tags) – технология иммунопреципитации хроматина c использованием парных концов ДНК
ChIP-seq – технология иммунопреципитации хроматина с последующим секвенированием
FISH – флюоресцентная гибридизация in situ
H3K14ac – модификация гистонов – ацетилированный лизин 14 гистона Н3
H3K27me3 – метилированный лизин 27 гистона Н3
H3K4me3 – метилированный лизин 4 гистона Н3
H3K9ac – ацетилированный лизин 9 гистона Н3
Hi-C – метод определения конформаций хромосом в ядре клетки
HMM (Hidden Markov models) – скрытые марковские модели
NGS (Next Generation Sequencing) – высокопроизводительное геномное секвенирование (секвенирование следующего поколения)

20



Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8   9   ...   21




©zodomed.ru 2024


    Главная страница