Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Феранчук С.И. Биоинформатика. Обсуждение задач, подходов и методов.pdf
Скачиваний:
110
Добавлен:
16.09.2020
Размер:
60.84 Mб
Скачать

Да будут славословия Богу в устах их

и меч обоюдоострый в руке их

Биоинформатика

обсуждение задач, подходов и методов

2

Предисловие

Основой при подготовке этой книги послужил опыт преподавания в Иркутском Технологическом Университете и методическое пособие, разработанное к этим курсам. В дальнейшем текст книги был значительно расширен, и многие формальные стороны изложения были опущены. Как компенсация, в книге удалось коснуться многих тем молекулярной биологии, и включить в материал некоторые из моих неопубликованные результатов.

Нет смысла здесь пересказывать детали моей биографии и говорить про мотивы, побудившие подготовить эту книгу. Но мне необходимо выразить благодарность членам своей семьи, и некоторым моим друзьям, поддерживавшим меня все это время.

Сергей Феранчук,

Иркутск, 2018-2019 г.

3

Оглавление

1

Введение

5

2

Структурная биоинформатика

10

 

2.1

Математика и физика в структурной биоинформатике . . . . . . . . . . . . . . .

10

 

2.2

Уровни представления молекулярных систем . . . . . . . . . . . . . . . . . . . .

13

 

 

Уровень классической механики . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

 

 

Уровень статистической физики . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

 

 

Уровень квантовой механики . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.3Квантовые расчеты: модели и методы . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4Полноатомное представление молекулярных систем: модели и методы . . . . . . 23

 

Силовое поле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

 

Парциальные заряды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

 

Силы Ван-дер-Ваальса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

 

Учет влияния растворителя . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

 

Гидрофобные взаимодействия . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

 

Молекулярная динамика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

 

Анализ нормальных мод . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

 

Моделирование Монте-Карло . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

2.5

Структура и сворачивание белка . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

 

Баланс энергии при сворачивании белка . . . . . . . . . . . . . . . . . . . . . . .

40

 

Методы предсказания структуры белков . . . . . . . . . . . . . . . . . . . . . . .

42

 

Восстановление путей сворачивания белка . . . . . . . . . . . . . . . . . . . . . .

45

2.6 Модели взаимодействия биомолекул . . . . . . . . . . . . . . . . . . . . . . . . .

50

3 Системная биоинформатика

57

3.1

Исторический очерк математических методов в биологии . . . . . . . . . . . . .

57

3.2Иерархия объектов в системной биоинформатике . . . . . . . . . . . . . . . . . . 59

3.3Основные понятия молекулярной биологии клетки . . . . . . . . . . . . . . . . . 61

3.4Термины, используемые при постановке экспериментов и обработке данных . . . 67

3.5Молекулярные методы исследования клетки . . . . . . . . . . . . . . . . . . . . . 71

Цели и направления при исследовании клетки . . . . . . . . . . . . . . . . . . . .

71

Анализ протеома клетки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

Обработка экспериментов по секвенированию при изучении процессов в клетке .

75

Дифференциальная экспрессия генов . . . . . . . . . . . . . . . . . . . . . . . .

81

Ошибки и погрешности при изучении экспрессии генов . . . . . . . . . . . . . .

85

 

4

 

 

Исследование систем регуляции в клетке . . . . . . . . . . . . . . . . . . . . . .

88

3.6

Аннотация и анализ публикаций . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

 

Подходы к автоматическому анализу текстов . . . . . . . . . . . . . . . . . . . .

93

 

Ошибки в аннотации, причины и механизмы их накопления . . . . . . . . . . . .

95

3.7

Обработка данных в медицине . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

 

Медицинские измерения и их интерпретация . . . . . . . . . . . . . . . . . . . .

97

 

Подходы к получению доказательств в медицине . . . . . . . . . . . . . . . . . .

98

 

Некоторые из терминов, относящихся к экономическим отношениям в фарма-

 

 

цевтике . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

100

 

Некоторые из гипотез, рассматриваемые в современной медицине . . . . . . . .

100

 

Некоторые из терминов, относящихся к характеристикам лекарственных средств

 

 

и продуктов питания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

101

 

Краткие комментарии к методам и терминологии в прикладных медицинских ис-

 

 

следованиях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

102

 

Традиции медицины и их эволюция . . . . . . . . . . . . . . . . . . . . . . . . . .

103

3.8Математические модели в биологии . . . . . . . . . . . . . . . . . . . . . . . . . 105

Понятия из теории дифференциальных уравнений . . . . . . . . . . . . . . . . .

105

Обзор и частные случаи прикладных моделей . . . . . . . . . . . . . . . . . . . .

108

Нейробиология и модели сетей нейронов . . . . . . . . . . . . . . . . . . . . . .

110

Модель сети нейронов с двумя типами возбуждения . . . . . . . . . . . . . . . .

114

Элементы теории фракталов . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

118

Биоразнообразие и модели распределения численности в экологии . . . . . . . .

121

3.9Молекулярная филогенетика и метагеномика . . . . . . . . . . . . . . . . . . . . 124

Анализ микробных сообществ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Филогенетические деревья . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Эволюция патогенов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Болезнь байкальской губки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Эволюция человека . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

3.10Вместо заключения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4 Библиография

145

4.1Структурная биоинформатика . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

4.2Системная биоинформатика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

5

1 Введение

Учебный курс по биоинформатике отличается от учебных курсов по классическим дисциплинам по естественным наукам. Первое из отличий - эта область знаний развивается чрезвычайно быстро, многие из материалов успевают устареть за время обучения. Второе отличие - этот предмет находится на стыке многих дисциплин, таких как молекулярная биология, биохимия, биофизика, информационные технологии. И эти дисциплины, в свою очередь, имеют корни в науках "классической традиции", от медицины до высшей математики и теоретической физики. И тем не менее, необходимость в преподавании и разработке учебных курсов по биоинформатике, в широком смысле, безусловно существует. Научные идеи, подобно людям, имеют времена рождения, зрелости и угасания. И если научная школа не ищет и не принимает общения со другими сообществами, смежными и далекими, то со временем эти воззрения остаются лишь частью истории.

Настоящий курс ориентирован, в первую очередь, на студентов и читателей, имеющих базовые знания по молекулярной биологии. Поэтому при изложении материала вводятся по мере необходимости понятия из курсов математики, физики и химии, без углубленного обсуждения этих понятий. Отбор материала для курса был продиктован, отчасти, опытом работы авторов в этих областях. Однако в основном целью при отборе и компоновке материала было выбрать из всего многообразия методов и результатов, опубликованных в последние десятилетия в периодических научных изданиях, стержневые понятия и утверждения, и попытаться угадать направления, которые не потеряли бы значимость и при дальнейшем развитии молекулярной биологии. Этот выбор не является простым; достаточно внимательно взглянуть на историю развития естественных наук в XIX и XX веках.

Слово "биоинформатика", как название научной дисциплины, по происхождению сходно со словом "информатика". В этой дисциплине изучаются методы и подходы, являющиеся приложением методов информатики - науки об обработке информации - и используемые для решения задач биологии. Появление этой дисциплины произошло вслед за достаточным развитием компьютерных технологий, и происходившем в это же историческое время развитием понятий и методов молекулярной биологии.

Обнаруженное свойство молекул ДНК кодировать информацию, которая используется при развитии клеток и многоклеточных организмов, обуславливает возможность применения технологий информатики к изучению объектов биологии - науки о жизни. И при этом, понятия молекулярной биологии подразумевают согласование биологии с уровнем описания вещества на уровне молекул и атомов, который используется в физике и химии. И в связи с этим, в биоинформатике несложно отделить область исследований, в которой используется представление объектов биологии на уровне атомов и молекул. Эту область принято называть структурной

6

биоинформатикой. Необходимым атрибутом задач структурной биоинформатики является использование информации о положении изучаемых объектов в трехмерном пространстве, таким образом привязывая постановку этих задач к методам физики и химии.

Однако в прикладных задачах, которые в настоящее время возможно и необходимо ставить и решать в молекулярной биологии, детализация объектов до уровня атомов и молекул не всегда возможна. В этих, более крупных, масштабах, информация, закодированная в ДНК, рассматривается без непосредственной связи с молекулярными процессам, в которых происходит преобразование этой информации. Набор приемов, используемых при обработке информации такого рода, и история развития алгоритмов и программных инструментов в этой области, имеют много общего с информационными технологиями в целом и историей их развития. Потому, по аналогии с понятием информационная система, которое используется для обобщенного определения задач, решаемых программистами, уместно ввести термин системная биоинформатика для обозначения всего спектра этих задач биоинформатики, как это показано на рис. 1.1.

Рис. 1.1: Иллюстрация разделения масштабов при решении задач вычислительной

биологии.

7

Существующий в настоящее время набор инструментов биоинформатики для решения задач разного масштаба весьма велик, как и объем знаний накопленных в молекулярной биологии. Более того, часто оказывается возможным совместное применение методов, использующих разные уровни детализации объекта, как это проиллюстрировано на рис. 1.2. И, когда по мере накопления знаний в науке о жизни, проясняются сомнения и вопросы, стоявшие перед человечеством за все время его истории, иногда в найденных ответах становится заметен почерк одного и того же Мастера. Но, как и умение узнавать стиль художника не тождественно знанию всех его произведений, при развитии этой науки появляются все новые свидетельства о глубине детализации и неожиданности принципов, лежащих в основе каждой из изучаемых систем.

Но к биоинформатике, в современном понимании, относятся многочисленные прикладные методы и темы исследований, часто не имеющие никаких совпадающих понятий и принципов. При таком различии в тематиках, можно иногда обнаружить трудности при общении ученых из разных научных школ и научных групп. Также, в такой ситуации возможно предположить, что при развитии молекулярной биологии в отдельных темах происходит смещение акцентов значимости направлений развития, и даже накопление заблуждений. На рис. 1.2 это проиллюстрировано с помощью сравнения интенсивности исследований, проводимых в отдельных тематиках в рамках некоторого масштаба биологических объектов, в 2003 и в 2013 годах.

Рис. 1.2: Иллюстрация степени развития и смещения акцентов в темах, изучаемых в

вычислительной биологии

Радиус круга показывает охват тематик в рамках области исследования, а интенсивность цвета - степень разработки тематик, упорядоченных в порядке важности. В 2013 году, по сравнению с 2003, в каждой из областей и масштабов исследований интересы в больше степени сосредоточены в нескольких узких темах.

Изображение построено на основе текстовой обработки публикаций по биомедицинской тематике в базе данных Medline

8

Какие из частей и фрагментов современной науки следует считать "основанными на камне", на этот вопрос непросто ответить. Тем не менее, при подборе материала, такой вопрос, неявно, служил ограничением и ориентиром для выбора и изложения предмета. И расстановка акцентов при обсуждении задач и направлений биоинформатики не всегда соответствует интенсивности использования методов биоинформатики в современных исследованиях. Так, на рис. 1.2, как сгущение интенсивности цвета на изображениях, проиллюстрировано все большее сосредоточение акцентов вокруг задач изучения тканей опухоли методами дифференциальной экспрессии и статистических методов при обработке клинических исследований; эти задачи обсуждаются в книге недостаточно подробно. И напротив, публикаций, относящихся к задачам структурной биоинформатики, становится все меньше, но задачам структурной биоинформатики посвящена отдельная глава в курсе.

Смещение акцентов и направлений исследований в молекулярной биологии в течении первого десятилетия XXI века, показанное на рис. 1.2, легко связать с появлением новых подходов к постановке экспериментов, в первую очередь методов высокопроизводительного секвенирования. Пакеты программ и алгоритмы, непосредственно предназначенные для обработки измерений в узкоспециальных методиках постановки экспериментов, как, например, методы восстановления координат атомов в белковой молекуле на основе дифракционных спектров, также не обсуждаются в настоящем вводном курсе. Но и арсенал методов в некоторых быстро развивающихся прикладных разделах системной биоинформатики зачастую оказывается замкнутым и не имеющим надежных связей со смежными областями знаний.

Согласно с целями курса, в структурной биоинформатике более заметна преемственность и связь подходов с другими естественнонаучными дисциплинами. Однако падение популярности методов структурной биоинформатики отчасти обусловлена малым количеством приложений этих методов в прикладных задачах биологии. И, напротив, рост популярности упомянутого круга задач системной биоинформатики обусловлен важностью и удобством использования такого рода подходов в прикладных задачах.

С серией прорывов в молекулярных методах анализа живых систем, точное и полное описание стало возможно для многих прикладных задач из разных разделов биологии, и ученые, среди которых и специалисты по биоинформатике, подобно первопроходцам, с энтузиазмом взялись за освоение новых территорий. Многие из предположений, выдвинутых в прошлые десятилетия и в прошлые века при поисках подходов к этим задачам, оказались ошибочными. Малая часть из методов, развивавшихся за прошлые времена в физико-математических дисциплинах, оказалась необходима в молекулярной биологии. Но все же, прослеживая преемственность методов биоинформатики с классическими дисциплинами, остается возможность помнить путь назад и пройти по нему. Не сказано ли: Ты обращаешь человека в тление, и Ты говоришь - "возвратитесь,

сыны Адама!".

Это может показаться неожиданным, но невозможно поспорить с тем, что продолжающийся расцвет наук в рамках европейской традиции, частью которого и являются прорывы в биоинформатике, имеет корни в христианстве, в интерпретации принятой в западной части Римской империи. И Сын Человеческий начинал свою проповедь, прочитав в Назарете книгу Исаии:

9

Дух Господень на Мне; ибо Он помазал Меня благовествовать нищим, и послал Меня ис-

целять сокрушенных сердцем, проповедовать пленным освобождение, слепым прозрение,

отпустить измученных на свободу, проповедовать лето Господне благоприятное. И не яв-

ляется ли то, с чего начиналось, в том числе, развитие наук, лучшим чем то, в каком состоянии эти науки находятся в наши дни, несмотря на открывающиеся перспективы все новых территорий в молекулярной биологии?