В прошлом году в эксперименте критического анализа методов для предсказания структуры белков (Critical Assessment of techniques for protein Structure Prediction, CASP) команда AlphaFold2, которая выступала от компании DeepMind, с помощью искусственного интеллекта сумела в значительной степени решить задачу, над которой десятилетиями бились лучшие научные группы мира.
Многие мировые СМИ в декабре прошлого года писали об этом событии как о научном прорыве века, а некоторые даже «хоронили» структурную биологию как научную отрасль, потому что теперь, мол, в ней воцарятся методы компьютерной инженерии.
«Тиждень» поговорил с кандидатом физико-математических наук, сотрудником Геномного центра университета Калифорнии Андреем Криштафовичем, одним из главных организаторов эксперимента CASP – о цели этого эксперимента, предсказании структуры белков и о том, как искусственный интеллект изменит медицину.
Вы начинали обучение в Одесском университете, закончили учиться в Львове, защитили диссертацию по материаловедению, а сейчас работаете в области биоинформатики в Калифорнии. Каким был ваш научный путь?
— В Одессе я оказался волей случая. Во времена моей юности, в начале 1980-х годов, в университеты высокого ранга можно было поступать раньше, чтобы в случае неудачи иметь возможность пройти в менее престижное учебное заведение. Я попытался поступить в Московский университет, но не добрал баллов, и с этими результатами меня уже без экзаменов взяли в Одесский. Отучившись там год, я ушел в армию, тогда брали всех, именно Афганистан начинался – и прослужил два года. Вернулся уже в Львовский университет.
По окончании университета работал в Львовском институте прикладных проблем механики и математики Национальной академии наук Украины. Там же закончил аспирантуру, защитил диссертацию и после защиты проработал еще пять лет. На рубеже тысячелетий я начал рассматривать для себя возможности работы за границей.
Поступило несколько предложений, одно из которых – заняться наукой в совершенно новой для меня области. Моя предыдущая работа касалась деформирования твердых тел, а тут предложили работать с белками! Решил принять вызов и испытать себя. В 2000 году я приехал в Калифорнию, в Ливерморскую национальную лабораторию. Еще через пять лет нашу группу переместили в университет Калифорнии в Дейвисе, где я до сих пор работаю над моделированием белков и программой CASP – всемирно известным научным экспериментом.
Вы существенно изменили научную сферу. Пригодились ли вам навыки, которые вы приобрели в процессе работы в Украине?
– Бесспорно. Мои знания в математике, статистике и численных методах очень помогли в новой работе, в частности в разработке методов для предсказания структуры белков и оценки качества моделей. Еще 20 лет назад специалистов по биоинформатике готовило лишь несколько университетов мира. Большинство исследователей, которые приходили в эту отрасль, были по специальности физиками или математиками, что не боялись дополнительно учиться химии и биологии, или же стать химиками или биологами, которые хотели освоить методы анализа данных.
Помню одну из книг, стоявшую на книжной полочке моего офиса – «Статистика для напуганных биологов». В целом «биоинформатика» — это интересное слово, которого не существует в других науках, кроме биологии. У нас нет физики и информатики или математики и информатики, поэтому численные методы разрабатывались именно физиками и математиками для своих нужд, тогда как в биологии до какого-то времени достаточно было иметь блокнотик или текстовый редактор и вносить туда результаты лабораторных экспериментов.
Но со временем данных стало так много, что понадобились серьезные математические методы для их обработки.
Ваша научная работа заграницей связана с экспериментом CASP. Что это такое и для чего нужно?
– CASP – это научный эксперимент для беспристрастного тестирования методов моделирования структуры белков. Эксперимент проводится два года, начиная с 1994-го. По его результатам мы определяем самые эффективные стратегии моделирования, оцениваем прогресс в отрасли и предлагаем стратегии для наиболее продуктивного развития. Эксперимент имеет непререкаемый авторитет в научном мире – ни один метод прогнозирования структуры белка не воспринимается всерьез, пока его эффективность не подтверждена CASP.
А началось все с того, что некоторые научные группы заявляли, будто знают, как смоделировать структуру белка. Я являюсь рецензентом многих научных журналов, и время от времени наталкиваюсь на такие статьи. Проблема в том, что авторы сами выбирали, какую задачу решать, под нее придумывали методы и сами же оценивали качество моделей.
Наш эксперимент поставил всех в равные условия, где невозможно подогнать результаты метода под правильный ответ, ведь его еще не существует на время проведения эксперимента. Белки для моделирования и таргеты выбираются организаторами и являются не известными для участников заранее. Затем наш центр в Дэвисе сравнивает модели с экспериментально установленными структурами. Авторитетное независимое жюри анализирует результаты числовой оценки моделей, причем на время анализа авторство моделей скрыто.
Авторов раскрывают лишь после того, как жюри доложит о результатах анализа моделей. Любые преференции «по знакомству» – исключены. После доклада жюри все модели и результаты их оценки обнародуются, и участники могут сами сравнить свои показатели с достижениями других групп. Такая система «слепого» моделирования и независимого оценивания обеспечивает доверие научного сообщества и поддерживает стабильно высокий интерес к эксперименту.
Популярность CASP также поддерживается присущими человеческой натуре интересом и склонностью к соревнованиям, ведь в CASP демонстрируют свои результаты сильнейшие научные центры мира, и победа является очень престижной. Из-за этого CASP часто называют олимпийскими играми по моделированию белков.
Как вы оказались среди организаторов CASP?
– Когда я начал работать в Ливерморской лаборатории, наша группа была задействована в организации эксперимента, а руководитель группы Кшиштоф Фиделис был среди его организаторов. Со временем меня все больше привлекали к стратегическому планированию и проведению эксперимента. В 2004 году я был приглашен в организационный комитет, членом которого являюсь до сих пор.
Кроме меня, комитет состоит из еще четырех ученых – это Джон Молт, основатель и президент CASP, мой коллега Кшиштоф Фиделис, Торстен Шведе из университета Базеля в Швейцарии и Мая Топф из университета Лондона.
Проводя аналогию с Олимпийскими играми, мы выполняем функции и Международного Олимпийского комитета, так как определяем категории соревнований, задания для участников, и локального комитета – занимаемся регистрацией моделей, поставкой последовательностей белков для моделирования и субподрядчиков, что строят инфраструктуру для проведения соревнований и судей.
Почему так важно знать структуру белка?
— Структура не является целью сама собой. Она важна как переходный этап от аминокислотной последовательности к функции белка. Поэтому знание структуры белка может способствовать пониманию биологической роли белковых молекул в клеточных процессах. В частности, зная эту структуру, мы сможем более информированными подходить к разработке лекарственных соединений.
Скажем, если мы знаем, какие белки отвечают за болезнь Альцгеймера, то, зная их структуру, можно сконцентрироваться на поиске молекул, которые бы подходили к этим белкам, как ключик к замку, и блокировали их активность. Другая проблема, что не все зависит от такой медицинской химии, ведь белков в организме миллионы, и часто неизвестно, какой из них отвечает за определенную болезнь.
Что делает задачу установления структуры белка такой сложной?
– Сложность математического моделирования белков в том, что вариантов, как из аминокислотной последовательности построить структуру – множество. Представьте веревку, на которую нанизаны разные бусинки. Веревку можно сгибать как угодно, а бусинки на ней вкладываются в единый стиль. Изгиб шнурка – это структура белка, а бусинки – аминокислоты, которые формируют белок, и их всего 20. И белок скручивается единственным способом в зависимости от расположения аминокислот.
Определить аминокислотную последовательность белка довольно легко. А вот построить его структуру — очень трудно. Большинство структур устанавливают кристаллографическими методами. Решить одну структуру, таким образом, стоит примерно $120 тысяч – если повезет, а процесс может длиться несколько лет. Сейчас в базах данных накоплено более 180 млн. последовательностей белков, а структуры развязаны только для 180 тысяч из них.
Поэтому если удастся построить структуру по аминокислотной последовательности белка математическими методами, это будет большой научный прорыв и значительная экономия средств. Недаром журнал Science признал определение структуры белков одной из крупнейших научных проблем современности – наравне с происхождением жизни, например.
И, похоже, мы приблизились к ее решению. В последнем CASP приняли участие 98 научных ячеек со всего мира, которые тестировали 215 методов. Мы собрали 67 тысяч моделей белков – куча данных! Еще во время предварительного анализа моделей, где-то в августе, мы предполагали, что станем свидетелями исторического события, ведь группа под кодовым номером 427 показывала результаты, на голову выше всех других групп.
Эта группа — Команда AlphaFold2 от DeepMind?
– Именно так. У нас тесное сообщество, я знаю всех людей, серьезно работающих в отрасли, поименно, в лицо. У нас исторически было две сильные группы – Дэвида Бейкера из университета штата Вашингтон и Янга Жанга из Мичиганского университета. Неожиданно три года назад таблицу результатов возглавила новая группа – AlphaFold. Они тогда тоже показали результаты, значительно лучше других групп, однако это «значительно лучше» было в пределах того, что можно было спрогнозировать.
Усовершенствованный метод AlphaFold2 в прошлогоднем CASP14 показал потрясающий результат не только по сравнению с другими группами, но и в абсолютной точности моделей. Две трети их моделей на более 90% совпадали с экспериментальными данными.
Насколько мне известно, DeepMind приобрела популярность благодаря своему алгоритму игры в ГО и компьютерные игры вроде StarCraft II. Почему они переключились на научные задачи?
– Они искали хорошо обозначенную проблему, что имеет понятную метрику и для которой существует значительный объем данных, на которых можно тренировать искусственный интеллект (ИИ). Их алгоритм AlphaGo выиграл в игре, которая является скорее интуитивной, чем расчетной. Основатель компании Демис Хассабис говорил, что таким образом хотел показать, что искусственный интеллект имеет большие перспективы. В шахматах машина победила Каспарова уже годы назад, но эта игра все, же скорее расчетная. А ГО – интуитивная, и нельзя сказать, как машина принимает решение, как она выбирает ходы.
Создавая алгоритмы, чтобы выигрывать в играх команда размышляла, как подойти к реальным научным проблемам. Особенно к проблеме свертывания белков, которая является одной из самых сложных проблем современности и где влияние на общество может быть очень весомым.
Я думаю, что их метод – самое большое достижение науки в этом веке в целом. Я уверен, что в свое время эти люди получат Нобелевскую премию за свое открытие.
Следующий шаг – моделирование взаимодействия белков с другими соединениями или с белками?
— Люди уже это делают. В CASP мы имеем еще категорию моделирования, посвященную белковым комплексам. Там ситуация сложнее, ведь нет такого объема данных для тренировки методов, как для отдельных белков. AlphaFold2 не участвовали в этой части эксперимента, потому что, вероятно, еще не умеют этого делать.
По моему мнению, уже сделан шаг от аминокислотной последовательности к моделированию структуры отдельных белков значительно весомее, чем тот, который еще нужно сделать – от отдельных белков в комплексы. Предвижу, что во время следующего CASP AlphaFold будет участвовать и в моделировании комплексов также.
Почему комплексы так важны? Большинство белков работают в комплексе с отдельными молекулами или другими белками. Есть группа белков, так называемые G-белковосопряженные рецепторы, находящиеся внутри клеточных мембран и передают извне сигналы в клетку. Таким образом, клетки «общаются» с внешним миром. Значительная часть разработчиков лекарств исследуют именно эти рецепторы.
Ведь большинство лекарств — это маленькие молекулы, привязывающиеся к большому белку. Если вы знаете, где привязывать эти молекулы и как определить активную область, то это непосредственный выход в медицину.
Приведу такой пример. Во многих клетках человека есть рецептор ACE2. Он очень полезен, ведь регулирует кровяное давление, позволяет заживать ранам. Но он, же является и лазом для ковида, который привязывается к АСЕ 2 и занимает место других молекул или белков. Потом назойливый вирус «проникает» внутрь клетки, вносит в нее свою генетическую информацию – РНК и использует клетку, чтобы размножаться.
Пример задачи — найти другой белок, который заблокирует рецептор АСЕ 2 и не даст ковиду проникнуть в клетку. Возможности метода AlphaFold2 в этой области велики!
Повлияла ли пандемия коронавируса на ваш эксперимент? Вы использовали таргеты, связанные с вирусом?
— Мы вообще колебались, проводить ли регулярный эксперимент, и большинство ведущих специалистов в отрасли сказали: «Нам в этом году надо иметь хоть что-то, чтобы чувствовать, что нормальная жизнь продолжается». Также в начале пандемии мы задумались, что можем сделать, чтобы помочь структурным биологам. Часть белков ковида похожа на уже известные белки. Но есть и совершенно уникальные разновидности. Их мы и взяли за таргеты для предсказания.
Сейчас структура двух из них уже выяснена экспериментально. Например, белок ORF8 решили в университете Беркли в августе, а мы выставили его как таргет в июне. И AlphaFold2 прекрасно справились с этой задачей. Можно предсказать, что их модели других белков коронавируса также соответствуют действительности.
Есть мнение, что если используются нейронные сети для задач вроде ваших, это значит, что наука признала свое фиаско. Мол, задачу не удалось решить научными методами, и пришлось использовать «грубую силу».
— Сам Демис Хассабис, руководитель DeepMind, говорил, что если бы не работы предыдущих поколений ученых, не предварительные эксперименты CASP, не публично доступные базы данных для тренировки методов, то они бы не дошли до этого уровня. Ваш вопрос можно задать еще и как «столько ученых десятилетиями бились над проблемой и не решили ее». Справедливости ради хочу отметить, что академическое сообщество достигло значительных успехов в моделировании белков.
Если отследить прогресс с 1994 года до 2020-го, то он впечатляет. В частности, в 2020 году много академических групп превзошло результаты AlphaFold с 2018 года, которые на то время казались заоблачными. Наш эксперимент подталкивал людей к решению проблем, способствовал накоплению методологических наработок и росту баз данных. И в какой-то момент произошел скачок, как в ядерной реакции, когда накапливается критическая масса и происходит новый качественный процесс — взрыв.
Однако соперничать с дочерней компанией Google трудно по объективным причинам. Академия не имеет столько денег для найма лучших специалистов по машинному обучению и различным научным дисциплинам. У нас нет таких компьютерных ресурсов. В конце концов, организация труда в частных фирмах является другой, ученые там не отвлекаются на обучение студентов, написание грантов или участие в различных комиссиях.
Были ли у CASP команды из Украины?
— В CASP принимают участие украинцы, и они выступают в командах других стран. Например, в CASP14 принимала участие группа Дмитрия Казакова из Нью-Йоркского университета в Стоуне Брук. Непосредственно из Украины, к сожалению, команд не было. Вероятно, проблема именно в ресурсах. Вместе с тем в работе CASP в течение 2005-2019 годов были задействованы несколько украинцев – Богдан Монастырский, Зиновий Дмитров и Олег Крысько, все выпускники львовских университетов.
————
Андрей Криштафович (родился в 1964 году в Коломые) – ученый — биоинформатик, выпускник Львовского национального университета (1989), кандидат физико-математических наук (1995), тема диссертации – «Двумерные задачи о взаимодействии анизотропных тел при несовершенном тепловом и механическом контакте». До 2000 года работал в Институте прикладных проблем механики и математики им. Я. С. Подстригача в Львове.
С 2000 года – ученый-исследователь Ливерморской национальной лаборатории (США), с 2005 года – сотрудник Геномного центра университета Калифорнии в Дейвисе. Автор более 100 научных работ. Один из пяти организаторов Всемирного эксперимента по предсказанию структуры белков CASP.
Автор: Олег Фея
Источник: Тиждень
Перевод: BusinessForecast.by
При использовании любых материалов активная индексируемая гиперссылка на сайт BusinessForecast.by обязательна.