Российские ученые разработали модель для ускоренной разработки лекарств

Фото: Pharma-labor.de

Данный метод генерирует 90% химически валидных лекарственных соединений

Дмитрий Степнов

1 марта, 2021 12:22

6 мин

Сотрудники физического факультета МГУ создали новую модель для ускоренной разработки лекарств.

Модель генерирует 90% химически валидных лекарственных соединений, способных связываться с заданным белком, используя лишь его аминокислотную последовательность в качестве входных данных. Она может существенно ускорить и упростить процесс разработки лекарств.

Работа опубликована в престижном журнале Scientific reports Nature publishing group.

Разработка лекарственных препаратов - очень дорогой и долгий процесс. Он занимает в среднем 10-13 лет, а его стоимость достигает нескольких миллиардов долларов. Разработка делится на несколько этапов. Одним из наиболее важных этапов является поиск новой молекулы, способной воздействовать на белок-мишень. Это чрезвычайно сложная задача, так как количество всех химически возможных молекул огромно и составляет по разным оценкам от 1023 до 1060. К настоящему моменту синтезировано только 108 молекул. Для поиска новых структур практически всегда используют компьютерные методы.

Выделяют два основных типа вычислительных методов. Первый основывается на трёхмерной структуре белка. Если известна конфигурация сайта связывания, то можно оптимизировать структуру молекулы прямо под нее. Второй тип – это методы, основанные на информации об уже известных лигандов, связывающихся с данным белком-мишенью. Можно установить связь между физико-химическими свойствами соединения и его активностью в отношении белка и использовать это знание для создания новых структур. К сожалению, большинство существующих методов в вычислительной химии имеют тенденции к генерации сложно синтезируемых молекул. Кроме того, в основе многих методов лежат закодированные вручную правила, которые сильно ограничивают число доступных алгоритму молекул.

Словом, поиск структур остается сложной задачей. В настоящее время активно исследуется возможность применения методов машинного обучения для решения задач генерации новых молекул.

«Мы использовали глубокую нейронную сеть «Трансформер». Эту архитектуру придумали исследователи из Google Brains в 2017 году для обработки естественного языка. Трансформер состоит из энкодера и декодера. Энкодер отображает входную последовательность символов в некоторый вектор. Затем декодер посимвольно генерирует на выходе последовательность, используя этот вектор. Одной из важнейших особенностей «Трансформера» являются self attention слои. Self attention – это механизм внимания который устанавливает связи между различными участками одной и той же последовательности и на основании этой информации строит ее представление. В нашей задаче в качестве слов мы рассматриваем аминокислоты и отдельные символы строкового представления молекулы (SMILES)», – рассказала сотрудник кафедры биофизики физического факультета МГУ Дарья Гречишникова

Self attention-слою требуется константное число последовательных операций для установления связей между любыми элементами последовательности, что позволяет ему справляется с длинными последовательностями. Этот механизм хорошо подходит для задачи перевода последовательности белка в строковое представление лиганда по двум причинам. Во-первых, аминокислотные последовательности белков могут быть достаточно длинными – в десятки раз длиннее строкового представления молекул. Во-вторых, функционально значимые элементы структуры белка могут быть образованы аминокислотными остатками, находящимися далеко друг от друга в последовательности. Поэтому важно, чтобы модель хорошо улавливала зависимости именно между удаленными элементами.

Мы впервые представили белок-специфичный дизайн лекарств как проблему перевода между «языком» аминокислот и строковым представлением молекулярной структуры (SMILES).

«Белок рассматривается как «контекст» для генерации связывающийся с ним молекулы. Такая постановка задачи позволила нам адоптировать одну из самых успешных архитектур в области машинного перевода к задачам генерации молекул. Оказалось, что аминокислотной последовательности белка достаточно для того, чтобы сгенерировать молекулы, связывающиеся с заданным белком», – продолжила Дарья Гречишникова

Разработанная модель может существенно ускорить и упростить процесс разработки лекарств. Она позволит быстро и эффективно создавать молекулы, способные взаимодействовать с конкретным белком. Опубликованные ранее модели требуют данные об известных молекулах, связывающихся с белком, или информацию о его трехмерной структуре. Однако для новых белков-мишеней для получения такой информации необходимо привлекать дополнительные методы.

«Так, например, для новых белков, таких как вирусные белки SARS-CoV-2, вызывающие инфекционное заболевание COVID-19, данные по аффинности связывания с какими-либо соединениями отсутствовали. В таком случае, скорее всего не удастся применить подходы, использующие дообучение модели на связывающихся с белком молекулах. Подходы, основанные на структуре белка, также могут быть неприменимы, так как для некоторых белков определение трехмерной структуры затруднено или даже невозможно. Предложенная модель требует лишь знание аминокислотной последовательности белка, что значительно упрощает задачу поиска молекул», – добавила Дарья Гречишникова.