Сделано Русскими
Сегодня
Политика
Происшествия
Люди
Экономика
Следствие
Бизнес
Культура
Наука и медицина
О проекте
Редакция
Контакты
Размещение рекламы
Использование материалов
Поддержать проект
Свидетельство о регистрации СМИ ЭЛ № ФС 77 – 65733 выдано Роскомнадзором 20.05.2016.
В России признаны экстремистскими и запрещены организации «Национал-большевистская партия», «Свидетели Иеговы», «Армия воли народа», «Русский общенациональный союз», «Движение против нелегальной иммиграции», «Правый сектор», УНА-УНСО, УПА, «Тризуб им. Степана Бандеры», «Мизантропик дивижн», «Меджлис крымскотатарского народа», движение «Артподготовка», общероссийская политическая партия «Воля». Признаны террористическими и запрещены: «Движение Талибан», «Имарат Кавказ», «Исламское государство» (ИГ, ИГИЛ), Джебхад-ан-Нусра, «АУМ Синрике», «Братья-мусульмане», «Аль-Каида в странах исламского Магриба».
Лента новостей
Лента новостей
Новости – Сделано Русскими
Русская планета

Российские ученые разработали модель для ускоренной разработки лекарств

Горечавка
Фото: Pharma-labor.de
Данный метод генерирует 90% химически валидных лекарственных соединений
Дмитрий Степнов
1 марта, 2021 12:22
6 мин

Сотрудники физического факультета МГУ создали новую модель для ускоренной разработки лекарств.

Модель генерирует 90% химически валидных лекарственных соединений, способных связываться с заданным белком, используя лишь его аминокислотную последовательность в качестве входных данных. Она может существенно ускорить и упростить процесс разработки лекарств.

Работа опубликована в престижном журнале Scientific reports Nature publishing group.

Разработка лекарственных препаратов - очень дорогой и долгий процесс. Он занимает в среднем 10-13 лет, а его стоимость достигает нескольких миллиардов долларов. Разработка делится на несколько этапов. Одним из наиболее важных этапов является поиск новой молекулы, способной воздействовать на белок-мишень. Это чрезвычайно сложная задача, так как количество всех химически возможных молекул огромно и составляет по разным оценкам от 1023 до 1060. К настоящему моменту синтезировано только 108 молекул. Для поиска новых структур практически всегда используют компьютерные методы.

Выделяют два основных типа вычислительных методов. Первый основывается на трёхмерной структуре белка. Если известна конфигурация сайта связывания, то можно оптимизировать структуру молекулы прямо под нее. Второй тип – это методы, основанные на информации об уже известных лигандов, связывающихся с данным белком-мишенью. Можно установить связь между физико-химическими свойствами соединения и его активностью в отношении белка и использовать это знание для создания новых структур. К сожалению, большинство существующих методов в вычислительной химии имеют тенденции к генерации сложно синтезируемых молекул. Кроме того, в основе многих методов лежат закодированные вручную правила, которые сильно ограничивают число доступных алгоритму молекул.

Словом, поиск структур остается сложной задачей. В настоящее время активно исследуется возможность применения методов машинного обучения для решения задач генерации новых молекул.

«Мы использовали глубокую нейронную сеть «Трансформер». Эту архитектуру придумали исследователи из Google Brains в 2017 году для обработки естественного языка. Трансформер состоит из энкодера и декодера. Энкодер отображает входную последовательность символов в некоторый вектор. Затем декодер посимвольно генерирует на выходе последовательность, используя этот вектор. Одной из важнейших особенностей «Трансформера» являются self attention слои. Self attention – это механизм внимания который устанавливает связи между различными участками одной и той же последовательности и на основании этой информации строит ее представление. В нашей задаче в качестве слов мы рассматриваем аминокислоты и отдельные символы строкового представления молекулы (SMILES)», – рассказала сотрудник кафедры биофизики физического факультета МГУ Дарья Гречишникова

Self attention-слою требуется константное число последовательных операций для установления связей между любыми элементами последовательности, что позволяет ему справляется с длинными последовательностями. Этот механизм хорошо подходит для задачи перевода последовательности белка в строковое представление лиганда по двум причинам. Во-первых, аминокислотные последовательности белков могут быть достаточно длинными – в десятки раз длиннее строкового представления молекул. Во-вторых, функционально значимые элементы структуры белка могут быть образованы аминокислотными остатками, находящимися далеко друг от друга в последовательности. Поэтому важно, чтобы модель хорошо улавливала зависимости именно между удаленными элементами.

Мы впервые представили белок-специфичный дизайн лекарств как проблему перевода между «языком» аминокислот и строковым представлением молекулярной структуры (SMILES).

«Белок рассматривается как «контекст» для генерации связывающийся с ним молекулы. Такая постановка задачи позволила нам адоптировать одну из самых успешных архитектур в области машинного перевода к задачам генерации молекул. Оказалось, что аминокислотной последовательности белка достаточно для того, чтобы сгенерировать молекулы, связывающиеся с заданным белком», – продолжила Дарья Гречишникова

Разработанная модель может существенно ускорить и упростить процесс разработки лекарств. Она позволит быстро и эффективно создавать молекулы, способные взаимодействовать с конкретным белком. Опубликованные ранее модели требуют данные об известных молекулах, связывающихся с белком, или информацию о его трехмерной структуре. Однако для новых белков-мишеней для получения такой информации необходимо привлекать дополнительные методы.

«Так, например, для новых белков, таких как вирусные белки SARS-CoV-2, вызывающие инфекционное заболевание COVID-19, данные по аффинности связывания с какими-либо соединениями отсутствовали. В таком случае, скорее всего не удастся применить подходы, использующие дообучение модели на связывающихся с белком молекулах. Подходы, основанные на структуре белка, также могут быть неприменимы, так как для некоторых белков определение трехмерной структуры затруднено или даже невозможно. Предложенная модель требует лишь знание аминокислотной последовательности белка, что значительно упрощает задачу поиска молекул», – добавила Дарья Гречишникова.

Поделиться
поддержать проект
Для поднятия хорошего настроения, вы можете угостить наших редакторов чашечкой кофе
Маленькая чашка кофе
cup
200 ₽
Средняя чашка кофе
cup
300 ₽
Большая чашка кофе
cup
500 ₽
Большая чашка кофе и что-то вкусное
cup
900 ₽
Нажимая на кнопку «Поддержать», я принимаю пользовательское соглашение, политику конфиденциальности и подтверждаю свое гражданство РФ
Кто может поддержать проект?
Поддержать проект могут только граждане России. Поддержка осуществляется только в рублях. В соответствии с требованием закона.
6 мин
Лень сёрфить новости? Подпишись и БУДЬ В КУРСЕ