PhD, доцент, кафедра Технологии программирования и искусственного интеллекта, Институт технологий и инновационного менеджмента в городе Куляб, Республика Таджикистан, г. Куляб
СРАВНИТЕЛЬНЫЙ АНАЛИЗ АРХИТЕКТУР НЕЙРОСЕТЕЙ ДЛЯ ГЕНЕРАЦИИ ПОТЕНЦИАЛЬНЫХ ИНГИБИТОРОВ
АННОТАЦИЯ
В статье представлен сравнительный анализ различных архитектур нейросетей, применяемых для генерации химических соединений с потенциальной ингибирующей активностью. Рассмотрены пять моделей: LSTM, VAE, MolGAN, Transformer и диффузионная модель. Все модели были обучены на едином дата сете ZINC и протестированы на способность генерировать валидные, уникальные и структурно разнообразные молекулы. Качество генерации оценивалось по метрикам Validity, Uniqueness, Novelty, QED и SA score. Результаты показали, что модели на базе архитектуры Transformer и диффузионные подходы демонстрируют наилучшие показатели по совокупности критериев. Полученные данные подтверждают перспективность использования современных генеративных нейросетей для задач генерации молекул для поиска биологически активных соединений.
ABSTRACT
This study presents a comparative analysis of neural network architectures used for the generation of chemical compounds with potential inhibitory activity. Five generative models were considered: LSTM, VAE, MolGAN, Transformer, and diffusion models. All models were trained on the unified ZINC-250K dataset and evaluated in terms of their ability to produce valid, unique, and structurally diverse molecules. The quality of generation was assessed using the metrics Validity, Uniqueness, Novelty, QED, and SA score. The results show that Transformer-based and diffusion-based models achieved the best overall performance across the evaluated criteria. These findings highlight the promise of modern generative neural networks in de novo molecular design for the discovery of bioactive compounds.
Ключевые слова: генеративные нейросети, молекулярный дизайн, искусственный интеллект, LSTM, VAE, GAN, трансформер, диффузионная модель, QED, синтетическая доступность
Keywords: generative neural networks, molecular design, artificial intelligence, LSTM, VAE, GAN, transformer, diffusion model, QED, synthetic accessibility
Введение.
Компьютерное моделирование (in silico) белок-лигандного взаимодействия играет всё более значимую роль в биомедицинских исследованиях, становясь одним из ключевых этапов современного процесса разработки лекарственных препаратов. Точное предсказание взаимодействия между биоактивной молекулой и её молекулярной мишенью (рецептором или ферментом) позволяет существенно сократить цикл разработки и повысить эффективность отбора соединений с высокой аффинностью и избирательностью. Чем сильнее и специфичнее взаимодействие между лигандом и целевым белком, тем выше шансы на создание эффективного и безопасного лекарственного средства [1, с. 50].
Традиционные подходы к виртуальному скринингу и молекулярному докингу обеспечивают ценную информацию, однако они ограничены в объёмах химического пространства, которое можно исследовать с помощью классических алгоритмов. Кроме того, эффективность предсказаний во многом зависит от исходных данных, параметров моделей и алгоритмической базы. До недавнего времени не существовало универсального и высокоэффективного метода автоматизированной биоинформатической оценки белок-лигандного взаимодействия, который бы охватывал весь спектр потенциально активных соединений [1; 2]. В связи с этим в последние годы активно развиваются методы генеративного машинного обучения, позволяющие синтезировать новые молекулы с заданными свойствами в виртуальном пространстве.
Особый интерес представляют нейросетевые архитектуры, способные моделировать структуру молекул и генерировать химические соединения с потенциальной активностью. Среди них наибольшее внимание привлекают рекуррентные нейронные сети (RNN), вариационные автоэнкодеры (VAE), генеративные состязательные сети (GAN), трансформеры и диффузионные модели.
Целью данного исследования является сравнительный анализ нейросетей в задаче генерации молекул, потенциально обладающих ингибирующей активностью, на основе ключевых метрик оценки химических структур.
Материалы и методы исследования.
В качестве обучающего и тестового набора данных использовалась открытая база данных ZINC. Молекулы были представлены в формате SMILES и предварительно обработаны с использованием библиотеки RDKit: удалены соли, нейтрализованы заряды, устранены дубликаты и химически некорректные структуры [8-10].
/Khamidova.files/image001.png)
Рисунок 1. Сравнительный анализ SMILES до и после предварительной обработки (на основе RDKit)
Для реализации генерации потенциальных ингибиторов были выбраны пять современных архитектур нейронных сетей, каждая из которых представляет собой особый класс моделей с отличающимися механизмами построения молекул и подходами к обучению. Реализация и тестирование всех моделей проводились на языке программирования Python с использованием библиотек RDKit, TensorFlow, PyTorch, DeepChem и TorchDrug.
1. Рекуррентные нейронные сети (RNN, LSTM)
Рекуррентные нейронные сети, в частности LSTM, использовались для генерации молекул в формате SMILES. Модель обучалась предсказывать последовательности символов, что позволяет синтезировать молекулы поэтапно. Такой подход позволяет моделировать химические структуры как последовательности, аналогично языковым моделям [3].
2. Вариационные автоэнкодеры (VAE)
Архитектура вариационного автоэнкодера обучалась кодировать входные молекулы в латентное пространство и декодировать их обратно в SMILES-последовательности. Это позволяет выполнять генерацию новых структур путём сэмплирования из скрытого пространства, что делает возможным поиск новых ингибиторов путём целенаправленного перебора и оптимизации [4].
3. Генеративные состязательные сети (GAN)
Генерация молекул с помощью генеративных состязательных сетей проводилась на основе архитектуры MolGAN, которая оперирует молекулами в виде графов. Генератор создаёт молекулярные графы, а дискриминатор отличает синтетические молекулы от реальных. Данная модель позволяет учитывать как структуру, так и свойства молекул [5].
4. Трансформеры (Transformer, GPT)
Архитектуры трансформеров были адаптированы для генерации молекул в формате SMILES. Благодаря механизму самовнимания трансформеры эффективно захватывают контекст химических символов, что положительно влияет на синтаксическую и химическую корректность создаваемых структур [6].
5. Диффузионные модели (Diffusion Models)
Диффузионные модели применялись для генерации молекул в 3D-пространстве. В рамках исследования использовалась архитектура Equivariant Diffusion Model, обучающаяся обратному процессу восстановления молекулы из зашумленного состояния. Подобные модели демонстрируют перспективные результаты в задачах структурной генерации [7].
Каждая модель обучалась на одинаковом наборе данных с использованием GPU NVIDIA RTX 3080. Гиперпараметры (размер батча, скорость обучения, число эпох) подбирались индивидуально с применением метода случайного поиска. Контроль качества проводился по выделенной валидационной выборке.
Все численные данные были подвергнуты описательной и сравнительной статистической обработке. Для оценки значимости различий между архитектурами использовались t-критерий Стьюдента и дисперсионный анализ (ANOVA). Графическая визуализация результатов выполнена с использованием библиотек Matplotlib и Seaborn.
Результаты и обсуждения.
В результате исследования был проведён сравнительный анализ архитектур нейросетей, применяемых для генерации молекул, обладающих потенциальной биологической активностью. Были реализованы пять типов моделей: рекуррентные нейронные сети (LSTM), вариационные автоэнкодеры (VAE), генеративные состязательные сети (MolGAN), трансформеры и диффузионные модели. Все реализации выполнялись с использованием языка программирования Python и библиотек RDKit, TensorFlow, PyTorch, DeepChem и TorchDrug.
После обучения моделей каждая архитектура была использована для генерации новых молекул (рисунок 2). Результаты по метрикам генерации сведены в таблице 1.
/Khamidova.files/image002.png)
Рисунок 2. Примеры молекул, сгенерированных каждой из моделей: LSTM, VAE, MolGAN, Transformer и Diffusion
Таблица 1.
Сравнительный анализ
|
Архитектура |
Validity (%) |
Uniqueness (%) |
Novelty (%) |
QED (среднее) |
SA score (среднее) |
|
LSTM |
92.1 |
85.3 |
71.6 |
0.64 |
3.1 |
|
VAE |
94.7 |
87.9 |
66.8 |
0.66 |
3.3 |
|
MolGAN |
89.4 |
79.5 |
74.2 |
0.60 |
3.6 |
|
Transformer |
96.8 |
89.2 |
82.4 |
0.68 |
3.0 |
|
Diffusion model |
91.5 |
83.4 |
76.0 |
0.65 |
3.4 |
/Khamidova.files/image003.png)
Рисунок 3. Сравнение пяти моделей по ключевым метрикам генерации молекул: валидность, уникальность, новизна, QED и синтетическая доступность (SA Score)
Наилучшие показатели валидности и уникальности продемонстрировала модель на основе архитектуры Transformer. Она также показала самый высокий средний показатель QED (0.68), что указывает на высокую вероятность лекарственности сгенерированных соединений.
Диффузионная модель, несмотря на меньшую валидность по сравнению с трансформером, обеспечила хорошее соотношение новизны и QED, что делает её перспективной для расширения химического пространства. VAE показал стабильные, но более умеренные результаты, вероятно, из-за тенденции к генерации молекул, близких к обучающему распределению.
MolGAN обеспечил наибольшую новизну, но уступил по валидности и QED, что может быть связано с отсутствием строгого контроля над синтаксисом молекулярных графов.
Заключение
В ходе настоящего исследования был проведён сравнительный анализ пяти архитектур нейросетей, применяемых для генерации химических соединений с потенциальной биологической активностью: LSTM, VAE, MolGAN, Transformer и диффузионной модели. Все модели были обучены на едином наборе данных и оценены по ключевым метрикам генерации - валидности, уникальности, новизне, QED и синтетической доступности.
Результаты показали, что модели, основанные на архитектуре Transformer и диффузионных подходах, демонстрируют наилучшее сочетание высокой валидности, новизны и лекарственной пригодности сгенерированных молекул. Transformer-модель обеспечила наивысшие показатели валидности (96,8 %) и QED (0,68), в то время как диффузионная модель отличалась высокой новизной и сбалансированными показателями по всем критериям.
Полученные результаты могут служить основой для дальнейших исследований, направленных на интеграцию генеративных моделей с предсказанием активности, синтетической доступности и виртуальным скринингом.
Список литературы:
- Барыкин А. Д., Чепурных Т. В., Осипова З. М. Глубокое обучение в моделировании белок-лигандного взаимодействия: новые пути в разработке лекарственных препаратов // Вестник РГМУ. – 2024. – № 1
- Lazo J. S. Rear-view mirrors and crystal balls: a brief reflection on drug discovery // Molecular Interventions. – 2008. – Vol. 8, no. 2. – P. 60–63. – DOI: 10.1124/mi.8.2.1.
- Segler M. H. S., Kogej T., Tyrchan C., Waller M. P. Generating focused molecule libraries for drug discovery with recurrent neural networks // ACS Central Science. – 2018. – Т. 4, № 1. – С. 120–131. – DOI: 10.1021/acscentsci.7b00512.
- Gómez-Bombarelli R., Wei J. N., Duvenaud D., et al. Automatic chemical design using a data-driven continuous representation of molecules // ACS Central Science. – 2018. – Т. 4, № 2. – С. 268–276. – DOI: 10.1021/acscentsci.7b00572.
- De Cao N., Kipf T. MolGAN: An implicit generative model for small molecular graphs [Электронный ресурс] // arXiv preprint arXiv:1805.11973. – 2018. – Режим доступа: https://arxiv.org/abs/1805.11973 (дата обращения: 1.07.2025).
- Karpov P., Godin G., Tetko I. V. A transformer model for retrosynthesis [Электронный ресурс] // Proceedings of the NeurIPS Workshop on Machine Learning for Molecules and Materials. – 2019. – Режим доступа: https://arxiv.org/abs/1905.08098 (дата обращения: 20.07.2025).
- Hoogeboom E., Nielsen L. F., van den Berg R., Welling M. Equivariant diffusion for molecule generation in 3D [Электронный ресурс] // International Conference on Machine Learning (ICML). – 2022. – Режим доступа: https://arxiv.org/abs/2203.17003 (дата обращения: 15.07.2025).
- Kurbonov S. S., Khamidova D. N. Molecular modeling and docking of C₁₅H₁₀O₇ as a prospective inhibitor of viral targets // Endless Light in Science. – 2025. – № 3. – С. 29–34. – DOI: 10.24412/3007-8946-2025-31-29-34. – EDN XLPGKU.
- Хамидова Д. Н., Джабаров У. Г. Нейронная сеть для распознавания изображений с помощью TensorFlow // Наука и технология XXI века. – 2024. – № 1(11). – С. 34–41. – EDN KVAPWW.
- Хамидова Д. Н. Новые методы в технологиях генетической инженерии // Роль информационно-коммуникационных технологий в инновационном развитии Республики Таджикистан: материалы международной научно-практической конференции, Душанбе, Таджикистан, 17–18 ноября 2017 года. – Душанбе: ЗАО «Бахманруд», 2017. – С. 184–186. – EDN HKAOIJ.