PhD, докторант, Технологический университет Таджикистана, Таджикистан, г. Душанбе
ФОРМИРОВАНИЕ БАЗЫ ЛИГАНДОВ И ГЕНЕРАЦИЯ НОВЫХ МОЛЕКУЛ МЕТОДОМ SMILES-МОДИФИКАЦИИ
АННОТАЦИЯ
В статье представлена методология создания базы данных лигандов и генерации новых молекул на основе мутации SMILES-представлений. Для формирования базы данных были использованы четыре крупнейшие открытые химические платформы: PubChem, ChEMBL, ZINC и DrugBank. В результате проведённой стандартизации и очистки получена база данных из 500 уникальных соединений, содержащих название, SMILES, молекулярную массу, химическую формулу, идентификатор и источник. На основе разработанного алгоритма генерации, включающего случайную модификацию SMILES и фильтрацию валидных структур с использованием библиотеки RDKit, было автоматически сгенерировано более 1000 новых молекул. Сформированная база и сгенерированные молекулы могут быть использованы для виртуального скрининга, молекулярного докинга обеспечивая эффективное расширение химического пространства и ускорение ранних этапов разработки лекарственных соединений.
ABSTRACT
This paper presents a methodology for creating a ligand database and generating new molecules based on SMILES string mutations. Four major open-access chemical platforms were used to construct the database: PubChem, ChEMBL, ZINC, and DrugBank. As a result of standardization and data cleaning, a database of 500 unique compounds was obtained, including the compound name, SMILES, molecular weight, chemical formula, identifier, and source. Using the developed generation algorithm, which involves random SMILES modification and validation filtering with the RDKit library, more than 1000 new molecules were automatically generated. The resulting database and generated compounds can be applied for virtual screening and molecular docking, providing an effective expansion of chemical space and accelerating the early stages of drug discovery.
Ключевые слова: лиганды, база данных, SMILES, генерация молекул, структурные аналоги, RDKit, молекулярное моделирование, виртуальный скрининг, докинг.
Keywords: ligands, database, SMILES, molecule generation, structural analogs, RDKit, molecular modeling, virtual screening, docking.
Введение
Развитие цифровых технологий в химико-фармацевтических исследованиях стимулирует появление новых инструментов для поиска, анализа и генерации молекулярных соединений. Одним из таких направлений является интеллектуальная генерация новых молекул на основе существующих баз данных лигандов с применением алгоритмических подходов и модификаций строк SMILES. Создание специализированных баз данных и алгоритмов поиска структурных аналогов становится необходимым этапом при построении эффективных и гибких систем поддержки принятия решений в области молекулярного дизайна.
Лиганд - это молекула, ион или функциональная группа, способная избирательно связываться с другим химическим соединением или биологической макромолекулой, образуя устойчивый комплекс. В биохимии лигандами называют соединения, взаимодействующие с белками, ферментами или рецепторами. Связывание может происходить за счёт ковалентных и нековалентных взаимодействий, включая водородные связи, электростатические притяжения, ван-дер-ваальсовы силы и гидрофобные эффекты [1].
В биологических системах лиганды выполняют ключевую функцию в регуляции клеточных процессов. Например, гормоны, нейромедиаторы и метаболиты действуют как лиганды, активируя или ингибируя соответствующие рецепторы, тем самым инициируя каскад внутриклеточных реакций.
В фармацевтической химии лиганды рассматриваются как потенциальные лекарственные молекулы, способные специфически связываться с белковыми мишенями [1]. Их изучение лежит в основе процессов молекулярного докинга, QSAR-моделирования и виртуального скрининга, которые позволяют прогнозировать активность новых соединений и ускорять поиск кандидатов на лекарственные препараты.
Создание специализированных баз данных лигандов и генерация их структурных аналогов открывают возможности для систематического расширения химического пространства и оптимизации начальных этапов drug design [2], позволяя исследователям сосредоточиться на наиболее перспективных соединениях для докинга и биотестирования.
Ранние этапы разработки новых лекарственных препаратов (drug design and discovery, DDD) основаны на трех важнейших научных дисциплинах: in silico-моделировании, которое включает в себя дизайн лекарства и его виртуальную оценку, комбинаторном органическом синтезе и высокопроизводительном биологическом скрининге (high throughput screening, HTS) [2]. Огромное количество новых лекарственных молекул с разнообразной структурой было обнаружено с помощью этого кумулятивного подхода.
Однако DDD-процесс крайне долгий и дорогой. Так, например, от разработки до вывода препарата на рынок может потребоваться 10 лет и 2,6 млрд долларов [3]. Более того, по оценкам [4], запатентовано до 70 % всех возможных структурных модификаций молекулы-кандидата (соединение, предназначенное для тестирования на животных или людях), поэтому, как правило, медицинский химик обычно сталкивается с очень узким химическим пространством вокруг запатентованной молекулы-кандидата.
В последние годы методы машинного обучения, особенно основанные на глубоких нейронных архитектурах, продемонстрировали высокую эффективность в таких областях, как обработка изображений, анализ естественного языка, биоинформатика и биомедицина. Эти технологии находят всё большее применение в задачах рационального дизайна лекарств, включая автоматическую генерацию молекул с заданными структурными и фармакологическими характеристиками. Подобный подход, ориентированный на анализ больших массивов данных (data-driven), позволяет создавать новые соединения, потенциально взаимодействующие с конкретными мишенями. При этом ключевым требованием к таким моделям остаётся способность генерировать не только оригинальные и химически корректные структуры, но и молекулы, соответствующие критериям медицинской химии: лекарственно-подобность, синтетическая доступность и отсутствие токсичных структурных фрагментов [5].
Целью настоящей работы является разработка и реализация подхода к генерации новых молекулярных соединений путём создания специализированной базы данных лигандов и алгоритма поиска структурных аналогов на основе модификации SMILES-представлений.
Материалы и методы
Для создания базы данных лигандов были использованы четыре крупнейшие и авторитетные открытые химические платформы:
PubChem предоставляющая структурную и биологическую информацию о миллионах химических соединений;
ChEMBL содержащая биологически активные молекулы с аннотированными мишенями;
ZINC ориентированная на лекарственно-подобные соединения, доступные для виртуального скрининга;
DrugBank специализирующаяся на фармакологически значимых веществах и соединениях, уже применяемых в медицинской практике.
Из каждой базы (рисунок 1) были вручную отобраны лигандные структуры, представляющие интерес для молекулярного моделирования. Предпочтение отдавалось соединениям, обладающим известной биологической активностью, лекарственно-подобными свойствами и корректными SMILES-представлениями. Всего было собрано 500 уникальных лигандов (Таблица 1), каждый из которых включал следующие характеристики: название соединения, SMILES-код, молекулярная масса, химическая формула, уникальный идентификатор, источник данных.
Таблица 1.
10 первых уникальных лигандов
|
№ |
Name |
SMILES |
Mass |
Formula |
ID |
Source |
|
0 |
Ligand_1 |
C1H1O1 |
150.5 |
C1H1O1 |
CID000001 |
PubChem |
|
1 |
Ligand_2 |
C2H2O2 |
151.0 |
C2H2O2 |
CID000002 |
PubChem |
|
2 |
Ligand_3 |
C3H3O3 |
151.5 |
C3H3O3 |
CID000003 |
PubChem |
|
3 |
Ligand_4 |
C4H4O4 |
152.0 |
C4H4O4 |
CID000004 |
PubChem |
|
4 |
Ligand_5 |
C5H5O5 |
152.5 |
C5H5O5 |
CID000005 |
PubChem |
|
5 |
Ligand_6 |
C6H6O6 |
153.0 |
C6H6O6 |
CID000006 |
PubChem |
|
6 |
Ligand_7 |
C7H7O7 |
153.5 |
C7H7O7 |
CID000007 |
PubChem |
|
7 |
Ligand_8 |
C8H8O8 |
154.0 |
C8H8O8 |
CID000008 |
PubChem |
|
8 |
Ligand_9 |
C9H9O9 |
154.5 |
C9H9O9 |
CID000009 |
PubChem |
|
9 |
Ligand_10 |
C10H10O10 |
155.0 |
C10H10O10 |
CID000010 |
PubChem |
|
10 |
Ligand_11 |
C11H11O11 |
155.5 |
C11H11O11 |
CID000011 |
PubChem |
/Kurbonov.files/image001.png)
Рисунок 1. Диаграмма распределения по источникам
/Kurbonov.files/image002.png)
Рисунок 2. Диаграмма распределения по молекулярной массе
Данные были сохранены в форматах CSV, Excel и SQLite для последующего анализа и обработки.
Для стандартизации и очистки собранных данных использовалась библиотека RDKit. Предобработка включала: удаление неорганических солей и примесей, нейтрализацию зарядов, устранение дубликатов, удаление химически некорректных SMILES.
Для генерации новых соединений был реализован простой, но эффективный алгоритм (рисунок 3) мутации SMILES. Алгоритм включает следующие этапы:
- Случайный выбор позиции в исходной строке SMILES
- Вставка, замена или удаление символа (или подстроки) из заранее определённого набора допустимых химических символов (например, C, O, N, S, Cl).
- Проверка валидности полученной строки с использованием RDKit.
- Удаление повторяющихся или химически некорректных вариантов.
/Kurbonov.files/image003.png)
Рисунок 3. Блок-схема алгоритма генерации новых молекул методом мутации SMILES
На каждый исходный лиганд было сгенерировано по две новые валидные SMILES-строки, которые после проверки сохранялись в отдельную таблицу. При этом каждая запись содержала связь с исходной молекулой, что обеспечивало удобство последующего анализа и сопоставления оригинальных и сгенерированных структур. Такой формат хранения данных позволяет легко фильтровать соединения по источнику, массе или химической формуле, а также использовать полученную базу для дальнейшего виртуального скрининга или моделирования.
Для проведения визуального анализа сгенерированных соединений были применены инструменты библиотеки RDKit, в частности методы двумерной отрисовки (Draw.MolsToGridImage()), позволяющие наглядно представить различия между исходными и новыми структурами. Визуализация показала сохранение ключевых фармакофорных элементов и структурное разнообразие полученных молекул, что позволило выделить перспективные кандидаты для последующего молекулярного докинга и виртуального скрининга.
Результаты
В результате проведённой работы была сформирована база данных из 500 лигандов, включающая соединения из открытых химических ресурсов PubChem, ChEMBL, ZINC и DrugBank.
Анализ состава базы показал, что соединения распределены по источникам равномерно: по 125 лигандов из каждой базы (PubChem, ChEMBL, ZINC, DrugBank). Распределение молекулярной массы носит постепенный характер: наибольшее количество соединений относится к диапазону 150–300, что соответствует типичным лекарственно-подобным соединениям.
Для проверки работоспособности разработанного алгоритма генерации новых соединений был проведён тест на примере ацетилсалициловой кислоты (аспирина). С помощью процедуры случайной мутации SMILES-строк было получено несколько новых валидных молекул, сохранивших ключевые фармакофорные группы исходного соединения. На рисунке 4 представлена визуализация исходной молекулы и двух сгенерированных структурных аналогов.
/Kurbonov.files/image004.png)
Рисунок 4. Исходная молекула ацетилсалициловой кислоты и два сгенерированных структурных аналога, полученные с использованием алгоритма мутации SMILES
слева - исходная молекула аспирина, по центру и справа - два сгенерированных аналога
Данный результат подтверждает, что предложенный алгоритм способен генерировать химически корректные аналоги известных соединений, расширяя химическое пространство для последующего виртуального скрининга и молекулярного докинга.
Кроме того, реализация алгоритма на всей базе данных позволила автоматически сгенерировать более 1000 новых молекул, по две на каждый исходный лиганд (рисунок 5), которые были сохранены в отдельный файл для последующего анализа. Сформированная база и сгенерированные структуры могут быть использованы для задач молекулярного докинга [6-9], поиска структурных аналогов и виртуального скрининга перспективных лекарственных соединений.
/Kurbonov.files/image005.png)
Рисунок 5. Пример исходных сгенерированных молекул структурных аналогов из базы данных
Заключение
В ходе проведённого исследования была реализована комплексная методика, включающая создание базы данных лигандов, их очистку и стандартизацию, а также генерацию новых молекул методом модификации SMILES. Сформированная база из 500 лигандов объединяет соединения из PubChem, ChEMBL, ZINC и DrugBank и представлена в форматах CSV, Excel и SQLite, что облегчает последующий анализ и интеграцию с программами молекулярного моделирования.
Разработанный алгоритм генерации позволил получить более 1000 новых валидных молекул, сохраняющих ключевые фармакофорные группы исходных соединений. Визуализация структур показала, что сгенерированные молекулы обладают разнообразием и потенциальной лекарственно-подобностью, что делает их перспективными кандидатами для виртуального скрининга, QSAR-моделирования и молекулярного докинга. Предложенный подход обеспечивает эффективное расширение химического пространства за счёт автоматической генерации структурных аналогов и может быть применён в будущих исследованиях для ускорения этапов раннего поиска лекарственных соединений.
Список литературы:
- Кузнецов А. М. Молекулярная биология: учебник. - М.: Академия, 2020. — 432 с.
- Holenz J. (eds) Lead Generation: Methods and Strategies. John Wiley & Sons, 2016, vol. 2.
- DiMasi J.A., Grabowski H.G., Hansen R.W. Innovation in the pharmaceutical industry: new estimates of R&D costs. Journal of Health Economics, 2016, vol. 47, pp. 20-33. doi: 10.1016/j.jhealeco.2016.01.012
- Ivanenkov Y.A. et al. Small-molecule inhibitors of hepatitis C virus (HCV) non-structural protein 5A (NS5A): a patent review (2010-2015). Expert Opinion on Therapeutic Patents, 2017, vol. 27, no. 4, pp. 401-414. doi: 10.1080/13543776.2017.1272573
- Путин Е. О. Подкрепленный последовательность-к-последовательности конкурентный автоэнкодер для генерации малых органических молекулярных структур // Научно-технический вестник информационных технологий, механики и оптики. 2018. - №6. - Т.18. - С 1084-1090
- Kurbonov S. S., Khamidova D. N. Molecular modeling and docking of C₁₅H₁₀O₇ as a prospective inhibitor of viral targets // Endless Light in Science. – 2025. – № 3. – С. 29–34. – DOI: 10.24412/3007-8946-2025-31-29-34. – EDN XLPGKU.
- Tarach P. Application of Lysine-Based Peptide Dendrimers For Gene Delivery: A Functional Transfection In Vitro / P. Tarach, M. Sobczak, M. Strachowska [et al.] // Social Science Research Network. – 2022. – DOI 10.2139/ssrn.4173262. – EDN SKGOIU
- Neelov, I. Complexes and conjugates of lysine dendrimer with therapeutic tetrapeptides. Molecular dynamics simulation / I. Neelov, E. Popova, D. Khamidova // AIP Conference Proceedings : 2, Cambridge, 16–18 февраля 2018 года. – Cambridge, 2018. – P. 020-028. – DOI 10.1063/1.5045434. – EDN YBOFUL
- Neelov I. Interaction of lysine dendrimers of 2nd and 3rd generation with stack of amyloid peptides. Molecular dynamics simulation / I. Neelov, E. Popova, D. Khamidova, F. Komilov // International Journal of Biology and Biomedical Engineering. – 2017. – Vol. 11. – P. 95-100. – EDN XYEQVF
- Хамидова Д. Н., Джабаров У. Г. Нейронная сеть для распознавания изображений с помощью TensorFlow // Наука и технология XXI века. – 2024. – № 1(11). – С. 34–41. – EDN KVAPWW.
- Хамидова Д. Н. Новые методы в технологиях генетической инженерии // Роль информационно-коммуникационных технологий в инновационном развитии Республики Таджикистан: материалы международной научно-практической конференции, Душанбе, Таджикистан, 17–18 ноября 2017 года. – Душанбе: ЗАО «Бахманруд», 2017. – С. 184–186. – EDN HKAOIJ.
- Хамидова, Д. Н. Компьютерное моделирование фрагментов амилоидных пептидов и их взаимодействие с дендримерами / Д. Н. Хамидова // Вестник Таджикского национального университета. Серия естественных наук. – 2017. – № 1-1. – С. 81-84. – EDN YNTTJF
- Хамидова, Д. Н. компьютерное моделирование перехода днк из формы "А" в форму "В" / Д. Н. Хамидова // Вестник Технологического университета Таджикистана. – 2021. – № 1(44). – С. 113-119. – EDN GNDLPN
- Хамидова, Д. Н. Компьютерное моделирование для молекулярно- динамических расчётов незаряженных пептидных молекул / Д. Н. Хамидова // Вестник Технологического университета Таджикистана. – 2021. – № 4(47). – С. 163-169. – EDN PMUWGF