НОВЕЙШИЕ ИННОВАЦИИ В РАЗРАБОТКЕ ЛЕКАРСТВЕННЫХ СРЕДСТВ, ОСНОВАННЫЕ НА ЯЗЫКОВЫХ МОДЕЛЯХ И ПЕРСПЕКТИВЫ ИХ АДАПТАЦИИ В УЗБЕКИСТАНЕ

THE LATEST INNOVATIONS IN THE DRUG DESIGN BASED ON LANGUAGE MODELS AND PROSPECTS FOR THEIR ADAPTATION IN UZBEKISTAN

Адилова Ф.Т. Давронов Р.Р. Кушмуратов С.И.

27.10.2023 349

10(115)

10. Информатика, вычислительная техника и управление

Цитировать:

Адилова Ф.Т., Давронов Р.Р., Кушмуратов С.И. НОВЕЙШИЕ ИННОВАЦИИ В РАЗРАБОТКЕ ЛЕКАРСТВЕННЫХ СРЕДСТВ, ОСНОВАННЫЕ НА ЯЗЫКОВЫХ МОДЕЛЯХ И ПЕРСПЕКТИВЫ ИХ АДАПТАЦИИ В УЗБЕКИСТАНЕ // Universum: технические науки : электрон. научн. журн. 2023. 10(115). URL: https://7universum.com/ru/tech/archive/item/16076 (дата обращения: 06.04.2025).

Прочитать статью:

DOI - 10.32743/UniTech.2023.115.10.16076

АННОТАЦИЯ

В статье представлены новейшие технологии искусственного интеллекта (ИИ) в разработке новых лекарств, реализованные в виде платформы MolT5 и компьютерного прогнозирования результатов клинических испытаний на платформе PHARMA.AI

Сегодня врач может написать несколько предложений, описывающих свойства нужного препарата для лечения пациента, и получает её точную структуру. Самоконтролируемая обучающая платформа MolT5 создаёт подписи к молекулам, генерирует новые молекулы на основе текста, и помогает преодолеть нехватку данных.

Высокая частота неудач лекарств в клинических испытаниях является основной причиной быстрого роста затрат на разработку лекарств. Точное прогнозирование клинических испытаний программ, находящихся на ранних стадиях разработки, поможет сэкономить миллиарды долларов и расставить приоритеты, которые принесут пользу пациентам. Платформа PHARMA.AI решает эту задачу.

Для адаптации этих приложений в Узбекистане разрабатывается специальная языковая модель uzT5 с возможностью открытого доступа для специалистов с узбекским языком. Результаты подтверждают потенциал развития этой модели, которая позволяет достичь сопоставимых результатов с известными моделями типа mT5.

ABSTRACT

The article presents the latest artificial intelligence (AI) technologies in the development of new drugs, implemented on the MolT5 platform and computer prediction of clinical trial results on the platform PHARMA.AI.

Today, a doctor can write several sentences describing the properties of the desired drug for the treatment of a patient, and gets its exact structure. The MolT5 self-controlled learning platform creates signatures to molecules, generates new molecules based on text, and helps overcome data shortages.

The high frequency of drug failures in clinical trials is the main reason for the rapid increase in drug development costs. Accurate prediction of clinical trials of programs in the early stages of development will help save billions of dollars and set priorities that will benefit patients. PHARMA AI platform. solves this problem.

To adapt these applications in Uzbekistan is developing a special uzT5 language model with the possibility of open access for specialists with the Uzbek language. The results confirm the development potential of this model, which allows achieving comparable results with well-known mT5 models.

Keywords: MolT5, Transformer, Pre-trained Model, Named Entity Recognition.

Ключевые слова: MolT5, сжатие модели, преобразователь, предварительно обученная модель, ав распознавание именованных объектов.

1. Перевод между молекулами и естественным языком (MolT5)

Созданием лекарств обычно занимались люди, которые проектировали и строили отдельные молекулы. Многие из этих экспериментов были сосредоточены на молекулах и их низкоуровневых свойствах, таких как logP (коэффициент разделения октанола и воды) [1]. В работе [2] предлагаются две новые задачи: 1) генерация молекул на базе текста,- создать молекулу, соответствующую заданному описанию на естественном языке (рис.1); 2) создание подписей к молекулам,- берется молекула (например, в виде строки SMILES) и создается текст, который её описывает (рис. 2).

Истинная молекула Сгенерированная молекула

Рисунок 1. Пример выходных данных модели для задачи генерации молекул. Слева - истина, а справа - молекула, сгенерированная из заданной подписи на естественном языке

Комментарий: молекула представляет собой восемнадцатичленный гомодетичный циклический пептид, который выделен из Oscillatoria sp. и проявляет противомалярийную активность в отношении штамма малярийного паразита Plasmodium falciparum, устойчивого к хлорохину W2. Он играет роль метаболита и противомалярийного средства. Это гомодетичный циклический пептид, входящий в состав 1,3- оксазолов, 1,3-тиазолов и макроцикла.

Подписи к молекулам


Описание молекулы на языке SMILES	3D- изображение

Рисунок 2. Пример задачи создания подписей к молекулам. Создание подписей к молекулам значительно сложнее из-за большого лингвистического разнообразия возможных подписей

Комментарий: молекула представляет собой органический дисульфид, выделенный из цельного бульона морского гриба Exserohilum rostratum, и обладает противоопухолевой активностью. Он играет роль метаболита и противоопухолевого средства. Это гомодетичный циклический пептид, входящий в состав 1,3-оксазолов, 1,3-тиазолов и макроцикла.

Решить обычную проблему нехватки данных в химии можно на основе новой системы обучения с самоконтролем MolT5 [2], построенную на идее многоязычных моделей, - mBERT [3], mBART [4]. MolT5 (Molecular T5) предварительно обучает модель на огромном немаркированном тексте на естественном языке и на описании молекул на языке SMILES, после чего предварительно обученная модель настраивается окончательно. Чтобы адекватно оценить модели, выполняющие подписи молекул или их генерацию, используют различные виды метрик, но в [2] предложена новая кросс-модальная оценка на базе метрики Text2Mol [5].

Подпись к молекуле означает описание её структуры и функций (или свойств). Молекулы часто представляются в виде строк SMILES, поэтому эту задачу можно считать задачей перевода "последовательность SMILES в последовательность текста” (Рис.2) Цель генерации молекул de novo состоит в том, чтобы обучить модель, которая сможет затем генерировать новые молекулы. В MolT5 генерируют молекулы на основе описания желаемой молекулы на естественном языке (Рис.2).

Традиционно задачи создания подписей оценивались с помощью показателей генерации естественного языка, таких как BLEU [6]), ROUGE [7] и METEOR [8]. Упомянутые выше задачи между молекулами и текстом оцениваются на метрике Text2Mol [5] измерением расстояния сгенерированной молекулы либо до исходной молекулы, либо до её описания.

Данные

Для предварительного обучения MolT5 брали два текстовых одноязычных корпуса: один, состоящий из текста на естественном языке, а другой, состоящий из представлений молекул (Colossal Clean Crawled Corpus C4). Для молекулярной модальности использовали 100 миллионов строк SMILES, используемых в Chemformer. Для точной настройки использовали ChEBI-20, который состоит из 33 010 пар молекула-описание, которые разделены на 80/10/10 % частей обучения/валидации/тестирования.

Отпечатки пальцев двух молекул, - истинной и сгенерированной, сравниваются с использованием меры сходства и вычисляется среднее сходство по оценочному набору данных. В разных исследованиях оценивали: совпадение строк SMILES, расстояние Levenshtein [9] и SMILES BLEU, расстояние FCD (Fréchet Inception Distance), где учитывается химическая и биологическая информация о молекулах [10]. Достоверность новых молекул проверяется RDKIT [11], где разработана платформа бенчмаркинга Molecular Sets (MOSES) на наборе показателей для оценки качества и разнообразия сгенерированных структур https://github.com/molecularsets/moses.

MolT5-мультимодальная модель

Учитывая прогресс в крупномасштабном предварительном обучении [12], в MolT5 предложена новая система обучения с самоконтролем, которая использует большое количество немаркированного текста на естественном языке и записи молекулярных строк.

На рисунке 3 показана схема MolT5. Сначала строится модель преобразования кодер-декодер [13] с использованием одной из общедоступных контрольных точек T5.1.12, улучшенной версии T5 https://tinyurl.com/t511-ckpts. После этого модель предварительно обучается, используя метод [14], а затем точно настраивается либо для создания подписей к молекулам, либо для генерации.

Результаты

В таблице 1 приведены результаты проверки подписей к молекулам. Предварительно обученные модели, - T5, MolT5, значительно лучше генерируют язык описания молекулы, чем RNN и базовые линии трансформера, к тому же RNN обычно выдает неграмотные подписи.

Рисунок 3. Схема MolT5. Сначала предварительно обучается MolT5 на большом объеме данных как на SMILES, так и на естественном языке, используя задачу “заменить поврежденные промежутки” [16]. После этапа предварительной подготовки MolT5 может быть точно настроен либо для задачи создания подписей молекул, либо для их генерации (или и для того, и для другого)

Таблица 1.

Результаты проверки подписей к молекулам на тестовой выборке ChEBI-20. Баллы Rouge рассчитываются как значения F1

Модель	Метрики оценки подписей
Модель	BLEU-2	BLEU-4	ROUGE-1	ROUGE-2	ROUGE-L	METEOR	Tcxt2Mol
Ground Truth							0.609
RNN	0.251	0.176	0.450	0.278	0.394	0.363	0.426
Transformer	0.061	0.027	0.204	0.087	0.186	0.114	0.057
T5-Small	0.501	0.415	0.602	0.446	0.545	0.532	0.526
MolTS-Small	0.519	0.436	0.620	0.469	0.563	0.551	0.540
T5-Basc	0.511	0.423	0.607	0.451	0.550	0.539	0.523
MolT5-Ba.se	0.540	0.457	0.634	0.485	0.578	0.569	0.547
T5-Largc	0.558	0.467	0.630	0.478	0.569	0.586	0.563
MolT5-Largc	0.594	0.508	0.654	0.510	0.594	0.614	0.582

В задаче генерации молекул предварительно обученные модели также работают намного лучше, чем RNN и Transformer (таблица 2). Хорошо известно, что масштабирование размера модели и данных предварительного обучения даёт значительное повышение качества генерации [15]. Эта тенденция сохраняется и при масштабировании языковой модели, но предварительное обучение в MolT5 улучшает некоторые результаты генерации молекул. Пример генерации показан на рисунке 4.

RNN Transformer T5 MolT5 Ground Truth

Рисунок 4. Пример генерации молекул разными методами

Таблица 2.

Результаты образования молекул на тестовой выборке ChEBI-20

Модель	Метрики оценки генерации молекул
Модель	BLUE	Exact	Levenshtein	MACCS FTS	RDK FTS	Morgan FTS	FCD	Text2Mol	Validity
Ground Truth	1.000	1.000	0.0	1.000	1.000	1.000	0.0	0.609	1.0
RNN	0.652	0.005	38.09	0.591	0.400	0.362	4.55	0.409	0.542
Transformer	0.499	0.000	57.66	0.480	0.320	0.217	11.32	0.277	0.906
T5-Small	0.741	0.064	27.703	0.704	0.578	0.525	2.89	0.479	0.608
MolT5 Small	0.755	0.079	25.988	0.703	0.568	0.517	2.49	0.482	0.721
T5-Baac	0.762	0.069	24.950	0.731	0.605	0.545	2.48	0.499	0.660
MolT5-Ba.se	0.769	0.081	24.458	0.721	0.588	0.529	2.18	0.496	0.772
T5-Large	0.854	0.279	16.721	0.823	0.731	0.670	1.22	0.552	0.902
MolT5-Large	0.854	0.311	16.071	0.834	0.746	0.684	1.20	0.554	0.905

Таким образом, в отличие от многих работ, представление молекул в MolT5 допускают перевод между молекулами и естественным языком. Особый интерес проявляется к обучению генеративных моделей для создания молекул в стиле GPT [1]. Модель MolT5 позволит химикам разрабатывать новые лекарства, взаимодействуя на естественном языке, а генерация молекул с функциями, необходимыми для каждого применения, является потенциалом революции в химии, медицине и материаловедении.

2. Компьютерное прогнозирование результатов клинических испытаний (PHARMA.AI)

Данный раздел посвящен исследованиям, проведенным в компании Insilico Medicine [17], которые сегодня являются уникальной инновацией в разработке препаратов. Точное прогнозирование результатов клинических испытаний на базе ИИ может помочь оптимизировать конвейеры разработки лекарств [18]. Известны несколько методик для оценки результатов клинических испытаний: PrOCTOR [19] рассмотрел небольшой набор данных, состоящий из успешно запущенных и неприменимых лекарств из-за токсичных побочных эффектов и использовал систему оценки с помощью машинного обучения, основанную на нескольких простых дескрипторах лекарств и их целевых характеристиках.

Авторы из [20] проанализировали большой набор данных клинических испытаний и построили модель машинного обучения, предсказывающую фазовый переход программы разработки лекарств на основе таких характеристик как количество конечных точек, маскировка и использование анализа биомаркеров. Можно отметить ещё работы [21-23], где использовали структурную информацию о лекарствах, основанную на цели или протоколах и данных испытаний из предыдущих фаз клинических испытаний. Для прогнозирования результатов клинических испытаний в [17] включили большой набор данных из мультимодальных источников, биологический фон. Наиболее слабые места клинических испытаний в прогностической модели выявляют объяснениями SHAPE [24], которые предсказывают неудачу клинического испытания.

Данные

Набор данных для модели машинного обучения состоит из 3802 уникальных малых молекул, 1350 уникальных показателей и, в общей сложности, из 10 922 уникальных пар «препарат-показания к его применению». Цель прогнозирования является прогноз перехода лекарства из фазы I во фазу II и из фазы II в фазу III. Платформа Pharma.AI также использовала статистические данные из различных биомедицинских текстовых баз данных,

Модель

Система прогнозирования результатов клинических испытаний, показанная на рисунке 5, является частью комплексного механизма поиска лекарств In silico Medicine на базе которого сделаны перспективные прогнозы для нескольких клинических испытаний 2-й фазы с ожидаемыми результатами во второй половине 2022 и второй половине 2023 годов.

Рисунок 5. Конвейер разработки лекарств Insilico Medicine; “INCLINICO” механизм клинических испытаний был использован для этого исследования. Модули из платформы «PANDAOMICS» были использованы для оценки целевых показателей; модули виртуального скрининга и фильтры медицинской химии из платформы “CHEMISTRY42” были использованы для прогнозирования свойств малых молекул

Результаты

Оценки мишеней получили на основе транскриптомных данных, а также оценки активации/ингибирования путей с помощью платформы Insilico PandaOmics platform https://pandomics.com/. Валидацию выполнили, разделив все программы разработки лекарств на обучающий набор, состоящий из проектов, завершившихся к указанному году, и валидационный набор, состоящий из тех проектов, которые завершились после указанного года. Для предиктора перехода от фазы II к фазе III достигли ROC AUC 0,88; при пороговом значении прогнозирования 0,5 точность прогнозирования составляет 0,81, баллы F1 равны 0,85 и 0,75 для отрицательного и положительного классов соответственно в тестовом наборе. На рис.6 представлен ROC AUC в качестве предиктора для конкретных терапевтических областей.

Отобрали 35 клинических испытаний, проведенных фармацевтическими компаниями в различных терапевтических областях. Вероятность успеха прогноза исходов 35 клинических испытаний на PHARMA.AI равна 54%, но модель продолжает работать, с ожидаемыми конечными результатами во второй половине 2023 года.

Рисунок 6. Эффективность предиктора в терминах ROC AUC при переходе от фазы II к фазе III в разбивке по терапевтическим категориям

Таким образом, впервые реализована виртуальная проверка перспективных прогнозов для предстоящих клинических испытаний. Используя предложенный механизм, рассчитали вероятности успеха для 35 проводимых в настоящее время клинических испытаний, которые, как ожидается, завершатся во втором полугодии 2023 годов. При пороговом значении 0,45 для этого случая ожидается, что 17 из них достигнут своих основных конечных точек.

3. Адаптация mT5 для узбекского языка

Работы, связанные с применением NLP в узбекском языке относительно редки из-за его статуса языка с низким уровнем ресурсов. В 2021 году была разработана модель UzRoBerta, демонстрирующую проблемы и потенциал в этой области [25]. Однако создание моделей для узбекского языка, основанных на глубоком обучении, по-прежнему остается открытой областью исследований. Здесь представлена узбекская версия многоязычного трансформера T5 (Text-To-Text Transfer Transformer). Вначале узбекскую версию многоязычного T5 сравнили с узбекской версией многоязычной модели mT5, после чего разработали 5 моделей, специфичных для узбекского языка, как производные от многоязычного варианта. Производительность этих моделей сопоставили с моделью mT5 в режиме точной их настройки для двух задач NLP: суммаризации и распознавания именованных объектов (NER).

Данные

Учитывая, что узбекские тексты часто включают английский и русский языки, в модели сохранен ограниченный набор английских и русских лексем. Чтобы определить распространенность различных лексем, взяли корпус узбекских, русских и английских фраз из коллекции Leipzig corpora [26]. Доля английского языка составила 18,9%, доля русского языка составила 14,5%. Топ-20 000 токенов представляют более 99,4% как узбекского, так и русского словарей. Получено 57,5 тысяч токенов на основе словарных фильтров, что составляет 23% от 250 тысяч токенов в многоязычной версии. Из 57,5 тысяч токенов 9061 выделен для узбекского языка.

Модель

Входные и выходные параметры исходной модели были заменены на заданные, что привело к уменьшению размера модели на 57% - с 2330 МБ до 1100 МБ и уменьшения числа параметров до 244 миллиона, что эквивалентно 49% параметров в многоязычной модели. Параллельно был обновлению токенизатор. После этих изменений новая модель uzT5 была загружена в Transformers Hub, что повысило ее доступность для пользователей, занимающихся обработкой текстов на узбекском языке.

Результаты

Модель, uzT5, являясь производной от mT5, требует тонкой настройки для конкретных задач. Для сравнения этих моделей провели тонкую их настройку для решения двух задач , -суммирования и распознавания именованных сущностей (NER). Процесс тонкой настройки и последующие сравнения были выполнены в среде Colab с использованием Transformers Trainer от Hugging Face [27] совместно с PyTorch [28]. Суммаризация текста, -процедура получение краткой аннотации, содержащей наиболее важные детали исходного текста. Обучающий набор включал 4000 контекстов из узбекских статей, с соответствующими резюме. Аналогично, набор валидации содержал 1000 контекстов с их краткими описаниями. Производительность моделей была количественно оценена по методике [29], которая вычисляет показатели BLEU [30] и ROUGE [31]. Результаты приведены в таблице 3.

Tаблица 3.

Количественная оценка производительности моделей на суммаризации.

Model	Size (GB)	Time (sec)	Rouge1	Rouge2	RougeL	BLUE
mT5	2,2	18	0,167	0,069	0,129	0,0275
uzT5	1	7,5	0,171	0,072	0,131	0,0295

Показатели включают размер (ГБ), время (сек), показатель Rouge 1, Rouge 2, Rouge и BLUE. Модель uzT5 демонстрирует незначительное преимущество с точки зрения размера, времени обработки и качества сгенерированных сводок.

Распознавание именованных сущностей (NER) - ключевой компонент обработки естественного языка (NLP), предназначенный для идентификации областей текста, содержащих ссылки на сущности. В таблице 4 представлена сравнительная оценка двух моделей, mT5 и uzT5, по нескольким показателям, а именно точности, отзыву и F1-баллу в различных категориях сущностей, таких как ORG, PER, LOC, DATE, TIME, NUMBER.

Tаблица 4.

Количественная оценка производительности моделей в задаче NER

	mT5			uzT5
Class	Точность	Охват поиска	F1	Точность	Охват поиска	F1
ORG	0,65	0,59	0,62	0,45	0,39	0,42
PER	0,78	0,46	0,58	0,85	0,74	0,79
LOC	0,61	0,53	0,57	0,71	0,77	0,74
DATE	0,86	0,41	0,56	0,78	0,61	0,68
TIME	0,92	0,46	0,61	0,94	0,66	0,78
NUMBER	0,41	0,26	0,32	0,54	0,54	0,54

Следовательно, модель uzT5 превосходит модель mT5 во всех категориях, кроме ORG, что делает ее в целом более эффективной моделью для задач распознавания именованных объектов.

Таким образом, обновленная модель uzT5 и модель mT5 сравнили в решении автоматического суммирования текста и распознавания именованных объектов. производительность модели uzT5 была на одном уровне с моделью mT5, но потребляла меньше памяти, имела более быстрое время загрузки и более быстрое время вывода, несмотря на отсутствие изменений в архитектуре модели.

Заключение

Модель MolT5 позволит экспертам-химикам воспользоваться преимуществами новых технологий искусственного интеллекта для открытия новых лекарств, потому что для людей наиболее естественно давать объяснения и требования на естественном языке. Генерация молекул на основе текста даёт молекулы с определенными функциями, а не со свойствами, что позволяет создать химию следующего поколения, когда для каждого применения используются индивидуальные молекулы.

Точное прогнозирование клинических испытаний программ, находящихся на ранних стадиях разработки, может помочь сэкономить миллиарды долларов и расставить приоритеты в программах, которые с большей вероятностью принесут пользу пациентам. Хотя ни одна методология валидации не может гарантировать стабильную производительность в будущем, системы, проверенные с использованием ретроспективных данных, должны быть протестированы с использованием перспективной валидации, когда прогнозы делаются до того, как станут известны показания.

Метод генерации конкретных одноязычных моделей из многоязычных моделей-трансформеров создаёт модели, адаптированные к отдельным языкам, значительно меньшие по размеру, чем многоязычная родительская модель. Результирующая модель, уменьшенная вдвое по сравнению с исходной многоязычной моделью, демонстрирует потенциал предложенного метода в создании оптимизированных моделей, специфичных для определенных языков.

Список литературы:

Viraj Bagal, Rishal Aggarwal, PK Vinod, and U Deva Priyakumar. 2021. Molgpt: Molecular generation using a transformer-decoder model. Journal of Chemical Information and Modeling.
Carl Edwards, Tuan Lai, Kevin Ros, Garrett Honke, Kyunghyun Cho, Heng Ji Translation between Molecules and Natural Language arXiv:2204.11817v3 cs.CL]
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186.
Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742
Carl Edwards, ChengXiang Zhai, and Heng Ji. 2021.Text2mol: Cross-modal molecule retrieval with natural language queries. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 595–607.
Kishore Papineni, Salim Roukos, Todd Ward, and WeiJing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318.
Chin-Yew Lin. 2004. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81.
Satanjeev Banerjee and Alon Lavie. 2005. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization,pages 65–72.
Frederic P Miller, Agnes F Vandome, and John McBrewster. 2009. Levenshtein distance: Information theory, computer science, string (computer science), string metric, damerau? levenshtein distance,spell checker, hamming distance.
Kristina Preuer, Philipp Renz, Thomas Unterthiner, Sepp Hochreiter, and Günter Klambauer. 2018. Fréchet chemnet distance: A metric for generative models for molecules in drug discovery. Journal of chemical information and modeling, 58 9:1736–1741.
Daniil Polykovskiy, Alexander Zhebrak, Benjamin Sanchez-Lengeling, Sergey Golovanov, Oktai Tatanov, Stanislav Belyaev, Rauf Kurbanov, Aleksey Artamonov, Vladimir Aladinskiy, Mark Veselov, et al. 2020. Molecular sets (moses): a benchmarking platform for molecular generation models. Frontiers in pharmacology, 11:1931.
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-shot text-to-image generation. In International Conference on Machine Learning, pages 8821–8831. PMLR.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems, 30.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2020. Exploring the limits of transfer learning with a unified text-totext transformer. Journal of Machine Learning Research, 21(140):1–67.
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361
Benedek Fabian, Thomas Edlich, Héléna Gaspar, Marwin Segler, Joshua Meyers, Marco Fiscato, and Mohamed Ahmed. 2020. Molecular representation learning with language models and domain-relevant auxiliary tasks. arXiv preprint arXiv:2011.13230.
Alex Aliper1, Roman Kudrin, Ilya Bushmakin, Olga Novitskaia1, Elena Tutubalina, Anna Kuzmina, Daniil Polykovskiy, Alex Zhavoronkov Multimodal AI Engine for Clinical Trials Outcome Prediction: Prospective Case Study H2 2022 - H2 2023 DOI: 10.13140/RG.2.2.30183.93603
Mamoshina, Polina, Armando Vieira, Evgeny Putin, and Alex Zhavoronkov. 2016. “Applications of Deep Learning in Biomedicine.” Molecular Pharmaceutics 13 (5): 1445–54.
Gayvert, Kaitlyn M., Neel S. Madhukar, and Olivier Elemento. 2016. “A Data-Driven Approach to Predicting Successes and Failures of Clinical Trials.” Cell Chemical Biology 23 (10):1294–1301.
Lo, Andrew W., Kien Wei Siah, and Chi Heem Wong. 2019. “Machine Learning with Statistical Imputation for Predicting Drug Approvals.” Harvard Data Science Review.
Feijoo, Felipe, Michele Palopoli, Jen Bernstein, Sauleh Siddiqui, and Tenley E. Albright. 2020.“Key Indicators of Phase Transition for Clinical Trials through Machine Learning.” Drug Discovery Today 25 (2): 414–21.
Qi, Youran, and Qi Tang. 2019. “Predicting Phase 3 Clinical Trial Results by Modeling Phase 2Clinical Trial Subject Level Data Using Deep Learning.” In Proceedings of the 4th Machine Learning for Healthcare Conference, 106:288–303. Ann Arbor, Michigan
Artemov, A. V., E. Putin, Q. Vanhaelen, A. Aliper, and I. V. Ozerov. 2016. “Integrated Deep Learned Transcriptomic and Structure-Based Predictor of Clinical Trials Outcomes.” BioRxiv. https://www.biorxiv.org/content/10.1101/095653v2.abstract.
Lundberg, Scott M., Gabriel Erion, Hugh Chen, Alex DeGrave, Jordan M. Prutkin, Bala Nair, Ronit Katz, Jonathan Himmelfarb, Nisha Bansal, and Su-In Lee. 2020. “From Local Explanations to Global Understanding with Explainable AI for Trees.” Nature Machine Intelligence 2 (1): 2522–5839.
Адылова Ф.Т, Давронов Р. Представления структуры лекарств на основе BERT: сравнение токенизаторов Проблемы вычислительной и прикладной математики, Спецвыпуск №6/1(37) 2021,с.123-131)
D. Goldhahn. T. Eckart, and U. Quasthoff. "Building large monolingual dictionaries at the leipzig corpora collection: From 100 to 200 languages." in Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 2012. pp. 759-765.
T. Wolf et al., "Huggingface's transformers: State-of-the-art natural language processing," arXivpreprint arXiv: 1910.03771, 2019.
A. Paszke et al., "Pytorch: An imperative style, high-performance deep learning library," Advances in neural information processing systems, vol. 32, 2019.
S. Sharma, L. E. Asri, H. Schulz, and J. Zumer. "Relevance of unsupervised metrics in task-oriented dialogue for evaluating natural language generation." arXiv preprint arXiv:1706.09799, 2017.
K. Papineni, S. Roukos. T. Ward, and W.-.T. Zhu, "Bleu: a method for automatic evaluation of machine translation." in Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002, pp. 311-318.
C.-Y. Lin. "Rouge: A package for automatic evaluation of summaries," in Text summarization branches out, 2004. pp. 74-81.

Информация об авторах

Адилова Фатима Туичиевна

д-р техн. наук, профессор, зав. лаборатории, Институт Математики им В.И. Романовского АН Республики Узбекистан Республика Узбекистан, г. Ташкент

Fatima Adilova

Doctor of Technical Sciences, Professor, Head of the Laboratory V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Давронов Рифкат Рахимович

канд. техн. наук, старший научный сотрудник Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент

Rifkat Davronov

Ph.D., Senior Researcher V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Кушмуратов Самариддин Ибодулла угли

мл. науч. сотр., Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент

Samariddin Kushmuratov

Junior Researcher, V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent