канд. пед. наук, доцент Курского государственного медицинского университета, РФ, г. Курск
НЕЙРОСЕТЬ CHATGPT КАК СПОСОБ РЕШЕНИЯ КЛИНИЧЕСКИХ ЗАДАЧ ПО РЕНТГЕНОЛОГИИ
АННОТАЦИЯ
В статье рассматривается научное определение нейронных сетей, их устройство и принцип работы. Философские и этические аспекты использования нейросетей в медицинской практике. Рассмотрено применение нейронной сети ChatGPT в постановке диагноза (его точности) на основе анализа рентген-снимков и текстовых клинических задач по рентгенологии. Результат применения ChatGPT лучшие показатели при работе с текстом, чем с изображением.
ABSTRACT
The article discusses the scientific definition of neural networks, their structure and principle of operation. Philosophical and ethical aspects of the use of neural networks in medical practice. The application of the ChatGPT neural network in the diagnosis (its accuracy) based on the analysis of X-ray images and text clinical tasks in radiology is considered. The result of using ChatGPT is better performance when working with text than with an image.
Ключевые слова: нейронный сети, ChatGPT, анализ рентген-снимков, ситуационные задачи по рентгенологии.
Keywords: neural network, ChatGPT, analysis of X-ray images, situational tasks in radiology.
Введение. В настоящее время невозможно представить работу врача без компьютера. Почти в каждом городе России и мира ведутся электронные базы с информацией о пациентах. Данные, которые входят в них разнообразны, начиная от дат посещения лечебного учреждения, заканчивая выписками и электронными медицинскими картами. Искусственный интеллект успел проникнуть во все сферы деятельности человека, в том числе в медицинскую. В общем, искусственная нейронная сеть (ИНС) – это сложный параллельный процессор, который состоит из единиц обработки информации, накапливающих знания и предоставляющих их для последующий обработки [2].
В настоящее время в медицине применяются, например, нейросети, для получения заключения из анализа данных медицинских карт (Merative), для хранения и выдачи лекарственных препаратов (Consis и PharmaBot), автоматизации приёма пациентов (Mandy), анализа МРТ сердца, с высокой точностью (CardioAI), для скрининга диабетической ретинопатии (DL), анализа генетических нарушений по фотографии (DeepGestalt) [6].
Нейросети активно используются в рентгенологии, с их помощью проводят установку очерёдности исследования, расшифровку и улучшение рентген-снимков, прогнозирование возможного заболевания [1]. Поэтому существует необходимость разобраться так ли они необходимы в работе врача на самом деле. Изучение эффективности проводится на примере нейронной сети ChatGPT, то есть анализируется точность постановки диагноза.
Особый интерес ChatGPT вызвал после череды новостей, в которых говорилось об успешной защите диплома с его помощью и о попытке программы сдать ЕГЭ по русскому языку.
ChatGPT приложение чат-бот со встроенным искусственным интеллектом, созданное с помощью алгоритмов глубокого машинного обучения, методами обучения с учителем и обучения с подкреплением. Построение алгоритма для получения достаточно точного ответа и обучение с использованием некоторой среды соответственно. В основе лежит архитектура RLHF. По заявлениям разработчиков, для обучения нейросети было использовано огромное количество текстовой информации из интернета объёмом 570гб. Можно сказать, что ChatGPT не понимает значение слов в привычном для нас виде. Он создаёт для них словарь, в котором каждому присваивает подслово, к нему применяется метод токенизации, преобразования в последовательность чисел, с векторным представлением слов [3, 4, 7]. Данная нейросеть не рассматривалась для применения в медицинской практике, что определило дальнейшее её применения для анализа медицинской информации.
Цель исследования заключается в изучении релевантности нейронной сети ChatGPT в практическом применении в рентгенологии.
Материалы и методы исследования. Способами достижения цели являются теоретические, эмпирические и математические. Основным методом достижения цели исследования, тестирование способности правильно определять диагноз по заданной фотографии и решении текстовых ситуационных задач. Далее производится анализ и визуализация полученных результатов.
Результаты исследования. Доступ к ChatGPT можно получить с помощью сайта openai.com, пройдя бесплатную регистрацию. Было установлено приложение с графическим интерфейсом с github.com для использования на операционной системе Windows [5].
Первое исследование проводилось с использованием банка фотографий различных рентген-снимков нормального состояния и с патологией. Изучалась точность в постановке диагноза нейронной сетью по графическому изображению. В версии ChatGPT 3.5 нет возможности напрямую загружать фотографии в диалог. Однако она умеет читать содержимое ссылок, поэтому был использован сайт imgbb.com для получения ссылки на загруженную в интернет фотографию. Нейросеть в первую очередь выполняет функцию собеседника, поэтому для установления медицинского диагноза её нужно попросить «представить себя специалистом в области медицины рентгенологии».
Для более точного результата исследуемый материал был поделен на 4 группы: первая группа – это снимки без патологии, вторая группа – снимки с патологией, а именно перелом кости или костей, третья группа – различные опухолевые образования и последняя четвёртая группа – это сложные для постановки диагноза снимки, на которых плохо видно перелом или присутствует опухолевое образование на ранней стадии. Исследуемые фотографии разделены по отделам, где локализовано исследуемое явление, например, голова, шея, таз и др. В каждой группе каждого отдела 2 снимка, в сумме 112. Ниже приведена демонстрационная таблица с распределением фотографий по группам и отделам и результатом работы ChatGPT с ними (таблица 1).
Примером вопроса к нейросети является – «На фото нога (исследуемый отдел) можешь описать этот рентген-снимок (ссылка на фотографию)». Таким образом в задаче присутствует название отдела, к которому принадлежит фото. Полученный ответ считает недостаточным, если в нём отсутствует название показанной на фотографии кости – «На рентгеновском снимке изображена правая нога человека в переднезаднем направлении», пример неполного ответа. Следом задаётся вопрос «какая кость изображена на фотографии?», «изображена норма или патология?», «есть ли на снимке патология?» или намекающий на патологию, например, «ты наблюдаешь на снимке опухоль или перелом?», в зависимости от ответа нейронной сети. Точность постановки диагноза нейросетью оценивается таким образом, неправильно определён отдел, неправильно поставлен диагноз, правильно поставлен диагноз.
Таблица 1.
Классификация рентген-снимков. Символом обозначен отдельный снимок. (+) – правильный диагноз, (-) – неправильный диагноз, (*) – неправильное определение отдела
Отдел |
1 группа (норма) |
2 группа (перелом) |
3 группа (злокачественная опухоль) |
4 группа (сложно диагностируемая патология) |
||||
Фото |
Фото |
Фото |
Фото |
Фото |
Фото |
Фото |
Фото |
|
Голова |
+ |
+ |
- |
- |
* |
- |
+ |
- |
Зубы |
+ |
+ |
- |
* |
+ |
- |
- |
- |
Шея |
+ |
+ |
- |
- |
- |
* |
- |
- |
Грудная клетка |
+ |
+ |
- |
- |
- |
+ |
* |
- |
Таз |
+ |
+ |
- |
- |
- |
- |
- |
- |
Рука (плечо) |
* |
* |
* |
- |
- |
* |
* |
* |
Рука (плечевой сустав) |
* |
* |
* |
* |
* |
* |
* |
- |
Рука (предплечье) |
+ |
+ |
- |
- |
+ |
* |
- |
* |
Рука (локтевой сустав) |
* |
* |
- |
* |
* |
* |
* |
* |
Рука (кисть) |
+ |
- |
- |
- |
- |
* |
* |
- |
Нога (бедро) |
+ |
* |
* |
* |
* |
- |
* |
- |
Нога (коленный сустав) |
+ |
* |
- |
* |
* |
- |
- |
+ |
Нога (голень) |
* |
+ |
- |
- |
* |
- |
* |
- |
Нога (стопа) |
+ |
+ |
* |
* |
- |
- |
- |
- |
Из таблицы можно сделать вывод, что ChatGPT не годен для корректного анализа рентген-снимков (таблица 1). Из 112 снимков, верно проанализировано только 23, большинство из которых являются фотографиями нормального состояния. Программа выдаёт избыточную информацию по вопросу, но ошибочно определяет структуру. Из данных следует, что ни один снимок с переломом не был описан правильно, что является плохим результатом, так как данная патология одна из часто встречающихся. Между правильно решёнными снимка в группах 2, 3, 4 не было установлено взаимосвязи, из-за чего невозможно установить причину верного определения структуры. Ошибка в снимке кисти в нормальном состоянии вероятнее всего была вызвана артефактом, то есть посторонним объектом, попавшим в поле зрения. Наибольшие сложности в описании снимка у нейросети вызвали суставы, особенно в боковой проекции. Она их постоянно путала, так вместо плечевого сустава описывался коленный и наоборот. Также плечевой отдел ошибочно определялся как кисть, вероятнее всего из-за наличия на снимке части грудной клетки. Было выяснено, что для постановки правильного диагноза нужно предоставить фотографию с большим количеством структур, то есть в кадре должна быть вся рука или нога, что в реальной практике невозможно.
Рисунок 1. Рентген-снимок коленного сустава
Например, снимок коленного сустава программа описывала как «изображён коленный сустав и голеностопный» или «локтевой сустав», причиной этому предположительно является ограниченность поля зрения и наличие нескольких структур (малоберцовой, большеберцовой и бедренной костей) (рисунок 1). К тому же ChatGPT не увидел на данной рентгенограмме явный перелом большеберцовой кости. Последней выявленной проблемой являлась потеря логики при ответе на задачу, то есть описывается одновременно локтевой сустав и «пяточная кость», что невозможно и является анатомически неверным суждением.
Гистограмма 1. Анализ точности описания рентгенограмм
Из гистограммы следует, что отделы с наибольшим числом верно описанных снимков это – голова, зубы, грудная клетка, рука (предплечье) (гистограмма 1). Отделы, в которых отсутствуют правильно решённые задачи это – рука (плечо), рука (плечевой сустав), рука (локтевой сустав). Причина ошибок схожесть близлежащих структур.
Второе исследование проводилось с использованием текстовых ситуационных задач по рентгенологии, поделённых на две группы: первая группа – задачи с выбором ответа, вторая группа – задачи, в которых нужно ответить на 3 вопроса. В условии описано заключение по обследованию условного больного. Задачи из первой группы построены в виде теста с выбором одного правильного ответа из 4 вариантов возможной патологии. Задачи второй группы предполагают развёрнутый ответ на три вопроса. Первым вопросом является метод диагностики пациента, который нужно применить в указанной в условии ситуации, во втором нужно описать патологические изменения, которые будут наблюдаться на рентгенограмме, и в последнем необходимо определить диагноз. База текстовых заданий составляет 36 в первой группе и 29 во второй. Изучается точность нейросети ChatGPT в решения клинических заданий с текстовым условием.
Гистограмма 2. Точность решения задач с вариантом ответа
Гистограмма 3. Точность решения задач с письменным ответом. Вопросы в задании на гистограмме отсчитываются снизу вверх
Экспериментально полученные данные противоположны первому исследованию, в котором случаи правильного ответа нейронной сети были немногочисленны. Верные решения ChatGPT на текстовые задачи с выбором ответа в 1.7 раза больше неверных, что очень хороший результат (гистограмма 2). Вероятность возникновения ошибки возрастала с увеличением текста и присутствии большого количестве числовых значений результатов обследований в условии. Появление ошибок в заданиях с большим количеством текста вероятнее всего связано, с отсутствием у программы механизма создания логической зависимости предложений. Присутствии ошибок в первом вопросе заключалось в утверждении нейросети к использованию всех возможных методов диагностики – КТ, МРТ, рентгенологическое исследование в разных проекциях, что является избыточным.
Нейронная сеть также хорошо решила задачи с развёрнутым письменным ответом. Количество решённых вопросов над нерешёнными больше в 1.8 раза (гистограмма 3). Из всех заданий полностью не были решены только два. Задача 5 имела в условии «осложнения после аборта», что вероятно спутало программу, вследствие чего был поставлен совершенно другой диагноз, указан иной метод исследования и обозначены неверные изменения на рентгенограмме. Задачи 28 и 29 имели в условии описание симптомов заболевания туберкулёзом, в первой задаче нейросети удалось определить только диагноз, вторая была решена неверно. Однако с аналогичной задачей 6 успешно справилась. Также были выявлены проблемы при ответе на задания из группы заболеваний внутренних органов. Проанализировав результаты, можно сказать, что ChatGPT гораздо успешнее решает текстовые задания нежели графические, она не подходит для оценки рентген-снимков, но она хорошо решает текстовые задачи. Программа предупреждает в каждом сообщении, что не является авторитетным мнением в данном вопросе и просит уточнить диагноз у медицинского специалиста, то есть человека, что является на данный момент этически правильно. Из проведённых тестирований было выявлено, что вероятность правильного решения не превышает 60%, что является недопустимым в медицинской практике.
Выводы исследования. В качестве рекомендаций по применению нейронной сети ChatGPT можно предложить ее использование для решения текстовых задач. Для достижения этой цели необходимо точно формулировать фразы и входные данные.
Другой рекомендацией по устранению недостатков работы ChatGPT может послужить первоначальное описание входных данных и дальнейшее формулирование вопроса.
Не рекомендуется использовать данную нейросеть в постановке клинического диагноза.
На основании вышеприведенного литературного обзора и проведенного исследования можно сделать вывод, что специализация этой нейросети в первую очередь отвечать на вопросы общей направленности, с чем она справляется успешнее своих конкурентов. Можно с уверенностью сказать, что нейронная сеть имеет огромный потенциал. Впрочем, это не убавит уникальность и незаменимость врача, как специалиста, но и успехи в развитии искусственного интеллекта в медицинской сфере отрицать не приходится.
Список литературы:
- Гаркуша, Н. С. Педагогические возможности ChatGPT для развития когнитивной активности студентов / Н. С. Гаркуша, Ю. С. Городова // Профессиональное образование и рынок труда. – 2023. – Т. 11, № 1(52). – С. 6-23. – DOI 10.52944/PORT.2023.52.1.001. – EDN NBBIRG.
- Фаустова, К. И. Нейронный сети: применение сегодня и перспективы развития / К. И. Фаустова // Территория науки. — 2017. — № 4. — С. 83-87.
- Филатова, О. Н. Применение нейросетей в профессиональном образовании / О. Н. Филатова, М. Н. Булаева, А. В. Гущин // Проблемы современного педагогического образования. – 2022. – № 77-3. – С. 243-245. – EDN PHOBYS.
- Хайкин Саймон Нейронные сети: полный курс / Хайкин Саймон — 2-е изд. — Москва: Издательский дом Вильямс, 2008 — 1103 c.
- Xin Chen ChatGPT [Электронный ресурс] // GitHub: сайт. — URL: https://github.com/lencx/ChatGPT (дата обращения: 18.05.2023).
- Yaron Gurovich Identifying facial phenotypes of genetic disorders using deep learning [Электронный ресурс] // Nature Medicine: сайт. — URL: https://www.nature.com/articles/s41591-018-0279-0#auth-1 (дата обращения: 05.05.2023).
- Yashu Gupta Chat GPT and GPT 3 Detailed Architecture Study-Deep NLP Horse [Электронный ресурс] // Medium: сайт. — URL: https://medium.com/nerd-for-tech/gpt3-and-chat-gpt-detailed-architecture-study-deep-nlp-horse-db3af9de8a5d (дата обращения: 04.05.2023).