УЛУЧШЕНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

IMPROVING MACHINE LEARNING ALGORITHMS TO SOLVING MEDICAL DIAGNOSTICS PROBLEMS
Цитировать:
Клычева Ф.Г., Эшбоев Э.А. УЛУЧШЕНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ МЕДИЦИНСКОЙ ДИАГНОСТИКИ // Universum: технические науки : электрон. научн. журн. 2025. 5(134). URL: https://7universum.com/ru/tech/archive/item/20003 (дата обращения: 05.12.2025).
Прочитать статью:

 

АННОТАЦИЯ

В статье обсуждается подход к оптимизации гиперпараметров метода опорных векторов (SVM) с помощью гибридного алгоритма, который включает использование алгоритмов роя частиц и искусственных иммунных систем – для достижения более высокой точности классификации в области медицинской диагностики. Проведены вычислительные эксперименты на обучающих выборках, используемых в диагностике сердечно-сосудистых заболеваний для проверки предложенного алгоритма.

ABSTRACT

The paper discusses an approach to optimizing the hyperparameters of the support vector machine (SVM) using a hybrid algorithm that includes the use of particle swarm algorithms and artificial immune systems to achieve higher classification accuracy in the field of medical diagnostics. Computational experiments were conducted on training samples used in the diagnosis of cardiovascular diseases to test the proposed algorithm.

 

Ключевые слова: медицинская диагностика, гиперпараметр, рой частиц, искусственная иммунная система, эволюционный подход, гибридный алгоритм.

Keywords: medical diagnostics, hyperparameter, particle swarm, artificial immune system, evolutionary approach, hybrid algorithm.

 

ВВЕДЕНИЕ

Во всем мире существует необходимость в эффективных диагностических методах для своевременного выявления различных заболеваний. Сложность симптомов и их многообразие в зависимости от механизмов течения заболевания и состояния пациента, неоднозначность клинической информации, затрудняют раннюю диагностику и разработку эффективного лечения. Методы машинного обучения (МО) позволяют исследователям, врачам и специалистам, работающим в области искусственного интеллекта (ИИ), решать проблемы, связанные с медицинской диагностикой [1–3]. Поэтому автоматизация медицинской диагностики и оптимизация ее результатов (улучшение точности диагностики, предсказания течения заболевания и эффективности лечения) с использованием методов и алгоритмов МО, в частности, опорных векторов и эволюционных алгоритмов, является актуальной задачей. В статье представлен подход к оптимизации гиперпараметров метода опорных векторов (SVM) с помощью гибридного алгоритма который включает использование алгоритмов роя частиц (Particle swarm optimizationPSO) и искусственных иммунных систем (AISArtificial immune system) – для достижения более высокой точности классификации.

Материалы и методы исследования

Предположим, что набор слабо сформированных процессов и объектов (выборка исследования) представлен следующим образом: . Здесь объект рассматривается в N-мерном пространстве данных, а  ,  обозначает множество классов, состоящее из  объектов .

Требуется определить, к какому классу в заданной обучающей выборке относится объект с неизвестным классом  .

Для решения сформулированной задачи применим метод SVM, используемый для решения задач классификации, который строит гиперплоскость в n-мерном пространстве для разделения объектов двух или более классов. Одним из ключевых аспектов работы с моделью SVM является оптимизация ее гиперпараметров, что позволяет повысить эффективность и качество предсказаний [12]. Существует ряд методов настройки параметров, включая градиентный спуск, генетические алгоритмы, алгоритмы роя частиц, искусственные иммунные системы и другие широко используемые алгоритмы [13].

Авторами предложен гибридный алгоритм, в котором в качестве базы используется алгоритм SVM, а алгоритмы PSO и AIS используются для оптимизации гиперпараметров метода опорных векторов (параметров регуляризации (С) и ядра (γ).

Краткое описание алгоритма PSO. В алгоритме PSO частицы (рой агентов) перемещаются по пространству поиска в поисках оптимального решения [8; 9]. Каждая частица в рое имеет три параметра: скорость, позиция и значение приспособленности. Каждая частица отслеживает свое наилучшее положение. Глобальная лучшая позиция – это наилучшее значение произвольной частицы. Каждая частица в рое меняет свое направление в зависимости от своего текущего положения, скорости, а также локальных и глобальных наилучших значений [5; 10].

Краткое описание алгоритма AIS. AIS – это адаптивная вычислительная система, основанная на моделях, принципах, механизмах и функциях, описанных в теоретической иммунологии, используемая для создания практической классификации или оптимизации в области медицины [6; 7; 11; 14].

В гибридной упорядоченности предложены алгоритмы PSO и AIS, их рекомендуется использовать для настройки гиперпараметров алгоритма SVM, что позволит обеспечить повышенную точность медицинской диагностики классификатора SVM.

Этапы реализации алгоритма, предназначенного для настройки гиперпараметров модели SVM:

1. Ввод данных и стандартизация.

Данные пациента считываются из обучающей выборки, используемой для диагностики заболеваний, и выражаются в виде переменных:

                       (1)

Затем они стандартизируются:

                                                    (2)

где – среднее значение,  – среднеквадратическое отклонение.

2. Оптимизация гиперпараметров SVM.

Оптимальные параметры C и γ находят с использованием алгоритма PSO, а скорость каждой частицы обновляется по следующей формуле:

                    (3)

где w – коэффициент инерции,  – константа скорости,  – случайное число в диапазоне [0,1], pi – наилучшая позиция частицы, g – глобальная наилучшая позиция.

Позиция каждой частицы обновляется следующим образом:

                                         (4)

Фитнес-функция для алгоритма PSO в данном контексте будет определяться как минимальная ошибка модели:

                                     (5)

где Accuracy(C,γ) – точность модели SVM.

Оптимальные C и γ находятся следующим образом:

                                           (6)

3. Улучшение гиперпараметров SVM.

Выявленные параметры улучаются с помощью алгоритма AIS. Этот алгоритм дополнительно адаптирует C и γ посредством мутации:

                                            (7)

где β – скорость мутации (≈0.1), а r – случайное число в диапазоне [0,1]. Выбирается модель с наилучшими параметрами:

                                  (8)

4. Классификация с помощью модели SVM с настроенными гиперпараметрами. (Классификация с использованием оптимизированной модели SVM)

Модель SVM работает со следующей функцией радиального базиса ядра (ядро RBF):

                                  (9)

Модель SVM выполняет классификацию, используя следующую оптимальную гиперплоскость:

                             

где

5. Повторение и достижение оптимальной точности.

Шаги 2–4 повторяются до тех пор, пока не будет достигнут заданный предел по количеству иттерацияй или пока не будет достигнута необходимая точность классификации.

6. Прогнозирование для новых объектов.

Новый объект Xnew стандартизируется и передается в модель SVM. Модель SVM использует функцию ядра радиального базиса (RBF), которая определяется как:

                               (10)

где  – значение ядра между обучающим объектом и новым, – знак функции, определяющий класс.

7. Завершение алгоритма.

После выполнения шагов гибридного алгоритма достигается создание оптимального классификатора через настройку гиперпараметров модели SVM с использованием алгоритмов роя частиц и искусственной иммунной системы.

Результаты и обсуждение

Для проверки разработанного алгоритма были проведены вычислительные эксперименты на обучающей выборке, используемой для диагностики сердечно-сосудистых заболеваний (ССЗ). Для прогнозирования наличия или отсутствия сердечно-сосудистых заболеваний был применен обучающий набор данных по ССЗ Kaggle [4].

Выборка исследования CDD включала данные 1000 пациентов, у которых наблюдалось 12 симптомов. В выборке 80 % входных данных (800 пациентов) выделяется для обучения модели, а 20 % (200 пациентов) – для тестирования модели. В таблице 1 приведен пример данных, составляющих файл выборки (данные 5 пациентов), в таблице 2 – после стандартизации (шаги 1 алгоритма)  Текущий (13) столбец выборки представляет собой столбец класса, указывающий, присутствует ли заболевание (представлено 1) или отсутствует (представлено 0).

Таблица 1.

Входные данные

age

gender

chestpain

restingBP

serumcholestrol

fastingbloodsugar

restingrelectro

maxheartrate

exerciseangia

oldpeak

slope

noofmajorvessels

target

1

2

3

4

5

6

7

8

9

10

11

12

13

53

1

2

171

0

0

1

147

0

5.3

3

3

1

40

1

0

94

229

0

1

115

0

3.7

1

1

0

49

1

2

133

142

0

0

202

1

5

1

0

0

43

1

0

138

295

1

1

153

0

3.2

2

2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2.

Стандартизированное состояние входящих данных

age

gender

chestpain

restingBP

serumcholestrol

fastingbloodsugar

restingrelectro

maxheartrate

exerciseangia

oldpeak

slope

noofmajorvessels

1

2

3

4

5

6

7

8

9

10

11

12

0.02429

-1.8042

0.0104

1.3208

1.56866

-0.6585

1.68372

-0.3940

-0.9851

0.1106

0.45613

0.8106

0.47238

0.55424

-1.0336

-0.7385

0.03059

-0.6585

-0.9419

-0.2150

-0.9851

-0.236

-1.5110

-0.213

0.75244

-1.8042

-1.0336

1.15480

0.00028

1.51848

-0.9419

-0.2150

1.01511

-0.467

1.43970

0.8106

0.52839

0.55424

-1.0336

-1.4693

-1.3711

-0.6585

-0.9419

0.73995

1.01511

-1.103

-0.5274

0.8106

 

 

 

 

 

 

 

 

 

 

 

 

Далее приведены результаты, полученные с помощью алгоритма SVM  (таблица 4, рисунок 1) и с использованием предложенного гибридного алгоритма (таблица 5, рисунок 2) для тестовой выборки в 200 человек.

Таблица 3.

Пределы значений гиперпараметров

Параметр

Минимальный предел

Максимальный предел

Полученное  значение

C

0.1

10

1.4922218285837752

γ

0.0001

1

0.20427765550755536

 

Дополнительно к точности для каждого класса, предоставляются средние значения для всех классов (макро- и взвешенное среднее), которые могут быть полезны для оценки общего качества модели на всем наборе данных.

Результаты алгоритма SVM: 

Метрика                                            Значение

Точность (Accuracy)                              0.96              200

Макро-среднее (Macro avg)                   0.96              200

Взвешенное среднее (Weighted avg)      0.96               200

 

Рисунок 1. Матрица путаницы, полученная с помощью алгоритма SVM

 

Результаты показывают, что модель SVM работает с ошибкой 4 %. Это видно из матрицы путаницы, изображенной на рисунке 1.

Результаты улучшенного алгоритма SVM:

Метрика                                            Значение

Точность (Accuracy)                              0.99              200

Макро-среднее (Macro avg)                   0.99              200

Взвешенное среднее (Weighted avg)      0.99               200

 

Рисунок 2. Матрица путаницы, полученная с помощью  улучшенного алгоритма SVM

 

Таблица 4.

Отчет по классификации

Алгоритм

Класс

Точность (Precision)

Полнота (Recall)

F1-Score

Поддержка (Support)

SVM

0

0,96

0,95

0,96

79

1

0,97

0,97

0,97

114

гибридный

0

0,99

0,99

0,99

82

1

0,99

0,99

0,99

116

 

В завершение выполнено сравнение результатов, полученных с применением гибридного алгоритма с результатами, от существующих классификаторов Naive Bayes, IBk, Random Forest, J48, и SMO в программном обеспечении WEKA [14].

Таблица 4.

Точность классификации алгоритмов

 

Naive Bayes

IBk

Random Forest

J48

SMO

Гибридный

алгоритм

Weka

90,25 %

97,33 %

97,5 %

97,28 %

96,2 %

99,0%

 

ЗАКЛЮЧЕНИЕ

Предложен гибридный алгоритм, в котором в качестве базы используется алгоритм SVM, а алгоритмы PSO и AIS, используются для оптимизации гиперпараметров метода опорных векторов (параметров регуляризации (С) и ядра (γ). Результаты исследования работы SVM и разработанного на его основе гибридного алгоритма, которые получены для набора данных по ССЗ Kaggle показывают, что для обучающей выборки точность классификации в алгоритме SVM составила 96 %, а в улучшенном алгоритме – 99 %. Соответственно, точность классификации была увеличена на 3 % за счет настройки гиперпараметров.

 

Список литературы:

  1. Клычева Ф. Применение интеллектуальных технологий в диагностике сердечно-сосудистых заболеваний // Scientific Collection «InterConf». – 2024. –  № 187. – С. 356–359.
  2. Клычева Ф., Мухаммедиева Д., Эшбоев Э. Применение искусственных иммунных систем в задачах медицинской диагностики // Научный сборник «ИнтерКонф». – 2024. – № 196. – С. 380384. 
  3. Клычева Ф.Г., Эшбоев Э.А., Равшанов Д.Г. Реализация прогнозирования сердечно-сосудистых заболеваний с использованием признаков и линейной регрессии // Universum: технические науки. – 2022. – № 8-1 (101). – С. 1417.
  4. [Электронный ресурс]. – Режим доступа: https://www.kaggle.com/datasets/jocelyndumlao/cardiovascular-disease-dataset/code (дата обращения: 10.04.2025).
  5. Clerc M., Kennedy J. The particle swarm-explosion, stability, and convergence in a multidimensional complex space // IEEE Transactions on Evolutionary Computation. – 2002. – Vol. 6. no. 1.  Pp. 58–73.
  6. Dasgupta D. 2006. Advances in artificial immune systems // IEEE computational intelligence magazine. – 2006. – № 1(4). Pp.4049.
  7. Djabbarov O., Eshboyev E., Klicheva F. Sun’iy immun tizimlari algoritmlarining kasalliklarni aniqlash va tasniflash masalalarida qo‘llanilishi: Sun’iy immun tizimlari algoritmlarining kasalliklarni aniqlash va tasniflash masalalarida qo‘llanilishi // Modern Problems & Problems of Applied Mathematics. – 2024. – № 1(01). 
  8. Klicheva F.G., Eshboyev E.A.  Creation of an intelligent system to support medical diagnosis // Innovative technological-methodical research journal. – 2023. – Vol. 4. Is. 5 May 2023. Р. 8287.
  9. Klicheva F.G., Eshboyev E.A. Joint use of AI methods in the diagnosis of cardiovascular diseases // Artificial Intelligence and Information Technologies. – 2024. – Рp. 251256.
  10. Klicheva F.G. Application of particle swarm optimization algorithm in medical diagnostics // IJARSET Journal. Vol. 11. Is. 11. November 2024. Retrieved from: http://www.ijarset.com/volume-11-issue-11.html# (accessed: 05.04.2025).
  11. Shodiyev F., Eshboyev E., Suyarova A. Prediction of disease resistance of high-quality wheat varieties using method of calculating generalized estimates // E3S Web of Conferences. – 2023. – № 401. 04063 https://doi.org/10.1051/e3sconf/202340104063
  12. Syarif Iwan, Prugel-Bennett A., Wills Gary. SVM Parameter Optimization using Grid Search and Genetic Algorithm to Improve Classification Performance // Telekomnika (Telecommunication Computing Electronics and Control). – 2016. –  № 14.С. 1502. 10.12928/telkomnika.v14i4.3956.
  13. Zhang X., Guo Y.  Optimization of SVM parameters based on PSO algorithm // Fifth International Conference on Natural Computation. 2009. Рp. 536–539.
  14. Zhang Y., Balochian S., Agarwal P., Bhatnagar V., Housheya O.J. Artificial intelligence and its applications // Mathematical Problems in Engineering. Vol. 2014.  Article ID 840491. 10 p.
Информация об авторах

преподаватель Каршинский государственный университет, Республика Узбекистан, г. Карши

Lecturer Karshi State University, Republic of Uzbekistan, Karshi

ст. преподаватель Каршинский государственный университет, Республика Узбекистан, г. Карши

Senior lecturer Karshi State University, Republic of Uzbekistan, Karshi

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Звездина Марина Юрьевна.
Top