РЕАЛИЗАЦИЯ ПРОГНОЗИРОВАНИЯ СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ С ИСПОЛЬЗОВАНИЕМ ПРИЗНАКОВ И ЛИНЕЙНОЙ РЕГРЕССИИ

IMPLEMENTATION OF PREDICTION OF CARDIOVASCULAR DISEASES USING SIGNS AND LINEAR REGRESSION
Цитировать:
Клычева Ф.Г., Эшбоев Э.А., Равшанов Д.Г. РЕАЛИЗАЦИЯ ПРОГНОЗИРОВАНИЯ СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ С ИСПОЛЬЗОВАНИЕМ ПРИЗНАКОВ И ЛИНЕЙНОЙ РЕГРЕССИИ // Universum: технические науки : электрон. научн. журн. 2022. 8(101). URL: https://7universum.com/ru/tech/archive/item/14201 (дата обращения: 18.12.2024).
Прочитать статью:

 

АННОТАЦИЯ

В статье рассматривается вопрос о том, как клиенты, подающие жалобы на сердечно-сосудистые заболевания, могут определить симптоматические особенности заболевания на основе симптомов, связанных с заболеванием, а также прогнозировать наличие или отсутствие заболевания. Результаты были получены с помощью программного средства, созданного на основе алгоритма, основанного на данных, представленных в статье.

ABSTRACT

The article discusses how clients filing complaints about cardiovascular diseases can determine the symptomatic features of the disease based on the symptoms associated with the disease, as well as predict the presence or absence of the disease. The results were obtained using a software tool created on the basis of an algorithm based on the data presented in the article.

 

Ключевые слова: сглаживание значений, количественный признак, номинальный признак, расчет веса, вес признаков, информативные признаки линейная регрессия, градиентное снижение.

Keywords: smoothing of values, quantitative feature, nominal feature, weight calculation, feature weight, informative features linear regression, gradient reduction.

 

В статье обсуждается вопрос выявления симптоматических особенностей заболевания на основании признаков заболевания и прогнозирования наличия заболевания у больных, обратившихся к врачам с жалобами на сердечно-сосудистые заболевания. Статья также предоставляет алгоритм для определения того, есть ли заболевание у следующего клиента, и результаты, полученные от него. Как объект www.kaggle.com с сайта был получен файл подборки, который содержит следующие признаки  о 462 клиентах:

Х1 - систолическое артериальное давление;

Х2 - кумулятивный табак (кг);

Х3 - холестерин липопротеидов низкой плотности (холестерин липопротеидов низкой плотности);

Х4 - числовой вектор (числовой вектор по Х3);

Х5 - поведение типа А;

Х6 - числовой вектор (числовой вектор по Х5);

Х7 - текущее потребление алкоголя;

Х8 - возраст на момент начала заболевания.

Для выявления сердечно-сосудистых заболеваний значимость некоторых из вышеперечисленных признаков высока, а некоторых - низка. Для определения уровня значимости признаков решаем задачу расчета веса признаков. Для этого делаем следующее:

1. Определим, к какому типу (количественному или номинальному) относятся признаки.

2. Мы выполняем операцию сглаживание значений для каждого столбца количественных признаков. Обычно практика сглаживание значений осуществляется посредством нормализации или стандартизации [1,19].

2.1. Метод стандартизации. Если набор данных имеет нормальное распределение (распределение Гаусса), то для сглаживания используем формулу:

                                                          (1)

Здесь - переменная в i-й строке и j-м столбце, - среднее арифметическое переменных в j-м столбце, - стандартное отклонение переменных в j-м столбце.

                                                      (2)

Формула (2) вычисляет стандартное отклонение для j-го столбца, где  количество переменных в j-м столбце.

2.2. Метод нормализации. Если набор данных не имеет нормального распределения (не подчиняется распределению Гаусса), то для сглаживания используем формулу:

                                                   (3)

Здесь - известная переменная в строке i и столбце j, наименьшее значение переменной в столбце j,  наибольшее значение переменной в столбце j.

3. Объекты в файле выбора разделены на 2 класса (-1, если болезнь присутствует, -0, если нет).

4. Для каждого численного столбца () в файле выбора вычисляются вес символа W и ограничение интервала  (). Для этого воспользуемся следующей формулой:

                                (4)

Здесь  - количество величин, принадлежащих соответственно и классам в интервале [] . На основании критерия (4) величина и  вес признака определяется как максимальное значение выражения [2].

Используя выполненные действия, мы берем информативные (избыточные) признаки по обнаруженным весам в качестве обучающего набора данных и проводим машинное обучение с использованием метода снижения градиента [3]. Для этого процесса мы используем многомерную линейную регрессию. Линейная регрессия — один из самых простых методов в области машинного обучения. С помощью этого метода прогнозируются непрерывные значения. Функция расчета прогноза в линейной регрессии многих переменных рассчитывается по следующей формуле [1,22]:

                            (5)

В этой формуле — переменные,  — коэффициенты.

Информация в файле выбора имеет следующий вид:

 

Рисунок 1. Обзор информации, содержащейся в файле Cardiovascular.csv

 

Из этого файла мы выбираем признаки X1, X2, X3, X4 и X8 в качестве информативных признаков. В результате вид нашего файла будет выглядеть так:

 

Рисунок 2. Последний вид файла Cardiovascular.csv

 

В результате вид формулы (5) выглядит следующим образом:

                     (6)

Благодаря сглаживанию с помощью (1) – (3) формул различия между значениями симптомов уменьшаются.

 

Рисунок 3. Видимость значений в файле выбора после сглаживания

 

Применим к полученной таблице функцию градиентного снижение. Основной задачей градиентно-нисходящей функции является нахождение коэффициентов, которые минимизируют отклонение функции-значения. Функция значения для линейной регрессии с несколькими переменными находится по формуле:

Дж = (7)

Если мы выразим функцию значения  с помощью коэффициентов:

Дж = (8)

Теперь нам нужно вычислить оптимальное значение коэффициентов, чтобы найти минимальное значение функции значения. Для этого выведем функцию значения для каждого признака. В результате получаем следующее выражение:

 (9)

Соответственно, результирующее значение коэффициентов  и оценочные значения для новых объектов, рассчитанные на основе найденных коэффициентов, следующие:

 

Рисунок 4. Результаты, полученные с помощью программы

 

Результаты испытаний, показанные на рисунке 4, подтверждают, что предсказание сбылось со средней точностью 84%. Эти результаты были получены с помощью программного средства, созданного на основе алгоритма, основанного на данных, представленных в статье. С помощью этого программного инструмента можно обрабатывать выбранные файлы, принадлежащие другим полям, и использовать их для создания необходимых прогнозов. Например, становится возможным предсказать значения признаков, принадлежащих объектам, в файле выборки, который мы получили в качестве объекта, с использованием оставшихся признаков.

 

Список литературы:

  1. C.Камолов, Ш.Рахматов. «Основы искусственного интеллекта. Машинное обучение." Ташкент. Издательство "Иджад наш", 2022. -104 стр.
  2. Шодиев Ф.Ю., Эшбоев Э.А., Эгамбердиев Э.Х. Использование обобщенных оценок для прогнозирования устойчивости сортов пшеницы к болезням // Азиатский журнал многомерных исследований. – 2021. – Т. 10. – №. 4. – С. 602-610.
  3. Эшбоев, Э. А., Ф. Ю. Шодиев, Д. Т. Джораев. «Использование агрегированных расчетов сортов для дифференциации сортов пшеницы». Инновационные технологии 2 (38) (2020): стр: 38-42.
Информация об авторах

преподаватель Каршинский государственный университет, Республика Узбекистан, г. Карши

Lecturer Karshi State University, Republic of Uzbekistan, Karshi

ст. преподаватель Каршинский государственный университет, Республика Узбекистан, г. Карши

Senior lecturer Karshi State University, Republic of Uzbekistan, Karshi

магистрант Каршинский государственный университет, Республика Узбекистан, г. Карши

Master student Karshi State University, Republic of Uzbekistan, Karshi

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Ахметов Сайранбек Махсутович.
Top