преподаватель, Ташкентский университет информационных технологий имени Мухаммада ал-Хоразмий, Узбекистан, г. Ташкент
ВЛИЯНИЕ ШУМОВЫХ ОБЪЕКТОВ НА КОМПАКТНОСТЬ И ОБОБЩАЮЩУЮ СПОСОБНОСТЬ МОДЕЛИ
АННОТАЦИЯ
В статье рассматривается влияние шумовых объектов на способность модели к обобщению через компактности классов. Предлагается новый метод к выявлению шумов, основанный на анализе компактности обучающей выборки. Показано, что снижение компактности часто указывает на присутствие шумовых объектов, нарушающих внутреннюю структуру классов. Метод направлен на улучшение качества обучения путём предварительного анализа структуры данных и устранения аномальных экземпляров. Полученные результаты показывают, что значения способности к обобщению до удаления шумовых объектов и после их удаления находятся в прямой зависимости от значения меры компактности.
ABSTRACT
The article examines the influence of noisy objects on the model’s ability to generalize through class compactness. A new method for detecting noise is proposed, based on the analysis of the compactness of the training set. It is shown that a decrease in compactness often indicates the presence of noisy objects that violate the internal structure of classes. The method is aimed at improving the quality of training by preliminarily analyzing the data structure and eliminating anomalous instances. The obtained results show that the values of the ability to generalize before and after the removal of noisy objects are directly dependent on the value of the compactness measure.
Ключевые слова: Компактность, шумовой, обобщающий способность, точность, обобщенные оценки
Keywords: Compactness, noise, generalization ability, accuracy, generalized estimates
Введение
Одной из ключевых задач машинного обучения является построение моделей, обладающих высокой способностью к обобщению, то есть способных демонстрировать стабильную точность на ранее не встречавшихся данных. Способность к обобщению напрямую зависит не только от выбранного алгоритма обучения, но и от качества обучающей выборки, в которой могут присутствовать так называемые шумовые объекты - наблюдения, искажающие структуру данных вследствие ошибок измерений, разметки или регистрации редких, нетипичных ситуаций. Подобные объекты могут существенно ухудшать структуру признакового пространства, снижать точность модели и повышать её чувствительность к незначительным вариациям во входных данных.
В последние годы активно исследуются методы предварительной обработки данных, направленные на обнаружение и устранение шумов. Наиболее эффективные из них ориентированы на структурный анализ данных, включая использование кластеризации, оценки плотности и метрик расстояний. В данной работе в качестве ключевого инструмента анализа предлагается использовать мера компактности - количественную характеристику[1], отражающую степень плотности и однородности объектов одного класса во внутреннем пространстве признаков. Предполагается, что снижение компактности указывает на наличие шумовых объектов, нарушающих внутреннюю согласованность класса.
Целью данной статьи является разработка и обоснование нового метода обнаружения шумовых объектов, основанного на оценке компактности классов и обучающий выборки. Предложенный подход позволяет выявлять структурные искажения в обучающей выборке и устранять их до начала обучения модели, тем самым улучшая её способность к обобщению. В статье приводятся теоретические предпосылки метода, описывается алгоритм его реализации, а также представлены экспериментальные результаты, демонстрирующие влияние шумовых объектов на меру компактности и качество классификации до и после удаления шумовых объекты.
Таким образом, работа вносит вклад в развитие подходов к устойчивому машинному обучению, подчёркивая важность анализа внутренней структуры данных и предлагая компактность в качестве информативной меры, способной служить индикатором как наличия шума, так и потенциала к обобщению.
Материалы и методы исследования
В исследовании выборка предварительно была очищена от шумовых объектов, для чего был предложен новый метод. Показано, что после удаления шумовых объектов значение компактности увеличилось, и, соответственно, повысилась точность модели. В качестве эксперимента использовались выборки, состоящие из количественных признаков: Australian и Diabetes.
Поиск шумовых объектов
Шумовые объекты представляют собой элементы обучающей выборки, которые искажают типичную структуру данных вследствие наличия ошибок, аномалий или редких ситуаций, не отражающих общие закономерности. Такие объекты могут быть результатом некорректной разметки, измерительных погрешностей, выбросов или случайных факторов, не имеющих системной природы. Присутствие шумов в данных нарушает внутреннюю согласованность классов, снижает точность моделей, повышает их переобучаемость и ослабляет способность к обобщению[9]. Поэтому выявление и устранение шумовых объектов является важным этапом предварительной обработки данных и построения устойчивых алгоритмов машинного обучения. Однако в большинстве случаев шумы не поддаются непосредственному обнаружению, поскольку они могут внешне быть схожими с валидными объектами, но при этом разрушать локальные и глобальные статистические закономерности внутри классов. Эффективные методы борьбы с шумом должны учитывать не только отклонения отдельных объектов, но и структурные характеристики всего класса, такие как компактность, плотность и топология данных.
Решение о включении (не включении) граничного объекта в множество шумовых принимается на основе анализа этого отношения[9]. Для анализа требуется определить пороговое значение λ и условия, на основе которых принимается решение[1].
На множестве граничных объектов
сформируем множество пар
,
, t≥2,
,
. Для
введём обозначения
,
, где
. Аналогично для Sj∊СKt∩B определим
,
, где
. Отношение
рассматривается как необходимое условие отнесение объекта
к множеству шумовых. Достаточным условием является
Значение λ, в качестве параметра (коэффициента) регуляризатора, применяется для поиска экстремального значения меры компактности при фиксированных факторах. Решение об эффективности выбора факторов (мера расстояния между объектами, способ нормирования, состав набора признаков и т. д.), изменяющих структуру отношений объектов, как правило, принимается по результатам вычислительного эксперимента.
Вычисление меры компактности
Компактность в задачах распознавания образов отражает степень однородности и сгруппированности объектов одного класса в пространстве признаков. Высокая компактность означает, что объекты одного класса расположены близко друг к другу, что способствует более точному построению границ между классами. Компактность служит важным индикатором качества обучающей выборки и является одним из факторов, определяющих способность модели к обобщению. Оценка компактности позволяет выявлять структурные нарушения, вызванные, в том числе, шумовыми объектами[3,6].
Рассматривается задача распознавания в стандартной постановке. Считается, что задано множество E0={S1,...,Sm} объектов, разделённое на l(l>2) непересекающихся подмножеств(классов) K1,…,Kl, E0=
. Описание объектов производится с помощью набора из n разнотипных признаков X(n)=(x1,…,xn), ξ из которых измеряются в интервальных шкалах, (n-ξ) – в номинальной. На множестве объектов Е0 задана метрика ρ(x,y).
Обозначим через L(E0, ρ) – подмножество граничных объектов классов, определяемое на E0 по метрике ρ(x,y). Объекты Si,Sj∊Kt, t=1,...,l считаются связанными между собой (Si↔Sj), если {S∊L(E0,ρ)|ρ(S,Si)<ri и ρ(S,Sj)<rj}≠Æ, где ri(rj) – расстояние до ближайшего от Si(Sj) объекта из CKt ( CKt=Е0\Kt) по метрике ρ(x,y).
Множество Gtv={
}, c≥2, Gtv
Kt, v<|Kt| представляет область (группу) со связанными объектами в классе Kt, если для любых
существует путь
. Объект Si∊Kt, t=1,...,l принадлежит группе из одного элемента и считается несвязанным, если не существует пути Si↔Sj ни для одного объекта Sj≠Si и Sj∊Kt. Требуется определить минимальное число непересекающихся групп из связанных и несвязанных объектов по каждому классу Kt, t=1,...,l.
При определении минимального числа групп из связанных и несвязанных объектов классов используется L(E0,ρ) – подмножество граничных объектов (оболочка) классов по заданной метрике ρ и описание объектов в новом пространстве из бинарных признаков. Для выделения оболочки классов для каждого Si∊Kt, t=1,...,l строится упорядоченная по ρ(x,y) последовательность
/Tursunmurotov.files/image020.png)
Пусть
ближайший к Si объект из (1) не входящий в класс Kt. Обозначим через O(Si) окрестность радиуса
с центром в Si, включающую вcе объекты, для которых
B O(Si) всегда существует непустое подмножество объектов[7]
/Tursunmurotov.files/image024.png)
По (3) принадлежность объектов к оболочке классов определяется как
.
Множество объектов оболочки из
обозначим как
. Значение π=1 однозначно определяет вхождение всех объектов класса в одну группу. При π≥2 преобразуем описание каждого объекта Si∊Kt в Si=(yi1,...,yiπ), где
/Tursunmurotov.files/image028.png)
Пусть по (4) получено описание объектов класса Kt в новом (бинарном) признаковом пространстве, Ω = Kt, θ – число непересекающихся между собой групп объектов, Sμ
Sη, Sμ
Sη – соответственно операции дизъюнкции и конъюнкции по бинарным признакам объектов Sμ,Sη∊Kt. Пошаговое выполнение алгоритма разбиения объектов Kt на непересекающиеся группы G1,...,Gθ такого.
- Шаг 1: θ=0;
- Шаг 2: Выделить объект S∊Ω, θ=θ + 1, Z=S, Gθ=Æ;
- Шаг 3: Выполнять Выбор S∊Ω и S
Z = true, Ω= Ω\S, Gθ= Gθ
S, Z = Z
S пока {S∊Ω | S
Z = true }≠Æ;
- Шаг 4: Если Ω ≠Æ, то идти 2;
- Шаг 5: Конец.
Результаты разбиения объектов классов на непересекающиеся группы алгоритмом предлагается оценивать с помощью специальных мер компактности.
Пусть представители класса
, i=1,…,l разделены на минимальное число μ непересекающихся групп объектов Gi1,…,Giμ по алгоритму из п. 2, mij=|Gij|, j=1,…,μ,
Для анализа результатов разбиения класса Ki на непересекающиеся группы с учетом их числа, представительности (по количеству объектов) и удаления шумовых объектов предлагается использовать такую структурную характеристику как оценка компактности[3]
Очевидно, что множество допустимых значений Θi по (5) лежат в интервале
Если группа Gi1 содержит все объекты из
, то Θi=1. Усредненная оценка компактности обучающей выборки в целом производится с учетом доли
исключенных из рассмотрения по (1) шумовых объектов как
(6)
Значения (5) и (6) косвенно свидетельствуют об однородности (неоднородности) структуры обучающей выборки. Чем ближе сходство групп по числу входящих в них объектов класса, тем ближе значение (5) к
, а (6) – к
. При
число групп объектов на
равно числу классов. Множество значений по (5) и (6) соответственно в
и
предлагается рассматривать в качестве меры компактности классов и выборки в целом. Значения мер компактности в указанных выше интервалах можно использовать для обнаружения скрытых закономерностей по базам данных.
Результаты и обсуждения
Эксперименты проводились на двух общедоступных наборах данных: Australian Credit Approval[4] и Pima Indians Diabetes[5]. Для оценки устойчивости метода использовались различные алгоритмы обучения, включая k-ближайших соседей (KNN), логистическую регрессию и опорные векторы (SVM), дерево решений[8]. Результаты подтверждают, что удаление шумов на основе оценки компактности способствует повышению обобщающей способности моделей и снижению переобучения. В рамках эксперимента объекты обучающей выборки были сгруппированы на основе отношений связности (связанных компонент) внутри классов. Разделение на группы осуществлялось с использованием Евклидовой метрики. Для каждой группы вычислялась мера компактности, отражающая плотность и однородность структуры класса.
Значения параметра регуляризации в моделях подбирались адаптивно — в зависимости от оценённой компактности. Выбраны такие количества шумовых объектов, при которых достигалось максимальное значение компактности. Эффективность предложенного подхода оценивалась через сравнение качества классификации (в терминах точности и обобщающей способности) до и после устранения предполагаемых шумов. Данные нормализованы в интервале [0;1].
В Таблице 1 приведены значения точности различных алгоритмов на наборе данных Australian[4].
Таблица 1.
Значения точности моделей на выборке до удаления шумовых объектов
|
Название модели |
Точность |
||
|
Точность (Accuracy) |
Точность (F1 Score) |
Точность (Precision) |
|
|
KNN |
0.8116 |
0.8099 |
0.8096 |
|
SVM |
0.8478 |
0.8495 |
0.8556 |
|
Decision Tree |
0.8696 |
0.8690 |
0.8688 |
|
Logistic Regression |
0.8551 |
0.8556 |
0.8565 |
Значения из таблицы 1 представлены на графике на рисунке 1.
/Tursunmurotov.files/image044.jpg)
Рисунок 1. Точности моделей на выборке до удаления шумовых объектов
В таблице 2 приведены значения количества шумовых объектов, а также меры компактности по каждому классу и по всей выборке на наборе данных Australian при различных значениях коэффициента регуляризации.
Таблица 2.
Зависимость числа шумовых объектов и значений компактности от коэффициента регуляризации
|
Коэффициент регуляризации |
Число шумовых |
Значение компактность |
Компактность выборки |
|
|
класс1 |
класс2 |
|||
|
0.1 |
1 |
0.1087 |
0.6438 |
0.4056 |
|
0.2 |
3 |
0.1094 |
0.6641 |
0.4160 |
|
0.3 |
11 |
0.1282 |
0.6644 |
0.4191 |
|
0.4 |
18 |
0.5425 |
0.6788 |
0.6020 |
|
0.5 |
24 |
0.5613 |
0.7618 |
0.6478 |
|
0.6 |
29 |
0.2521 |
0.7111 |
0.4863 |
|
0.7 |
30 |
0.1457 |
0.7165 |
0.4438 |
|
0.8 |
23 |
0.1225 |
0.6950 |
0.4254 |
|
0.9 |
19 |
0.1143 |
0.6847 |
0.4203 |
В таблице 3 приведены результаты проверки точности различных алгоритмов на наборе данных Australian в присутствии шумовых объектов. Согласно данной таблице, при том значении коэффициента регуляризации, при котором значение компактности было наивысшим, шумовые объекты были удалены, и была рассчитана точность.
Таблица 3.
Значения точности моделей на выборке после удаления шумовых объектов
|
Название модели |
Точность |
||
|
Точность (Accuracy) |
Точность (F1 Score) |
Точность (Precision) |
|
|
KNN |
0.8881 |
0.8882 |
0.8885 |
|
SVM |
0.8881 |
0.8889 |
0.8946 |
|
Decision Tree |
0.8731 |
0.8729 |
0.8728 |
|
Logistic Regression |
0.9104 |
0.9109 |
0.9130 |
Значения из таблицы 3 представлены на графике на рисунке 1.
/Tursunmurotov.files/image045.jpg)
Рисунок 2. Точности моделей на выборке после удаления шумовых объектов
В Таблице 4 приведены значения точности различных алгоритмов на наборе данных diabet [5] . Шумовые объекты из выборки не были удалены.
Таблица 4.
Значения точности моделей на выборке до удаления шумовых объектов
|
Название модели |
Точность |
||
|
Точность (Accuracy) |
Точность (F1 Score) |
Точность (Precision) |
|
|
KNN |
0.6818 |
0.6797 |
0.6782 |
|
SVM |
0.7532 |
0.7468 |
0.7473 |
|
Decision Tree |
0.7532 |
0.7558 |
0.7606 |
|
Logistic Regression |
0.7532 |
0.7484 |
0.7478 |
В таблице 5 приведены значения количества шумовых объектов, а также меры компактности по каждому классу и по всей выборке на наборе данных diabetes при различных значениях коэффициента регуляризации.
Таблица 5.
Зависимость числа шумовых объектов и значений компактности от коэффициента регуляризации
|
Коэффициент регуляризации |
Число шумовых |
Значение компактность |
Компактность выборки |
|
|
класс1 |
класс2 |
|||
|
0.1 |
0 |
0.6157 |
0.0992 |
0.4354 |
|
0.2 |
0 |
0.6157 |
0.0992 |
0.4354 |
|
0.3 |
1 |
0.6188 |
0.0999 |
0.4376 |
|
0.4 |
8 |
0.6263 |
0.1189 |
0.4460 |
|
0.5 |
13 |
0.6734 |
0.1101 |
0.4713 |
|
0.6 |
39 |
0.7495 |
0.1503 |
0.5195 |
|
0.7 |
46 |
0.7194 |
0.0726 |
0.4716 |
|
0.8 |
40 |
0.6725 |
0.1825 |
0.4831 |
|
0.9 |
30 |
0.6212 |
0.1365 |
0.4392 |
В таблице 6 приведены результаты проверки точности различных алгоритмов на наборе данных diabetes в присутствии шумовых объектов. Согласно данной таблице, при том значении коэффициента регуляризации, при котором значение компактности было наивысшим, шумовые объекты были удалены, и была рассчитана точность.
Таблица 6.
Значения точности моделей на выборке после удаления шумовых объектов
|
Название модели |
Точность |
||
|
Точность (Accuracy) |
Точность (F1 Score) |
Точность (Precision) |
|
|
KNN |
0.7740 |
0.7761 |
0.7789 |
|
SVM |
0.8425 |
0.8448 |
0.8493 |
|
Decision Tree |
0.7671 |
0.7712 |
0.7780 |
|
Logistic Regression |
0.8562 |
0.8566 |
0.8572 |
Заключение
В статье продемонстрирована эффективность предварительной обработки данных для удаления шумовых объектов. Предложенный метод, прошедший экспериментальную проверку, повысил компактность классов, улучшив обобщающую способность модели и точность классификации. Установленная взаимосвязь между компактностью и точностью подтверждает возможность использования компактности в качестве критерия оценки качества обучающей выборки. Таким образом, метод способствует улучшению характеристик модели и формированию более чистых и структурированных данных.
Список литературы:
- Игнатьев Н.А., Турсунмуротов Д.Х. Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 2. С. 322–329. doi: 10.17586/2226-1494-2024-24-2-322-329
- Игнатьев Н.А. Турсунмуротов Д.Х. Об регуляризаторах в метрических алгоритмах распознавания// ВЕСТНИК НУУз, 2023, №1. С. 254-261.
- Игнатьев Н.А. О мере компактности объектов классов // Труды конференции “Проблемы современной топологии и её приложения” Ташкент 11-12 мая 2017 г. С. 283-285.
- Электронный ресурс https://archive.ics.uci.edu/dataset/143/statlog+australian+credit+approval
- Электронный ресурс https://archive.ics.uci.edu/dataset/38/pima+indians+diabetes
- Загоруйко Н.Г. Гипотезы компактности и λ-компактности в методах анализа данных // Сиб. журн. индустр. математики, T.1. – №1. – 1998. – C. 1 14–126.
- Ignatyev N.A. Structure Choice for Relations between Objects in Metric Classification Algorithms // Pattern Recognition and Image Analysis, V. 28. – № 4. – 2018. – P. 590–597.
- Библиотека Python. Электронный ресурс. URL: https://scikit-learn.org/stable/.
- Воронцов К.В. Лекции по логическим алгоритмам классификации. Учебный курс, Санк - Петербург, −2007, −53с. URL: http://www.ccas.ru/voron/download/LogicAlgs.pdf.
- Вапник В. Н., “Полная статистическая теория обучения”, Автомат. и телемех., 2019, №11, 24–58; V. N. Vapnik, “Complete statistical theory of learning”, Autom. Remote Control, 80:11 (2019), 1949–1975.