ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING

THE PROBLEM OF ASSOCIATIVITY RESEARCH IN DATA MINING

Гаджиев Ф.Г. Керимов В.А.

27.02.2023 86

2(107)

10. Информатика, вычислительная техника и управление

Цитировать:

Гаджиев Ф.Г., Керимов В.А. ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING // Universum: технические науки : электрон. научн. журн. 2023. 2(107). URL: https://7universum.com/ru/tech/archive/item/14971 (дата обращения: 05.05.2024).

Прочитать статью:

АННОТАЦИЯ

Рассматривается проблема обобщения на отношениях баз знаний экспертных систем, что вытекает из прагматических представлений относительно получения новых закономерностей, а следовательно поддержки актуальности системы. В то же время задачи обобщения по признакам имеют определённое значение в технологии Data Mining относительно необходимости эффективных средств исследования в нечётком кластерном анализе и ассоциативных отношений.

ABSTRACT

The problem of generalization on the relations of knowledge bases of expert systems is considered, which follows from the pragmatic representations concerning the obtaining of new patterns, and hence supporting the relevance of the system. At the same time, the task of generalization by features has a certain importance in Data Mining technology regarding the need for effective means of research in fuzzy cluster analysis and associative relations.

Ключевые слова: Ассоциативные отношения, кластерный анализ, Data Mining, экспертные системы, база знаний.

Keywords: Associative relationships, cluster analysis, Data Mining, expert systems, knowledge base.

Введение. Исследования в области искусственного интеллекта, ориентированные на современные подходы к решению задач показывают, что осознание важности использования знаний проблемной области оказывает стремительное влияние на технологию их представления и выявления, в связи с чем применение нейронных сетей, распознавания образов и т.д. приобрели особое значение уже в рамках новой технологии интеллектуального анализа данных (Data Mining). Они предпологают выявление неизвестных ранее знаний, характеризующихся нетривиальностью и новых закономерностей в структурах данных, практическое значение которых не подлежит сомнению.

При анализе данных в Data Mining представление исходного пространства совокупностью схожих между собой по какому-либо признаку объектов в значительной степени обеспечивает эффективность стратегии обработки, что имеет важное значение при анализе и прогнозировании различных процессов, связанных с многомерностью их описания и предполагающих использование в том числе методов указанного ресурса. Методы кластерного анализа в Data Mining тесно связаны с задачей выявления ассоциативных правил, предусматривающих определение зависимостей относительно связанных объектов, обеспечивающих распознавание существующих шаблонов с целью оценки сущности ситуаций в анализируемой проблемной области.

Постановка задачи. Проблема нечёткой кластеризации часто рассматривается на основе методов эвристического, иерархического и оптимизационного подходов, среди которых особое значение придаётся последнему направлению, ориентированному на разбиение на заданное число нечетких кластеров с учётом некоторого критерия качества .При этом указанным кластерам соответствуют функции принадлежности где относительно изучаемых объектов , а в общем, случае задача нечёткой кластеризации представляется в плоскости определения экстремума целевой функции в соответствии с соотношением , где L- есть совокупность классов объектов X с учётом неотрицательности функций принадлежности и условий нормировки [1].

В то же время исследования показывают, что указанный критерий качества обычно представляется функцией от множества исходных компонент с множеством локальных экстремумов в связи с чем определение кластеров тесно связано с решением проблемы определения оптимальной кластеризации, когда число вариантов представления N объектов в виде K групп определяется соотношением:

Из этого следует, что сложность алгоритма перебора экспоненциально от её размерности, причём отсутствие информации о числе групп значительно осложняет указанную задачу. Следует иметь в виду, что традиционные методы кластеризации ориентированы на направленный поиск, в определённой степени, ограниченном признаковом пространстве, когда активизируются определённые ограничения на её характеристики, но, в то же время, это не всегда приводит к обеспечению требуемой оптимальности решения, что предполагает использование более развитых средств, существующих в искусственном интеллекте [2].

Методы решений. На основе приведённых соображений и с учётом переобозначения исходных характеристик в соответствии с рассматриваемым контекстом предположим, что - множество объектов исходного пространства признаков , - множество признаков свойств объектов, – множество свойств объектов, функция принадлежности нечёткого бинарного отношения R , степень важности y по оценке x при определении предпочтенья z .

Тогда

Аналогичным образом, если функция принадлежности нечёткого бинарного отношения S, а - степень принадлежности Z к Y

Получаем:

где

Поскольку последняя функция является выпуклой, то

и их пересечения, а следовательно

Сегментацию заданного признакового пространства можно реализовать с учётом ограничения

и уровневого множества

где под могут пониматься полученные сегменты [3].

Алгоритм формирования ассоциативных отношений объектов исходного пространства признаков может быть представлен в следующем виде.

1. Активизации базы данных.

2. Выбор свойства, относительно, которой будет производиться сегментация признакового пространства.

3. Загрузка признаков свойства.

4. Для каждого из признаков специальным образом вычисляется коэффициент уверенности (КУ). С этой целью:

a. По статистическому методу на отрезке определённой длины вычисляются значения { терм -множества лингвистической переменной «число». Системные значения относительно первого свойства – 100, для второго-200;

b. Начиная с центра и правых, то есть больших значений лингвистической переменной произведём последовательные присваивания степеням принадлежности - единицы. Степени принадлежности остальных элементов универсума, соответствующие интервалу [0,1] вычисляются делением на центральное значение всех меньших от него чисел.

5. KУ записывается в исходную матрицу R с элементами

6. Создаётся матрица S, причём если i=j, то элемент в противном случае

7. Определение матрицы T, элементы, которой функции принадлежности.

8. Определение значений элементов матрицы W.

9. Вычисление порога разделения l.

10. Формирование ассоциативных отношений исходного пространства.

Выводы. В результате проведённых исследований разработан подход, ориентированный на формирование ассоциативных отношений исследуемого пространства признаков, что позволяет говорить о его сегментации.

Список литературы:

Вятченин Д.А. Методология анализа данных, основанная на многоэтапной нечеткой кластеризации Искусственный интеллект,2009, N3, c.33-46.
Леунг Й. Разделение на торговые зоны в нечетких условиях. В кн.: нечёткие множества и теория возможностей. Последние достижения. Под ред. Р.Ягеря, М.,Радио и связь,1986,с.339-349.

Информация об авторах

Гаджиев Фаик Гасан оглы

канд. геолого-минералогических наук, доцент Азербайджанского Государственного Университета Нефти и Промышленности, Азербайджан, Баку, АЗ 31010, пр. Азадлыг, 20

Hajiyev Faiq Hasan

Cand. of Sciences, Associate Professor Azerbaijan State Oil and Industry University, Azerbaijan, Baku, AZ 31010, Azadliq av, 20

Керимов Вагиф Асад оглы

канд. техн наук, доц. Азербайджанского Государственного Университета Нефти и Промышленности, Азербайджан, г. Баку

Vagif Karimov

Cand. of Sciences, Associate Professor Azerbaijan State Oil and Industry University, Azerbaijan, Baku