О ПОИСКЕ ЗАКОНОМЕРНОСТЕЙ ПО БАЗЕ ДАННЫХ ПОДВИДОВ ТЮЛЬПАНОВ ИЗ КРАСНОЙ КНИГИ

ON FINDING PATTERNS IN THE DATABASE OF TULIP SUBSPECIES FROM THE RED BOOK
Цитировать:
Игнатьев Н.А., Акбаров Б.Х. О ПОИСКЕ ЗАКОНОМЕРНОСТЕЙ ПО БАЗЕ ДАННЫХ ПОДВИДОВ ТЮЛЬПАНОВ ИЗ КРАСНОЙ КНИГИ // Universum: технические науки : электрон. научн. журн. 2024. 12(129). URL: https://7universum.com/ru/tech/archive/item/18830 (дата обращения: 15.04.2025).
Прочитать статью:
DOI - 10.32743/UniTech.2024.129.12.18830

 

АННОТАЦИЯ

Рассматривается поиск скрытых закономерностей по базе данных методами интеллектуального анализа. Методика поиска основывается на выдвижении ряда гипотез и доказательства их истинности методами кластерного анализа и классификации. При делении объектов на классы применялись их значения плотности распределения по локальным областям. Граница между двумя классами определялась по медианному значению плотности. Для анализа предложено использовать линейный и нелинейный методы вычисления обобщённых оценок с целью формирования латентного признакового пространства. Синтез латентных признаков из исходных основывался на свойствах функции принадлежности к нечётким множествам. Лучшие показатели точности распознавания получены по латентному признаку, сформированному жадным алгоритмом нелинейного метода.

ABSTRACT

This study explores the discovery of hidden patterns in a database using data mining methods. The methodology for pattern discovery is based on formulating a series of hypotheses and validating them through clustering and classification techniques. When dividing objects into classes, their density distribution values across local regions were utilized. The boundary between two classes was determined based on the median density value. For the analysis, linear and nonlinear methods for calculating generalized estimates are proposed to form a latent feature space. The synthesis of latent features from the original data was based on the properties of membership functions in fuzzy sets. The best recognition accuracy was achieved using a latent feature generated by a greedy algorithm within the nonlinear method.

 

Ключевые слова: плотность распределения, обобщенные оценки, кластерный анализ, классификация объектов, латентные признаки

Keywords: Density distribution, generalized estimates, cluster analysis, classification of objects, latent features

 

Введение

Особенности построения предлагаемой модели связаны с ограниченным объёмом информации об анализируемых данных. Традиционным способом в таких случаях является использование разведочного анализа данных. Получить дополнительные сведения можно через проверку плотности распределения в локальных областях признакового пространства и применения естественной классификации объектов по градациям номинальных признаков.

Более сложным вариантом для поиска закономерностей являются вычислительные эксперименты по классификации на основе количественных показателей объектов. В качестве таких показателей предлагается использовать значения плотности распределения объектов. Проблема вычисления значений плотности в первую очередь связана с выбором локальных областей признакового пространства. Возможности выбора ограничены заданием значением числа k ближайших соседей, радиуса ε локальной области или совместным использованием k и ε в алгоритме DBSCAN [1]. Другой проблемой является обоснование принципа разбиения объектов на классы. Для исследования интерес представляет число классов и отбор объектов в них.

Статус объектов достижимый, граничный и выброс в алгоритме DBSCAN рассматривается в качестве ценной информации для классификации. Альтернативным вариантом являются такие статистические показатели как математическое ожидания значения плотности или медиана, полученные по локальным областям в форме гипершара с фиксированным радиусам. Краткий перечень дополнительных знаний или скрытых закономерностей, которые можно получить через классификацию такой:

  • граничные объекты классов для анализа конфигурации групп;
  • шумовые объекты классов как нетипичные представители групп;
  • эталонные объекты для вычисления размеров групп;
  • наборы информативных разнотипных признаков.

Предмет исследования

Целью работы было формирование информационной модели, основанной на знаниях. Выбор методов для моделирования связан с особенностями представления набора (выборки) данных из 52 объектов (подвидов тюльпанов), в котором каждый объект представлен вектором из 27 номинальных признаков. Выборка данных сформирована на биологическом факультете Наманганского государственного университета. Названия подвидов тюльпанов и набор признаков Х(27) = (х1,…, х27) для их описания приводится в табл. 1 и табл. 2.

Таблица 1.

Названия подвидов тюльпанов

№ п/п

Название

№ п/п

Название

1

Fritillaria bucharica

27

T. hissarica

2

Gagea capusii

28

T. korshinskyi

3

Erythronium caucasicum

29

T.subpraestans

4

Amana edulis

30

T.praestans

5

T.linifolia

31

T. greigii

6

T.maximowiczii

32

T. mogoltavica

7

T.uniflora

33

T. micheliana

8

T.heteropetala

34

T. vvedenskyi

9

T.heterophylla

35

T. butkovii

10

T. tubergeniana

36

T. albertii

11

T.bactriana

37

T. kaufmanniana

12

T. lanata

38

T.anadroma

13

T. ingens

39

T.tschimganica

14

T. carinata

40

T. dubia

15

T. fosteriana

41

T. uzbekistanica

16

T. affinis

42

T. sogdiana

17

T. lehmanniana

43

T. biflora

18

T. borszczowii

44

T. buhseana

19

T. korolkowii

45

T. turkestanica

20

T. rosea

46

T. bifloriformis

21

T. ferganica

47

T. dasystemon

22

T. scharipovii

48

T. dasystemonoides

23

T. intermedia

49

T. tarda

24

T.zonneveldii

50

T.jacquesii

25

T.kolpakowskiana

51

T. orithyioides

26

T. talassica

52

T.regelii

 

Таблица 2.

Набор признаков

№ п/п

Название

№ п/п

Название

1

Bulb shape

15

Color of  tepals

2

Type of tunic surface

16

Fading of the blotch in the bright

3

Bulb tufted at top

17

Blotch of flower at base

4

Hairs at lower part of bulb tunic

18

Occurrence of secondary blotch

5

Hairs at upper part of bulb tunic

19

Shade at outer side of tepal

6

Number of leaves

20

Color of anther

7

Width of leaves

21

Anther length than  filaments

8

Pubescence of leaf surface

22

Anther opens gradually

9

Basal  leaves

23

Filaments surface

10

Leaves markings

24

Colour of filaments

11

Having slender stem

25

Colour of pollen

12

Stem pubescence

26

Shape of ovary

13

Number of flowers

27

Having long style

14

Flower position

 

 

Поиск скрытых закономерностей в данных проводился в форме выдвижения и проверки гипотез алгоритмами методов решения задач классификации и кластерного анализа. Одним из вариантов было разбиение на классы по градациям номинальных признаков. Показателем качества разбиения служили значения устойчивости признаков [2,3] в задаче распознавания из двух классов. Анализ результатов показал, что значения устойчивости признаков от 0,5 до 0,6 далеки от идеального разбиения на интервалы, равного 1.

Проверялось гипотеза о наличии групп объектов с высокой плотностью распределения с условием, что конфигурация групп не имеет сферической формы. Одним из инструментов при исследовании служил метод DBSCAN для кластеризации по плотности распределения, вычисляемой по числу k ближайших соседей и значения радиуса ε.

Разделение объектов на группы и выбросы алгоритмом DBSCAN было использовано для:

  • выбора соотношения между числом k ближайших соседей и радиусом ε;
  • классификации объектов по принадлежности к группам (класс К1) и выбросам (класс К2).

Поиск оптимального соотношения между параметрами плотности реализован по классификации объектов осуществлялся по мере компактности классов [2] со множеством допустимых значений в (0;1]. Предлагалось для численного анализа каждой группы с произвольной конфигурацией использовать длину кратчайшего незамкнутого пути (КНП) между объектами. По результатам вычислительного эксперимента не удалось решить проблему интерпретации закономерностей по мере компактности так как мощность классов и их состав сильно различались при разных значениях k и ε.

Далее анализ набора данных проводился по локальным областям в форме гипершаров фиксированного радиуса. Радиус гипершара вычислялся по средней длине всех расстояний по метрике Журавлёва от центров в объектах до их k – го ближайшего соседа. Для идентификации длины радиуса в зависимости от числа k используется обозначение ε(k).

Число объектов в гипершаре с одной стороны является информацией о близости свойств подвидов тюльпанов, с другой стороны используется для медианного разделения на классы объектов с относительно высокой плотностью (K1) и низкой (K2).

Более сложный вариант анализа предлагается в [4]. Для каждого класса производится разбиение на группы по отношению связанности объектов по системы пересекающихся гипершаров. Центром гипершара является объект, радиусом – расстояние до объекта из противоположного класса. Истинность отношения связанности определяется наличием граничных объектов класса в пересечении гипершаров. Из-за сложной, несферической формы конфигурации групп рекомендуется использовать значение кратчайшего незамкнутого пути между эталонами их минимального покрытия. Соотношение между числом объектов и длиной КНП группы является источником дополнительных знаний о предметной области.

Разделение на классы расширяет возможности для интеллектуального анализа данных. Одной из таких возможностей является выбор и отбор информативных признаков с целью интерпретации их неизвестных ранее параметров в терминах предметной области. Такими параметрами могут быть устойчивость признаков, компактность объектов классов на числовой оси.

Состав локальных областей в форме гипершаров при разных значениях радиуса ε(k) и центрами в объектах выборки показан в табл. 3.

Таблица 3.

Состав гипершаров в зависимости от размеров радиуса

Номер объекта

Состав гипершаров при радиусе

ε(3) = 4.154

ε(5) = 5.135

1

1

1

2

2, 9

2, 7, 8, 9

3

3

3

4

4, 42, 43, 51

4, 42, 43, 51, 52

5

5, 6

5, 6

6

5, 6

5, 6

7

7, 8, 9, 47

2, 7, 8, 9, 26, 42, 47

8

7, 8, 9, 47

2, 7, 8, 9, 26, 42, 47

9

2, 7, 8, 9

2, 7, 8, 9, 47

10

10, 11, 12, 14, 15, 16, 31, 33

10, 11, 12, 13, 14, 15, 16, 31, 32, 33, 34

11

10, 11, 12, 13, 14, 15, 16, 31, 32, 33

10, 11, 12, 13, 14, 15, 16, 31, 32, 33, 36

23

17, 18, 19, 20, 21, 22, 23, 25, 26, 28

17, 18, 19, 20, 21, 22, 23, 25, 26, 28

28

23, 26, 27, 28, 42, 52

17, 20, 22, 23, 24, 26, 27, 28, 42, 44, 51, 52

34

34, 36

10, 12, 14, 31, 34, 35, 36, 39, 40

51

4, 42, 43, 44, 46, 47, 51, 52

4, 28, 42, 43, 44, 45, 46, 47, 48, 50, 51, 52

 

Анализ результатов из табл. 3 показывает, что объекты с порядковым номером 1 (Fritillaria bucharica) и 3 (Erythronium caucasicum) являются уникальными, так как нет сходных с ними объектов в локальных областях с радиусами 4,154 и 5,135.

Для углублённого анализа произведено разделения объектов с относительно высокой плотностью в класс К1 и низкой в К2. При разделении на классы использовалась упорядоченная последовательность значений плотности по числу объектов в гипершаре радиуса ε(5) = 5,135. По значению медианы, равной 7, мощность класса |К1| = 26, |К2| = 26.

Латентные признаковые пространства, сформированные жадными алгоритмами иерархический агломеративной группировки по аддитивному и мультипликативному принципу [3] показаны в табл. 4 и табл. 5.

Граница между классами на числовой оси определялась по максимуму произведения внутриклассового сходства и межклассового различия.

Таблица 4.

Первые два латентных признака, сформированные по аддитивному принципу

Набор признаков

Граница между классами

Точность в %

1

х1, х3, х5, х6, х10, х11, х14, х19, х22, х24

0,5576

90,38

2

х2, х4, х12, х15, х18, х20

0,2308

82,69

 

Таблица 5.

Первые два латентных признака, сформированные по мультипликативному принципу

Комбинация признаков

Граница между классами

Точность в %

1

(((((((х12, х18), х1), х22), х5), х17), х21), х13)

0,0016

90,38

2

(((((х3, х14), х24), х4), х20), х23)

0,0005

88,46

 

Как видно из табл. 4, табл. 5 точность распознавания при описании объектов по мультипликативному принципу больше или равно точности по аддитивному принципу при меньшем числе исходных признаков, используемых для формирования латентных признаков. Визуальное представление объектов по парам признаков из табл. 4 и табл. 5 приводится на рис. 1.

(а)

(б)

Рисунок 1. Визуальное представление объектов в латентном признаковом пространстве, сформированном по аддитивному (а) и мультипликативному (б) принципу

 

Заключение

Построена информационная модель для поиска скрытых закономерностей по данными 52 подвидов тюльпанов из Красной книги. При моделировании использовались методы вычисления плотности распределения, кластерного анализа и классификации. Обнаружены уникальные подвиды тюльпанов и подвиды с очень близкими свойствами. Сформированы наборы латентных признаков из исходных номинальных по аддитивному и мультипликативному принципу вычисления обобщенных оценок объектов. Получено визуальное представление объектов по наборам латентных признаков.

 

Список литературы:

  1. Электронный ресурс https://ru.wikipedia.org/wiki/DBSCAN
  2. Ignatiev N. A. On Nonlinear Transformations of Features Based on the Functions of Objects Belonging to Classes // Pattern Recognition and Image Analysis. 2021. V. 31. № 2. P. 197–204.
  3. Игнатьев Н.А., Акбаров Б.Х. Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 65. С. 69–78. doi: 10.17223/19988605/65/7.
  4. Игнатьев Н.А., Згуральская Е.Н. Кластерный анализ с применением обучения на основе отношений связанности и плотности распределения // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 68. С. 66–74. doi: 10.17223/19988605/68/7
Информация об авторах

д-р физ.-мат. наук, профессор, Национальный университет Узбекистана имени Мирзо Улугбека, Республика Узбекистан, г. Ташкент

Doctor of Phys & Math Sciences, professor, National university of Uzbekistan named after Mirzo Ulugbek, Republic of Uzbekistan, Tashkent

докторант НУУз имени Мирзо Улугбека, Национальный университет Узбекистана имени Мирзо Улугбека, Республика Узбекистан, г. Ташкент

PhD researcher at NUUz after Mirzo Ulugbek, National university of Uzbekistan named after Mirzo Ulugbek, Republic of Uzbekistan, Tashkent

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Звездина Марина Юрьевна.
Top