д-р физ.-мат. наук, профессор, Национальный университет Узбекистана имени Мирзо Улугбека, Республика Узбекистан, г. Ташкент
О ПОИСКЕ ЗАКОНОМЕРНОСТЕЙ ПО БАЗЕ ДАННЫХ ПОДВИДОВ ТЮЛЬПАНОВ ИЗ КРАСНОЙ КНИГИ
АННОТАЦИЯ
Рассматривается поиск скрытых закономерностей по базе данных методами интеллектуального анализа. Методика поиска основывается на выдвижении ряда гипотез и доказательства их истинности методами кластерного анализа и классификации. При делении объектов на классы применялись их значения плотности распределения по локальным областям. Граница между двумя классами определялась по медианному значению плотности. Для анализа предложено использовать линейный и нелинейный методы вычисления обобщённых оценок с целью формирования латентного признакового пространства. Синтез латентных признаков из исходных основывался на свойствах функции принадлежности к нечётким множествам. Лучшие показатели точности распознавания получены по латентному признаку, сформированному жадным алгоритмом нелинейного метода.
ABSTRACT
This study explores the discovery of hidden patterns in a database using data mining methods. The methodology for pattern discovery is based on formulating a series of hypotheses and validating them through clustering and classification techniques. When dividing objects into classes, their density distribution values across local regions were utilized. The boundary between two classes was determined based on the median density value. For the analysis, linear and nonlinear methods for calculating generalized estimates are proposed to form a latent feature space. The synthesis of latent features from the original data was based on the properties of membership functions in fuzzy sets. The best recognition accuracy was achieved using a latent feature generated by a greedy algorithm within the nonlinear method.
Ключевые слова: плотность распределения, обобщенные оценки, кластерный анализ, классификация объектов, латентные признаки
Keywords: Density distribution, generalized estimates, cluster analysis, classification of objects, latent features
Введение
Особенности построения предлагаемой модели связаны с ограниченным объёмом информации об анализируемых данных. Традиционным способом в таких случаях является использование разведочного анализа данных. Получить дополнительные сведения можно через проверку плотности распределения в локальных областях признакового пространства и применения естественной классификации объектов по градациям номинальных признаков.
Более сложным вариантом для поиска закономерностей являются вычислительные эксперименты по классификации на основе количественных показателей объектов. В качестве таких показателей предлагается использовать значения плотности распределения объектов. Проблема вычисления значений плотности в первую очередь связана с выбором локальных областей признакового пространства. Возможности выбора ограничены заданием значением числа k ближайших соседей, радиуса ε локальной области или совместным использованием k и ε в алгоритме DBSCAN [1]. Другой проблемой является обоснование принципа разбиения объектов на классы. Для исследования интерес представляет число классов и отбор объектов в них.
Статус объектов достижимый, граничный и выброс в алгоритме DBSCAN рассматривается в качестве ценной информации для классификации. Альтернативным вариантом являются такие статистические показатели как математическое ожидания значения плотности или медиана, полученные по локальным областям в форме гипершара с фиксированным радиусам. Краткий перечень дополнительных знаний или скрытых закономерностей, которые можно получить через классификацию такой:
- граничные объекты классов для анализа конфигурации групп;
- шумовые объекты классов как нетипичные представители групп;
- эталонные объекты для вычисления размеров групп;
- наборы информативных разнотипных признаков.
Предмет исследования
Целью работы было формирование информационной модели, основанной на знаниях. Выбор методов для моделирования связан с особенностями представления набора (выборки) данных из 52 объектов (подвидов тюльпанов), в котором каждый объект представлен вектором из 27 номинальных признаков. Выборка данных сформирована на биологическом факультете Наманганского государственного университета. Названия подвидов тюльпанов и набор признаков Х(27) = (х1,…, х27) для их описания приводится в табл. 1 и табл. 2.
Таблица 1.
Названия подвидов тюльпанов
№ п/п |
Название |
№ п/п |
Название |
1 |
Fritillaria bucharica |
27 |
T. hissarica |
2 |
Gagea capusii |
28 |
T. korshinskyi |
3 |
Erythronium caucasicum |
29 |
T.subpraestans |
4 |
Amana edulis |
30 |
T.praestans |
5 |
T.linifolia |
31 |
T. greigii |
6 |
T.maximowiczii |
32 |
T. mogoltavica |
7 |
T.uniflora |
33 |
T. micheliana |
8 |
T.heteropetala |
34 |
T. vvedenskyi |
9 |
T.heterophylla |
35 |
T. butkovii |
10 |
T. tubergeniana |
36 |
T. albertii |
11 |
T.bactriana |
37 |
T. kaufmanniana |
12 |
T. lanata |
38 |
T.anadroma |
13 |
T. ingens |
39 |
T.tschimganica |
14 |
T. carinata |
40 |
T. dubia |
15 |
T. fosteriana |
41 |
T. uzbekistanica |
16 |
T. affinis |
42 |
T. sogdiana |
17 |
T. lehmanniana |
43 |
T. biflora |
18 |
T. borszczowii |
44 |
T. buhseana |
19 |
T. korolkowii |
45 |
T. turkestanica |
20 |
T. rosea |
46 |
T. bifloriformis |
21 |
T. ferganica |
47 |
T. dasystemon |
22 |
T. scharipovii |
48 |
T. dasystemonoides |
23 |
T. intermedia |
49 |
T. tarda |
24 |
T.zonneveldii |
50 |
T.jacquesii |
25 |
T.kolpakowskiana |
51 |
T. orithyioides |
26 |
T. talassica |
52 |
T.regelii |
Таблица 2.
Набор признаков
№ п/п |
Название |
№ п/п |
Название |
1 |
Bulb shape |
15 |
Color of tepals |
2 |
Type of tunic surface |
16 |
Fading of the blotch in the bright |
3 |
Bulb tufted at top |
17 |
Blotch of flower at base |
4 |
Hairs at lower part of bulb tunic |
18 |
Occurrence of secondary blotch |
5 |
Hairs at upper part of bulb tunic |
19 |
Shade at outer side of tepal |
6 |
Number of leaves |
20 |
Color of anther |
7 |
Width of leaves |
21 |
Anther length than filaments |
8 |
Pubescence of leaf surface |
22 |
Anther opens gradually |
9 |
Basal leaves |
23 |
Filaments surface |
10 |
Leaves markings |
24 |
Colour of filaments |
11 |
Having slender stem |
25 |
Colour of pollen |
12 |
Stem pubescence |
26 |
Shape of ovary |
13 |
Number of flowers |
27 |
Having long style |
14 |
Flower position |
|
Поиск скрытых закономерностей в данных проводился в форме выдвижения и проверки гипотез алгоритмами методов решения задач классификации и кластерного анализа. Одним из вариантов было разбиение на классы по градациям номинальных признаков. Показателем качества разбиения служили значения устойчивости признаков [2,3] в задаче распознавания из двух классов. Анализ результатов показал, что значения устойчивости признаков от 0,5 до 0,6 далеки от идеального разбиения на интервалы, равного 1.
Проверялось гипотеза о наличии групп объектов с высокой плотностью распределения с условием, что конфигурация групп не имеет сферической формы. Одним из инструментов при исследовании служил метод DBSCAN для кластеризации по плотности распределения, вычисляемой по числу k ближайших соседей и значения радиуса ε.
Разделение объектов на группы и выбросы алгоритмом DBSCAN было использовано для:
- выбора соотношения между числом k ближайших соседей и радиусом ε;
- классификации объектов по принадлежности к группам (класс К1) и выбросам (класс К2).
Поиск оптимального соотношения между параметрами плотности реализован по классификации объектов осуществлялся по мере компактности классов [2] со множеством допустимых значений в (0;1]. Предлагалось для численного анализа каждой группы с произвольной конфигурацией использовать длину кратчайшего незамкнутого пути (КНП) между объектами. По результатам вычислительного эксперимента не удалось решить проблему интерпретации закономерностей по мере компактности так как мощность классов и их состав сильно различались при разных значениях k и ε.
Далее анализ набора данных проводился по локальным областям в форме гипершаров фиксированного радиуса. Радиус гипершара вычислялся по средней длине всех расстояний по метрике Журавлёва от центров в объектах до их k – го ближайшего соседа. Для идентификации длины радиуса в зависимости от числа k используется обозначение ε(k).
Число объектов в гипершаре с одной стороны является информацией о близости свойств подвидов тюльпанов, с другой стороны используется для медианного разделения на классы объектов с относительно высокой плотностью (K1) и низкой (K2).
Более сложный вариант анализа предлагается в [4]. Для каждого класса производится разбиение на группы по отношению связанности объектов по системы пересекающихся гипершаров. Центром гипершара является объект, радиусом – расстояние до объекта из противоположного класса. Истинность отношения связанности определяется наличием граничных объектов класса в пересечении гипершаров. Из-за сложной, несферической формы конфигурации групп рекомендуется использовать значение кратчайшего незамкнутого пути между эталонами их минимального покрытия. Соотношение между числом объектов и длиной КНП группы является источником дополнительных знаний о предметной области.
Разделение на классы расширяет возможности для интеллектуального анализа данных. Одной из таких возможностей является выбор и отбор информативных признаков с целью интерпретации их неизвестных ранее параметров в терминах предметной области. Такими параметрами могут быть устойчивость признаков, компактность объектов классов на числовой оси.
Состав локальных областей в форме гипершаров при разных значениях радиуса ε(k) и центрами в объектах выборки показан в табл. 3.
Таблица 3.
Состав гипершаров в зависимости от размеров радиуса
Номер объекта |
Состав гипершаров при радиусе |
|
ε(3) = 4.154 |
ε(5) = 5.135 |
|
1 |
1 |
1 |
2 |
2, 9 |
2, 7, 8, 9 |
3 |
3 |
3 |
4 |
4, 42, 43, 51 |
4, 42, 43, 51, 52 |
5 |
5, 6 |
5, 6 |
6 |
5, 6 |
5, 6 |
7 |
7, 8, 9, 47 |
2, 7, 8, 9, 26, 42, 47 |
8 |
7, 8, 9, 47 |
2, 7, 8, 9, 26, 42, 47 |
9 |
2, 7, 8, 9 |
2, 7, 8, 9, 47 |
10 |
10, 11, 12, 14, 15, 16, 31, 33 |
10, 11, 12, 13, 14, 15, 16, 31, 32, 33, 34 |
11 |
10, 11, 12, 13, 14, 15, 16, 31, 32, 33 |
10, 11, 12, 13, 14, 15, 16, 31, 32, 33, 36 |
23 |
17, 18, 19, 20, 21, 22, 23, 25, 26, 28 |
17, 18, 19, 20, 21, 22, 23, 25, 26, 28 |
28 |
23, 26, 27, 28, 42, 52 |
17, 20, 22, 23, 24, 26, 27, 28, 42, 44, 51, 52 |
34 |
34, 36 |
10, 12, 14, 31, 34, 35, 36, 39, 40 |
51 |
4, 42, 43, 44, 46, 47, 51, 52 |
4, 28, 42, 43, 44, 45, 46, 47, 48, 50, 51, 52 |
Анализ результатов из табл. 3 показывает, что объекты с порядковым номером 1 (Fritillaria bucharica) и 3 (Erythronium caucasicum) являются уникальными, так как нет сходных с ними объектов в локальных областях с радиусами 4,154 и 5,135.
Для углублённого анализа произведено разделения объектов с относительно высокой плотностью в класс К1 и низкой в К2. При разделении на классы использовалась упорядоченная последовательность значений плотности по числу объектов в гипершаре радиуса ε(5) = 5,135. По значению медианы, равной 7, мощность класса |К1| = 26, |К2| = 26.
Латентные признаковые пространства, сформированные жадными алгоритмами иерархический агломеративной группировки по аддитивному и мультипликативному принципу [3] показаны в табл. 4 и табл. 5.
Граница между классами на числовой оси определялась по максимуму произведения внутриклассового сходства и межклассового различия.
Таблица 4.
Первые два латентных признака, сформированные по аддитивному принципу
№ |
Набор признаков |
Граница между классами |
Точность в % |
1 |
х1, х3, х5, х6, х10, х11, х14, х19, х22, х24 |
0,5576 |
90,38 |
2 |
х2, х4, х12, х15, х18, х20 |
0,2308 |
82,69 |
Таблица 5.
Первые два латентных признака, сформированные по мультипликативному принципу
№ |
Комбинация признаков |
Граница между классами |
Точность в % |
1 |
(((((((х12, х18), х1), х22), х5), х17), х21), х13) |
0,0016 |
90,38 |
2 |
(((((х3, х14), х24), х4), х20), х23) |
0,0005 |
88,46 |
Как видно из табл. 4, табл. 5 точность распознавания при описании объектов по мультипликативному принципу больше или равно точности по аддитивному принципу при меньшем числе исходных признаков, используемых для формирования латентных признаков. Визуальное представление объектов по парам признаков из табл. 4 и табл. 5 приводится на рис. 1.
|
|
(а) |
(б) |
Рисунок 1. Визуальное представление объектов в латентном признаковом пространстве, сформированном по аддитивному (а) и мультипликативному (б) принципу
Заключение
Построена информационная модель для поиска скрытых закономерностей по данными 52 подвидов тюльпанов из Красной книги. При моделировании использовались методы вычисления плотности распределения, кластерного анализа и классификации. Обнаружены уникальные подвиды тюльпанов и подвиды с очень близкими свойствами. Сформированы наборы латентных признаков из исходных номинальных по аддитивному и мультипликативному принципу вычисления обобщенных оценок объектов. Получено визуальное представление объектов по наборам латентных признаков.
Список литературы:
- Электронный ресурс https://ru.wikipedia.org/wiki/DBSCAN
- Ignatiev N. A. On Nonlinear Transformations of Features Based on the Functions of Objects Belonging to Classes // Pattern Recognition and Image Analysis. 2021. V. 31. № 2. P. 197–204.
- Игнатьев Н.А., Акбаров Б.Х. Оценка близости структур отношений объектов обучающей выборки на многообразиях наборов латентных признаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 65. С. 69–78. doi: 10.17223/19988605/65/7.
- Игнатьев Н.А., Згуральская Е.Н. Кластерный анализ с применением обучения на основе отношений связанности и плотности распределения // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 68. С. 66–74. doi: 10.17223/19988605/68/7