мл. науч. сотр. Центра геномики и биоинформатики АН РУз., Республика Узбекистан, г. Ташкент
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ДЛЯ РАСЧЕТА ГЕНЕТИЧЕСКОЙ ЧИСТОТЫ СОРТООБРАЗЦОВ С ИСПОЛЬЗОВАНИЕМ БИНАРНЫХ ДАННЫХ SSR-МАРКЕРОВ
АННОТАЦИЯ
Определение генетической чистоты сортов и гибридов сельскохозяйственных культур является ключевым критерием в семеноводстве. В данном исследовании представлен сравнительный анализ метрик для оценки генетической чистоты с использованием данных бинарных SSR-маркеров. Цель исследования заключается в анализе и выборе эффективных метрик для расчета генетической чистоты сортообразцов. Для анализа использовались метрики Хэмминга, Левенштейна, Жаккара и Дайса. Аллельные профили SSR-маркеров были представлены в виде бинарных паттернов (1 и 0). Для каждой метрики были разработаны теоретические расчеты и алгоритмические подходы. В исследовании описаны преимущества и недостатки каждого метода. Расстояние Хэмминга рекомендуется использовать для больших наборов данных, когда строки имеют одинаковую длину, благодаря низкой вычислительной сложности. Расстояние Левенштейна позволяет работать со строками переменной длины, но требует больше ресурсов. Коэффициенты Жаккара и Дайса обеспечивают быструю обработку строк неравной длины, но не учитывают совместное отсутствие аллелей, что может снизить точность. Полученные результаты позволяют выбрать метрику в зависимости от структуры данных и требований к вычислительной эффективности при оценке генетической чистоты.
ABSTRACT
Genetic purity determination of crop varieties and hybrids is a key criterion in seed production. This study presents a comparative analysis of metrics for estimating genetic purity using binary SSR marker data. The objective is to analyze and select effective metrics for calculating the genetic purity of varietal samples. Hamming, Levenshtein, Jaccard, and Dice metrics were used for analysis. SSR marker allelic profiles were represented as binary patterns (1 and 0). Theoretical calculations and algorithmic approaches were developed for each metric. The study outlines the advantages and disadvantages of each method. Hamming distance is recommended for large datasets when strings are of equal length due to its low computational complexity. Levenshtein distance handles variable-length strings but requires more resources. Jaccard and Dice coefficients offer fast processing of unequal-length strings but overlook shared absence of alleles, which may reduce accuracy. The findings provide metric selection based on data structure and computational efficiency requirements in genetic purity assessment.
Ключевые слова: генетическая чистота, расстояние Хемминга, расстояние Левенштейна, коэффициент Жаккара, коэффициент Дайса.
Keywords: genetic purity, Hamming distance, Levenshtein distance, Jaccard index, Dice's coefficient.
Введение
Важнейшим этапом при производстве качественных семян, является тестирование генетической чистоты выборки и их сортовая верификация [3, с. 2359]. Генетическая чистота определяет степень соответствия представленного образца семян заявленному сорту, или степень чистоты сорта в пределах его партии семян, или чистоту гибрида F1 в данной партии гибридных семян [8, с. 366]. Согласно постановлению Президента Республики Узбекистан ПП-391 от 15 декабря 2023 года «О дополнительных мерах по развитию системы семеноводства в хлопководстве и повышению урожайности хлопчатника» [2]. В пункте 4 устанавливается порядок, согласно которому с 2024 года требуется получение заключения местных компетентных лабораторий по молекулярно-генетическому анализу генетической чистоты семян хлопчатника, ввезенных из-за рубежа хлопково-текстильными кластерами и фермерскими хозяйствами. Также требуется оценка посевных показателей качества всех импортируемых семян хлопчатника. В связи с чем, нашему Центру геномики и биоинформатики АН РУз была поставлена задача по разработке методик для оценки генетической чистоты семян хлопчатника (Gossypium L., 1753) с целью определения чистоты сортов и гибридов в соответствии заявленным стандартам.
Наиболее распространенным способом определения генетической чистоты является использование классического метода Grow-Out Test (GOT), который основан на оценке морфологических признаков [3, с. 2359; 5, с. 538]. Однако для проведения анализа с использованием GOT требуется полный вегетационный период, необходимо также учитывать и влияние окружающей среды на развитие растения. В контексте настоящего исследования данный метод оказывается неприменим в связи с его ограничениями. Таким образом, актуальным становится использование молекулярных ДНК – маркеров, которые не зависят от условий окружающей среды и не привязаны к вегитационному периоду. Этим маркеры нашли широкое применение в практике определения генетической чистоты семян [8, с. 365]. При этом наиболее изученными и доступными с точки зрения их потенциала в тестировании генетической чистоты являются микросателлитные маркеры (Simple Sequence Repeats, SSR) [5, с. 359]. В свою очередь, данные, полученные на основе SSR, можно представить в виде бинарного паттерна присутствия (1) или отсутствия (0) аллеля [7, с. 781].
Среди оптимальных алгоритмов для тестирования генетической чистоты с использованием бинарных паттернов аллельных профилей, может стать использование методов нечеткого поиска [9, с. 2]. В данном случае подразумеваются методы, адаптированные для работы с биологическими данными, где последовательность нуклеотидов ДНК может быть представлена как строковая последовательность символов. Релевантность результатов такого типа алгоритмов зависит от учета искажений (паттернов) символов слов различных типов (вставок, удалений и подстановок символов). Эффективный анализ паттернов зависит от выбора подходящей метрики — функции, измеряющей степень различия между строками. По своей природе данные метрики делятся на группы [9, с. 2]: меры сходства на основе редактирования и меры сходства на основе разбиения на токены. В настоящей работе из первой группы будут рассмотрены, классические – расстояние Хэмминга и Левенштейна, из второй – коэффициенты Жаккара и Дайса.
Целью исследования является анализ и выбор метрик для расчета генетической чистоты сортообразцов.
Задачами исследования являются:
1. Обзор и расчет метрик Хемминга, Левенштейна, Жаккара и Дайса для оценки генетической чистоты сортообразцов на основе бинарных данных;
2. Определение преимуществ и недостатков каждой из метрик;
3. Выбор наиболее оптимальной метрики/метрик для расчета генетической чистоты сортообразцов.
Материалы и методы
Научно-исследовательская работа была выполнена на базе Центра геномики и биоинформатики АН РУз. Методология исследования основана на теоретических расчетах генетической чистоты сортообразцов по следующим аспектам:
Аллельные профили SSR-маркеров были представлены в виде бинарных паттернов, где наличие аллеля рассматривалось как «1», а его отсутствие – «0», что соответствует подходу, изложенному в работе [7, с. 781]. Учитывалась и предусматривалась обработка позиций с неясными результатами (обозначенными «Na»), возникающими в случаях, когда точное определение аллельного состояния было затруднено.
Количественная оценка генетической чистоты сортообразцов на основе бинарных данных с использованием расстояний Хемминга (dH) и Левенштейна (dL) проводилась по стандартным методикам [1, с. 845; 6, с. 9]. Для вычисления коэффициентов Жаккара (J) и Дайса (simDise) были выбраны и модифицированы под задачи настоящего исследования – формулы, представленные в работах [4, с. 4; 9, с. 6]. В частности, для сравнения бинарных аллельных профилей, коэффициент Жаккара выразили как отношение компонент:
, (1)
где
M11 – количество маркеров, в которых у обоих образцов (x и y) присутствует аллель (1);
M10 – количество маркеров, в которых у образца x присутствует аллель (1), а у образца y отсутствует (0);
M01 – количество маркеров, в которых у образца x отсутствует аллель (0), а у образца y присутствует (1).
В свою очередь, коэффициент Дайса рассчитывали как:
, (2)
где
nx – общее количество маркеров, в которых у образца x присутствует аллель (1);
ny – общее количество маркеров, в которых у образца y присутствует аллель (1);
nt – количество маркеров, в которых одновременно у обоих образцов (x и y) присутствует аллель (1).
Наконец, количественные данные, полученные в ходе расчетов генетической чистоты сортообразов с использованием каждой из метрик, приводили к среднему значению. Для этого, чтобы получить объективное представление о генетической чистоте, проводили расчет всех уникальных пар образцов (k) по следующей формуле:
, (3)
где
N – количество образцов.
Затем, рассчитывали среднее значение (
) для полученных уникальных пар с использованием формулы:
, (4)
где
Mi – значение метрики для i-ой уникальной пары различных образцов (или половина от суммы всех недиагональных элементов).
Результаты и обсуждение
Расстояние Хемминга измеряет число позиций, где символы двух строк одинаковой длины не совпадают. При сравнении аллельных профилей с использованием бинарных паттернов (1, 0) dH можно вычислить путем подсчета минимального количества подстановок символов, необходимых для преобразования одной строки в другую [6, с. 9].
Придём пример теоретического расчета dH с целью оценки генетической чистоты сорта «А» на основе аллельного профиля, полученного с использованием пяти SSR-маркеров при выборке равной пяти образцам (А1 – А5). Обозначим присутствие аллеля как - 1, а его отсутствие соответственно - 0 (таблица 1).
Таблица 1.
Аллельный профиль сорта «А»
|
Образец |
SSR – маркер |
||||
|
1 |
2 |
3 |
4 |
5 |
|
|
A1 |
1 |
1 |
0 |
1 |
1 |
|
A2 |
1 |
0 |
1 |
1 |
0 |
|
A3 |
0 |
1 |
1 |
0 |
1 |
|
A4 |
1 |
0 |
1 |
1 |
1 |
|
A5 |
1 |
1 |
0 |
1 |
1 |
Следуя определению, получим следующее распределение dH при сравнении образцов друг с другом по данным аллельного профиля (таблица 2).
Таблица 2.
Распределение dH при сравнении образцов сорта «А»
|
|
A1 |
A2 |
A3 |
A4 |
A5 |
|
A1 |
0 |
3 |
3 |
2 |
0 |
|
A2 |
3 |
0 |
4 |
1 |
3 |
|
A3 |
3 |
4 |
0 |
3 |
3 |
|
A4 |
2 |
1 |
3 |
0 |
2 |
|
A5 |
0 |
3 |
3 |
2 |
0 |
Далее, полученные значения метрик dH целесообразно нормировать по длине строки (n) - dH/n. Следовательно, нормированное dH при сравнении каждого образца друг с другом, составит (таблица 3).
Таблица 3.
Нормированное dH при сравнении образцов сорта «А»
|
|
A1 |
A2 |
A3 |
A4 |
A5 |
|
A1 |
0,0 |
0,6 |
0,6 |
0,4 |
0,0 |
|
A2 |
0,6 |
0,0 |
0,8 |
0,2 |
0,6 |
|
A3 |
0,6 |
0,8 |
0,0 |
0,6 |
0,6 |
|
A4 |
0,4 |
0,2 |
0,6 |
0,0 |
0,4 |
|
A5 |
0,0 |
0,6 |
0,6 |
0,4 |
0,0 |
Для оценки среднего значения генетической чистоты между образцами внутри анализируемой группы (сорта «А»), рассчитаем количество уникальных пар нормированного dH по формуле (3):
k = (5 − 1) × 5 / 2 = 10
В свою очередь, среднее значение нормированного dH для всех уникальных попарных сравнений образцов по формуле (4), составит:
dH = 4,8 / 10 = 0,48 или 48% (0,48 × 100) различий между образцами.
Исходя из определения генетической чистоты, схожесть или степень чистоты сорта «А» в пределах его партии семян, составит соответственно – 52% ((1 – 0,48) × 100).
Важно подчеркнуть, что в случае анализа большого массива данных применение dH может оказаться наилучшим выбором, поскольку его алгоритм имеет линейную сложность O(n). Наряду с чем, и возрастает скорость обработки данных. Однако существенным недостатком dH является применимость только к строкам одинаковой длины, так как алгоритм учитывает лишь операции подстановок символов, и не включает вставки и удаления. Это, в свою очередь, не позволяет выполнять операции со строками разной длины.
В отличие от dH, расстояние Левенштейна – это метрика, позволяющая сравнивать строки различной длины, поскольку включает минимальное количество односимвольных операций: вставок, удалений и подстановок одного символа на другой, необходимых для превращения одной строки в другую [1, с. 845].
Допустим, что при оценке генетической чистоты сорта «Б» с использованием шести SSR-маркеров при выборке равной пяти образцам (Б1 – Б5) были выявлены позиции с неясными результатами (Na) (невозможность определить наличие или отсутствие аллеля) (таблица 4). В таком случае, расчет dH не представляется возможным, поскольку строки в данном случае имеют разную длину.
Таблица 4.
Аллельный профиль сорта «Б»
|
|
SSR – маркер |
|||||
|
Образец |
1 |
2 |
3 |
4 |
5 |
6 |
|
Б1 |
1 |
1 |
0 |
1 |
1 |
Na |
|
Б2 |
1 |
0 |
1 |
1 |
0 |
0 |
|
Б3 |
0 |
1 |
1 |
0 |
1 |
Na |
|
Б4 |
1 |
0 |
1 |
1 |
1 |
Na |
|
Б5 |
1 |
1 |
0 |
1 |
1 |
1 |
С целью расчета расстояния Левенштейна введем следующие аргументы: совпадение любых двух одинаковых символов (включая Na с Na) = 0; замена между аллелями (0) и (1) = 1; замена символа (Na) на определенный аллель (0 или 1) = 2 (т.е. необходимо провести удаление символа (Na) и вставку (0) или (1) для идентичности строк). При сравнении образцов друг с другом получим следующее распределение dL (таблица 5).
Таблица 5.
Распределение dL при сравнении образцов сорта «Б»
|
|
Б1 |
Б2 |
Б3 |
Б4 |
Б5 |
|
Б1 |
0 |
5 |
3 |
2 |
2 |
|
Б2 |
5 |
0 |
6 |
3 |
4 |
|
Б3 |
3 |
6 |
0 |
3 |
5 |
|
Б4 |
2 |
3 |
3 |
0 |
4 |
|
Б5 |
2 |
4 |
5 |
4 |
0 |
Далее, для определения генетической чистоты сорта «Б», полученные значения метрик dL нормируем по длине строки - dL/max (m, n) (таблица 6).
Таблица 6.
Нормированное dL при сравнении образцов сорта «Б»
|
|
Б1 |
Б2 |
Б3 |
Б4 |
Б5 |
|
Б1 |
0,0 |
0,8 |
0,5 |
0,3 |
0,3 |
|
Б2 |
0,8 |
0,0 |
1,0 |
0,5 |
0,7 |
|
Б3 |
0,5 |
1,0 |
0,0 |
0,5 |
0,8 |
|
Б4 |
0,3 |
0,5 |
0,5 |
0,0 |
0,7 |
|
Б5 |
0,3 |
0,7 |
0,8 |
0,7 |
0,0 |
Вычислим среднее значение нормированного dL для всех уникальных попарных сравнений образцов с использованием формул (3) и (4):
dL = 6,1 / 10 = 0,61 или 61% (0,61 × 100) различий между образцами.
В свою очередь, степень чистоты сорта «Б» в пределах его партии семян, составит – 39% ((1 – 0,61) х 100).
Таким образом, dL подходит для расчета расстояния редактирования при разной длине строк (подстановки, вставки, удаления), в чем заключается его преимущество по сравнению с dH. Тем не менее квадратичная сложность алгоритма O(n×m), делает его медленным для расчета большого набора данных.
Обеспечение высокой скорости обработки данных для строк переменной длины возможно достичь посредством применения коэффициентов Жаккара и Дайса. В данном случае набор бинарных данных можно представить в качестве сходства множеств. Реализация данных мер подразумевает нахождение пересечения двух наборов данных, в которых имеются общие бинарные паттерны (1 – 1).
Воспользовавшись данными аллельных профилей из таблицы 1, рассчитаем коэффициент Жаккара по формуле (1) и получим следующие распределение значений J для всех пар образцов (A1 – A5) (таблица 7).
Таблица 7.
Распределение J при сравнении образцов сорта «А»
|
|
A1 |
A2 |
A3 |
A4 |
A5 |
|
A1 |
1,0 |
0,4 |
0,4 |
0,6 |
1,0 |
|
A2 |
0,4 |
1,0 |
0,2 |
0,8 |
0,4 |
|
A3 |
0,4 |
0,2 |
1,0 |
0,4 |
0,4 |
|
A4 |
0,6 |
0,8 |
0,4 |
1,0 |
0,6 |
|
A5 |
1,0 |
0,4 |
0,4 |
0,6 |
1,0 |
Вычислим среднее значение J для всех уникальных попарных сравнений образцов с использованием формул (3) и (4):
J = 5,2 / 10 = 0,52.
Поскольку алгоритм J уже направлен на вычисление схожести анализируемых данных, генетическая чистота сорта «А» с использованием данного коэффициента составит – 0,52 или 52% (0,52 × 100) схожести образцов.
Наиболее чувствительным к совпадениям между множествами является коэффициент Дайса, так как он удваивает пересечение в числителе [9, с. 6]. С использованием формулы (2), рассмотрим данные, представленные в таблице 1. При сравнении каждого образца друг с другом получим следующее распределение данных по simDise (таблица 8).
Таблица 8.
Распределение simDise при сравнении образцов сорта «А»
|
|
A1 |
A2 |
A3 |
A4 |
A5 |
|
A1 |
1,0 |
0,6 |
0,6 |
0,8 |
1,0 |
|
A2 |
0,6 |
1,0 |
0,3 |
0,9 |
0,6 |
|
A3 |
0,6 |
0,3 |
1,0 |
0,6 |
0,6 |
|
A4 |
0,8 |
0,9 |
0,6 |
1,0 |
0,8 |
|
A5 |
1,0 |
0,6 |
0,6 |
0,8 |
1,0 |
Вычислим среднее значение simDise для всех уникальных попарных сравнений образцов с использованием формул (3) и (4):
simDise = 6,8 / 10 = 0,68.
Как и в случае с J, генетическая чистота сорта «А» с использованием simDise составит – 0,68 или 68% (0,68 × 100) схожести образцов.
Отметим, что оба алгоритма имеют линейную сложность O(n + m), что намного быстрее, чем проведение вычислений с использованием dL. Кроме того, поскольку вычисления данных коэффициентов основаны на множествах, нет строгой необходимости в одинаковой длине строк, в чем также заключается их преимущество по сравнению с dH. Однако, оба коэффициента учитывают только наличие признаков, игнорируя совместные отсутствия (0 – 0), что является недостатком при проведении вычислений с использованием бинарных паттернов.
Выводы
В ходе проведенного анализа рассмотренных в настоящей работе метрик с использованием бинарных данных SSR-маркеров установлено следующее:
1. Наилучшим выбором для вычисления большого массива данных аллельных профилей может стать использование расстояния Хемминга, при условии одинаковой длины сравниваемых строк. Напротив, расстояние Левенштейна позволяет работать со строками переменной длины, однако характеризуется большей вычислительной сложностью.
2. Высокой скорости обработки данных при разной длине строк возможно достичь с использованием коэффициента Жаккара и Дайса. Недостатком использования данных коэффициентов является игнорирование совместных отсутствий (0 – 0), что может повилять на итоговую оценку сходства, так как она основывается только на частоте и совпадении присутствующих аллелей, а не на сравнении всего аллельного профиля по его полной длине.
3. Дальнейшие исследования будут направлены на изучение поведения этих метрик на реальных и больших объёмах данных аллельных профилей SSR-маркеров сельскохозяйственных культур и, в частности, хлопчатника, а также на разработку комплексных подходов, интегрирующих показания различных метрик для повышения надежности оценки генетической чистоты сортообразцов.
Список литературы:
- Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академии наук СССР. – 1965. – Т. 163, – № 4. – С. 845-848.
- Постановление Президента Республики Узбекистан от 15 декабря 2023 г. № ПП-391 «О дополнительных мерах по развитию системы семеноводства в хлопководстве и повышению урожайности хлопчатника» / Национальная база данных законодательства Республики Узбекистан [Электронный ресурс]. - Режим доступа: URL: https://lex.uz/docs/6694160 (дата обращения: 28.05.2025).
- Bharathi Y., Prabhavathi K. A review on genetic purity assessment of seeds using molecular markers // Environment and Ecology. 2022. Vol. 40. № 4B. P. 2359-2363.
- Functional trait space in cereals and legumes grown in pure and mixed cultures is influenced more by cultivar identity than crop mixing / J. Ajal, J. Ortrud, G. Vico [et al.] // Perspectives in Plant Ecology, Evolution and Systematics. – 2021. Vol. 50. – Art. 125612. – DOI: 10.1016/j.ppees.2021.125612.
- Genetic purity testing of F1 hybrids of cotton using DNA Markers / G. M. Puneeth, S. Deo, L. Arya [et al.] // Journal of Scientific Research and Reports. – 2024. – Vol. 30. № 9. – P. 537-542. – DOI: 10.9734/jsrr/2024/v30i92380.
- Hamming R. W. Error detecting and error correcting codes // The Bell system technical journal. 1950. Vol. 29. № 2. P. 147-160.
- Microsatellite marker based DNA fingerprinting of cotton (Gossypium spp.) hybrids and their parents / H. B. Santosh, A. Bargat, S. Venoor [et al.] // Electronic Journal of Plant Breeding. – 2022. – Vol. 13. №3. – P. 780–789. – DOI: 10.37992/2022.1303.136.
- Molecular techniques for testing genetic purity and seed health / V. Santhy, N. Sandra, K. V. Ravishankar [et al.] // Seed science and technology / ed. by M. Dadlani, D. K. Yadava. – Singapore: Springer. 2023. – P. 365–389. – DOI: 10.1007/978-981-19-5888-5_15.
- Real-time fuzzy record-matching similarity metric and optimal Q-gram filter / O. Rozinek, J. Marek, J. Panuš [et al.] // Algorithms. – 2025. – Vol. 18. № 3. – Art. 150. – DOI: 10.3390/a18030150.