канд. техн. наук, доц. Ташкентского университета информационных технологий имени Мухаммада ал-Хоразми, Республика Узбекистан, г. Ташкент
ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ
АННОТАЦИЯ
По мере увеличения возможностей вычислительных машин растут и задачи и возможности систем обработки естественного языка и искусственного интеллекта. В данной статье проводились исследования по разработке логической модели необходимой базы данных для выражения слов в узбекском языке через слоги. В частности, сформирована база данных слов и слогов узбекского языка, разработана необходимая модель организации отношений между ними.
ABSTRACT
As the capabilities of computers increase, so do the tasks and capabilities of natural language processing and artificial intelligence systems. In this article, research was carried out to develop a logical model of the necessary database for expressing words in the Uzbek language through syllables. In particular, a database of words and syllables of the Uzbek language has been formed, and the necessary model for organizing relations between them has been developed.
Ключевые слова: текст, модель, база данных, слово, слог, узбекский язык, звук, реляционная связь.
Keywords: text, model, database, word, syllable, Uzbek language, sound, relational connection.
Все разработанные на сегодняшний день механические и электронные средства направлены на автоматизацию выполнения любой задачи в жизни человека и повышение эффективности работы, облегчение и упрощение образа жизни. В частности, проводится ряд работ по распознаванию и предварительной обработке текстовых данных, синтезу речи. В результате применения исследований на практике были разработаны и используются на практике системы обработки текста и синтеза речи на многих языках.
Под электронным текстом можно понимать текст, созданный с использованием любого электронного носителя информации, который сочетает в себе черты устной и письменной речи в одном порядке. Было проведено много исследований по изучению и анализу характеристик электронных текстов. В частности, в исследовательской работе Ю. В. Балакина «Электронный текст: принципиально новый тип текста?» дано подробное описание свойств электронного текста, межтекстовых отношений, мультимедийных возможностей, полноты, формата, статуса, функций, особенностей языка, состояния создания и других признаков [1 ] .
В отличие от компьютеров, людям очень легко читать и понимать тексты. С другой стороны, если тексты должны быть проанализированы с помощью программного обеспечения, это сложная задача, требующая сочетания вычислительной лингвистики и статистических методов. В этом случае необходимо использовать современные системы, интеллектуально анализирующие тексты. В научно-исследовательских работах А.М.Ситульского и А.Б.Иванникова по теме «Интеллектуальный анализ текста» подробно рассматривается интеллектуальный анализ [ 2 ].
В целом алгоритмы работы любых систем синтеза речи напрямую зависят от формы и характеристик поступающей информации. В тех случаях, когда поступающая информация представлена в виде текста, требуется разработка методов анализа и синтеза системных и лингвистических алгоритмов на основе особенностей текста. Создание средств автоматической обработки электронных текстов, особенно на узбекском языке, станет решением многих проблем ведения деловой документации и использования современных технологий.
Словарная база узбекского языка
Говоря обо всех словах и терминах, относящихся к какому-либо языку, прежде всего обратитесь к толковому словарю этого языка. В словарь включены слова и словосочетания, широко употребляемые в литературном языке этого периода, термины, относящиеся к областям науки , техники , искусства и культуры, а также исторические и устаревшие слова, относящиеся к некоторым диалектам .
В рамках исследования на основе анализа всех слов толкового словаря узбекского языка была создана электронная словарная база, содержащая более 31 000 слов [ 3 ].
Исследования показывают, что в результате развития современных технологий и глобализации в узбекский язык входят слова и термины из многих других языков. В результате анализа таких слов была создана дополнительная словарная база, содержащая более 7 тысяч слов.
В результате объединения всех слов разработанной электронной словарной базы была создана используемая в узбекском языке электронная словарная база с обобщенной структурой, охватывающая более 38,5 тысяч слов и терминов.
Основными полями создаваемой электронной словарной базы являются поле идентификатора слова – “ID_So’z”, поле идентификатора букв - “ID_harf”, и поля слов и комментариев. На рис. 1 представлена логическая модель электронной базы слов .
Рисунок 1. Логическая модель электронной словарной базы
Рассматриваемая словарная база создается на основе реляционной связи таблицы букв и таблицы слов. Учитывая, что все слова в узбекском языке написаны латиницей, уместно сгруппировать все слова по порядку букв латинского алфавита. По этой причине в общую базу [ 4;5 ] включена таблица букв .
Слоговая база слов в узбекском языке
Принимая во внимание, что слова в узбекском языке состоят из слогов, можно сделать вывод, что все слова и термины в сформированной электронной базе данных могут быть выражены через слоги. Слова в электронной базе включают односложные, двусложные и многосложные слова. Разделив слова на слоги по правилам узбекского слогового переноса и проанализировав результаты, можно получить информацию о типах и характеристиках слогов, используемых в узбекском языке, и сформировать общую слоговую базу. В рамках исследования все слова в электронной базе слов были разделены на слоги и проведена работа по организации электронной слоговой базы[ 6 ].
В результате деления и разбора слов на слоги мы можем наблюдать случаи, когда некоторые слоги повторяются несколько раз в разных словах. Можно даже найти случаи, когда число повторений таких слогов превышает тысячу. То есть один слог можно найти более чем в тысяче слов в словарной базе. Приведем несколько примеров таких соединений в таблице 1:
Таблица 1.
Повторение слогов в базе слов
Слог |
Количество повторений |
LI |
2178 |
LIK |
2424 |
LA |
2453 |
MOQ |
3678 |
Большинство слогов встречаются только один раз во всей словесной базе. По результатам проведенных исследований количество таких слогов составляет 348. Было замечено, что эти типы слогов входят в состав слов и терминов, заимствованных из иностранных языков. Видно, что одни слоги повторяются 2 раза во всей базе, другие 3, 4, 5 и до больше всего 3678 раз слога ‘MOQ”. В табл. 2 представлены статистические данные о количестве повторений слогов в словесной основе.
Таблица 2.
Повторение слогов в базе слов
Количество слогов |
348 |
356 |
255 |
167 |
144 |
100 |
… |
1 |
1 |
Количество повторений |
1 |
2 |
3 |
4 |
5 |
6 |
… |
2453 |
3678 |
Независимо от того, встречается ли один слог в одном или нескольких словах, на письме он выражается одинаково. Принимая это во внимание, сколько бы раз он ни повторялся в базе слов, его можно считать как один слог[ 9 ].
В результате выполнения таких выводов сформирована электронная база данных слогов с общим количеством более 2800. Организационно слог также представляет собой структуру, состоящую из последовательности одной или нескольких букв.
На рисунке 2 ниже в графическом виде представлены статистические данные о группировке слогов в сформированной слоговой базе по их инициалам.
Рисунок 2. График группировки слогов в общей базе
Из диаграммы, представленной на этой картинке, можно сделать вывод, что количество слогов в группах слогов, начинающихся с букв “A”,” E”, “I”, “O”, “U”, “O” относительно невелико, а количество слогов, начинающихся с букв “B”,” K”,” S”,” T” самый высокий.
Как было сказано выше, слоги состоят из последовательности одной или нескольких букв, а по результатам исследований слоги могут содержать от 1 до 5 звуков. Существующие соединения можно сгруппировать, как показано в Таблице 3[ 7 ].
Таблица 3.
Группировка слогов по количеству звуков
Количество звуков |
1 |
2 |
3 |
4 |
5 |
Количество слогов |
6 |
247 |
1877 г. |
646 |
40 |
Процент (%) |
0,21 |
8,77 |
66,65 |
22,94 |
1,42 |
Результаты проведенного исследования показывают, что более 38 000 слов и терминов в сгенерированной словарной базе могут быть выражены в общей сложности 2816 слоговыми формами.
Рассматриваемая база данных электронных ссылок по структуре состоит из нескольких таблиц, которые связаны между собой на основе взаимных реляционных ссылок[ 8 ]. Слоговая база данных в основном состоит из 3 таблиц: слоговой таблицы (Bo’g’inlar), таблицы букв (Harflar), и таблицы длин (Uzunlik). На рис. 3 представлена логическая модель слоговой базы системы.
Рисунок 3. Логическая модель слоговой базы
В данной слоговой базе буквенная таблица обладает свойствами, описанными выше в базе слов, представляя, что все слоги сгруппированы в соответствии с порядком букв латинского алфавита.
Также слоги, сгруппированные по порядку букв алфавита, различаются по количеству содержащихся в них звуков. Согласно анализу базы общеупотребительных слогов существующие слоги в узбекском языке делятся на однозвуковые, двухзвуковые, трехзвуковые, четырехзвуковые и пятизвуковые слоги.
Логическая модель базы данных
Рассматриваемая база слогов по структуре состоит из 4-х таблиц: таблицы слогов (Bo’g’inlar), таблицы слов (So’zlar), таблицы букв (Harflar), и таблицы длины (Uzunlik), которые связаны на основе реляционных ссылок. На рис. 4 ниже показана логическая модель базы данных системы слогового выражения слов.
Рисунок 4. Логическая модель базы данных системы слогового выражения слов
В этом случае буквы – R 1 служат для определения названия буквы и имеют следующий вид:
(1)
здесь, – ID буквы, – название буквы, – комментарий.
Слова – R2 служат для формирования информации о словесной базе и имеет следующий вид:
(2)
здесь, – ID слова получен из – ID буквы и ее значения , – Слово , – комментарий.
Слоги – R3 служат для формирования информации о слоговой базе :
(3)
здесь , – ID слога получен из , – ID буквы и его значения, – ID длины и получен из , – имя слога , - комментарий.
Длина – R 4 служит для выражения длины слогов и имеет следующий вид:
(4)
здесь, – ID длины, – название длины, – комментарий.
Отношения между ссылками в базе данных выполняются с помощью запросов на основе функций. Ниже приведена функция обнаружения одного слова:
(5)
(6)
Анализируя результаты проведенного исследования, можно сделать вывод, что многие слова могут быть выражены с помощью небольшого количества слогов, используя особенность слогового произношения слов в узбекском языке.
В заключении можно сказать, что разработанная в результате исследования логическая модель позволяет организовывать большие узбекские тексты с небольшим количеством слогов, а также выявлять ошибки в тексте путем выражения слов по слогам. Созданная база данных и модель могут быть использованы в качестве важного структурного элемента для систем предварительной обработки текста, синтеза речи и распознавания речи.
Список литературы:
- Ю. В. Балакина “ Электронный текст: принципиально новый тип текста?” Вестник Волгоградского государственного университета. 2016. Т.15. № 3. С. 17-27.
- А. М. Цитульский, А. В. Иванников, И. С. Рогол “Интеллектульный анализ текста”, StudNet 2020. №6. С. 476-483.
- Akmuradov B., Khamdamov U., Mukhiddinov M., Zarmasov E., A novel algorithm for dividing uzbek language words into syllables for concatenative text-to-speech synthesizer //International Journal of Advanced Trends in Computer Science and Engineering. Volume 9, No.4, July-August 2020. –P.4657 –4664
- Akmuradov B., Khamdamov U., Djurayev O., Mukhamedaminov A. Developing a database of Uzbek language concatenative speech synthesizer // International Conference on Information Science and Communications Technologies (ICISCT 2021). 4-6 November, Tashkent – 2021. 5p.
- https://studfile.net/preview/2553894/page:13/-[Структура электронного документа текстового процессора]
- Abasxanova, X. Yu. Modeling digital devices with the help of VHDL programming language. Current problems of modern science. International conference. Chicago USA - 2022. –P.22-24
- Elov, J., Khamdamov, U., Abdullayev, A., Narzullayev, I., & Sultanov, D. (2021, November). Development of a database of higher education process management information system based on the relational model. In 2021 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 01-05).
- J. Elov, U. Khamdamov, A. Abdullayev, I. Narzullayev and D. Sultanov, "Development of a database of higher education process management information system based on the relational model," International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021, pp. 01-05, doi: 10.1109/ICISCT52966.2021.9670349.
- Khamdamov, U., Mukhiddinov, M., Akmuradov, B., & Zarmasov, E. (2020, November). A Novel Algorithm of Numbers to Text Conversion for Uzbek Language TTS Synthesizer. In 2020 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 1-5).