Международный
научный журнал

Создание синтеза речи с помощью просодических методов


The creation of speech synthesis by means of prosodic methods

Цитировать:
Аманбаева А.Ж., Жумабаева Ж.Т. Создание синтеза речи с помощью просодических методов // Universum: Филология и искусствоведение : электрон. научн. журн. 2017. № 8(42). URL: http://7universum.com/ru/philology/archive/item/5063 (дата обращения: 18.09.2019).
 
Прочитать статью:

Keywords: speech synthesis, prosody, intoneme, option, variation, phrase, syntagma, model

АННОТАЦИЯ

В статье рассмотрены вопросы, связанные с синтезом речи казахского языка. В частности, говорится о роли просодических методов в разработке синтеза речи и об интонеме отношений казахского языка. По смыслу синтагма является основой составления предложения, поэтому для создания синтеза речи необходимо выделить каждую синтагму. Выбор примеров из книг на казахском языке обсуловлен установленными в них синтагматическими разметками. Также автор статьи  определил интонемы.

ABSTRACT

The article considers the issues connected with speech synthesis of the Kazakh language. It also discusses the role of prosodic methods in the development of speech synthesis and the intoneme of the relations of the Kazakh language. By sense, the syntagma is the basis of composition of a sentence, therefore for the creation of speech synthesis, it is necessary to allocate each syntagma. The choice of examples from books in the Kazakh language has been сonditioned by the syntagmatic markings specified in them. Also the author of the article has defined the intonemes.

 

В последнее время происходит синтез компьютерного языка с потребностями человека, этот процесс привел к постепенному развитию компьютерной речи. В казахской лингвистике очень мало исследований, связанных с синтезом речи. В качестве примера можно привести инновационный проект компании Sakrament «Разработка синтеза казахского языка» и статью А. К. Борибаевой «Методы ускорения аппарата синтеза по казахскому речеговорению», поскольку это касается не  только лингвистов и специалистов-фонетистов – подобную работу нужно делать совместно с компьютерными специалистами. Поэтому реальная адаптация языка человека к компьютерной программе эффективна только в результате многолетних исследований.

В казахской лингвистике для создания синтеза речи необходимо использовать просодические инструменты. Интонацию иногда называют просодикой, или просодией [2, 123 с.]. Значения понятий «просодика» и «интонация» хоть и одинаковые, но все же между ними есть разница.  Просодика дает более широкое понимание и находится на уровне речи, ритмической группы, синтагмы, а интонация охватывает синтагму и высказывание. Просодика и интонация несут информацию о сообщении, о смысле и назначении, то есть интонация – феномен, возникающий при беседе. Рассмотрение изменения звуков недостаточно для создания синтеза речи. Для того чтобы понять стиль и смысл речи, необходимо раскрыть просодические изменения. Для этого, в первую очередь, следует определить параметры компонентов интонации (мелодика, интенсивность, пауза, темп), разделить текст между собой на синтагмы и определить группу фраз. Если мы хотим узнать о роли интонем в казахском языке, а также просодических методах образования синтеза произношения, то за счет просодических методов можно различить произношение твердых либо мягких слогов, а интонация помогает выразить законченность или незаконченность предложения через модель интонем.

Акустическая мелодика, или частота основного тона – F0, продолжительность и пауза – Т, амплитуда звуковых сигналов дана параметром А. Эти параметры нужны для того, чтобы охарактеризовать сигналы синтеза просодической речи. Таким образом, для создания синтеза речи по тексту необходимо определить параметр модуляции мелодики или голоса и продолжительность фонемы и паузы. Для естественного синтеза речи, в первую очередь, синтезатор должен различить правильно написанный текст, а именно орфографию и произношение (орфоэпию). Кроме того, необходимо выявить особенности акустики голоса, фонетическую составляющую (произношение и акцент), а также просодическую специфику индивидуальной речи. Учитывая факт, что сам текст состоит из фразы, синтагмы, слов, слогов и звуков, для синтезатора нужно заранее определить образец произношения каждого. В том числе, если рассмотреть синтагму с точки зрения просодики (синтагма при произношении состоит из 1-5, редко 6 слов), планируется достичь правильного значения, потому что если синтезатор непрерывисто прочтет полное предложение, то произнесенное слово будет неясным. Поэтому сначала нужно прочитать несколько текстов и установить между ними синтагматические разметки, и только потом можно проследить изменения в отношении синтагмы – завершенность или незавершенность мысли; восклицательное или вопросительное предложение можно определить последующими интонемическими изменениями. Затем нужно понять, можно ли ставить знаки препинания после каждой синтагмы, и если да, то выбрать какие именно.

Каждое предложение состоит из нескольких синтагм, а у каждой синтагмы есть своя просодическая единица. Для автоматического синтеза по интонации в казахском языке нужно определить: интонему завершенности, интонему незавершенности, интонему общего вопроса, интонему специального вопроса, интонему категоричного побуждения, интонему вежливого побуждения, интонему восклицания и интонему вставки, а также смоделировать их, потому что интонемы в казахском языке представляют собой завершенные или незавершенные  предложения, определяют настроение, а также показывают предложение с общим или специальным вопросом. Таким образом, для синтезатора речи существует необходимость приспособления с помощью модели несовершенности идеи, обязательное снижение уровня тональности в конце предложения, а в середине слова – на уровне повышенной тональности. Конечно, иногда интонема незавершенности будет зависеть от предложения, допустим, если предложение сложноподчиненное, то в середине оно будет незавершенным, а заканчиваться будет интонемой завершенности. Например: «Мальчик →/ спешил домой. Он готов был→/ на все,/ чтобы третий день пути / был и последним. На ночевке в Корыке → / он затемно разбудил Байтаса→/ — родственника, / приезжавшего за ним→/ в город, / и уговорил своих спутников→/ выехать, / едва занялась заря» [1, 3 с.]. А в сложносочиненном предложении в середине будет интонема завершенности, а в конце уровень тональности понизится. Например: «Незнакомец, →/ не дав времени→ / вытащить из-под колена →/ дубинку, / налетел на старика→/ и быстро→/ надвинул ему на глаза / его широкополую / черную шапку» [1, 4 с.].

Это означает, что можно различать, с какой интонемой был произнесен текст, и это можно предложить синтезатору в качестве примера. Для этого подбирают несколько текстов и диктор читает один из них,  аудиозапись вносится в компьютерную программу, по этой записи создается шаблон. Конечно, сегодня в казахском языкознании не разработана программа, которая автоматически синтезирует речь, поэтому в качестве инициативы создания синтеза речи необходимо внести предложения по отдельности и разделить их на синтагмы. Прежде всего, для интонационной модели и автоматического синтеза речи требуется определить границу между фразами по интонации и звуками, которые преобразовались при произношении в фонетическим аспекте. Это означает, что каждое изменение в звуке речи с просодической стороны – преобразование интонемы – нужно внести в компьютерную программу в качестве модели.

В целом во время выступления параметры мелодики осуществляются с четырьмя различными интонемами: завершенности, незавершенности, общего вопроса и восклицания. Во время моделирования этих интонем в соответствии с текстом можно заметить его отражение в разных вариантах. По данным исследований Б.М. Лобанова, модели интонации можно разделить на несколько категорий, таких как автосегментная модель, модель IPO, суперпозиционная модель, непрерывная параметрическая модель, модель акцентированной единицы [3, 63-67 с.]. Ученый пояснил, как реализовать эти модели при синтезе речи, при этом он говорит, что аспекты начального и конечного уровней частот основного тона интонации в автосегментной единице, афразовые интонации можно акцентировать в качестве модели с помощью программы ToBI, в то время как модель IPO связана с движением интонем, а суперпозиционная основана на физиологической модели речи. Также непрерывная параметрическая модель с акустической точки зрения показывает движение частоты основного тона по отношению ко времени, а модель акцентированной единицы акцентированную часть фразы характеризует просодически. Например, в казахском языке в словах «су ал маған» (дай мне воды) или «суалмаған» (корова) в первой синтагме каждое слово произносится отдельно, с паузой, на слово «дай» падает ударение, а вторая синтагма произносится с достаточной интонацией, как отдельное слово, и дает одно значение.

Для реального звучания голоса и дикции требуется полная коллекция вариантности и вариации звуков, а также модификации интонации речи. Чтобы сделать это, нужно записать слова и небольшие фразы в студии, а также можно использовать запись по радио или телевидению. О синтезе речеговорения исследователи Б.М. Лобанова и  Л.И. Цирульник пишут так: «Проведенные опыты по клонированию различных голосов показали, что с использованием специально подобранных массивов слов и отрывков текста достаточно хорошие результаты могут  быть получены при длительности звуковой записи порядка 5-10 минут. В случае использования произвольных текстов минимально необходимая длительность звуковой записи составляет порядка 20-40 минут» [3, 16 с]. Также для синтеза речи нужен корпус текстов, который был накоплен по разному стилю (научная, литературная, публицистическая манера и т. д.). Таким образом, можно не только определить особенность речи с фонетико-акустической стороны, но и собственно просодическую особенность речи, то есть с просодической точки зрения можно выявить особенность наиболее распространенных фонем. Для этого нужно внести тексты в устную просодическую программу и создать модель. Если учесть, что текст состоит из фразы, предложения, синтагмы, слов и звуков, то основная просодическая особенность находит свое отражение в синтагме и фразах. Каждое предложение состоит из нескольких синтагм, они разделяются паузой, а каждая синтагма соединяется по смыслу. То есть каждая синтагма по смыслу будет основой составления предложения, поэтому для программы создания синтеза в программу просодического корпуса, в первую очередь, нужно внести текст, прочитанный диктором, и этот текст можно разделить на синтагмы. К примеру: «Абай→/ быстро оглянулся/ и только теперь→/ заметил отца. Кунанбай стоял/ с несколькими стариками поодаль, →/ позади/ Гостиной юрты. Смущенный своей оплошностью,/ мальчик пошел→/ к отцу. /Байтас и Жумабай,→/спешившись/ и ведя коней→/в поводу,→/тоже шли к Кунанбаю. /Высокий,→/коренастый, →/с седеющей бородой,→/Кунанбай даже →/не удостоил их/взглядом своего единственного глаза, /странно сверкавшего на бледном,→/ словно застывшем лице. /С другой стороны→/аула к нему приближались→/ несколько всадников, /тучных,/богато одетых, /на хороших конях. /Насколько /можно было судить,→/все это были старейшины. /Кунанбай, видимо,→/ ожидал их→/— он напряженно смотрел→/ на подъезжавших/» [1, 12 с.].Таким образом, синтагмы каждой фразы являются основой составления предложения и отличаются разными интонемами (завершенности, незавершенности, нормальной и др.).


Список литературы:

1. Ауэзов М. Путь Абая: роман-эпопея в 1 кн. / Пер. с каз. А. Кима. – Алматы – 470 с.
2. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. – СПб. - 2000. – 160 с.
3. Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи. – Минск. - 2008. – 316 с.

Информация об авторах:

Аманбаева Айсауле Жантемировна Amanbayeva Aisaule

канд. филол. наук, ведущий научный сотрудник, Институт Языкознания им. А.Байтурсынова 050010, Казахстан, г.Алматы улица Курмагазы, 29

candidate of philology, leading researcher of the Institute of Linguistics named after A. Baitursynuly 050010, Kazakhstan, Almaty, Kurmangazy str., 29


Жумабаева Жанара Толендиевна Zhumabayeva Zhanara

канд. филол. наук, ведущий научный сотрудник, Институт Языкознания им. А.Байтурсынова 050010, Казахстан, г.Алматы улицаКурмагазы, 29

candidate of philology, leading researcher of the Institute of Linguistics named after A. Baitursynuly 050010, Kazakhstan, Almaty, Kurmangazy str., 29


Информация о журнале

Выходит с 2013 года

ISSN: 2311-2859

Св-во о регистрации СМИ: 

ЭЛ №ФС77-54436 от 17.06.2013

ПИ № ФС77-66235 от 01.07.2016

Скачать информационное письмо

Размещается в:

doi:

elibrary

cyberleninka

google scholar

Ulrich's Periodicals Directory

socionet

Base

ROAR

OpenAirediscovery

CiteFactor

Быстрый поиск

Поделиться

Лицензия Creative CommonsЯндекс.Метрика© Научные журналы Universum, 2013-2019
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Непортированная.