Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка

Textese identification by means of newspaper corpus of the Yakut language
Леонтьев Н.А.
Цитировать:
Леонтьев Н.А. Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка // Universum: технические науки : электрон. научн. журн. 2014. № 8 (9). URL: https://7universum.com/ru/tech/archive/item/1539 (дата обращения: 19.04.2024).
Прочитать статью:
Keywords: language identification; newspaper corpus; the Yakut language; Internet forums

 

АННОТАЦИЯ

В данной работе описывается вопрос идентификации якутского языка в текстовом сообщении. Для идентификации языка используется газетный корпус на якутском языке. В статье описывается газетный корпус на якутском языке. Показаны вероятности определения языка для газетной статьи и для текстового сообщения из интернет-форумов.

ABSTRACT

The article deals with the question of the Yakut language identification in textese. For the language identification newspaper corpus in Yakut is used. This corpus is described in the article. Probabilities of language detection for a newspaper article and text message from Internet forums are shown.

 


Список литературы:

1.    Заморщикова Л.С. Ассоциативно-вербальная сеть и системность образа мира // Гуманитарные научные исследования. Март, 2014. — № 3 / [Электронный ресурс]. — Режим доступа. — URL: http://human.snauka.ru/2014/03/6130 (дата обращения: 25.05.2014).
2.    Заморщикова Л.С. Ассоциативный тезаурус якутского языка // Гуманитарные научные исследования. Февраль, 2014. — № 2 / [Электронный ресурс]. — Режим доступа. — URL: http://human.snauka.ru/2014/02/6027 (дата обращения: 26.05.2014).
3.    Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке / Журнал научных и прикладных исследований. Инфинити. — 2014. — № 4. — С. 35—36.
4.    Леонтьев Н.А. Словарное определение якутского языка в текстовом сообщении // Научная перспектива. — 2014. — № 2(48). — С. 97—98.
5.    Леонтьев Н.А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. М: "Спутник+", 2014. — XIV. — С. 88—91.
6.    Botha G.R., Barnard E. Factors that affect the accuracy of text-based language identification / [Электронный ресурс] — Режим доступа. — URL: http://www.researchgate.net/publication/30510468_Factors_that_affect_the_accuracy_of_text-based_language_identification (дата обращения: 13.07.14).
7.    Gottron T., Lipka N.A Comparison of Language Identification Approaches on Short, Query-Style Texts / [Электронный ресурс] — Режим доступа. — URL: http://link.springer.com/chapter/10.1007/978-3-642-12275-0_59 (дата обращения: 13.07.14).
8.    Mandl T., Shramko M., Tartakovski O. et al. Language Identification in Multi-lingual Web-Documents / [Электронный ресурс] — Режим доступа. —URL: http://link.springer.com/chapter/10.1007/11765448_14 (дата обращения: 13.07.14).

Информация об авторах

к.т.н., доцент, Северо-Восточный федеральный университет им. М.К. Аммосова, РФ, Якутск

Candidate of Technical Sciences, Associate professor, North-Eastern Federal University named after M.K. Ammosov, Yakutsk, Russia

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54434 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Ахметов Сайранбек Махсутович.
Top