к.т.н., доцент, Северо-Восточный федеральный университет им. М.К. Аммосова, РФ, Якутск
Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка
АННОТАЦИЯ
В данной работе описывается вопрос идентификации якутского языка в текстовом сообщении. Для идентификации языка используется газетный корпус на якутском языке. В статье описывается газетный корпус на якутском языке. Показаны вероятности определения языка для газетной статьи и для текстового сообщения из интернет-форумов.
ABSTRACT
The article deals with the question of the Yakut language identification in textese. For the language identification newspaper corpus in Yakut is used. This corpus is described in the article. Probabilities of language detection for a newspaper article and text message from Internet forums are shown.
Список литературы:
1. Заморщикова Л.С. Ассоциативно-вербальная сеть и системность образа мира // Гуманитарные научные исследования. Март, 2014. — № 3 / [Электронный ресурс]. — Режим доступа. — URL: http://human.snauka.ru/2014/03/6130 (дата обращения: 25.05.2014).
2. Заморщикова Л.С. Ассоциативный тезаурус якутского языка // Гуманитарные научные исследования. Февраль, 2014. — № 2 / [Электронный ресурс]. — Режим доступа. — URL: http://human.snauka.ru/2014/02/6027 (дата обращения: 26.05.2014).
3. Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке / Журнал научных и прикладных исследований. Инфинити. — 2014. — № 4. — С. 35—36.
4. Леонтьев Н.А. Словарное определение якутского языка в текстовом сообщении // Научная перспектива. — 2014. — № 2(48). — С. 97—98.
5. Леонтьев Н.А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. М: "Спутник+", 2014. — XIV. — С. 88—91.
6. Botha G.R., Barnard E. Factors that affect the accuracy of text-based language identification / [Электронный ресурс] — Режим доступа. — URL: http://www.researchgate.net/publication/30510468_Factors_that_affect_the_accuracy_of_text-based_language_identification (дата обращения: 13.07.14).
7. Gottron T., Lipka N.A Comparison of Language Identification Approaches on Short, Query-Style Texts / [Электронный ресурс] — Режим доступа. — URL: http://link.springer.com/chapter/10.1007/978-3-642-12275-0_59 (дата обращения: 13.07.14).
8. Mandl T., Shramko M., Tartakovski O. et al. Language Identification in Multi-lingual Web-Documents / [Электронный ресурс] — Режим доступа. —URL: http://link.springer.com/chapter/10.1007/11765448_14 (дата обращения: 13.07.14).