ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В РЕШЕНИИ ПРОБЛЕМ СОВРЕМЕННОЙ ЛИНГВИСТИКИ

INFORMATION TECHNOLOGIES IN SOLVING THE PROBLEMS OF MODERN LINGUISTICS
Бурнашев Р.Ф.
Цитировать:
Бурнашев Р.Ф. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В РЕШЕНИИ ПРОБЛЕМ СОВРЕМЕННОЙ ЛИНГВИСТИКИ // Universum: филология и искусствоведение : электрон. научн. журн. 2023. 6(108). URL: https://7universum.com/ru/philology/archive/item/15623 (дата обращения: 21.11.2024).
Прочитать статью:
DOI - 10.32743/UniPhil.2023.108.6.15623

 

АННОТАЦИЯ

В статье рассматривается роль информационных технологий в решении проблем, возникающих в современной лингвистике. Описываются основные принципы и методы электронного анализа текстов, использования специализированных программных средств для сбора и обработки данных, методы компьютерной лингвистики и машинного обучения. В заключении статьи представлены возможности дальнейшего развития информационных технологий в лингвистике и их влияние на будущее этой науки.

ABSTRACT

The article examines the role of information technologies in solving problems arising in modern linguistics. The basic principles and methods of electronic text analysis, the use of specialized software for data collection and processing, methods of computational linguistics and machine learning are described. In conclusion, the article presents the possibilities of further development of information technologies in linguistics and their impact on the future of this science.

 

Ключевые слова: современная лингвистика, анализ данных, многоязычный корпус, распознавания образов, лексикографические инструменты, морфологические анализаторы, синтаксический анализ, статистические методы, машинное обучение.

Keywords: modern linguistics, data analysis, multilingual corpus, pattern recognition, lexicographic tools, morphological analyzers, syntactic analysis, statistical methods, machine learning.

 

Введение

Современная лингвистика – это наука, изучающая язык, его структуру, функции и использование как социального явления. Ее проблемы охватывают различные аспекты языка, включая фонетику, морфологию, синтаксис, семантику и прагматику.

Одной из главных проблем современной лингвистики является анализ и понимание разнообразия языков и диалектов, а также понимание их эволюции и исторического развития. Помимо этого, лингвистика также занимается исследованиями в области языковой социологии, когнитивной лингвистики, прикладной лингвистики и многих других областей.

Еще одной проблемой, с которой сталкиваются современные лингвисты, является множество типов данных, которые требуют анализа. Такие данные могут включать в себя тексты, речь на различных языках, графические материалы и другие формы коммуникации.

Для решения этих проблем лингвисты используют различные методы анализа исходных данных, такие как статистические модели и машинное обучение. Они также используют различные инструменты, такие как программы для анализа текстов, аудио- и видеозаписей, искусственный интеллект и другие информационные технологии для обработки и анализа данных.

Информационные технологии играют важную роль в решении многих проблем, с которыми сталкиваются современные лингвисты [1]. Вот некоторые из них:

1. Сбор и анализ больших объемов данных. С помощью информационных технологий стало возможным автоматически обрабатывать и анализировать большие объемы данных, содержащих речь на разных языках, тексты и другие формы коммуникации.

2. Создание многоязычных корпусов. Информационные технологии позволяют лингвистам собирать и обрабатывать данные на разных языках, что в свою очередь позволяет сравнивать разные языки и исследовать языковые тенденции.

3. Разработка лингвистических программ и инструментов для анализа данных. С помощью информационных технологий разрабатываются программы и инструменты для анализа данных, такие как программы распознавания речи, машинного перевода, программы для анализа текстов и т.д.

4. Исследования в области машинного обучения и распознавания образов. Информационные технологии позволяют лингвистам использовать методы машинного обучения и распознавания образов для обработки и анализа данных.

5. Разработка компьютерных моделей языков и языковых процессов. С помощью информационных технологий создаются компьютерные модели языков и языковых процессов, что позволяет лингвистам исследовать языковые явления в цифровой форме и симулировать различные языковые сценарии.

Информационные технологии играют важную роль в решении многих проблем современной лингвистики, позволяя лингвистам обрабатывать и анализировать большие объемы данных, создавать многоязычные корпуса, разрабатывать лингвистические программы и инструменты для анализа данных, использовать методы машинного обучения и распознавания образов и создавать компьютерные модели языков и языковых процессов.

Анализ литературы

Зарубежные и отечественные ученые-лингвисты активно проводят исследования на тему использования информационных технологий в лингвистике. Некоторые из наиболее значимых исследований можно рассмотреть ниже:

1. «Модели традиционного машинного обучения и глубокого обучения для анализа аргументации русскоязычных текстов» (Фищева И. Н., Головизнина В. С., Котельников Е. В. - Вятский государственный университет, Киров, Россия). В данном исследовании «рассматриваются анализ аргументации, как область компьютерной лингвистики, которая посвящена извлечению из текстов и классификации аргументов и связей между ними, а также построению аргументационной структуры. Авторы описывают методы анализа, анализируют ошибки, возникающие при использовании вычислительных технологий в лингвистических исследованиях, и дают рекомендации по улучшению этого процесса» [2].

2. «Динамика стиля русской письменной речи XIX века: корпусный эксперимент» (А.Н. Баранов, Д.О. Добровольский - Институт русского языка РАН, Москва, Россия). В исследовании «рассматривается гипотеза о том, что распределение дискурсивных слов характеризует тенденции развития стиля письменной речи XIX века. Задача исследования динамики художественного стиля заключается в выявлении и описании комплекса дискурсивных практик, формирующих письменный дискурс как таковой» [3].

3. «Корпусная региональная лексикография: принципы, методы и предварительные результаты» (Беликов В. И., Рванова Л. Ю. - МФТИ, ABBYY Lab, Москва, Россия). В статье «подводятся итоги многолетнего проекта «Языки Русских Городов» по сбору и исследованию региональной лексики. Особое внимание уделяется вопросам надежности и методикам компьютерных региональных корпусных исследований, включая автоматическую классификацию текстов и профилирование авторов» [4].

4. «Корпусно-когнитивное моделирование семантики фразово-глагольной конструкции: аттракция» (Голубкова Е., Трубочкин А. - Московский государственный лингвистический университет, Москва, Россия). В статье «рассматривается семантика фразовых глаголов в составе лексико-грамматических конструкций. Триангуляция методов интроспективного, корпусного и когнитивного анализов позволяет установить семантические характеристики фразово-глагольной конструкции» [5].

5. «Общие принципы создания национального корпуса узбекского языка» (Тоирова Г.И., Бухарский государственный университет, Узбекистан). В исследовании «научно обоснована необходимость создания национального корпуса узбекского языка, определена структура корпуса, интерфейс, алгоритм работы и технологии получения результатов, описаны требования к формату кодирования данных для национального корпуса узбекского языка» [6].

В целом, исследования, проводимые в области использования информационных технологий в лингвистике, демонстрируют, что эти технологии играют важную роль в разработке новых методов анализа данных, создании новых инструментов и программ для лингвистических исследований и решении многих задач, связанных с языком.

Методология исследования

Методы и инструменты обработки лингвистических данных различаются в зависимости от цели и задач исследования. Однако, некоторые наиболее распространенные методы и инструменты включают в себя:

1. Лексикографические инструменты: словари, тезаурусы, конкордансы, глоссарии и т.д. Они помогают анализировать и классифицировать лексические единицы, а также помогают в определении значений слов и особенностей использования [7].

2. Морфологические анализаторы: программы, способные определять словоформу и грамматические характеристики слова. Они могут автоматически разбивать текст на слова и определять их морфологические свойства [8].

3. Синтаксический анализ: методы и инструменты для анализа структуры предложения и зависимостей между компонентами. Они помогают выделять синтаксические единицы, такие как подлежащее, сказуемое и дополнение и выявлять их взаимоотношения [9].

4. Статистические методы: они позволяют определять частотность слов, выражений и других лингвистических единиц, а также осуществлять статистический анализ корпусов текстов для выявления закономерностей [10].

5. Машинное обучение: методы, базирующиеся на использовании компьютерных алгоритмов для обработки и анализа текстов. Они позволяют автоматически классифицировать и кластеризовать тексты, выделять ключевые слова и извлекать информацию из больших данных.

В зависимости от конкретной задачи, исследователи могут комбинировать различные методы и инструменты для достижения оптимальных результатов обработки лингвистических данных [2].

Примеры лингвистических исследований, в которых успешно применены информационные технологии, включают в себя:

1. Выявление авторства текстов: для идентификации авторства текстов используются различные методы, включая стилистический анализ, лексический анализ, анализ графем и другие. Одним из инструментов, используемых для такого анализа, является Linguistic Inquiry and Word Count (LIWC), который автоматически выделяет стилистические и лексические особенности в текстах, позволяя идентифицировать автора с высокой точностью [11].

2. Анализ тональности текстов: тональный анализ - это процесс определения эмоционального окраса текста. Использование информационных технологий позволяет автоматически анализировать большие количества текстов на тональность, путем использования методов машинного обучения и анализа данных. Примером такого исследования может служить анализ тональности отзывов на товары или услуги в социальных сетях [12].

3. Анализ социолингвистических феноменов: с помощью информационных технологий можно анализировать лексические и грамматические особенности различных диалектов и региональных вариантов языка. Примером такого исследования может служить прецедентные феномены в заявлениях министра иностранных дел Великобритании Доминика Рааба и госсекретаря США Энтони Блинкена. Дается сопоставительный анализ использования прецедентных феноменов по сферам-источникам [13].

4. Компьютерный анализ дискурса: компьютерный анализ дискурса - это процесс анализа разговорных данные для выявления лингвистических паттернов с использованием методов машинного обучения. Примером такого исследования может служить анализ дискуссий в интернет-форумах или социальных сетях [14].

5. Автоматический перевод: машинный перевод - это процесс автоматического перевода текста из одного языка на другой с использованием компьютерных алгоритмов и методов машинного обучения. Примером такого исследования может служить исследование точности и качества машинного перевода различных языков с помощью алгоритмов и техник машинного обучения [15].

Результаты

Использование информационных технологий в современной лингвистике приводит к значительному расширению возможностей исследования и анализа данных, а также увеличению точности и скорости обработки больших объемов информации. Некоторые результаты применения информационных технологий в лингвистических исследованиях включают в себя:

1. Улучшение и автоматизация процесса анализа: многие лингвистические исследования требуют анализа больших объемов данных. Использование методов машинного обучения, компьютерного анализа и статистического моделирования позволяет значительно ускорить процесс анализа и увеличить точность результатов.

2. Исследование больших корпусов текстов: с помощью информационных технологий стало возможным создание и использование больших корпусов текстов для лингвистических исследований. Это позволяет применять методы статистического анализа и машинного обучения для выявления закономерностей и особенностей языковых структур.

3. Повышение точности и качества результатов: использование информационных технологий позволяет более точно выявлять и классифицировать лингвистические единицы, такие как слова, фразы, грамматические конструкции и т.д. Это может привести к улучшению качества и точности результатов лингвистических исследований.

4. Расширение возможностей исследования: благодаря информационным технологиям, лингвистические исследования стали более доступными и широко доступными. Исследователи могут использовать различные онлайн-корпусы текстов, программы и инструменты анализа, а также могут сотрудничать и обмениваться данными с коллегами на всем мире.

Применение информационных технологий в лингвистических исследованиях дает множество преимуществ, таких как улучшение точности и качества результатов, автоматизация и ускорение процессов анализа, а также расширение возможностей исследования.

Сравнение современных методов с применением информационных технологий в лингвистике с классическими исследованиями показывает, что информационные технологии значительно расширили возможности анализа и обработки лингвистических данных, существенно сократив время и усилия, затрачиваемые на получение результатов.

До появления информационных технологий, лингвистические исследования часто базировались на ручном анализе текстов и корпусов, что требовало большого количества времени и труда. Однако, с применением информационных технологий возможны автоматические методы анализа, позволяющие быстро и точно обрабатывать большие объемы текста.

Например, методы машинного обучения позволяют проводить классификацию текстов по определенным параметрам, таким как авторство или тональность. Статистические методы позволяют выявлять закономерности в больших корпусах текстов и использовать их для лингвистических исследований. Анализ тональности текстов позволяет определять отношение авторов текстов к определенному объекту или явлению.

Таким образом, информационные технологии в лингвистике существенно повысили эффективность и точность исследований и облегчили доступ к лингвистической информации. Однако, несмотря на огромный потенциал информационных технологий, все еще существуют некоторые ограничения в применении этих технологий, такие как проблемы классификации редких слов и неточности в распознавании грамматических конструкций, которые должны быть учтены при анализе данных.

Обсуждение

Полученные результаты применения информационных технологий в современной лингвистике свидетельствуют о значительном прогрессе в области исследований в последние годы. Использование различных инструментов и методов информационных технологий позволяет более точно выявлять особенности языка и закономерности в больших корпусах текстов.

Информационные технологии также позволяют автоматизировать процессы анализа текстов, сократить временные затраты и улучшить точность результатов. Это значительно упрощает работу исследователей в области лингвистики.

Применение информационных технологий в лингвистике является одним из наиболее перспективных направлений для исследований и позволяет значительно улучшить и усовершенствовать методы, используемы в современной лингвистике. Однако, необходимо помнить, что решение некоторых проблем все еще требует экспертного вмешательства и не может быть полностью автоматизированным.

Сегодня информационные технологии широко применяются в лингвистике, помогая ученым решать некоторые ключевые проблемы, связанные с исследованием языка. Однако, как и любые другие технологии, они могут создавать некоторые проблемы и вызывать споры.

Одна из основных проблем, связанных с применением информационных технологий в лингвистике, заключается в том, как выбрать и адаптировать подходящие системы для поддержки языковых исследований. В частности, многие программы, которые используются для анализа языка, могут быть недоступны на определенных языках или не поддерживать специфические лингвистические свойства, что затрудняет использование данных программ для конкретных проектов.

Еще одна проблема, связанная с применением информационных технологий в лингвистике, - это отсутствие стандартизации методов анализа и интерпретации данных. Результаты использования программных инструментов в исследованиях могут сильно отличаться в зависимости от того, как их установили и настроили исследователи. Аналогичные данные могут интерпретироваться по-разному, что часто приводит к субъективным выводам.

Еще одна проблема - это моделирование языковых явлений с помощью компьютерных моделей. Компьютерные модели должны быть созданы с использованием точных данных, чтобы корректно отражать реальные языковые явления. Построение неверных моделей может привести к неверным выводам и искажению результатов исследований.

Также главным недостатком использования информационных технологий в лингвистике может стать утрата человеческого фактора в исследованиях. Автоматизированные программы могут обрабатывать большие объемы текста быстрее, чем люди. Однако человеческий фактор, когда исследователь может использовать свой предупрежденный анализ для выявления необычных языковых форм, может привести к более осознанному выбору методов анализа и более точным выводам.

Можно сказать, что информационные технологии представляют огромный потенциал для лингвистики, однако, как и любые другие технологии, они также могут создавать проблемы. Для использования этих инструментов в исследованиях языка необходимо понимать, как они могут быть использованы максимально эффективно и как они могут быть адаптированы под специфические потребности исследования.

Заключение

Исследование, направленное на выявление роли информационных технологий в решении проблем современной лингвистики определило несколько проблем, связанных с применением информационных технологий в лингвистике, таких как выбор и адаптация систем для поддержки исследований, отсутствие стандартизации методов анализа и интерпретации данных, необходимость создания точных компьютерных моделей и утрата человеческого фактора в исследованиях.

Тем не менее, использование информационных технологий в лингвистике помогает ученым решать некоторые ключевые проблемы, связанные с исследованием языка, такие как обработка больших объемов текста, анализ частотности слов и фонетический анализ. Эти инструменты позволяют получать более точные данные и быстрее обрабатывать информацию.

Для использования информационных технологий в исследованиях языка необходимо понимать, как они могут быть использованы максимально эффективно и как они могут быть адаптированы под специфические потребности исследования. Кроме того, необходимо учитывать, что автоматизация исследований может привести к утрате человеческого фактора в исследованиях, что может повлечь за собой неожиданные результаты.

Информационные технологии имеют большой потенциал в лингвистике, но их применение должно осуществляться с учетом всех представленных в исследовании проблем и рекомендаций.

Основываясь на результате проведённого выше исследования, можно предложить следующие рекомендации для дальнейшего развития информационных технологий в лингвистике:

1. Разработка и адаптация программных инструментов для поддержки языковых исследований на многих языках и с учетом специфических лингвистических свойств.

2. Стандартизация методов анализа и интерпретации данных, разработка общепризнанных стандартов для использования программных инструментов в языковых исследованиях.

3. Необходимость создания точных компьютерных моделей языковых явлений, учитывающих многообразие языков и культур, для получения более точных результатов исследований.

4. Грамотный подбор инструментов для автоматизации анализа больших объемов текста, который должен быть основан на особенностях языка, тематике обрабатываемых текстов и целях исследования.

5. Разумное сочетание использования программных инструментов и ручного анализа для восполнения утраты человеческого фактора в исследованиях, чтобы получить наиболее точную и полную картину рассматриваемых языковых явлений.

6. Развитие технологий для анализа многомодальных данных, включающих звук, текст и изображение, что позволяет решать комплексные проблемы языковых исследований.

7. Проведение семинаров и тренингов для обучения использованию программных инструментов в языковых исследованиях, чтобы исследователи могли оптимально использовать их возможности.

В целом, реализация этих рекомендаций позволит развивать информационные технологии в лингвистике и повышать их эффективность в решении ключевых проблем, связанных с исследованием языка.

 

Список литературы:

  1. Бурнашев Р. Ф. и др. Роль информационных технологий в развитии современной лингвистики //Science and Education. - 2023. - Т. 4. - №. 4. - С. 1321-1331.
  2. Fishcheva I., Goloviznina V., Kotelnikov E. Traditional machine learning and deep learning models for argumentation mining in russian texts //arXiv preprint arXiv:2106.14438. - 2021.
  3. Баранов А. Н., Добровольский Д. О. Динамика стиля русской письменной речи XIX века: корпусный эксперимент //Компьютерная лингвистика и интеллектуальные технологии. По материалам международной конференции «Диалог. - 2020. - №. 19. - С. 26.
  4. Belikov V. I. et al. Corpus regional lexicography: principles, methods, and preliminary results //Москва. - 2021. - Т. 16. - С. 19.
  5. Golubkova E., Trubochkin A. A Corpus-Based Model of the English Phrasal Verb Construction: Attraction //Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. - 2021. - С. 278-288.
  6. Тоирова Г. И. Общие принципы создания национального корпуса узбекского языка //Наука и образование: актуальные вопросы теории и практики. - 2021. - С. 284-288.
  7. Демченков С. А., Федяева Н. Д. Википедия как инструмент лексикографических исследований (на материале русскоязычного корпуса статей) //Фундаментальные исследования. - 2014. - №. 11-12. - С. 2759-2763.
  8. Зобнин А. И., Носырев Г. В. Морфологический анализатор MyStem 3.0 //Труды Института русского языка им. ВВ Виноградова. - 2015. - Т. 6. - С. 300-310.
  9. Бурнашев Р. Ф., Мустафина А. Д. Синтаксический анализ как инструментарий квантитативной лингвистики //Science and Education. - 2022. - Т. 3. - №. 12. - С. 1211-1220.
  10. Джумабаева М. Ш., Бурнашев Р. Ф. Информационные технологии в обработке лингвистической информации //Science and Education. - 2023. - Т. 4. - №. 4. - С. 643-653.
  11. Романова Т. В., Хоменко А. Ю. Идентификация автора текста в сетевой коммуникации //Вестник Волгоградского государственного университета. Серия 2: Языкознание. - 2022. - Т. 21. - №. 3. - С. 143-157.
  12. Полюшина Д. В., Андронов А. Н. Анализ тональности комментариев, оставленных в социальной сети //L Огарёвские чтения. - 2022. - С. 745-752.
  13. Шитоева Е. В. Сопоставительный анализ использования прецедентных феноменов в речи министра иностранных дел Великобритании и госсекретаря США //Язык в межкультурном пространстве XXI века: взгляды и научные исследования, перспективы развития. - 2021. - С. 160-168.
  14. Распопина Е. Ю. Дифференциальные и жанровые особенности компьютерного интернет-дискурса //Вестник Иркутского государственного лингвистического университета. - 2010. - №. 1 (9). - С. 125-132.
  15. Жаббарова Р. У., Бурнашев Р. Ф. Инструментарий обработки лингвистической информации //Science and Education. - 2023. - Т. 4. - №. 4. - С. 654-664.
Информация об авторах

доцент кафедры «Гуманитарные науки и информационные технологии», Самаркандский государственный институт иностранных языков, Республика Узбекистан, г. Самарканд

Associate Professor of the Department of Humanities and Information Technologies, Samarkand State Institute of Foreign Languages, Republic of Uzbekistan, Samarkand

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54436 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Лебедева Надежда Анатольевна.
Top