руководитель проекта, Save Forward Corp., США, г. Сакраменто
МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТОВ ДЛЯ ОПРЕДЕЛЕНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ АВТОРА
АННОТАЦИЯ
В статье рассматриваются методы интеллектуального анализа текстовых данных, направленные на автоматизированное определение эмоционального состояния автора письменных сообщений. Актуальность исследования обусловлена ростом объемов цифровой коммуникации и необходимостью разработки надежных инструментов анализа психоэмоциональных характеристик текстов. Целью работы является сравнительный анализ лексикон-ориентированных методов, алгоритмов машинного обучения и нейросетевых моделей с точки зрения их применимости для задач анализа эмоционального состояния. В работе описаны основные этапы обработки текстовых данных, подходы к формированию признакового пространства и методы оценки качества классификации. Показано, что выбор метода анализа определяется требованиями к интерпретируемости результатов, доступным вычислительным ресурсам и условиям практического применения.
ABSTRACT
The article examines methods of intelligent analysis of textual data aimed at the automated identification of the emotional state of the author of written messages. The relevance of the study is due to by the growing volume of digital communication and the need to develop reliable tools for analyzing the psycho-emotional characteristics of texts. The purpose of this work is to conduct a comparative analysis of lexicon-based approaches, machine learning algorithms, and neural network models in terms of their applicability to emotional state analysis tasks. The paper describes the main stages of text data processing, approaches to feature space construction, and methods for evaluating classification performance. It is shown that the choice of analysis method is determined by the requirements for result interpretability, available computational resources, and practical application conditions.
Ключевые слова: интеллектуальный анализ текстов, эмоциональное состояние, обработка естественного языка, анализ данных, машинное обучение, нейросетевые модели
Keywords: intelligent text analysis, emotional state, natural language processing, data analysis, machine learning, neural networks.
Введение. В условиях цифровизации социальной коммуникации текстовые данные становятся одним из ключевых источников информации о психологическом и эмоциональном состоянии человека. Сообщения в социальных сетях, блогах и онлайн-форумах нередко отражают не только фактическое содержание высказываний, но и субъективные переживания их авторов. В связи с этим возрастает интерес к методам автоматизированного анализа текстов, позволяющим выявлять эмоциональный фон и оценивать психоэмоциональные характеристики пользователей. Интеллектуальный анализ текстов опирается на методы обработки естественного языка, статистического анализа и машинного обучения. Применение данных методов позволяет формализовать субъективные признаки эмоционального состояния и осуществлять их количественную оценку. Подобные подходы находят применение в психологии, социологии, системах мониторинга пользовательской активности, а также в прикладных задачах анализа рисков и профилактики деструктивного поведения. Целью настоящей работы является систематизация и сравнительный анализ основных методов интеллектуального анализа текстов, используемых для определения эмоционального состояния автора.
Эмоциональное состояние как объект интеллектуального анализа
Эмоциональное состояние автора представляет собой совокупность эмоциональных реакций, оказывающих влияние на выбор языковых средств, структуру высказываний и стилистические особенности текста. В письменной речи эмоциональный фон проявляется через использование оценочной лексики, модальных конструкций, интенсивность выражений и синтаксическую организацию предложений [2]. С точки зрения анализа данных эмоциональное состояние может быть рассмотрено как скрытая характеристика, подлежащая восстановлению на основе наблюдаемых текстовых признаков. Такая постановка задачи позволяет применять методы классификации и машинного обучения для автоматизированного определения эмоционального фона текстовых сообщений.
Формализация задачи анализа эмоционального состояния
Рассмотрим текстовое сообщение в виде последовательности токенов:
T = {w1, w2, …, wn},
где wi – отдельные лексические единицы текста. Требуется определить отображение f, которое каждому тексту T сопоставляет одно из возможных эмоциональных состояний из множества E, например: позитивное, негативное или нейтральное. Таким образом, задача определения эмоционального состояния формулируется как задача классификации текстовых данных на основе совокупности извлекаемых признаков.
Этапы интеллектуального анализа текстов
Процесс анализа эмоционального состояния автора включает несколько этапов. На первом этапе осуществляется сбор текстовых данных с учетом этических требований и ограничений, связанных с обработкой персональной информации. Далее выполняется предварительная обработка текстов, направленная на снижение уровня шума и унификацию представления данных. Предварительная обработка, как правило, включает токенизацию, удаление стоп-слов, лемматизацию и очистку текста от служебных символов [8]. Указанные процедуры позволяют повысить качество последующего анализа и устойчивость моделей классификации.
Таблица 1.
Влияние этапов предварительной обработки текста
|
Этап |
Назначение |
Влияние |
|
Токенизация |
Разделение текста на токены |
Существенное |
|
Удаление стоп-слов |
Снижение шумов |
Среднее |
|
Лемматизация |
Обобщение словоформ |
Существенное |
|
Очистка текста |
Устранение артефактов |
Умеренное |
Лексикон-ориентированные методы анализа
Лексикон-ориентированные методы основаны на использовании специализированных словарей эмоционально окрашенной лексики, в которых каждому слову сопоставляется определенная эмоциональная оценка [4]. Итоговое эмоциональное состояние текста определяется путем агрегирования оценок всех слов, входящих в сообщение. К основным преимуществам данного подхода относятся простота реализации и высокая интерпретируемость результатов. Вместе с тем лексикон-ориентированные методы демонстрируют ограниченную устойчивость к контекстным особенностям языка, иронии и многозначности слов.
Методы машинного обучения
Методы машинного обучения предполагают обучение классификационных моделей на размеченных корпусах текстов. В качестве признаков могут использоваться частотные характеристики слов, n-граммы, а также векторные представления текстов [5]. Данные методы позволяют выявлять статистические зависимости между текстовыми признаками и эмоциональными состояниями, обеспечивая более высокую точность по сравнению с лексикон-ориентированными подходами. Однако качество результатов существенно зависит от объема и репрезентативности обучающей выборки.
Нейросетевые методы анализа
Нейросетевые модели глубокого обучения обеспечивают учет контекстной информации и порядка слов в тексте. Использование рекуррентных и трансформерных архитектур позволяет моделировать сложные зависимости между элементами текста и повышать точность определения эмоционального состояния [6]. К недостаткам нейросетевых методов относятся высокая вычислительная сложность и ограниченная интерпретируемость получаемых результатов, что может затруднять их применение в задачах, требующих объяснимости моделей.
Таблица 2.
Сравнительная характеристика методов анализа
|
Метод |
Учет контекста |
Интерпретируемость |
Точность |
|
Лексикон-ориентированный |
Низкий |
Высокая |
Средняя |
|
Машинное обучение |
Средний |
Средняя |
Выше средней |
|
Нейросетевой |
Высокий |
Низкая |
Высокая |
Оценка качества моделей
Для оценки эффективности методов анализа эмоционального состояния применяются стандартные метрики классификации, включая accuracy, precision, recall и F1-меру. Использование нескольких метрик позволяет получить более полное представление о качестве работы моделей и корректно сравнивать различные подходы между собой.
Таблица 3.
Пример значений метрик качества
|
Метод |
Accuracy |
F1-score |
|
Лексикон-ориентированный |
0,68 |
0,65 |
|
Машинное обучение |
0,78 |
0,76 |
|
Нейросетевой |
0,85 |
0,83 |
Для визуального анализа результатов применяются гистограммы распределения эмоциональных состояний и диаграммы сравнения точности различных методов.
Заключение
В работе рассмотрены основные методы интеллектуального анализа текстов, применяемые для определения эмоционального состояния автора. Показано, что лексикон-ориентированные, машинные и нейросетевые подходы обладают различными характеристиками и областями применения. Выбор конкретного метода определяется требованиями к точности, интерпретируемости и вычислительным ресурсам. Перспективы дальнейших исследований связаны с интеграцией лингвистических и психологических моделей, а также с разработкой гибридных подходов, сочетающих интерпретируемость традиционных методов и высокую точность нейросетевых моделей.
Список литературы:
- Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval / Cambridge University Press, 2008. – 482 p. – ISBN: 9780521865715.
- Jurafsky D., Martin J. H. Speech and Language Processing / 2nd ed. – Upper Saddle River, NJ: Pearson Education, 2015. – 1024 p. – ISBN: 9780133252934.
- Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. – Vol. 2, No. 1–2, 2008. – P. 1–135. – DOI: 10.1561/1500000011.
- Liu B. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions / Cambridge University Press, 2015. – 381 p. – ISBN: 9781107017894
- Goldberg Y. Neural Network Methods for Natural Language Processing / Morgan & Claypool Publishers, 2017. – 309 p. – DOI: 10.2200/S00762ED1V01Y201703HLT037.
- Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL, 2019.
- Shanahan J. G., Qu Y., Wiebe J. Computing Attitude and Affect in Text: Theory and Applications / Eds. – Springer Dordrecht, 2006. – 341 p. – DOI: 10.1007/1-4020-4102-
- Цехановский В. В., Чертовской В. Д. Интеллектуальный анализ данных: учебное пособие / СПбГЭТУ «ЛЭТИ» им. В. И. Ульянова (Ленина). – Санкт-Петербург : Изд-во СПбГЭТУ «ЛЭТИ», 2019. – 55 с. – ISBN: 978-5-7629-2421-4.