канд. социол. наук, магистрант, Институт радиоэлектроники и информационных технологий — РТФ, Уральский федеральный университет, РФ, г. Екатеринбург
ГЕНЕРАТИВНЫЕ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ В РЕШЕНИИ ЗАДАЧИ РЕЗЮМИРОВАНИЯ ПОЛЬЗОВАТЕЛЬСКИХ ОТЗЫВОВ НА ЦИФРОВЫХ ПЛАТФОРМАХ: ПЕРСПЕКТИВЫ И ВОЗМОЖНЫЕ ОГРАНИЧЕНИЯ
АННОТАЦИЯ
Определена практическая значимость автоматического резюмирования пользовательских отзывов на цифровых платформах. Выделены преимущества и недостатки ряда методов автоматического реферирования текста в контексте эволюции компьютерных наук в 1950-х – 2020-х гг. На основе анализа актуальной публично доступной исследовательской информации, трендов трансформации ландшафта ИИ-технологий, а также собственного опыта практической деятельности раскрыты перспективы использования генеративных больших языковых моделей (БЯМ) в решении задач резюмирования пользовательских отзывов. Представлено обсуждение лимитирующих факторов и условий распространения применения таких технологий.
ABSTRACT
This article highlights the practical importance of automatic user reviews summarization on digital platforms. Strong and weak points of various automatic text summarization techniques are being discussed in the context of computer science evolution from 1950s to 2020s. Publicly available studies, key trends in AI landscape and author’s practical experience are built upon to outline future perspectives in employing generative large language models in solving the task of automatic creation of user reviews. The article also discusses possible limitations and conditions for the dissemination of such technological approaches.
Ключевые слова: обработка естественного языка, большие языковые модели, автоматическое реферирование текста, пользовательские отзывы.
Keywords: natural language processing, large language models, automatic text summarization, user reviews.
Введение
Электронные платформы продажи физических и цифровых товаров стали важной частью национальных экономик и потребительского поведения в развитых и развивающихся странах. Уже к 2012 году объём глобального рынка онлайн-торговли превысил 1 трлн долларов США, а к 2023 году он увеличился в пять раз [1]. Дальнейшее развитие данной сферы предпринимательской деятельности предполагает не просто количественный рост пользователей таких платформ, но и улучшение показателей вовлечённости (англ. user engagement). Возможность оставить отзыв онлайн – фактор улучшения бизнес-метрик как для цифровых сервисов [2], так и для традиционных физических коммерческих локаций [3].
На электронных ресурсах отзывы часто привязаны к базовой бизнес-сущности – конкретный товар, продавец, место оказания услуг и т.д. В рамках графического интерфейса это выражается, как правило, в наличии специального раздела для просмотра всех отзывов по текущему объекту пользовательского интереса (рис. 1).
/Khitrin.files/image002.png)
Рисунок 1. Примеры интерфейсов доступа к перечню отзывов по конкретному товару (Amazon и Ozon)
C точки зрения пользовательского опыта возникает проблема восприятия и обработки информации, находящейся во всём множестве отзывов по конкретному объекту. Представленные на рис. 1 примеры карточек товаров, содержащих в одном случае 16 тыс. отзывов, а в другом – почти 2 тыс. отзывов, конечно, соотнесены с очень популярными торговыми наименованиями, но проблема «усталости от выбора» (англ. choice fatigue) как частный случай «усталости от принятия решения» (англ. decision fatigue) возникает и в более распространённых сценариях потребительского поведения. Как показывают исследования [4], потребители в силу естественных психологических механизмов прибегают к «срезанию углов» (англ. decision-making shortcuts) для оптимизации процесса.
Для пользовательского взаимодействия с отзывами о продукте таким фасилитирующим моментом становится функционал обобщения массива отзывов, автоматического реферирования, выделения ключевых повторяющихся и важных моментов – т.е. их резюмирования. На рис. 2 можно видеть то, как в контексте представленного выше примера были автоматически обобщены 16 тыс. отзывов.
/Khitrin.files/image003.png)
Рисунок 2. Пример резюмирования отзывов о книге на площадке Amazon
Таким образом, практическая значимость рассматриваемой тематики обусловлена реальной бизнес-потребностью (актуальной ещё и в той мере, в какой в российских сервисах подобный функционал пока ещё распространён на гораздо меньшем уровне, чем это характеризует зарубежные площадки).
Цель данного исследования – очертить контуры перспектив, связанных с использованием генеративных больших языковых моделей (англ. Generative Large Language Models – GenLLM) в решении задачи резюмирования пользовательских отзывов, публикуемых на цифровых платформах.
Резюмирование текста как проблема компьютерных наук: преимущества и недостатки подходов, предшествовавших GenLLM
Автоматическое реферирование текстовой информации соотносится с целым множеством синонимичных понятий («резюмирование», «аннотирование», «обобщение», «суммаризация»), но в целом определяется единоаспектно как процесс создания краткого и содержательного изложения ключевых идей исходного текста [5]. Подобная проблематика является не новой для информатики как науки и сферы практической деятельности: ранние публикации, посвящённые прикладной реализации таких методов с использованием доступных на тот момент вычислительных машин, появились уже в 1950-е гг. [6].
Не претендуя на исчерпывающий анализ эволюции подходов к решению задачи автоматического реферирования текстов, тем не менее, мы бы хотели представить эскиз данной траектории (табл. 1), что будет полезным для понимания ландшафта, в котором возникают методы на основе применения генеративных больших языковых моделей.
Таблица 1.
Обзор развития методов автоматического реферирования текста
|
Период |
Методы и модели |
Особенности метода |
Достоинства |
Недостатки |
|
1950-е гг. |
Частота слов [6] |
Важность предложения определяется статистической частотой не-стоп-слов. |
Простота реализации, ранняя демонстрация автоматической суммаризации текста. |
Отсутствие нюансов, недостаточная точность, реализуется вне комплексного лингвистического понимания. |
|
1960-е гг. |
Мультипризнаковый подход [7] |
Важность предложения определяется комбинацией признаков: ключевые слова, слова заголовков, положение предложения и частота слов. |
Более нюансированный, чем просто частота слов, включает прагматические и структурные подсказки. |
По-прежнему отсутствует глубокое семантическое понимание, зависимость от предопределённых словарей. |
|
1980-е гг. |
Схематические сценарии (FRUMP) [8] |
Использует специфические для домена шаблоны для извлечения и суммаризации ключевой информации из текстов. |
Может генерировать абстрактивные рефераты, использует знания предметной области. |
Часто требуется ручное создание сценариев для каждого домена, ограниченная обобщаемость. |
|
1980-е гг. |
SUSY [9] |
Опирается на закодированные вручную знания предметной области и основанную на правилах оценку важности для генерации саммари. |
Может генерировать абстрактивные саммари, включает знания и цели пользователя. |
Требует значительного ручного сбора знаний, специфичен для домена. |
|
1990-е - 2000-е гг. |
TF-IDF [10] |
Использует частоту тёрмов (англ. terms) и обратную частоту документа для взвешивания слов и определения важных предложений для извлечения. |
Простота и эффективность для определения значимых терминов. |
Не учитывает семантические связи и контекст. |
|
1990-е - 2000-е гг. |
LSA (латентно-семантический анализ) [11] |
Использует сингулярное разложение для выявления скрытых семантических тем и выбора релевантных предложений. |
Может улавливать определённые семантические связи, в некоторой степени обрабатывает синонимию. |
Вычислительно затратен, результаты могут быть трудны для интерпретации. |
|
2000-е гг. |
TextRank [12] |
Рассматривает предложения как узлы графа и использует алгоритм, подобный PageRank, для ранжирования важности предложений на основе сходства. |
Без учителя, не требует обучающих данных, может работать с любым языком. |
Отсутствует обнаружение семантического сходства, склонен к избыточности. |
|
2010-е - настоящее время гг. |
RNN/LSTM с механизмом внимания [13] |
Использует рекуррентные нейронные сети с механизмами внимания для генерации абстрактивных саммари путем изучения отображений последовательность-в-последовательность. |
Может генерировать беглые и абстрактивные саммари. |
Требует больших наборов обучающих данных, может быть вычислительно затратным. |
|
2010-е - настоящее время гг. |
BERT [14] |
В основном используется для извлечения саммари путем определения важных предложений на основе контекстного понимания. |
Достигает современного уровня производительности в извлечении саммари, сильное контекстное понимание. |
В основном экстрактивный, абстрактные возможности ограничены без дополнительной тонкой настройки. |
|
2010-е - настоящее время гг. |
BART [15] |
Предварительно обученная модель последовательность-в-последовательность, тонко настроенная для абстрактивного реферирования с помощью задачи удаления шума. |
Генерирует беглые и когерентные абстрактивные саммари, эффективна для различных задач NLP. |
Может иметь склонность к фактическим неточностям (галлюцинациям). |
|
2010-е - настоящее время гг. |
PEGASUS [16] |
Предварительно обученная модель, специально разработанная для абстрактивного реферирования, достигающая высокой производительности. |
Отлично подходит для абстрактивной саммаризации, генерирует краткие и релевантные рефераты текстов. |
Требует значительных вычислительных ресурсов для предварительного обучения и тонкой настройки. |
|
2020-е гг. |
Генеративные LLM (например, GPT) [17] |
Применение крупномасштабных языковых моделей с помощью инженерии подсказок для генерации качественных саммари, близких по качеству к написанных экспертами. |
Создает очень беглые и абстрактивные саммари, хорошее понимание контекста. |
Может иметь склонность к фактическим неточностям, требует тщательной разработки подсказок, вычислительно интенсивен. |
Многообразие представленных выше подходов свидетельствует, в частности, о том, что рассматриваемый тип теоретико-прикладных задач не терял своей исследовательской притягательности на протяжении всей второй половины XX в. и первой четверти XXI в. Появление новых концептов в лингвистике, психологии, статистике, теории информации – становилось базисом для кросс-дисциплинарных подходов, а технологическое совершенствование аппаратной базы позволяло апробировать исследовательские идеи на всё расширяющемся массиве более сложных и объёмных текстовых корпусов.
GenLLM в решении задач резюмирования пользовательских отзывов: перспективы в контексте текущих темпов развития ИИ-индустрии
По состоянию на текущий момент можно говорить о том, что сложился целый ряд факторов, который предопределяет интерес к генеративным большим языковым моделям в контексте автоматического реферирования текстов:
1. К настоящему моменту модели на основе архитектуры «Трансформер» (BERT, BART, T5, PEGASUS) уже показали себя как высокоэффективные в решении задач реферирования текста, что формирует естественный уровень исследовательского и практического интереса к применению и декодер-моделей в виде генеративных БЯМ.
2. GenLLM особенно хорошо демонстрируют себя при решении задач абстрактивной суммаризации (т.е. с порождением нового текста, реферирующего предыдущий по смыслу, но использующий лексику, которая необязательно встречалась в исходном тексте). Это способствует созданию более приятного и естественного для восприятия человеком текста.
3. Генеративные БЯМ обучены на огромном корпусе текстов из разных областей человеческой деятельности, что позволяет применять их для автоматического реферирования текстов из разнообразных предметных областей (доменов), в силу их способности улавливать комплексные лингвистические паттерны и понимать контекст. Такой уровень общей лингвистической «осознанности» GenLLM оказывается очень удобным тем, что в первом приближении отсутствует необходимости дополнительного обучения решения специфической задачи посредством составления большого массива эталонных соотнесений между входными и выходными данными. На примере решения задачи резюмирования пользовательских отзывов это проявляется в следующем: SOTA-модели способны к генерации высококачественных рефератов текстов без необходимости дополнительного обучения.
4. GenLLM демонстрируют способность как к экстрактивному, так и абстрактивному автоматическому реферированию, что позволяет использовать их в различных гибридных сценариях. Подобная гибкость является важным конкурентным фактором, особенно в рамках применения в организационной среде, требующей быстрого реагирования на изменения в рыночных условиях и ожиданиях потребителей.
5. При необходимости генеративные БЯМ могут быть дальнейшим образом адаптированы к решению специфической задачи автоматического реферирования (например, пользовательских отзывов) – посредством «тонкой настройки» (англ. fine-tuning), что является более вычислительно затратным методом, или RAG-механик.
6. Одно из многообещающих ключевых преимуществ использования GenLLM для автоматического реферирования пользовательских отзывов на цифровых платформах связано с тем, что генеративные БЯМ способны в целом производить такие резюме текстов, которые определяются в качестве предпочтительных в тесте человеческого восприятия (например, в сопоставлении с резюме, сгенерированными человеком, а также моделями BART и T5) [18].
Лимитирующие факторы и условия распространения применения GenLLM для решения бизнес-задачи резюмирования пользовательских отзывов
Вместе с тем, применение генеративных больших языковых моделей в решении задач резюмирования пользовательских отзывов сопряжено и с определёнными трудностями:
1. Сохраняется ограниченность контекстного окна для значительной части моделей. Для создания оптимального резюме десятков, сотен, а иногда и тысяч пользовательских отзывов модели необходимо иметь в своём контексте как можно большее их число. В первом («наивном») приближении это сопряжено с передачей как можно большего числа таких отзывов на вход модели, что лимитируется числом токенов, которые могут быть в активном контексте модели. Эта проблема особенно актуальна в том случае, если компания, которая хотела бы внедрить у себя инструменты резюмирования пользовательских отзывов с использованием GenLLM, хотела бы, чтобы весь цикл происходил в собственном контуре: большинство открытых моделей, доступных к загрузке и коммерческому использованию, имеют длину контекста, не превышающую 128 тыс. токенов, что в отношении русскоязычного текста функционально означает ещё меньший объём текста. Модели с бо́льшим размером контекстного окна (например, семейство Gemini от Google с контекстным окном в 1 млн токенов), как правило, доступны по API коммерческих сервисов, что актуализирует вопросы режима безопасности передаваемых данных, а также соотношения финансовых затрат и выгоды от внедряемого решения. С другой стороны, при использовании моделей с таким широким контекстным окном необходимо учитывать возможную деградацию в способности корректного доступа к деталям, размещённым в различных местах данного контекста (англ. in-context retrieval ability).
2. Значительное число доступных GenLLM моделей (до)обучалось в парадигме «краткий ввод – расширенный вывод» (англ. small input, large output), что означает целевую эффективность при решении задач, подразумевающих краткие входные инструкции от пользователя («напиши деловое письмо», «составь перечень ингредиентов для блюда» и т.д.) и пропорционально более длинный текстовый вывод. Такие модели в силу своей оптимизации менее пригодны для решения задач автоматического реферирования массива пользовательских отзывов, так как данная задача подразумевает инверсивное соотношение между объёмом входных и выходных данных (из большого суммарного объёма текстовой информации необходимо получить их краткую версию). По мере популяризации применения БЯМ в решении задач, соотнесённых с именно такой модальностью информационного обмена (например, в рамках выполнения роли ИИ-ассистента при рефакторинге объёмного базы исходного кода), данное ограничение постепенно становится менее критичным, поскольку исследовательские команды меняют подходы к обучению и оценке эффективности своих моделей.
3. Более значимый лимитирующий фактор связан с проблемой достоверности генерируемого резюме по массиву текстов (например, пользовательским отзывам). GenLLM имеют склонность «галлюцинировать», т.е. формулировать такие выходные тексты, которые являются фактологически некорректными. В рамках рассматриваемой прикладной задачи эта проблема имеет дополнительный аспект: при одновременной передаче значительного числа отзывов с инструкцией вывести резюме-итог, обобщающий пользовательское отношение к определённому товару, появляется риск того, что модель инкорпорирует в своей ответ аспекты (формулировки, пользовательские оценки), которые хотя и являются правдоподобными в контексте специфики данного товара, тем не менее отсутствуют в исходном массиве отзывов. Правдоподобность таких формулировок, ставших результатом «галлюцинации», значительным образом усложняет их детекцию и требует проектирования дополнительных процессов обеспечения фактологической истинности итогового резюме.
4. Указанные выше факторы предопределяют необходимость дальнейшей теоретико-прикладной проработки инструментария оценки качества автоматического реферирования текста, выполненного генеративной БЯМ. Важной оказывается оценка степени применимости как более традиционных метрик (ROUGE, BERTScore), так и более новых подходов, например, таких, которые используют БЯМ для автоматизированного поиска галлюцинаций и неточностей [19].
5. Актуальным остаётся вопрос вычислительной затратности применения генеративных больших языковых моделей для автоматического реферирования текста. Использование GenLLM, обученных для решения задач общего предназначения, проигрывает по скорости осуществления операций и объёму задействованных вычислительных ресурсов в сравнении с применением не-генеративных языковых моделей и других методов. Тем не менее, критичность данного фактора нивелируется, как минимум, двумя трендами: 1) повышение уровня конкуренции среди коммерческих сервисов, предоставляющих API для доступа к собственным проприетарным моделям, что постепенно снижает цену работы с ними; 2) продолжающийся прогресс в уровне качества решения задач открытыми моделями, развёртывание которых на собственной или арендованной вычислительной архитектуре вполне вписывается в бюджет даже малых компаний и стартапов.
Заключение
После анонса в 2022 г. модели GPT-3.5, выпущенной компанией OpenAI в рамках демонстрации возможностей взаимодействия человека с БЯМ в форме инструкций и последовательной обратной связи, генеративные БЯМ очень быстро стали одной из самых актуальных тематик в сфере ИТ (как в академической среде, так и индустрии) и сохраняют данный статус и по сей день. Так, поиск по arXiv.org (популярному сервису открытого доступа к STEM-статьям и препринтам) показывает, что в разделе «Computer Science» в 2022-2025 гг. были выложены свыше 8 тыс. публикаций, в метаданных и тексте которых встречается термин «GPT», а в 2025 г. (на текущий момент) – уже более 1 700 публикаций. Ярко выраженным является и интерес со стороны конечных потребителей: например, сервис ChatGPT от OpenAI в феврале 2025 достиг показателя в 400 млн недельных активных пользователей [20].
Однако GenLLM находят своё применение не только в роли ИИ-ассистентов для частных пользователей, но и как центральная составляющая прикладных систем решения разнообразных бизнес-задач. Именно по этой причине в рамках настоящей статьи нами была предпринята попытка очерчивания перспектив и границ применимости генеративных БЯМ в решении задачи автоматического реферирования (резюмирования) пользовательских отзывов на цифровых платформах.
Список литературы:
- Шкуренко О. От 12 долларов до 8 триллионов: краткая история e-commerce [Электронный ресурс] // Новостное издательство «Коммерсант». URL: https://www.kommersant.ru/doc/6878441 (дата обращения: 10.04.2025).
- Thakur R. Customer engagement and online reviews // Journal of Retailing and Consumer Services. 2018. Т. 41. C. 48-59.
- Mathwick C., Mosteller J. Online Reviewer Engagement: A Typology Based on Reviewer Motivations // Journal of Service Research. 2017. № 2 (20). C. 204-218.
- Wang Y., Mo D.Y., Ho G.T.S. How Choice Fatigue Affects Consumer Decision Making in Online Shopping // В сб. «2023 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM)». Сингапур, 2023. С. 128-132.
- Сорокина С.Г. Интеллектуальная обработка текстовой информации: обзор автоматизированных методов суммаризации // Виртуальная коммуникация и социальные сети. 2024. Т. 3. № 3 (11). С. 203-222.
- Luhn H.P. The Automatic Creation of Literature Abstracts // IBM J. Res. & Dev. 1958. Т. 2. № 2. С. 159-165.
- Edmundson H.P. New Methods in Automatic Extracting // J. ACM. 1969. Т. 16. № 2. С. 264-285.
- DeJong G. Prediction and Substantiation: A New Approach to Natural Language Processing // Cognitive Science. 1979. Т. 3. № 3. С. 251-273.
- Fum D., Guida G., Tasso C. Evaluating Importance: A Step Towards Text Summarization // Proceedings of the Ninth International Joint Conference on Artificial Intelligence. Т. 2. 1985. С. 840-844.
- Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. 1988. Т. 24. № 5. С. 513-523.
- Landauer T.K., Foltz P.W., Laham D. An Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Т. 25. № 2-3. С. 259-284.
- Mihalcea R., Tarau P. TextRank: Bringing Order into Text // В сб. «A meeting of SIGDAT, a Special Interest Group of the ACL held in conjunction with ACL 2004». Барселона: Association for Computational Linguistics, 2004. С. 404-411.
- Chen J., Zhuge H. Abstractive Text-Image Summarization Using Multi-Modal Attentional Hierarchical RNN // В сб. «Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing». Брюссель: Association for Computational Linguistics, 2018. С. 4046-4056.
- Devlin J. и др. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // В сб. «Proceedings of the 2019 conference of the North American chapter of the Association for Computational Linguistics: Human Language Technologies». 2019. Т 1. С. 4171-4186.
- Lewis M. и др. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension [Электронный ресурс] // arXiv.org. 2019. URL: https://arxiv.org/pdf/1910.13461 (дата обращения: 10.04.2025).
- Zhang J. и др. PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization [Электронный ресурс] // arXiv.org. 2019. URL: https://arxiv.org/pdf/1912.08777 (дата обращения: 10.04.2025).
- Nikolich A., Puchkova, A. Fine-tuning GPT-3 for Russian Text Summarization [Электронный ресурс] // arXiv.org. 2021. URL: https://arxiv.org/pdf/2108.03502 (дата обращения: 10.04.2025).
- Pu X., Gao M., Wan X. Summarization is (Almost) Dead [Электронный ресурс] // arXiv.org. 2023. URL: https://arxiv.org/pdf/2309.09558 (дата обращения: 10.04.2025).
- A Step-By-Step Guide to Evaluating an LLM Text Summarization Task [Электронный ресурс] // Confident AI. URL: https://www.confident-ai.com/blog/a-step-by-step-guide-to-evaluating-an-llm-text-summarization-task (дата обращения: 10.04.2025).
- OpenAI COO says ChatGPT recently crossed 400M WAU [Электронный ресурс] // Новостное издательство «BUSINESS INSIDER». URL: https://markets.businessinsider.com/news/stocks/openai-coo-says-chatgpt-recently-crossed-400m-wau-1034391008 (дата обращения: 10.04.2025).