ПРИМЕНЕНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ (LLM) ДЛЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ И ИНДЕКСАЦИИ НЕСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ

APPLICATION OF LARGE LANGUAGE MODELS (LLM) FOR AUTOMATIC CLASSIFICATION AND INDEXING OF UNSTRUCTURED DOCUMENTS

Тлегенов Р.Н.

28.05.2026 213

5(146)

10. Информатика, вычислительная техника и управление

Цитировать:

Тлегенов Р.Н. ПРИМЕНЕНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ (LLM) ДЛЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ И ИНДЕКСАЦИИ НЕСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ // Universum: технические науки : электрон. научн. журн. 2026. 5(146). URL: https://7universum.com/ru/tech/archive/item/22660 (дата обращения: 28.07.2026).

Прочитать статью:

DOI - 10.32743/UniTech.2026.146.5.22660

Статья поступила в редакцию: 23.04.2026

Принята к публикации: 26.04.2026

Опубликована: 28.05.2026

УДК 004.89:004.934

АННОТАЦИЯ

Стремительный рост объёмов корпоративной документации делает задачу автоматизированной обработки неструктурированных текстов одной из ключевых в современной информатике. Настоящая статья посвящена теоретическому анализу подходов к применению больших языковых моделей (LLM) для автоматической классификации и индексации неструктурированных корпоративных документов. В работе обоснована актуальность проблемы, сформулированы цель и задачи исследования. В качестве материалов и методов рассматриваются архитектура трансформера и механизм самовнимания как фундамент современных LLM, а также проводится сравнительный анализ шести ведущих языковых моделей: BERT, RoBERTa, GPT-3/4, T5, LayoutLM v2 и Llama 3. Исследованы четыре метода адаптации моделей к прикладным задачам: полное дообучение (fine-tuning), параметрически-эффективная настройка (LoRA), prompt engineering и архитектура RAG. В разделе результатов и обсуждения определены условия оптимального применения каждого подхода, а также выявлены ключевые практические ограничения: высокая вычислительная стоимость, риск галлюцинаций, ограничение контекстного окна и языковая асимметрия моделей.

ABSTRACT

The rapid growth of corporate documentation volumes makes the task of automated processing of unstructured texts one of the key challenges in modern computer science. This article presents a theoretical analysis of approaches to applying large language models (LLM) for automatic classification and indexing of unstructured corporate documents. The relevance of the problem is substantiated, and the research goal and objectives are formulated. As materials and methods, the transformer architecture and self-attention mechanism are examined as the foundation of modern LLM, and a comparative analysis of six leading models is conducted: BERT, RoBERTa, GPT-3/4, T5, LayoutLM v2, and Llama 3. Four adaptation methods are investigated: full fine-tuning, parameter-efficient tuning (LoRA), prompt engineering, and RAG architecture. The results and discussion section identifies optimal application conditions for each approach and outlines key practical constraints: high computational cost, hallucination risk, context window limitations, and language asymmetry.

Ключевые слова: большие языковые модели, LLM, классификация документов, индексация, трансформер, BERT, GPT, обработка естественного языка, неструктурированные данные, LoRA, RAG.

Keywords: large language models, LLM, document classification, indexing, transformer, BERT, GPT, natural language processing, unstructured data, LoRA, RAG.

Введение

Объём корпоративной документации давно перешёл черту, при которой ручная обработка остаётся экономически обоснованной: по оценкам IDC, сотрудники умственного труда тратят около 2,5 часов рабочего дня только на поиск нужных документов [1]. Особую сложность представляют неструктурированные тексты — договоры, акты, служебные записки, технические задания, — смысл которых рассредоточен по абзацам произвольного текста без унифицированной разметки [3]. По различным оценкам, такой контент составляет 80–90% корпоративной информации, при этом системы учёта знают о существовании документа, но не понимают его содержания. Автоматизированная обработка документов распадается на две задачи: классификация — отнесение к категории («договор», «акт») — и индексация — извлечение ключевых сущностей (дат, сумм, сторон, сроков) для формирования метаданных [4, с. 98]. Большие языковые модели (LLM), обученные на терабайтах текстовых данных, способны улавливать семантические связи и извлекать структурированную информацию из произвольного текста [2, с. 11].

Цель исследования — систематизировать подходы к применению LLM для классификации и индексации неструктурированных корпоративных документов. Задачи: (1) рассмотреть архитектурные основы LLM; (2) провести сравнительный анализ ведущих моделей; (3) охарактеризовать методы адаптации; (4) определить ключевые практические ограничения.

Материалы и методы

Теоретическую базу составляют публикации в рецензируемых международных изданиях за 2017–2024 гг. по архитектуре трансформерных моделей, методам их предобучения, адаптации и применения к задачам документооборота. Методология включает системный анализ и сравнение архитектурных решений, методов обучения и практических характеристик LLM.

Архитектурной основой всех рассматриваемых моделей служит трансформер Vaswani et al. (2017) [5]. Его ключевое нововведение — механизм самовнимания (self-attention): каждый токен одновременно обращается ко всем остальным и получает взвешенный агрегат их представлений, устанавливая прямые связи между элементами, разделёнными сотнями слов. Многоголовое внимание параллельно фиксирует синтаксические, семантические и кореферентные зависимости; позиционное кодирование вносит информацию о порядке токенов [6, с. 219]. В отличие от рекуррентных сетей (LSTM, GRU), трансформер не теряет контекст начала документа к моменту обработки его конца.

Для сравнительного анализа отобраны шесть моделей. BERT (Google, 2018) — двунаправленный энкодер; для классификации добавляется линейный слой [6, с. 224]. RoBERTa (Facebook AI, 2019) (принадлежит Meta, признана экстремистской и запрещенной в России)

— оптимизированная версия BERT с более высоким качеством на бенчмарках [7]. GPT-3/4 (OpenAI, 2020/2023) — авторегрессионные модели с zero-shot классификацией по промпту [8, с. 5]. T5 (Google, 2020) — единый формат «текст — текст» для любых NLP-задач [9]. LayoutLM v2 (Microsoft, 2021) — учитывает координаты блоков на странице, незаменима для сканов и форм [10]. Llama 3 (Meta, 2024) — открытая модель для локального развёртывания [11]. Исследованы четыре метода адаптации: полное дообучение (fine-tuning) [12, с. 54], LoRA [12, с. 62], prompt engineering [8, с. 14] и RAG [13].

Таблица 1.

Сравнительная характеристика языковых моделей для задач обработки документов

Модель	Год / компания	Архитектура	Преимущества	Ограничения
BERT	2018, Google	Двунаправленный энкодер	Высокая точность классификации при наличии разметки	Нет генерации; нужна разметка
RoBERTa	2019, Facebook AI (принадлежит Meta, признана экстремистской и запрещенной в России)	Улучшенный энкодер	Превосходит BERT на большинстве бенчмарков	Аналогичная BERT стоимость
GPT-3/4	2020/2023, OpenAI	Авторегрессионный декодер	Zero-shot и few-shot без разметки	Закрытый API; высокая стоимость
T5	2020, Google	Энкодер-декодер	Единый text-to-text; мультизадачные конвейеры	Большой объём памяти
LayoutLM v2	2021, Microsoft	Текст + координаты	Формы, таблицы, сканы; учитывает визуальную структуру	Требует координаты разметки
Llama 3	2024, Meta	Открытый декодер	Локальное развёртывание без передачи данных	Требует GPU; хуже в zero-shot

Результаты и обсуждение

При наличии размеченного корпуса энкодерные модели BERT и RoBERTa обеспечивают наивысшую точность классификации — их двунаправленная архитектура учитывает полный контекст документа. В сценариях без разметки GPT-3/4 демонстрирует способность к классификации по промпту; LayoutLM v2 незаменима для отсканированных документов с визуальной структурой; RAG показывает наибольшую эффективность при поиске по крупным архивам, обеспечивая верифицируемые ответы со ссылкой на источник. LoRA обеспечивает практически применимый компромисс между качеством и стоимостью адаптации для большинства корпоративных задач.

Вместе с тем практическое внедрение LLM сопряжено с четырьмя системными ограничениями. Вычислительная стоимость: инференс крупных моделей требует GPU с 24+ ГБ видеопамяти, что означает зависимость от облачных провайдеров и риски конфиденциальности [11]; квантизация и дистилляция частично снимают этот барьер. Галлюцинации: модель может уверенно извлечь несуществующие дату или сумму [14, с. 9] — при работе с юридически значимыми документами обязателен механизм верификации. Ограничение контекстного окна (4–128 тыс. токенов) затрудняет обработку объёмных документов без стратегий сегментации [2, с. 38]. Языковая асимметрия: ведущие LLM обучены преимущественно на англоязычных данных, что снижает точность для русско- и казахскоязычного документооборота; мультиязычные mBERT и XLM-RoBERTa частично компенсируют этот разрыв [15].

Заключение

Большие языковые модели представляют качественный сдвиг в обработке неструктурированных документов: в отличие от статистических методов, они работают со смыслом текста, что определяет их превосходство на задачах, где контекст является решающим фактором. Выбор модели и метода адаптации определяется соотношением точности, ресурсов, объёма разметки и требований к конфиденциальности: BERT и RoBERTa оптимальны при наличии разметки; GPT и Llama — при её отсутствии; LayoutLM v2 незаменима для визуально сложных документов; RAG предпочтителен для больших архивов. Открытыми остаются задачи снижения стоимости инференса, обеспечения верифицируемости результатов и разработки высококачественных мультиязычных моделей для русско- и казахскоязычного документооборота — перспективные направления для дальнейших прикладных исследований.

Список литературы:

IDC White Paper. The high cost of not finding information / [Электронный ресурс]. — Режим доступа: URL: https://www.idc.com/getdoc.jsp?containerId=us46388119 (дата обращения: 05.04.2025).
Tunstall L., Werra L., Wolf T. Natural Language Processing with Transformers. — O'Reilly Media, 2022. — 406 с.
Неструктурированные данные и их роль в цифровой трансформации / [Электронный ресурс]. — Режим доступа: URL: https://www.ibm.com/topics/unstructured-data (дата обращения: 10.03.2025).
Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — 544 с.
Vaswani A., Shazeer N., Parmar N. [и др.] Attention is all you need // Advances in Neural Information Processing Systems. — 2017. — Vol. 30. — P. 5998—6008.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of NAACL-HLT. — 2019. — P. 4171—4186.
Liu Y., Ott M., Goyal N. [и др.] RoBERTa: A robustly optimized BERT pretraining approach / [Электронный ресурс]. — Режим доступа: URL: https://arxiv.org/abs/1907.11692 (дата обращения: 12.03.2025).
Brown T., Mann B., Ryder N. [и др.] Language models are few-shot learners // Advances in Neural Information Processing Systems. — 2020. — Vol. 33. — P. 1877—1901.
Raffel C., Shazeer N., Roberts A. [и др.] Exploring the limits of transfer learning with a unified text-to-text transformer // Journal of Machine Learning Research. — 2020. — Vol. 21. — № 140. — P. 1—67.
Xu Y., Xu Y., Lv T. [и др.] LayoutLMv2: Multi-modal pre-training for visually-rich document understanding // Proceedings of ACL-IJCNLP. — 2021. — P. 2579—2591.
Touvron H., Martin L., Stone K. [и др.] Llama 2: Open foundation and fine-tuned chat models / [Электронный ресурс]. — Режим доступа: URL: https://arxiv.org/abs/2307.09288 (дата обращения: 15.03.2025).
Hu E.J., Shen Y., Wallis P. [и др.] LoRA: Low-rank adaptation of large language models // ICLR 2022: International Conference on Learning Representations. — 2022. — P. 43—61.
Lewis P., Perez E., Piktus A. [и др.] Retrieval-augmented generation for knowledge-intensive NLP tasks // Advances in Neural Information Processing Systems. — 2020. — Vol. 33. — P. 9459—9474.
Ji Z., Lee N., Frieske R. [и др.] Survey of hallucination in natural language generation // ACM Computing Surveys. — 2023. — Vol. 55. — № 12. — P. 1—38.
Conneau A., Khandelwal K., Goyal N. [и др.] Unsupervised cross-lingual representation learning at scale // Proceedings of ACL. — 2020. — P. 8440—8451.
Chalkidis I., Fergadiotis M., Malakasiotis P. [и др.] LEGAL-BERT: The muppets straight out of law school // Findings of EMNLP. — 2020. — P. 2898—2904.
Wang L., Ma C., Feng X. [и др.] A survey on large language model based autonomous agents // Frontiers of Computer Science. — 2024. — Vol. 18. — № 6.

Информация об авторах

Тлегенов Ринат Нурланович

магистрант, институт цифровой экономики и устойчивого развития, Западно-Казахстанский аграрно-технический университет им. Жангир хана, Казахстан, г. Уральск

Tlegenov Rinat Nurlanovich

Master’s student, Institute for the digital economy and sustainable development, Zhangir Khan West Kazakhstan agrarian and technical university, Kazakhstan, Oral