ПРИМЕНЕНИЕ И СРАВНЕНИЕ МАЛЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ

APPLICATION AND COMPARISON OF SMALL LANGUAGE MODELS

Фурман С.И.

28.12.2025 157

12(141)

10. Информатика, вычислительная техника и управление

Цитировать:

Фурман С.И. ПРИМЕНЕНИЕ И СРАВНЕНИЕ МАЛЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ // Universum: технические науки : электрон. научн. журн. 2025. 12(141). URL: https://7universum.com/ru/tech/archive/item/21493 (дата обращения: 09.03.2026).

Прочитать статью:

DOI - 10.32743/UniTech.2025.141.12.21493

АННОТАЦИЯ

Малые языковые модели (SLM) представляют собой компактный класс трансформерных архитектур, предназначенных для работы в условиях ограниченных вычислительных ресурсов. Цель работы состоит в анализе особенностей архитектуры SLM, сравнении их с большими языковыми моделями (LLM), а также рассмотрении возможностей локального развертывания и адаптации под инженерные и технические задачи. В работе кратко описаны трансформерная архитектура, механизм самовнимания и функция обучения. Рассмотрены преимущества SLM по вычислительным требованиям, возможностям дообучения и применению в корпоративных сценариях. Представлены результаты анализа применимости SLM в узкоспециализированных доменах и сформулирован вывод о перспективности их использования в задачах с жёсткими ограничениями по ресурсам, приватности и стоимости.

ABSTRACT

Small Language Models (SLM) represent a compact class of transformer-based architectures designed for environments with limited computational resources. The aim of this work is to analyze the architectural features of SLM, compare them with Large Language Models (LLM), and evaluate their suitability for local deployment and domain-specific fine-tuning in engineering and technical tasks. The paper briefly describes the transformer architecture, self-attention mechanism, and training objective. It reviews the advantages of SLM in terms of computational efficiency, fine-tuning flexibility, and applicability in enterprise environments. The results demonstrate that SLM can achieve competitive or superior performance in specialized domains while maintaining low resource requirements and ensuring data privacy.

Ключевые слова: SLM, LLM, трансформер, самовнимание, дообучение, локальное развёртывание, искусственный интеллект

Keywords: SLM, LLM, transformer, self-attention, fine-tuning, local deployment, artificial intelligence

Введение

Трансформерная архитектура существенно изменила подходы к обработке естественного языка, генерации кода и мультимодальным задачам. Большие языковые модели (LLM), содержащие десятки и сотни миллиардов параметров, демонстрируют высокую обобщающую способность, однако требуют значительных ресурсов.

Цель исследования

Целью данного исследования является анализ архитектуры, свойства и области применения малых языковых моделей (SLM), а также оценить их эффективность в инженерных и технических задачах.

Задачи исследования включают:

Описание архитектуры SLM на основе трансформера.
Сравнение SLM и LLM по ресурсам и качеству.
Анализ возможностей локального развертывания.
Описание подходов к дообучению SLM на специализированных данных.

Материалы и методы

1. Определение малой языковой модели

В индустрии отсутствует жёсткая граница между SLM и LLM и используется условная классификация [2]:

SLM: 0.5–10 млрд параметров
LLM: 10–100 млрд параметров
XL-модели: >100 млрд параметров

В статье используется диапазон 1–8 млрд параметров, характерный для современных SLM.

2. Архитектура малой модели

Архитектура малой языковой модели (SLM) базируется на авторегрессионном трансформере, являющемся уменьшенным по масштабу, но концептуально идентичным вариантом архитектур, используемых в современных больших языковых моделях (LLM). Ключевая идея состоит в том, чтобы сохранить основные принципы работы трансформера - слои самовнимания, позиционное кодирование, нормализацию и полносвязные блоки - при значительном снижении числа параметров, глубины модели и размерности скрытого представления. Это позволяет обеспечить эффективную работу на оборудовании с ограниченными ресурсами при приемлемом уровне качества в специализированных доменах [5].

3. Обработка входных последовательностей

Входом трансформерной модели является последовательность токенов

(1)

Преобразуется в эмбеддинги

(2)

Позиционные эмбеддинги добавляются

(3)

4. Механизм самовнимания

Механизм самовнимания - центральный компонент трансформера. Для входной матрицы вычисляются матрицы запросов, ключей и значений:

, , (4)

Матрица внимания:

(5)

В авторегрессионных моделях используется маска, запрещающая учитывать будущие токены и обеспечивающая корректную последовательную генерацию:

(6)

5. Многоголовое внимание

Контексты всех голов конкатенируются:

(7)

(8)

Количество голов внимания () в SLM обычно уменьшено по сравнению с LLM, что снижает вычислительную сложность, но сохраняет способность улавливать разные типы контекстных зависимостей [3].

6. Полносвязная сеть (FFN)

Каждый слой самовнимания дополняется двухслойной полносвязной сетью вида:

, (9)

где - нелинейная функция активации (GELU, ReLU). Размер скрытого слоя в SLM обычно составляет 2–4× от размерности модели, что меньше, чем в LLM (4–8×), но достаточно для поддержания обучающей способности.

7. Остаточные связи и нормализация

Каждый блок трансформера включает две остаточные связи и слой нормализации:

, , (10)

В малых моделях часто применяют Pre-LN архитектуру, где LayerNorm ставится перед вычислительными блоками, что улучшает стабильность обучения на небольших размерах моделей [1].

8. Выходной слой

Последний скрытый слой проецируется в пространство словаря:

, (11)

после чего применяется softmax для получения распределения вероятностей по токенам:

(12)

Результаты и обсуждение

1. Сравнение SLM и LLM

Таблица 1.

Сравнение характеристик малой языковой модели с большой

Характеристика	SLM (3–8B)	LLM (30–70B)
Требования к GPU	6–16 ГБ	40–80+ ГБ
Стоимость инференса	Низкая	Высокая
Возможность локального развертывания	Да	Сложно
Дообучение	На 1–2 GPU	Требует кластера
Качество в универсальных задачах	Ниже	Выше
Качество в узких доменах	Часто сопоставимо или выще	Высокое

Основной вывод: SLM значительно экономичнее, а после дообучения на корпоративных данных могут превосходить LLM в технических задачах [4].

2. Локальное развертывание

SLM позволяют полностью избежать облачных API, что, важно для:

приватности,
требований информационной безопасности,
работы с чувствительными техническими данными.

Стек развертывания: Linux, Docker/Kubernetes, PyTorch, библиотеки для квантизации.

3. Дообучение малых моделей

Адаптация малых языковых моделей к специфике инженерных или корпоративных задач осуществляется за счёт обучения на внутренних данных организации. В качестве таких источников обычно выступают:

эксплуатационные руководства и пользовательская документация;
отраслевые стандарты, регламенты и технические спецификации;
рабочие тикеты, отчёты о тестировании и инцидентах;
фрагменты исходного кода и комментарии разработчиков;

Для настройки модели могут применяться различные методологические подходы:

Полное дообучение (Full fine-tuning) - обновление всех весов модели для максимальной адаптации;
Параметрически-эффективные методы (PEFT, например, LoRA) - обучение только небольшой добавки к весам без изменения основной модели;
Инструкционное обучение - обучение модели следовать определённым шаблонам, формату ответов и специфическим инструкциям домена.

Процесс адаптации обычно включает несколько ключевых этапов:

формирование корпуса данных и его предварительная очистка от шума и дубликатов;
разметка данных или подготовка пар «запрос - ответ»;
выбор оптимального режима обучения и конфигурации гиперпараметров;
запуск обучения с мониторингом ключевых метрик;
итоговая проверка модели на типичных инженерных сценариях и практических кейсах.

Благодаря ориентации на узкую предметную область, малые модели после дообучения демонстрируют высокую устойчивость к некорректным генерациям и значительно реже допускают «галлюцинации».

Заключение

Малые языковые модели являются эффективным и экономически выгодным инструментом для внедрения искусственного интеллекта в организациях, где важны приватность, локальность и низкая стоимость эксплуатации.

Основные выводы исследования:

SLM обеспечивают возможность локального развёртывания без сложной инфраструктуры.
При дообучении на профильных данных качество в узких задачах может соперничать с LLM.
SLM снижают потребление ресурсов и стоимость владения.

Перспективы развития включают создание специализированных архитектур для инженерных доменов и улучшение PEFT-методов.

Список литературы:

arXiv preprint arXiv:2002.04745 [Электронный ресурс]. – 2020. – URL: https://arxiv.org/pdf/2002.04745 (дата обращения: 01.12.2025).
arXiv preprint arXiv:2409.15790 [Электронный ресурс]. – 2024. – URL: https://arxiv.org/pdf/2409.15790 (дата обращения: 01.12.2025).
Habr.com. Малые языковые модели: что это такое и зачем [Электронный ресурс]. – 2024. – URL: https://habr.com/ru/articles/958880/ (дата обращения: 23.11.2025).
IBM. Small language models [Электронный ресурс]. – IBM, 2024. – URL: https://www.ibm.com/think/topics/small-language-models (дата обращения: 26.11.2025).
Microsoft. SLM: Small language model with your data [Электронный ресурс]. – Microsoft, 2024. – URL: https://learn.microsoft.com/en-us/shows/data-exposed/slm-small-language-model-with-your-data-data-exposed (дата обращения: 03.12.2025).

Информация об авторах

Фурман Святослав Игоревич

разработчик, РФ, г. Москва

Svyatoslav Furman

Developer, Russia, Moscow