мл. науч. сотр., Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент
ЭФФЕКТИВНОСТЬ МЕТОДА LoRA В ЗАДАЧАХ ГЕНЕРАЦИИ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ
АННОТАЦИЯ
Данная научная статья анализирует эффективность метода низкоранговой адаптации (Low-Rank Adaptation – LoRA) для адаптации больших языковых моделей (БЯМ) в задачах генерации текста на узбекском языке. В исследовании сравнивались результаты применения LoRA к моделям T5-base, T5-Large и uzT5 с традиционной тонкой настройкой (fine-tuning). В качестве набора данных использовались 5000 новостных статей с платформы Kun.uz (4000 для обучения, 1000 для тестирования). Производительность моделей оценивалась с помощью метрик BLEU, ROUGE-1, ROUGE-2, ROUGE-L и ROUGE-LSUM. Полученные результаты показали, что модель uzT5-base продемонстрировала наивысшие показатели (ROUGE и BLEU) среди всех рассмотренных моделей, показав вычислительную эффективность среди моделей большого размера. Кроме того, метод LoRA значительно улучшил производительность модели mT5-base по сравнению с тонкой настройкой, что подтверждает его потенциал как перспективного подхода для адаптации БЯМ в условиях ограниченных ресурсов.
ABSTRACT
This scientific article analyzes the effectiveness of the Low-Rank Adaptation (LoRA) method for adapting large language models (LLM) in Uzbek language text generation tasks. The study compared the results of applying LoRA to T5-base, T5-Large, and uzT5 models with traditional fine-tuning. 5000 news articles from the Kun.uz platform were used as a data set (4000 for training, 1000 for testing). Model performance was assessed using BLEU, ROUGE-1, ROUGE-2, ROUGE-L, and ROUGE-LSUM metrics. The obtained results showed that the uzT5-base model demonstrated the highest indicators (ROUGE and BLEU) among all considered models, showing computational efficiency among large-scale models. Additionally, the LoRA method significantly improved the performance of the mT5-base model compared to fine-tuning, confirming its potential as a promising approach for LLM adaptation under limited resource conditions.
Keywords: Large Language Models (LLM), LoRA, Parametrically Effective Fine Tuning (PEFT), Text Generation, T5, uzT5, Uzbek Language, Summarization, BLEU, ROUGE.
Ключевые слова: большие языковые Модели (БЯМ), LoRA, параметрически-эффективная тонкая настройка (PEFT), генерация текста, T5, uzT5, узбекский язык, суммаризация, BLEU, ROUGE.
1. Введение
Появление предварительно обученных больших языковых моделей (LLM), таких как PaLM 2 , LLaMA 2 , T5 и семейство GPT от OpenAI, значительно продвинуло состояние обработки естественного языка (НЛП) [1]. Эти модели демонстрируют мощные возможности в общем понимании и генерации языка [8]. Их способность понимать и генерировать текст в различных контекстах не только улучшает существующие задачи НЛП, но и открывает новые возможности. Применение LLM расширяется на такие специализированные области, как здравоохранение, финансы и генерация кода, что подчеркивает их растущую научную и практическую значимость. Это подтверждает центральную роль LLM в исследованиях и промышленности, поскольку они способствуют созданию меньших, но более мощных моделей.
Увеличение размера LLM создает значительные проблемы для традиционной тонкой настройки (full fine-tuning), особенно при работе с многочисленными заданиями или задачами, требующими больших объемов памяти, например, при обработке длинных входных последовательностей [1]. Полная тонкая настройка обновляет все параметры модели, что значительно увеличивает вычислительные затраты и требования к памяти. Например, расчет матрицы Фишера для GPT-J-6B может занимать 22 часа и требовать 23 ГБ памяти, и эти требования возрастают для более крупных LLM [8].
Кроме того, полная тонкая настройка часто приводит к явлению "катастрофического забывания" (catastrophic forgetting), при котором модель перезаписывает или теряет важные общие знания, приобретенные в процессе предварительного обучения. Это явление существенно ограничивает более широкое применение LLM, подрывая их универсальность и возможность повторного использования в различных областях.
В ответ на эти вызовы методы параметрически эффективной тонкой настройки (PEFT) стали многообещающим решением для адаптации предварительно обученных моделей к различным задачам путем выборочной тонкой настройки небольшого числа дополнительных параметров. Методы PEFT, например, позволяют сэкономить более 99,97 % параметров для GPT-3, при этом достигая результатов, отличающихся от полной тонкой настройки всего на 0,1 %–0,5 %. Это существенно снижает барьеры для разработки и развертывания приложений на основе LLM, что положительно сказывается на общем развитии отрасли.
Широко применяемые методы PEFT включают адаптеры, низкоранговую адаптацию (LoRA), настройку префиксов и подсказок. Среди них LoRA стала одним из самых популярных подходов, достигающим высоких результатов без увеличения задержки при выводе. Рост LLM требует значительных вычислительных ресурсов для их применения в исследованиях и на практике. Методы PEFT, особенно LoRA, резко сокращают эти требования к ресурсам, делая тонкую настройку LLM доступной для небольших исследовательских групп и компаний с ограниченным бюджетом. Это способствует более широкому распространению технологий LLM и ускорению инноваций.
Исследования в области НЛП традиционно доминируют языки с большим количеством ресурсов. Низкоресурсные языки (LRL) сталкиваются со значительными трудностями в НЛП из-за ограниченности лингвистических ресурсов, таких как большие аннотированные корпуса, всеобъемлющие лексиконы и сложные инструменты НЛП, а также из-за их недостаточной представленности в стандартных наборах данных [18]. Несмотря на недавние достижения в LLM и нейронном машинном переводе (NMT), которые значительно улучшили возможности перевода для высокоресурсных языков, различия в производительности для LRL сохраняются. Более того, меньшие, портативные LLM, критически важные для мобильных устройств, демонстрируют более слабую производительность в задачах LRL.
Данное исследование изучает возможности метода LoRA для решения задач одноязычного обобщения на основе узбекоязычных данных. Тот факт, что модель uzT5 была обучена на 19 ГБ данных на узбекском языке, подчеркивает ее важность в контексте LRL. LLM в основном оптимизированы для высокоресурсных языков, в частности английского. Это может привести к тому, что носители низкоресурсных языков окажутся в стороне от технологических достижений. Применение эффективных методов, таких как LoRA, для таких языков, как узбекский, является важным шагом к сохранению языкового разнообразия и обеспечению инклюзивности инструментов ИИ для всех языков. Это исследование, создавая возможности высококачественной генерации текста на узбекском языке, способствует укреплению присутствия языка в цифровой среде и сохранению культурного наследия.
Большинство исследований PEFT сосредоточены на понимании естественного языка, например, на задачах классификации. Кроме того, существующие исследования часто не включают комплексных экспериментов с моделью T5 или не используют LoRA. В данной статье исследуется применение метода LoRA к моделям T5-base, T5-Large и uzT5, а также выделяются преимущества LoRA по сравнению с традиционной тонкой настройкой. Основная цель исследования состоит в том, чтобы определить, какие подходы и модели наиболее эффективно справляются с задачами обобщения текста на узбекском языке, и оценить потенциальные улучшения, которые могут быть достигнуты с помощью LoRA.
2. Связанные работы
Эффект применения LoRA состоит в уменьшении количества обучаемых параметров путем обучения пар матриц рангового разложения при замораживании исходных весов модели. Это значительно снижает требования к хранению больших языковых моделей, адаптированных к конкретным задачам, и позволяет эффективно переключаться между задачами без увеличения задержки при выводе. Недавние исследования показывают, как адаптивно регулировать ранг (r) матриц [18], предлагают обобщения LoRA и связанных подходов ПЭТН в рамках единой структуры [3], и комбинируют LoRA с квантизацией [23]. Большинство этих исследований сосредоточены на задачах классификации и монолингвальной генерации, однако не используют. LoRA или не включают комплексные эксперименты с моделью T5.
Кросс-языковой перенос требует от модели изучения задачи на основе размеченных данных на одном языке (обычно английском), а затем выполнения аналогичной задачи на другом языке, для которого нет или почти нет размеченных данных [4]. Предыдущие исследования, сосредоточенные на методах ПЭТН для кросс-языкового переноса, исследовали подходы на основе адаптеров [2] и комбинируемую разреженную тонкую настройку [2]. В [25] оценивают настройку подсказок в условиях нулевого обучения для кросс-язычной суммаризации, сосредотачиваясь на наборе данных Wikilingua [13], но исследование не включает LoRA и сценарии с большим или с малым количеством доступных данных.
3. LoRA и LoraHub
LoRA: Пусть
обозначает весовую матрицу предварительно обученной LLM (где d – размерность входных данных, а k – размерность выходных данных). Ключевая идея LoRA заключается в представлении настроенной WWW с помощью низкорангового разложения
, где
и
, и
, что делает
низкоранговой матрицей по сравнению с
. Во время обучения
остается замороженной, в то время как B и A содержат обучаемые параметры, которые эффективно являются частью
параметров по сравнению с полной тонкой настройкой. Хотя LoRA может быть применена к любому подмножеству весовых матриц, в [9] обновляют только весовые матрицы в модуле самовнимания архитектуры Transformer. В отличие от этого, мы в экспериментах обновляем все четыре матрицы внимания (т.е. query, key, value и out).
LoraHub: это недавно предложенный подход к обучению с небольшим количеством данных без использования градиентов [21], который фокусируется на комбинировании индивидуально обученных модулей LoRA для обобщения на новые задачи. Учитывая, что w состоит из относительно небольшого числа параметров, авторы выбрали безградиентные методы оптимизации вместо градиентного спуска. Доступные модули LoRA
синтезируются в модуль
, где
- скалярный вес, который может принимающий положительные и отрицательные значения. Процесс оптимизации управляется перекрестными потерями энтропии, целью которого является поиск наилучшего набора {w1, w2, . . . , wN }, который уменьшает потери L в нескольких коротких примерах Q. Кроме того, мы включили регуляризацию L1 для ограничения суммы абсолютных значений w, что помогает предотвратить получение экстремальных значений. Следовательно, конечной целью Lora Hub является минимизация
, где α является гиперпараметром.
4. Эксперимент
Для наших экспериментов мы использовали набор данных, состоящий из 5000 новостей, взятых с новостной платформы Kun.uz. Эти данные были предназначены для задачи суммаризации: 4000 из них использовались для обучения и 1000 для тестирования.
Наши эксперименты были сосредоточены на модели T5, представляющей собой LLM с энкодером-декодером использования метода LoRA на рисунке 1. В частности, мы использовали три размера модели T5 (mT5 [3], mT5-large и uzT5 [20], [7], [12]).
Все эксперименты проводились на компьютере DGX Station с различной скоростью обучения в диапазоне от 1e-3 до 2e-5. Модель uzT5 была обучена на основе 19 ГБ данных на узбекском языке, мы оцениваем эффективность моделей LoRA, основанных на mT5, mT5-large и uzT5-base [17], в решении задачи GEC. Для оценки качества созданных текстов мы применяем различные метрики:
- BLEU (Bilingual Evaluation Understudy): метрика, которая измеряет точность совпадения n-грамм с эталонными текстами и широко используется для оценки задач машинного перевода и суммаризации текста [5].
- ROUGE-1: метрика, оценивающая совпадение униграмм (отдельных слов) между сгенерированным текстом и эталонным резюме [21].
- ROUGE-2: метрика, оценивающая совпадение биграмм (пар последовательных слов) между сгенерированным текстом и эталонным резюме [21].
- ROUGE-L: метрика, основанная на наибольшей общей подпоследовательности (LCS), которая оценивает, насколько хорошо сгенерированное резюме сохраняет длинные последовательности слов из эталонного текста [21].
- ROUGE-LSUM: вариант метрики ROUGE-L, адаптированный специально для задач суммаризации, который учитывает структуру документа и длину сгенерированных резюме [21].
Эти метрики представляют собой всесторонний анализ качества сгенерированных моделей LoRA, позволяя нам объективно оценивать их производительность и сравнивать с другими моделями.
/Kushmuratov.files/image013.png)
Рисунок 1. Репараметризация. Мы тренируем только A и B
5. Результаты и обсуждение
В соответствии с сформулированной выше целью исследования был проведен ряд вычислительных экспериментов, результаты которых показаны ниже. Мы оцениваем производительность LoRA на базе моделей mT5, mT5-large и uzT5-base. В качестве метрик оценки NLP моделей использовали показатели BLUE, ROUGE-1, ROUGE-2, ROUGE-L и ROUGELSUM.
Таблица 1.
Результаты модели на mT5-base
|
Модель и метод |
rouge1 |
rouge2 |
rougeL |
rougeLsum |
BLUE |
Обучаемые параметры |
|
mt5-base |
0.2877 |
0.2173 |
0.2871 |
0.2871 |
0.1144 |
582.4M |
|
mt5-base(r=128,alfa=256) |
0.6027 |
0.4919 |
0.6015 |
0.6015 |
0.3143 |
14.1M |
|
mt5-base(r=256,alfa=256) |
0.4652 |
0.3721 |
0.4643 |
0.4643 |
0.2123 |
28.3M |
|
mt5-base(r=256,alfa=512) |
0.1969 |
0.1446 |
0.1965 |
0.1965 |
0.0739 |
28.3M |
|
mt5-base(r=512,alfa=512) |
0.3073 |
0.2258 |
0.3069 |
0.3069 |
0.1043 |
56.6M |
Из таблицы 1 следует, что с использованием LoRA модель mt5-base при значениях (r=128, alfa=256) достигла наивысшего значения rouge1 (0.6027) среди базовых моделей, показывая сбалансированную производительность по всем метрикам (rouge2, rougeL, rougeLsum, BLUE) и требуя относительно небольшого количества параметров для обучения (56.6M).
Таблица 2.
Результаты модели на mT5-large
|
Модель и метод |
rouge1 |
rouge2 |
rougeL |
rougeLsum |
BLUE |
Обучаемые параметры |
|
mt5-large |
0.4881 |
0.4934 |
0.5085 |
0.5085 |
0.2064 |
1229.5M |
|
mt5-large(r=128,alfa=256) |
0.4432 |
0.3448 |
0.4426 |
0.4426 |
0.1768 |
37.7M |
|
mt5-large(r=256,alfa=256) |
0.4076 |
0.3099 |
0.4071 |
0.4071 |
0.1472 |
75.4M |
|
mt5-large(r=256,alfa=512) |
0.4401 |
0.3385 |
0.4396 |
0.4396 |
0.1702 |
75.4M |
|
mt5-large(r=512,alfa=512) |
0.4405 |
0.3433 |
0.4399 |
0.4399 |
0.1848 |
150.9M |
Из таблицы 2 следует, что результаты с полной точной настройкой были лучше, чем полученные с LoRA. Модель mt5-large достигла наивысшего значения rouge1 (0.4881) среди крупных моделей, демонстрируя превосходную производительность по всем метрикам, но требуя большого количества параметров для обучения (1229.5M), что указывает на высокую вычислительную стоимость.
Таблица 3.
Результаты модели на uzT5-base
|
Модель и метод |
rouge1 |
rouge2 |
rougeL |
rougeLsum |
BLUE |
Обучаемые параметры |
|
uzt5-base |
0.6853 |
0.5522 |
0.6839 |
0.6839 |
0.3321 |
247.5M |
|
uzt5-base(r=128,alfa=256) |
0.4965 |
0.3811 |
0.4938 |
0.4938 |
0.1802 |
14.1M |
|
uzt5-base(r=256,alfa=256) |
0.5028 |
0.3845 |
0.5007 |
0.5007 |
0.1847 |
28.3M |
|
uzt5-base(r=256,alfa=512) |
0.5061 |
0.3864 |
0.5042 |
0.5042 |
0.1929 |
28.3M |
|
uzt5-base(r=512,alfa=512) |
0.5719 |
0.4483 |
0.5695 |
0.5695 |
0.2459 |
56.6M |
Очевидно из таблицы 3, что результаты с полной точной настройкой были лучше, чем полученные с LoRA. Модель uzt5-base достигла наивысшего значения rouge1 (0.6853) среди крупных моделей, демонстрируя превосходную производительность по всем метрикам, но требуя большого количества параметров для обучения (247.5M), что указывает на высокую вычислительную стоимость.
Таблица 4.
Сводная таблица
|
Модель и метод |
rouge1 |
rouge2 |
rougeL |
rougeLsum |
BLUE |
Параметры для обучения |
|
mt5-base(r=128, alfa=256) |
0.6027 |
0.4919 |
0.6015 |
0.6015 |
0.3143 |
56.6M |
|
mt5-large |
0.4881 |
0.4934 |
0.5085 |
0.5085 |
0.2064 |
1229.5M |
|
uzt5-base) |
0.6853 |
0.5522 |
0.6839 |
0.6839 |
0.3321 |
28.3M |
Таким образом, из сводной таблицы 4 следует, что модель uzT5-base обеспечивает лучшую общую производительность с наивысшими показателями rouge1 и BLUE, при этом являясь более вычислительно эффективной по сравнению с моделью mt5-base.
Заключение. Данное исследование выявило преимущества использования метода LoRA для задач генерации текстов на узбекском языке. Модель uzT5-base (в режиме полной тонкой настройки) продемонстрировала наивысшую общую производительность среди всех рассмотренных моделей, обеспечив наилучшие значения метрик ROUGE и BLEU, при этом являясь более вычислительно эффективной по сравнению с mT5-base. Модель mT5-base, обученная с использованием LoRA, также показала значительное улучшение по сравнению с базовой mT5-base, что подтверждает потенциал LoRA как перспективного подхода для адаптации больших языковых моделей к конкретным задачам с минимальными вычислительными затратами.
Список литературы:
- Anil R., et al. PaLM 2: Pre-trained Large Model for Language Understanding. –2023. ArXiv. doi.org/10.48550/arXiv.2305.10403
- Ansell B., et al. Composable Sparse Fine-Tuning for Cross-Lingual Transfer. – 2021. https://arxiv.org/abs/2110.07560.
- Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, and Zhiqiang Shen. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning. arXiv preprint arXiv:2306.07967. . – 2023.
- Artetxe M., et al. Translation Artifacts in Cross-lingual Transfer Learning. – 2020. ArXiv.
- BLUE Retrived from: https://en.wikipedia.org/wiki/BLEU (accessed date: 05.06.2025).
- Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, and Min Lin. LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition. – 2023. https://arxiv.org/abs/2307.13269.
- Davronov R., Adilova F. UzRoberta: A Pre-Trained Language Model for Uzbek // AIP Conference Proceedings. 2024. – Vol. 3004(1). – P. 050001
- Houlsby N., et al. Parameter-efficient Transfer Learning for NLP. – 2019. https://arxiv.org/abs/1902.00751.
- Hu E.J., et al. LoRA: Low-Rank Adaptation of Large Language Models. – 2022. https://arxiv.org/abs/2106.09685.
- Huang Y., et al. LoRAHub: Combining Individually Trained LoRA Modules for Generalization. – 2023. https://arxiv.org/html/2307.13269v2.
- Karthikeyan K., et al. Cross-lingual Transfer Learning for Multilingual Task-Oriented Dialog. – 2020. https://arxiv.org/abs/2004.04721.
- Kishore Papineni and Salim Roukos and Todd Ward and Wei-jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). –Philadelphia, July 2002. – pp. 311–318.
- Ladhak F., et al. Wikilingua: A Multilingual Abstractive Summarization Dataset. – 2020. https://arxiv.org/abs/2010.03093.
- Lauscher A., et al. From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual Transfer. – 2020. https://arxiv.org/abs/2005.00633.
- Lester B., et al. The Power of Scale for Parameter-Efficient Prompt Tuning. – 2021. https://arxiv.org/abs/2104.08691.
- Li X.L., Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation. – 2021. https://arxiv.org/abs/2101.00190.
- Lin Chin-Yew. ROUGE: a Package for Automatic Evaluation of Summaries // Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004). – Barcelona, Spain, July 25–26, 2004.
- Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning // The Eleventh International Conference on Learning Representations. – 2023.
- Raffel C., et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. – 2020. https://arxiv.org/abs/1910.10683.
- Retrived from: https://huggingface.co/rifkat/t5-base-uzbek (accessed date: 05.06.2025)
- ROUGE (metrics) Retrived from: https://en.wikipedia.org/wiki/ROUGE_(metric) (accessed date: 05.06.2025).
- Tianxiang Sun, Yunfan Shao, Hong Qian, Xuanjing Huang, and Xipeng Qiu. 2022. Black-Box Tuning for Language-Model-as-a-Service // Proceedings of the 39th International Conference on Machine Learning: Proceedings of Machine Learning Research. – 2023. – Vol. 162. – Pp. 20841–20855. PMLR.
- Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. QLoRA: Efficient finetuning of quantized LLMs // Thirty-seventh Conference on Neural Information Processing Systems. – 2023.
- Touvron H., et al. (2023). LLaMA 2: Open and Efficient Foundation Language Models. – 2023. ArXiv. https://doi.org/10.48550/arXiv.2302.13971
- Vu X.T., et al. Zero-Shot Cross-Lingual Transfer with AdapterFusion. – 2022. https://arxiv.org/abs/2402.14778.
- Wang A., et al. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. – 2018. https://arxiv.org/abs/1804.07461.
- Wang A., et al. SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. – 2019. https://arxiv.org/abs/1905.00537.
- Whitehouse P., et al. Cross-lingual Transfer Learning for Text Classification with Multilingual BERT. – 2022. https://arxiv.org/abs/2104.08645.