старший инженер по исследованиям и разработкам, ООО «ВикМан», РФ, г. Москва
ИССЛЕДОВАНИЕ ВЛИЯНИЯ ТРАНСФОРМЕРОВ НА УЛУЧШЕНИЕ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ
АННОТАЦИЯ
Из-за изменений в использовании трансформеров для обширной классификации изображений произошло изменение результатов и уменьшение важности сверточных нейронных сетей. Несмотря на это, генерация изображений остается малоизученной областью.
Проблема преобразования текста в изображение в произвольном домене долгое время оставалась открытой и требовала разработки как генеративных моделей, так и кросс-модального понимания. Разработчики представляют CogView - трансформер с 4 миллиардами параметров и токенизатором VQ-VAE в качестве решения данной проблемы. Также были продемонстрированы эффективные стратегии дообучения для различных последующих задач, таких как анализ стилей, увеличение разрешения, ранжирование текста в изображениях и создание дизайнов одежды. Также представили методы стабилизации предварительной подготовки, такие как устранение значения функции потерь NaN. CogView (zero-shot) достигает нового современного уровня FID на blurred MS COCO, превосходя предыдущие GAN-модели и недавние работы, такие как DALL-E.
Целью работы является проведение исследования влияния трансформеров на улучшение генерации изображений. Методологической базой стали работы отечественных и зарубежных ученых в данной сфере, а также результаты исследований и мнения экспертов.
ABSTRACT
Due to the changes in the use of transformers for extensive image classification, there has been a shift in the results and a decrease in the importance of convolutional neural networks. Despite this, image generation continues to be a little-studied area.
The problem of converting text into an image in the general field has remained open for a long time and required the development of both generative models and cross-modal understanding. The developers present CogView - a transformer with 4 billion parameters and a VQ-VAE tokenizer - as a solution to this problem. Effective fine-tuning strategies were also demonstrated for various follow-up tasks, such as analyzing styles, increasing resolution, ranking text in images, and creating clothing designs. They also presented methods for stabilizing pre-preparation, such as eliminating NaN losses. CogView (zero-shot) achieves a new state-of-the-art FID level on blurred MS COCO, surpassing previous GAN models and recent work such as DALL-E.
The purpose of the work is to conduct a study of the effect of transformers on improving image generation. The methodological basis was the work of domestic and foreign scientists on this topic, as well as the results of research and expert opinions.
Ключевые слова: трансформеры, генерация изображений, ИИ, развитие трансформеров, современные технологии.
Keywords: transformers, image generation, AI, development of transformers, modern technologies.
Введение
Трансформеры представляют собой революционный подход к обработке последовательностей в нейронных сетях, что стало одним из важных достижений в области глубокого обучения. Их появление в 2017 году привело к быстрому внедрению в различные приложения, включая машинный перевод, обработку естественного языка, генерацию текста и другие области, где работа с последовательностями является ключевой [7]. Трансформеры также славятся своей способностью эффективно обрабатывать последовательные данные на больших расстояниях и легко приспосабливаются к различным задачам, будь то анализ естественного языка, обработка изображений или аудиоданных. Также могут свободно исследовать сложные взаимосвязи во входных данных, поскольку не имеют предвзятости в обучении , что отличает их от сверточных нейронных сетей (CNN). Такая особенность увеличивает их производительность, но ограничивает использование для длинных последовательностей или высококачественных изображений [8, 9].
Проблема обработки последовательностей, таких как тексты, предложения, временные ряды или аудио, является значимой для различных областей искусственного интеллекта. Однако у традиционных рекуррентных нейронных сетей (RNN) и сверточных нейронных сетей (CNN) есть ограничения в работе с длинными последовательностями, поскольку они оперируют данными последовательно или с ограниченным размером контекста [1, 10].
В декабре 2020 года исследователи из Гейдельбергского университета — Патрик Эссер, Робин Ромбах и Бьерн Оммер — представили статью, в которой соединили сверточные нейронные сети (CNN) с трансформерами для создания изображений высокого разрешения: "Приручение трансформеров для синтеза изображений высокого разрешения". В данном случае для повышения эффективности трансформеров метод использует свойства локальной работы CNN с характерной выразительностью трансформеров. Предложенные методы получения изображений с высоким разрешением используют следующие решения:
• Использование VQGAN CNNs для эффективного изучения кодовой книги разнообразных визуальных представлений.
• Применение трансформеров для эффективного моделирования структуры изображения с высоким разрешением [2].
1. Архитектура Трансформера
Ландшафт обработки естественного языка (Natural Language Processing, NLP) претерпел значительные изменения с появлением модели трансформера в ключевой статье Васвани в 2017 году под названием "Внимание — всё, что вам нужно". Архитектура трансформера отошла от последовательной обработки RNN и LSTM, используя вместо этого механизм "Self-Attention" для взвешивания воздействия различных частей входных данных.
Основная концепция трансформера заключается в том, что эта модель способна обрабатывать все входные данные параллельно, вместо последовательной обработки. Что позволяет прийти к более высокой параллелизации и, как результат, значительно увеличить скорость обучения. Механизм Self-Attention позволяет модели сосредотачиваться на различных частях текста во время обработки, что имеет ключевое значение для понимания контекста и взаимосвязей между словами, независимо от их позиции в тексте.
Разбиваясь на две ключевые части, кодировщик и декодер, трансформер в данной оригинальной модели, описанной в статье "Внимание — всё, что вам нужно" Васвани и коллегами, имеет структуру, где обе части состоят из слоев, однако они выполняют разные функции.
Для кодировщика характерны следующие особенности:
- Роль: обработка входных данных и создание представления, отражающего отношения между элементами (например, словами в предложении). Эта часть не генерирует новый контент, она лишь преобразует входные данные в состояние, понятное декодеру.
- Функциональность: Каждый уровень кодировщика обладает механизмом Self-Attention и нейронными сетями прямой связи. Это позволяет каждой позиции кодировщика обрабатывать контекст предыдущего уровня, изучая контекст вокруг каждого слова.
- Контекстные вложения: Выходные данные кодировщика - серия векторов, представляющих входную последовательность в многомерном пространстве. Эта модель кодирует не только отдельные слова, но и их контекст в предложении.
Для декодера характерны следующие особенности:
- Роль: последовательная генерация выходных данных на основе входных данных, полученных от кодировщика, и того, что уже сгенерировано. Данные используются для задач, где порядок генерации имеет значение, например, генерация текста.
- Функциональность: Слои декодера содержат механизмы самоконтроля, замаскированные для избежания доступа к позициям в последующих элементах. Это гарантирует, что прогнозы зависят только от известных данных в предшествующих позициях, и второй механизм внимания, интегрирующий контекст из входных данных в процесс генерации.
- Возможность последовательной генерации: Декодер способен генерировать последовательность по одной части за раз на основе предоставленного контекста кодировщика и уже сгенерированных элементов.
Каждая из этих частей кодировщика и декодера крайне важна для способности модели эффективно решать сложные задачи в области NLP. Механизм многоголового внимания позволяет модели фокусироваться на различных частях последовательности, обеспечивая глубокое понимание контекста.
2. Популярные модели с использованием трансформаторов
После первоначального успеха модели-трансформера наступил огромный рост числа новых моделей, основанных на этой архитектуре. Каждая из этих моделей внесла разные инновации направленные на оптимизацию, при выполнении различных задач:
BERT (Bidirectional Encoder Representations from Transformers): Представленный Google * в 2018 году, BERT кардинально изменил подходы к интеграции контекстуальной информации в языковые представления. Через предварительное обучение на обширном объеме текстов с помощью маскировочных языковых моделей и прогнозирования следующего предложения, BERT запечатлел обширный двунаправленный контекст и достиг самых современных результатов в разнообразных задачах обработки естественного языка (НЛП).
Рисунок 1. Модель использования трансформаторов BERT
T5 (преобразователь передачи текста в текст): Представлен Google * в 2020 году, T5 переосмысливает все задачи NLP как задачу преобразования текста в текст, используя единый текстовый формат. Такой подход упрощает процесс применения модели к различным задачам, включая перевод, обобщение и ответы на вопросы.
Рисунок 2. Архитектура Т5
GPT (Generative Pre-trained Transformer): Разработанная компанией OpenAI, серия моделей GPT началась с GPT-1 и достигла GPT-4 к 2023 году. Эти модели прошли предварительное обучение на обширных наборах текстовых данных с применением метода обучения без учителя и были настроены для разнообразных задач. Их уникальная способность порождать связный и контекстуально значимый текст сделала их крайне значимыми как в научных, так и в коммерческих сферах применения искусственного интеллекта.
Рисунок 3.Архитектура GPT [3,4]
Модель VIT. Первым этапом модели является разделение входного изображения на последовательность фрагментов. В исследовании изображения были разбиты на участки размером 16 x 16. Полученные участки изображения проходят через обучаемый слой линейной проекции, который выполняет функцию слоя кодирования и формирует векторы фиксированной размерности. Затем в последовательность участков изображения линейно добавляются кодировки позиции, чтобы сохранить информацию о местоположении каждого участка изображения. Это включает важную информацию об абсолютном или относительном положении участков изображения в последовательности. Одной из ключевых особенностей модуля кодировки позиции, которая заслуживает внимания, является наличие 0-го класса. Эта концепция 0-го класса была заимствована из маркера класса БЕРТ. Как и другие классы, этот класс также подлежит обучению, но его информация не извлекается из изображения. Вместо этого эта информация жестко встроена в архитектуру модели.
Идея, лежащая в основе работы кодировки позиции, наглядно продемонстрирована на представленном ниже изображении.
Рисунок 4. Архитектура модели ViT
Если, не обеспечить трансформер информацией о расположении, он не сможет правильно ориентироваться в последовательности изображений. Далее эта последовательность векторных изображений поступает на вход кодировщика трансформера. Также стоит отметить, что трансформеры применяют уровни нормализации (Layer Norm) перед каждым блоком и остаточный блок сразу после. В финальную структуру кодировщика трансформера был добавлен дополнительный обучаемый модуль классификации (MLP Head), который предоставляет конечные классификационные выводы сети.
3. Влияние размера набора данных на примере модели ViT
Объем набора данных играет существенную роль в работе модели Vision Transformer. Поскольку трансформеры лишены таких свойств CNN как локальность, инвариантность к смещению, они, как правило, менее универсальны на средних по размеру наборах данных, таких как ImageNet.
Однако, в процессе обучения на ImageNet-21 и JFT-300M (собственном наборе данных Google *), содержащих гораздо больше изображений в диапазоне от 14 до 300 млн. изображений, стало ясно, что трансформеры превосходят CNN. Также было установлено, что точность модели увеличивается по мере расширения объема данных, что отражено на рисунке 5.
Рисунок 5. Точность архитектуры ViT предобученные на наборе данных
4. Обобщение задач
Обобщение задач подразумевает, что знания должны иметь общие веса между различными задачами. Например, если первая задача состоит в классификации кошек и собак, а вторая задача заключается в классификации лошадей и коров, важно обобщать знания между этими группами задач.
Это происходит потому, что все эти животные принадлежат к четвероногим. Таким образом, знания, которые помогают классифицировать кошек и собак, должны быть схожи с знаниями, которые помогают классифицировать лошадей и коров.
При оценке по тесту адаптации к визуальным задачам (VTAB) было обнаружено, что модель visual transformer превосходит предыдущие модели по естественным, специализированным и структурированным группам задач.
Отличительной чертой для данной модели является то, что при ее обучении требуется гораздо меньше вычислительной мощности, всего 2,5 тыс. TPUv3-дней. Большие модели (ViT-H) обычно демонстрируют более высокую производительность по сравнению с меньшими моделями (ViT-L) и опережают самые современные методы в своей области. ViT использует развертки внимания для вычисления карт внимания. Как и модели GPT-3 и BERT, Visual Transformer модифицируем и масштабируем.
Этот подход превосходит сверточные подходы и предоставляет простую, масштабируемую архитектуру, превосходящую самые современные модели, особенно при обучении на обширных наборах данных, таких как JFT-300M. Кроме того, его относительная дешевизна в предварительном обучении делает его привлекательным. [5,6].
Заключение
Таким образом можно увидеть, что трансформеры вытесняют долгую краткосрочную память (LSTM) в NLP и имеют потенциал заменить сверточные нейронные сети (CNN). Однако в настоящее время модели все еще сталкиваются с трудностями в выполнении других задач компьютерного зрения, таких как сегментация и распознавание объектов.
Список литературы:
- Трансформеры: Революционный подход к обработке последовательностей в нейронных сетях. [Электронный ресурс] Режим доступа: https://vc.ru/u/2055179-neyrosfera/767502-transformery-revolyucionnyy-podhod-k-obrabotke-posledovatelnostey-v-neyronnyh-setyah.– (дата обращения 25.12.2023).
- Generating High Resolution Images Using Transformers . [Электронный ресурс] Режим доступа: https://analyticsindiamag.com/generating-high-resolution-images-using-transformers/.– (дата обращения 25.12.2023).
- НЛП: рост с моделями-трансформерами | Комплексный анализ T5, BERT и GPT . [Электронный ресурс] Режим доступа: https://www.unite.ai/ru/подъем-nlp-с-моделями-трансформаторов%2C-комплексный-анализ-t5-bert-и-gpt/. – (дата обращения 25.12.2023).
- Знакомство с трансформерами.. [Электронный ресурс] Режим доступа: https://habr.com/ru/companies/wunderfund/articles/592231/.– (дата обращения 25.12.2023).
- Vision Transformer (ViT) - Using Transformers for Image Recognition. [Электронный ресурс] Режим доступа: https://www.section.io/engineering-education/vision-transformer-using-transformers-for-image-recognition/.– (дата обращения 25.12.2023).
- Трансформеры . [Электронный ресурс] Режим доступа: https://education.yandex.ru/handbook/ml/article/transformery.– (дата обращения 25.12.2023).
- Transformer в картинках 2020. [Электронный ресурс] Режим доступа: https://habr.com/ru/articles/486358/
- Что такое трансформеры? (машинное обучение) 2021. [Электронный ресурс] Режим доступа: https://forklog.com/cryptorium/ai/chto-takoe-transformery-mashinnoe-obuchenie
- Как работает трансформер. [Электронный ресурс] Режим доступа: https://pro.arcgis.com/ru/pro-app/3.0/tool-reference/geoai/how-transformers-work.htm
- Что такое преобразователи в искусственном интеллекте?. [Электронный ресурс] Режим доступа: https://aws.amazon.com/ru/what-is/transformers-in-artificial-intelligence/
* По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.)