ВЛИЯНИЕ АУГМЕНТАЦИИ НА КАЧЕСТВО ОБУЧЕНИЯ МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ ДЕТЕКЦИИ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ СЪЕМКИ С БПЛА

THE INFLUENCE OF AUGMENTATION ON THE QUALITY OF TRAINING OF COMPUTER VISION MODELS IN RELATION TO OBJECT DETECTION TASKS USING UAV PHOTOGRAPHY

Кукушкин М.А.

28.05.2024 1299

5(122)

10. Информатика, вычислительная техника и управление

Цитировать:

Кукушкин М.А. ВЛИЯНИЕ АУГМЕНТАЦИИ НА КАЧЕСТВО ОБУЧЕНИЯ МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ ДЕТЕКЦИИ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ СЪЕМКИ С БПЛА // Universum: технические науки : электрон. научн. журн. 2024. 5(122). URL: https://7universum.com/ru/tech/archive/item/17599 (дата обращения: 29.07.2026).

Прочитать статью:

DOI - 10.32743/UniTech.2024.122.5.17599

АННОТАЦИЯ

В данной статье исследуется влияние аугментации данных на качество обучения моделей компьютерного зрения в контексте задач детекции объектов, основанных на изображениях, полученных с беспилотных летательных аппаратов (БПЛА). Аугментация данных - это процесс создания дополнительных обучающих примеров путем применения различных трансформаций к исходным данным. В статье рассматриваются различные техники аугментации, такие как изменение размера изображений, повороты, отражения, добавление шума и другие. Основываясь на экспериментах с наборами данных и алгоритмами обучения, проведенных на платформе детекции объектов с использованием съемки с БПЛА, авторы анализируют влияние различных методов аугментации на производительность моделей. Результаты исследования помогут определить оптимальные стратегии аугментации данных для улучшения качества обучения моделей компьютерного зрения в контексте детекции объектов на изображениях, полученных с БПЛА.

ABSTRACT

This article examines the impact of data fragmentation on the quality of training computer vision models in the context of object detection tasks based on images obtained from unmanned aerial vehicles (UAVs). Data augmentation is the process of creating additional training examples by applying various transformations to the source data. The article discusses various augmentation techniques, such as resizing images, rotations, reflections, adding noise, and others. Based on experiments with datasets and learning algorithms conducted on an object detection platform using UAV imagery, the authors analyze the impact of various augmentation methods on model performance. The results of the study will help determine the optimal data augmentation strategies to improve the quality of training computer vision models in the context of object detection in images obtained from UAVs.

Ключевые слова: аугментация данных, компьютерное зрение. беспилотные летательные аппараты (БПЛА), детекция объектов, обучение моделей, изображения, техники аугментации, производительность моделей, эксперименты, оптимизация обучения

Keywords: data augmentation, computer vision. unmanned aerial vehicles (UAVs), object detection, model training, images, augmentation techniques, model performance, experiments, training optimization

С развитием технологий беспилотных летательных аппаратов (БПЛА) наблюдается рост интереса к их применению в различных областях, включая наблюдение и детекцию объектов. Вместе с этим современные методы компьютерного зрения становятся неотъемлемой частью систем обработки данных, полученных с БПЛА. Однако, несмотря на значительные достижения в этой области, точность моделей компьютерного зрения все еще может быть улучшена.

Один из способов повышения качества обучения моделей компьютерного зрения заключается в применении аугментации данных. Аугментация данных представляет собой процесс создания новых обучающих примеров путем внесения разнообразных трансформаций в исходные данные. В контексте компьютерного зрения аугментация может включать в себя различные преобразования изображений:

Повороты: Поворот изображения на определенный угол может создать дополнительные варианты данных для обучения модели. Это помогает модели быть устойчивой к различным ориентациям объектов на изображении.
Отражение (зеркальное отображение): Применение зеркального отображения изображения по горизонтали или вертикали также может увеличить разнообразие тренировочного набора данных.
Масштабирование: Изменение масштаба изображения, увеличение или уменьшение, позволяет модели обучаться на объектах разных размеров и расстояний от камеры.
Изменение освещения: Внесение изменений в яркость, контраст или насыщенность цветов на изображении помогает модели стать устойчивее к различным условиям освещения.
Добавление шума: Введение случайных шумовых искажений, таких как гауссовский шум или соль и перец, помогает модели лучше обучиться на реальных условиях съемки.
Размытие: Применение размытия к изображению помогает сделать модель менее чувствительной к шуму и улучшить ее способность к обобщению.
Кропы (обрезание): Обрезание изображения до различных размеров и форм также может увеличить разнообразие данных, предоставляемых модели.

В данной работе рассматривается влияние аугментации данных на качество обучения моделей компьютерного зрения при решении задачи детекции объектов на изображениях, полученных с БПЛА. Объектом исследования является эффективность различных методов аугментации данных в контексте условий съемки, характерных для применения БПЛА. Анализ результатов экспериментов позволит оценить вклад аугментации данных в улучшение производительности моделей и определить наиболее эффективные методы аугментации для данной задачи. Полученные результаты будут иметь практическое значение для разработки более точных и устойчивых систем детекции объектов с использованием БПЛА.

Далее мы рассмотрим используемые материалы и методы при обучении моделей компьютерного зрения для задачи детекции объектов на изображениях, полученных с беспилотных летательных аппаратов (БПЛА). Для достижения высокой точности детекции и эффективной работы моделей мы применяем современные технологии машинного обучения, используемые инструменты и библиотеки, а также оптимальные подходы к предобработке данных и аугментации. Описанные здесь материалы и методы являются основой для разработки и обучения моделей, способных эффективно обнаруживать объекты на изображениях, полученных с помощью БПЛА, в различных условиях съемки и окружающей среды.

1. Модель машинного обучения YOLOv8

YOLOv8 (You Only Look Once version 8) - это одна из самых эффективных моделей для задачи детекции объектов на изображениях. Она отличается высокой скоростью работы и точностью детекции. В данном исследовании мы используем YOLOv8m как базовую модель для обучения нашей сети детекции объектов на изображениях, полученных с БПЛА.

2. Библиотеки машинного обучения и компьютерного зрения:

TensorFlow: TensorFlow - это популярная открытая библиотека для машинного обучения, разработанная компанией Google. Мы используем TensorFlow для построения и обучения модели YOLOv8.
Keras: Keras - это высокоуровневый интерфейс для работы с нейронными сетями, который позволяет быстро создавать и обучать модели глубокого обучения. В данном исследовании мы используем Keras в связке с TensorFlow для реализации модели YOLOv8.
OpenCV: OpenCV (Open Source Computer Vision Library) - это библиотека компьютерного зрения с открытым исходным кодом, предоставляющая широкий спектр функций для обработки изображений и видео. Мы используем OpenCV для предобработки изображений и оценки результатов детекции объектов.

Для эффективного обучения моделей компьютерного зрения и выполнения детекции объектов на изображениях с использованием данных, полученных с беспилотных летательных аппаратов, требуется мощное аппаратное обеспечение. В качестве основы для нашего исследования выступает видеокарта Nvidia A100, предназначенная для обработки больших объемов данных и высокопроизводительных вычислений в области искусственного интеллекта и машинного обучения.

Nvidia A100 является мощной графической процессорной картой, основанной на архитектуре Ampere. Она обладает следующими характери стиками:

Высокая производительность: Nvidia A100 обеспечивает высокую производительность благодаря множеству вычислительных ядер, специализированных для работы с тензорными операциями, что делает ее идеальным выбором для обучения глубоких нейронных сетей.
Большой объем памяти: Видеокарта обладает большим объемом памяти, что позволяет эффективно обрабатывать большие объемы данных, такие как изображения высокого разрешения, характерные для задач детекции объектов на изображениях, полученных с БПЛА.
Тензорные ядра Tensor Core: Наличие специализированных тензорных ядер Tensor Core обеспечивает высокую производительность при выполнении операций с тензорами, что существенно ускоряет обучение и выполнение инференса глубоких нейронных сетей.

Таблица 1.

Основные характеристики NVidia A100

Объем видеопамяти	40 ГБ
Тип памяти	HBM2
Разрядность шины памяти	5120 бит
Пропускная способность видеопамяти	935 ГБ/с
Частота видеопамяти	16000 МГц
Кол-во шейдерных процессоров	6912
Частота графического процессора (базовая):	1410 МГц

В качестве исходного наборы данных выступают снимки техники специального назначения с беспилотного летательного аппарата. Данные разделены на 3 класса:

Военная техника наземного применения
Солдаты
Военная техника воздушного применения

Рисунок 1. Набор обучающих данных до применения аугментации

Далее мы рассмотрим различные методы аугментации данных, которые были применены к набору изображений, полученных с беспилотных летательных аппаратов (БПЛА), для улучшения качества обучения моделей компьютерного зрения. Ниже приведены основные методы аугментации, которые мы использовали в нашем исследовании:

1. Метод Flip

Метод аугментации Flip, или горизонтальное отражение, является одним из наиболее распространенных и простых способов увеличения разнообразия данных в задачах компьютерного зрения. Он заключается в создании зеркального отображения изображения путем его отражения по горизонтали. Таким образом, объекты на изображении становятся зеркальными относительно вертикальной оси.

Цель и эффект:

Целью применения метода аугментации Flip является увеличение разнообразия данных путем изменения положения объектов на изображении без изменения их содержания. Этот метод помогает модели обучаться на объектах, расположенных с разных сторон, и улучшает ее способность к обнаружению объектов симметричной формы.

Рисунок 2. Метод аугментации Flip

2. Метод Rotation

Метод аугментации Rotation, или поворот, является одним из ключевых методов аугментации данных в области компьютерного зрения. Он заключается в случайном или фиксированном повороте изображения на определенный угол относительно его центра. При этом содержание изображения остается неизменным, но его ориентация изменяется.

Цель и эффект:

Основная цель применения метода аугментации Rotation заключается в создании дополнительных вариантов изображений с различными углами поворота. Этот метод позволяет модели обучаться на объектах под различными ракурсами и улучшает ее способность к обнаружению объектов под разными углами.

Рисунок 3. Метод аугментации Rotation

3. Метод Cutout

Метод аугментации Cutout, или вырезание, представляет собой технику, при которой случайно выбирается прямоугольная область на изображении, которая затем заменяется случайным цветом или усредненным значением пикселей. Таким образом, вырезанная область становится "пустой", а исходное изображение изменяется.

Цель и эффект:

Главная цель метода аугментации Cutout состоит в том, чтобы создать варианты изображений с удаленными частями содержимого. Этот метод помогает модели обучаться на частично видоизмененных данных и улучшает ее способность к обнаружению объектов в различных контекстах.

Рисунок 4. Метод аугментации Cutout

4. Метод Bounding Box: Crop

Метод аугментации Bounding Box: Crop применяется для изменения размера изображения путем обрезки его до новых размеров, сохраняя при этом положение и размеры объектов, ограниченных bounding boxes. При этом координаты и размеры bounding boxes также должны быть скорректированы в соответствии с новыми размерами изображения.

Цель и эффект:

Целью метода аугментации Bounding Box: Crop является создание новых вариантов изображений с сохранением положения и размеров объектов, ограниченных bounding boxes. Этот метод помогает модели обучаться на различных ракурсах объектов и улучшает ее способность к обнаружению объектов в различных масштабах.

Рисунок 5. Метод аугментации Bounding Box: Crop

5. Метод Bounding Box: Flip

Используется для корректировки аннотаций областей предсказания (bounding boxes) при применении операции горизонтального отражения (flip) к изображению. При применении операции flip к изображению с bounding boxes, координаты и размеры bounding boxes также должны быть изменены, чтобы соответствовать новому положению объектов на изображении.

Цель и эффект:

Цель метода аугментации Bounding Box: Flip заключается в корректной адаптации аннотаций bounding boxes при применении операции flip к изображению. Этот метод помогает сохранить корректность аннотаций объектов на изображении и обеспечить непрерывность процесса обучения модели детекции объектов.

Рисунок 6. Метод аугментации Bounding Box: Flip

После того как мы применения всех этих методов мы получаем следующий набор данных:

Рисунок 7. Набор данных после применения аугментации

Далее мы представим результаты экспериментов, проведенных с использованием описанных методов аугментации данных при обучении моделей компьютерного зрения для задачи детекции объектов на изображениях, полученных с беспилотных летательных аппаратов (БПЛА).

Целью наших экспериментов было оценить влияние примененных методов аугментации на качество обучения моделей, их способность к обнаружению объектов в различных условиях съемки, а также обобщающую способность на новые данные.

Мы представим результаты в форме анализа качества обучения моделей, сравнения их производительности с использованием различных методов аугментации данных и оценки их эффективности на тестовых наборах данных. Полученные результаты помогут оценить эффективность применения методов аугментации данных для улучшения качества обучения моделей компьютерного зрения и их применимость в практических задачах.

Для обучения без использования аугментации, батчи детекции выглядят следующим образом:

Рисунок 8. Результирующий батч для набора данных без применения аугментации

Итоговые метрики результата обучения выглядят следующим образом:

Рисунок 9. Метрики обучения на наборе данных без применения аугментации

Рисунок 10. Матрица ошибок для набора данных без применения аугментации

Таблица 2.

Точные метрики обучения на данных без применения аугментации

Номер эпохи	recall	Precision	mAP 50
1	0.3827	0.40885	0.3847
110	0.65342	0.74914	0.66793
375	0.69176	0.8258	0.72117
551	0.72249	0.8681	0.7247
714	0.0.72263	0.83559	0.7255

Далее применим к тренировочному набору данных методы аугментации, перечисленные выше. После обучения результирующий батч модели выглядит как:

Рисунок 11. Результирующий батч для набора данных с применением аугментации

В итоге результат обучения выглядит следующим образом:

Рисунок 12. Метрики обучения на наборе данных с примененем аугментации

Рисунок 13. Матрица ошибок для набора данных с применением аугментации

Таблица 3.

Точные метрики обучения на данных с применением аугментации

Номер эпохи	recall	Precision	mAP 50
1	0.4527	0.45831	0.4143
81	0.67719	0.82273	0.7311
186	0.74814	0.80257	0.75705
207	0.72989	0.82609	0.75315
277	0.71355	0.84502	0.75226

В ходе нашего исследования мы провели анализ и оценку влияния различных методов аугментации данных на качество обучения моделей компьютерного зрения для задачи детекции объектов на изображениях, полученных с беспилотных летательных аппаратов (БПЛА). Эксперименты показали, что применение аугментации данных играет важную роль в повышении производительности и точности моделей, а также их способности к обобщению на новые данные.

Мы обнаружили, что использование методов аугментации, таких как Flip, Rotation, Cutout, Bounding Box: Flip и Bounding Box: Crop, способствует улучшению качества обучения моделей и повышает их устойчивость к изменениям в условиях съемки. Эти методы позволяют моделям обучаться на более разнообразных данных, что улучшает их способность к обнаружению объектов в различных сценариях и делает их более надежными в практическом применении.

Результаты наших экспериментов подтверждают значимость использования аугментации данных в процессе обучения моделей компьютерного зрения и подчеркивают необходимость тщательного выбора методов аугментации в зависимости от особенностей задачи и характеристик набора данных. Дальнейшие исследования в этой области могут углубить наше понимание эффекта различных методов аугментации на процесс обучения моделей и помочь разработать более эффективные стратегии подготовки данных для задач компьютерного зрения.

Список литературы:

Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). SSD: Single shot multibox detector. European conference on computer vision (pp. 21-37). Springer, Cham.
Girshick, R. (2015). Fast R-CNN. IEEE international conference on computer vision (pp. 1440-1448). IEEE.
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems (pp. 91-99).
YOLOv8 - https://github.com/ultralytics/ultralytics

Информация об авторах