ОБЗОР ВЕРСИЙ YOLO: ОДНОЭТАПНАЯ МОДЕЛЬ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ

OVERVIEW OF YOLO VERSIONS: SINGLE-STAGE CONVOLUTIONAL NEURAL NETWORK MODEL

Васильев М.Е. Шалимов А.С. Савина О.А.

28.06.2025 1530

6(135)

10. Информатика, вычислительная техника и управление

Цитировать:

Васильев М.Е., Шалимов А.С., Савина О.А. ОБЗОР ВЕРСИЙ YOLO: ОДНОЭТАПНАЯ МОДЕЛЬ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ // Universum: технические науки : электрон. научн. журн. 2025. 6(135). URL: https://7universum.com/ru/tech/archive/item/20293 (дата обращения: 09.03.2026).

Прочитать статью:

АННОТАЦИЯ

В статье представлен систематизированный обзор эволюции архитектур YOLO (You Only Look Once) для задач обнаружения объектов и дефектов. Автором проведен детальный анализ ключевых модификаций алгоритма от YOLOv1 до YOLOv11, выделены их архитектурные особенности и технологические усовершенствования. Особое внимание уделено сравнительному анализу структурных изменений в последних версиях: YOLOv5, YOLOv7, YOLOv11, включая применение новых модулей C3K2, SPFF, C2PSA и механизмов обработки признаков. Проведено тестирование обучения моделей YOLOv7 и YOLOv11. Выявлено, что развитие семейства YOLO характеризуется последовательным улучшением точности детекции, особенно для мелких и сложных объектов, при сохранении требований к работе в реальном времени. Определены перспективные направления развития алгоритмов одноэтапного детектирования для промышленных систем контроля качества.

ABSTRACT

The article presents a systematic review of the evolution of YOLO (You Only Look Once) architectures for object and defect detection tasks. The author provides a detailed analysis of key algorithm modifications from YOLOv1 to YOLOv11, highlighting their architectural features and technological improvements. Special attention is paid to the comparative analysis of structural changes in recent versions (YOLOv5, YOLOv7, YOLOv11), including new modules (C3K2, SPFF, C2PSA) and feature processing mechanisms. Tests were carried out on the training of YOLOv7 and YOLOv11 models.

The study reveals that the development of the YOLO family is characterized by consistent improvements in detection accuracy, particularly for small and complex objects, while maintaining real-time performance requirements. Promising directions for the development of single-stage detection algorithms for industrial quality control systems are identified.

Ключевые слова: YOLO, обнаружение объектов, компьютерное зрение, обнаружение дефектов, сверточная нейронная сеть.

Keywords: YOLO, object detection, computer vision, defect detection, convolutional neural network.

ВВЕДЕНИЕ

В последние годы методы компьютерного зрения на основе глубокого обучения находят все большее применение в промышленности, особенно в задачах автоматического обнаружения дефектов. Среди различных подходов особое место занимает семейство алгоритмов YOLO (You Only Look Once), сочетающее высокую точность с возможностью работы в реальном времени.

Цель исследования – провести анализ архитектурных особенностей и эволюции алгоритмов YOLO.

Основные задачи включают:

Сравнительный анализ ключевых модификаций алгоритма
Выявление архитектурных особенностей последних версий
Определение перспективных направлений развития

МАТЕРИАЛЫ И МЕТОДЫ

Основу исследования составили научные публикации, посвященные разработке и применению различных версий YOLO, а также техническая документация к открытым реализациям моделей. Для проведения анализа были изучены оригинальные работы создателей алгоритма и последующие модификации, предложенные научным сообществом. Особое внимание уделялось архитектурным решениям, заявленным характеристикам производительности и особенностям практического применения в промышленных системах.

Методологическая база исследования построена на принципах системного анализа, включающего сравнение ключевых архитектурных особенностей разных версий YOLO. Анализ проводился по нескольким направлениям: эволюция базовых компонентов: основная сверточная сеть, промежуточный блок агрегации признаков, блок предсказания, внедрение новых модулей и механизмов обработки признаков, а также изменения в подходах к обучению и оптимизации моделей. Для версий YOLOv7 и YOLOv11 проведена оценка соотношение точности и скорости работы, а также способность решать практические задачи обнаружения дефектов.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

ОБЗОР ВЕРСИЙ YOLO

Современные методы обнаружения дефектов изделий и материалов активно развиваются благодаря применению глубоких сверточных нейронных сетей. С 2012 года было разработано множество моделей, каждая из которых внесла вклад в повышение точности и скорости обработки изображений. Наиболее значимыми среди них являются RCNN, SPPNet, Fast-RCNN, Faster-RCNN, YOLO, SSD, SqueezeDet и их улучшенные версии [1, с. 33].

YOLO – это инновационный подход к обнаружению объектов, основанный на разделении изображения по сетке, каждая ячейка которой самостоятельно определяет классы объектов. YOLO является одноэтапной моделью и работает быстрее других. Первоначальная версия YOLO могла обрабатывать 45 кадров в секунду, что делало его применимым для задач реального времени. Однако метод имел недостатки, такие как слабая точность детекции мелких объектов и сложность в обработке сильно перекрывающихся объектов. Улучшенные версии, такие как YOLOv2, YOLOv3, YOLOv4 и далее, значительно повысили точность и устойчивость модели, делая ее одним из самых популярных решений в области компьютерного зрения. YOLO широко используется в автономных транспортных системах, например, в беспилотных автомобилях для обнаружения пешеходов и других транспортных средств.

С момента появления YOLO произошли различные изменения и улучшения, что привело к созданию нескольких версий YOLO от YOLOv1 до YOLOv11. Общие сведения о версиях YOLO приведены в таблице 1.

Алгоритм YOLO претерпел значительные улучшения с момента своего первого появления. Создатель алгоритма внёс усовершенствования в модели YOLOv2 и YOLOv3, что позволило повысить их производительность, улучшить точность детекции и скорость работы. Начиная с YOLOv3 был внедрён механизм выбора признаков, что значительно повысило эффективность детекции дефектов на поверхностях [2, с. 109454].

Таблица 1.

Версии алгоритма YOLO

№ п\п	Версия YOLO	Улучшения	Результаты
1	YOLOv1	Алгоритм SSD (Single shot detector) объединяет и решает проблему отрисовки ограничительных рамок и определение классов.	Большая точность и скорость по сравнению с двухаэтапными алгоритмами.
2	YOLOv2	Итеративные улучшения нормализации групп изображений, способность работать с более высоким разрешением изображений.	Более быстрая точность распознавания, выше точность для изображений с высоким разрешением.
3	YOLOv3	Добавление оценки к предсказанию ограничительной рамки, добавление связей к слоям основной сети и предсказания на трех различных уровнях детализации.	Улучшено распознавание мелких объектов.
4	YOLOv4	Улучшение обобщения признаков.	Улучшена точность и упрощено обучение, высокое качество работы.
5	YOLOv5	Уменьшение параметров сети.	Улучшена обучаемость, возможность работы с видео, более быстрая работа.
6	YOLOv6	Переработана схема сети.	Улучшение в распознавании мелких объектов, однако менее стабильна.
7	YOLOv7	Уменьшение параметров сети.	Улучшена скорость и точность обучения.
8	YOLOv8	Оптимизированная архитектура, улучшенная эффективность модели.	Увеличенная скорость работы, лучшая точность в реальном времени.
9	YOLOv9	Представлены PGI (программируемая градиентная информация) и GELAN (обобщённая эффективная сеть агрегирования слоёв).	Повышенная устойчивость модели, более точное обнаружение объектов.
10	YOLOv10	Внедрение End-to-End головы, отказ от NMS (Non-Maximum Suppression).	Уменьшение задержек, повышение точности детекции.
11	YOLOv11	Улучшенные механизмы сегментации, трекинга и классификации.	Максимальная точность, высокая гибкость для различных задач компьютерного зрения.
12	YOLOv12	Оптимизация обучения путем разделения карты признаков на области, повышение стабильности обучения и использования памяти	Эффективное потребление вычислительных ресурсов. Превосходит предыдущие версии по скорости и точности.

Развитие алгоритма YOLO продолжилось с выходом YOLOv5, который стал основой для улучшенной модели обнаружения поверхностных дефектов. В этой версии были оптимизированы параметры сети, что позволило добиться высокой точности при уменьшенном размере модели [3, с. 7235]. Это сделало возможным её развертывание на мобильных терминалах и использование в реальном времени для выявления дефектов на производственных линиях.

Данная модель состоит из трех основных компонентов: основной сверточной сети, промежуточного блока агрегации признаков и «головы». Основная сверточная сеть архитектуры состоит из набора сверточных нейронных сетей, дополненных специализированными модулями C3 и SPP, отвечающими за выделение ключевых характеристик изображений. Центральный компонент системы преобразует визуальные данные в векторное представление, объединяя пространственные параметры (ширину и высоту) с канальными измерениями, что существенно ускоряет процесс извлечения признаков. Промежуточный блок агрегации признаков реализует сеть объединения признаков. «Голова» выполняет функции прогнозирования, генерируя через последовательность сверточных преобразований три набора векторов признаков, содержащих распознанные категории и вероятность успешной категоризации. Схема данной архитектуры представлена на рисунке 1.

Алгоритм YOLOv7 является одним из последних и наиболее усовершенствованных представителей семейства моделей YOLO для задачи обнаружения объектов [4, с. 7464]. Он предназначен для эффективного и точного детектирования объектов в реальном времени. Основная архитектура YOLOv7, как и YOLOv5 включает несколько ключевых компонентов, таких как основная сверточная сеть, промежуточный блок агрегации признаков и блок предсказания, которые обеспечивают высокую точность и производительность. Основная сверточная сеть отвечает за извлечение признаков из входного изображения, промежуточный блок агрегации признаков объединяет признаки разных уровней, а голова выполняет окончательное предсказание объектов. Эта архитектура оптимизирована для использования в условиях ограниченных вычислительных ресурсов, что делает её идеальной для задач, требующих быстрой обработки данных.

Рисунок 1. Схема архитектуры модели YOLOv5

Источник: [3]

Схема архитектуры YOLOv7 представлена на рисунке 2. Архитектура включает в себя основные модули: входные изображения, основная сверточная сеть, голова, компоненты: CBS, MP, ELAN, ELAN-H, SPPCSPC.

CBS (Convolutional Block with Batch Normalization and Swish) – это свёрточный блок, который включает свёрточный слой, нормализацию батча (Batch Normalization) и активационную функцию Swish. Свёрточный слой извлекает пространственные признаки из изображения. Нормализация батча помогает ускорить и стабилизировать обучение нейронной сети, а функция активации Swish улучшает нелинейные свойства сети, что позволяет модели лучше захватывать сложные зависимости в данных.

Рисунок 2. Архитектура модели YOLOv7

Источник: [4]

MP (Max Pooling) – является операцией подвыборки, которая выбирает максимальное значение из каждого подрегиона входного представления (обычно квадратный фильтр). Эта операция уменьшает пространственное разрешение представления (т.е. уменьшает размер изображения) и сохраняет наиболее значимые признаки, что помогает уменьшить вычислительную сложность и предотвращает переобучение.

ELAN-H (Efficient Layer Aggregation Network with Hypercolumns) – расширяет идею ELAN, включая концепцию гиперколонок (Hypercolumns). Гиперколонки объединяют признаки с разных уровней абстракции, что позволяет модели использовать более детализированную и обобщённую информацию одновременно. Это улучшает способность модели к обнаружению объектов на различных масштабах и уровнях детализации.

SPPCSPC (Spatial Pyramid Pooling Combined with CSPNet) – сочетает в себе методы пространственной пирамидальной подвыборки (Spatial Pyramid Pooling, SPP) и архитектуру Cross Stage Partial Networks (CSPNet). SPP использует многомасштабное подвыборочное представление признаков, что помогает модели захватывать объекты различных размеров и аспектов. CSPNet делит базовую сеть на два пути, что уменьшает количество параметров и вычислений, улучшая при этом способность модели к извлечению признаков и стабильность обучения.

YOLOv11 представляет собой новейшую версию в семействе моделей YOLO, разработанную [5, с. 1] для задач обнаружения объектов с акцентом на повышение точности, скорости и эффективности использования вычислительных ресурсов. YOLOv11 продолжает традиции своих предшественников, таких как YOLOv5 и YOLOv7, но включает в себя ряд инновационных архитектурных решений и оптимизаций, которые делают её одной из самых передовых моделей для задач компьютерного зрения. [6, с. 14032]

Архитектура YOLOv11, как и у предыдущих версий, состоит из трех основных компонентов: основной сверточной сети, промежуточного блока агрегации признаков и головы. Однако каждый из этих компонентов был значительно улучшен для повышения производительности и точности модели. Схема архитектуры представлена на рисунке 3.

Рисунок 3. Архитектура модели YOLOv11

Источник: [7]

В качестве основы YOLOv11 используется модернизированная структура, призванная эффективно извлекать признаки изображения при минимальных вычислительных затратах. Основную сверточную сеть составляют несколько ключевых блоков.

Conv – базовый элемент, состоящий из свёрточного слоя с ядрами свёртки, нормализации по батчу и функции активации SiLU. Данный блок отвечает за начальную обработку входных данных, сжатие пространственной информации и повышение нелинейности модели.

C3K2 – основная инновация YOLOv11. Данный блок представляет собой развитие архитектуры CSP (Cross Stage Partial). C3K2 оптимизирует поток информации за счёт разделения карт признаков и применения более мелких ядер свёртки (3x3), что ускоряет вычисления без потери качества. В отличие от C2F, C3K2 не делит входной поток, а последовательно обрабатывает данные через свёрточные блоки и серию Bottle Neck модулей. Его структура фокусируется на снижении числа параметров и сохранении скорости, одновременно улучшая способность модели к извлечению детальных признаков.

Промежуточный блок агрегации признаков модели в YOLOv11 отвечает за дальнейшую агрегацию и обработку признаков, полученных на стадии основной сверточной сети. В данной архитектуре реализован модуль SPFF (Spatial Pyramid Pooling Fast), который используется для эффективного объединения информации с различных уровней разрешения.

SPFF применяет многоуровневое извлечение признаков по максимальному значению с различными размерами ядер, что позволяет модели извлекать контекстную информацию с разных масштабов. Это особенно важно для обнаружения объектов различных размеров, включая мелкие объекты, которые традиционно представляют сложность для алгоритмов определения. Комбинирование признаков с разных уровней разрешения обеспечивает богатую контекстуальную информацию, улучшая способности модели к обобщению.

Также важной частью промежуточного блока агрегации признаков является механизм внимания C2PSA (Cross Stage Partial with Spatial Attention). Этот блок добавляет пространственное внимание к обработке признаков, позволяя модели фокусироваться на наиболее важных участках изображения. Он включает два модуля PSA, которые работают параллельно и затем объединяются, что помогает выявлять сложные и частично перекрывающиеся объекты.

Финальной частью YOLOv11 является голова модели, где формируются предсказания. Здесь применяется подход мультиуровневых предсказаний, при котором используются карты признаков с трёх различных уровней (например, P3, P4 и P5). Это позволяет осуществлять определение объектов разного размера: от мелких до крупных. Каждый из этих уровней отвечает за свою часть задачи: более низкие уровни обеспечивают точность при обнаружении мелких объектов, тогда как высокоуровневые признаки подходят для определения крупных объектов. Таким образом, голова YOLOv11 позволяет одновременно предсказывать местоположение объектов, их размеры и классы, сохраняя высокую скорость обработки.

Одной из ключевых особенностей YOLOv11 является её энергоэффективность. Модель разработана с учетом ограниченных вычислительных ресурсов, что делает её применимой на устройствах с низкой производительностью, таких как мобильные устройства и встраиваемые системы. Кроме того, использование динамического блока предсказания, адаптирующего используемые вычислительные мощности в зависимости от сложности изображения, позволяет модели подстраиваться к различным входным данным, что повышает её устойчивость к изменениям в условиях окружающей среды, например, при определении дефектов бетонных поверхностей [8, с. 1291] или объектов небольших размеров [9, с. 2].

СРАВНЕНИЕ РЕЗУЛЬТАТОВ ОБУЧЕНИЯ YOLOv7 и YOLOv11

Для сравнения быстродействия и точности обучения модели YOLO версий 7 и 11 был использован датасет дефектов поверхности металла Северо-Восточного университета штата Массачусетс [10, с. 1], в котором собраны шесть типов типичных поверхностных дефектов горячекатаной стальной полосы, которые показаны на рисунке 4.

Эта база данных включает 1800 изображений в градациях серого, разделенных на шесть типов дефектов, каждый из которых представлен 300 образцами. Исходные изображения имеют разрешение 200х200 пикселей и представлены в градациях серого. Кроме того, для повышения устойчивости модели к различным условиям (например, изменению освещения или угла съемки) применяется аугментация данных. Это включает поворот, отражение, изменение яркости или контраста изображений.

Для обучения и тестирования моделей было реализовано небольшое приложение на Python, позволяющее провести обучение модели на указанном датасете, а затем протестировать определение дефекта. Скриншот окна обучения модели приведен на рисунке 5. Скриншот окна определения дефекта приведен на рисунке 6.

Рисунок 4. Образцы изображений дефектов поверхности металла

Рисунок 5. Окно обучения модели

Рисунок 6. Окно определения класса дефекта после выбора изображения

Сравнительный анализ характеристик моделей был проведён на основе логов обучения и значений ключевых метрик, фиксируемых в процессе тренировки каждой модели.

В ходе обучения моделей были зафиксированы значения ряда параметров, отражающих качество и характеристики работы каждой из них:

epoch — номер текущей эпохи обучения.
time — суммарное время обучения на момент окончания текущей эпохи, измеренное в секундах.
train/box_loss – значение функции потерь, связанной с ошибками локализации объектов на тренировочной выборке. Меньшее значение свидетельствует о более точном определении координат объектов.
train/cls_loss – функция потерь классификации классов объектов на тренировочной выборке. Чем ниже значение, тем лучше модель различает классы объектов.
train/dfl_loss – Discrete Focal Loss, отвечающая за более точное моделирование распределения вероятностей вокруг центра области распознавания.
metrics/precision(B) – точность, определяющая долю правильно классифицированных положительных примеров среди всех положительных предсказаний.
metrics/recall(B) – полнота, показывающая долю правильно найденных положительных примеров среди всех фактических положительных объектов.
metrics/mAP50(B) – среднее значение точности по всем классам при пороге IoU = 0.5. Используется как основная метрика для оценки качества обнаружения объектов.
metrics/mAP50-95(B) – среднее значение точности при различных порогах IoU от 0.5 до 0.95 с шагом 0.05. Данная метрика более строгая и характеризует обобщающую способность модели.
val/box_loss, val/cls_loss, val/dfl_loss – значения функций потерь на валидационной выборке, аналогичные тренировочным метрикам.
lr/pg0, lr/pg1, lr/pg2 – значения коэффициентов обучения для различных групп параметров модели.

YOLOv7 демонстрирует стабильные результаты по всем основным метрикам. Уже к третьей эпохе модель достигает metrics/mAP50(B) = 0.882 и metrics/mAP50-95(B) = 0.871, что говорит о высокой способности модели к точному обнаружению объектов на тестовых изображениях. К десятой эпохе средняя точность повышается до mAP50(B) = 0.990 и mAP50-95(B) = 0.990. Модель демонстрирует хорошую динамику по снижению функции потерь на валидационной выборке: val/box_loss снижается с 0.28581 до 0.17571, а val/cls_loss с 2.46723 до 0.7389. Однако одной из особенностей модели является достаточно продолжительное время обучения: каждая эпоха занимает порядка 400 секунд, что в сумме приводит к общей длительности обучения более 4000 секунд (примерно 1 час и 10 минут). В таблице 2 представлены результаты обучения модели YOLOv7.

Таблица 2.

Результаты обучения YOLOv7

Итерация	Time (сек)	Train Box Loss	Train Cls Loss	Train DFL Loss	Precision	Recall	mAP50	mAP50-95	Val Box Loss	Val Cls Loss	Val DFL Loss
1	415.422	0.37074	2.66118	1.15214	0.7418	0.65633	0.83952	0.80582	0.28581	2.46723	0.41949
2	838.138	0.12706	1.38390	0.95994	0.91637	0.93221	0.975	0.975	0.18962	1.57662	0.25837
3	1253.86	0.11861	1.14885	0.95183	0.81790	0.80936	0.882	0.87146	0.27493	1.56022	0.40984
4	1675.30	0.09971	0.80824	0.94011	0.96646	0.96871	0.98145	0.98145	0.20059	0.88909	0.29128
5	2087.92	0.08871	0.70946	0.93849	0.93551	0.83164	0.96485	0.96485	0.23011	1.05806	0.33092
6	2500.39	0.07918	0.61317	0.91698	0.91580	0.93221	0.97139	0.97072	0.20314	0.93595	0.30891
7	2914.05	0.06470	0.48533	0.92636	0.98061	0.96771	0.98986	0.98986	0.16815	0.78764	0.24997
8	3326.01	0.05716	0.39747	0.91539	0.98271	0.98176	0.98777	0.98777	0.18648	0.72754	0.27302
9	3741.72	0.04813	0.35053	0.91318	0.97061	0.98155	0.98834	0.98834	0.20858	0.86661	0.29421
10	4161.20	0.04243	0.32609	0.91676	0.98256	0.98027	0.99042	0.99042	0.17571	0.73890	0.25698

Таблица 3.

Результаты обучения YOLOv11

Итерация	Time (сек)	Train Box Loss	Train Cls Loss	Train DFL Loss	Precision	Recall	mAP50	mAP50-95	Val Box Loss	Val Cls Loss	Val DFL Loss
1	435.487	0.34979	2.99162	1.13521	0.66201	0.51553	0.55338	0.55313	0.12185	2.97739	0.18949
2	870.707	0.11647	1.39994	0.95471	0.59212	0.83474	0.91524	0.90002	0.21754	2.26922	0.26767
3	1305.46	0.11086	1.06161	0.94532	0.51695	0.60059	0.57152	0.56964	0.20847	2.87140	0.29258
4	1742.11	0.10087	0.89464	0.94341	0.91809	0.91227	0.98592	0.98345	0.26919	1.23490	0.37347
5	2189.08	0.09194	0.68281	0.93940	0.86639	0.81027	0.97316	0.97065	0.18612	1.14042	0.27204
6	2707.90	0.07082	0.59499	0.91044	0.86383	0.90561	0.97697	0.97697	0.14641	1.35978	0.22308
7	3229.58	0.06103	0.47621	0.91903	0.94519	0.97097	0.97195	0.97195	0.16664	0.82334	0.24076
8	3750.87	0.05448	0.39285	0.91015	0.97776	0.97568	0.99046	0.99046	0.18299	0.63383	0.26124
9	4285.81	0.04727	0.34186	0.90955	0.97512	0.98168	0.99067	0.99067	0.14697	0.66542	0.21879
10	4823.84	0.03794	0.31382	0.91230	0.98441	0.98401	0.99235	0.99235	0.15501	0.62596	0.23402

В сравнении с предыдущей версией, модель YOLOv11 демонстрирует незначительное увеличение времени обучения: средняя продолжительность эпохи составляет около 450 секунд. Модель достигает metrics/mAP50(B) = 0.992 и metrics/mAP50-95(B) = 0.992 к десятой эпохе, что немного превышает показатели YOLOv7. Это указывает на более высокую способность YOLOv11 к точному определению объектов, особенно при высоких порогах пересечения (IoU). Тем не менее, на ранних этапах обучения модель демонстрирует нестабильность: на второй и третьей эпохах mAP50(B) снижается до 0.571 и даже 0.553 на первой эпохе, что говорит о более сложном процессе сходимости модели по сравнению с YOLOv7. Также наблюдаются колебания значений val/cls_loss, что указывает на высокую чувствительность модели к параметрам обучения и качеству входных данных. В таблице 3 представлены результаты обучения модели YOLOv11.

YOLOv7 показывает наиболее стабильную динамику улучшения метрик в процессе обучения. YOLOv11 на ранних этапах демонстрируют колебания метрик, однако впоследствии достигает стабильно высоких значений. В целом, версия YOLOv11 представляет собой наиболее сбалансированное решение, сочетающее высокую производительность и точность обнаружения дефектов при минимальных затратах времени на обучение. Это делает её предпочтительным выбором в рамках задачи определения дефектов.

Начиная с базовой версии, алгоритм претерпел значительные изменения, каждое из которых было направлено на устранение конкретных ограничений. Так, переход от YOLOv3 к YOLOv4 ознаменовался внедрением более эффективных методов аугментации данных и оптимизации функции потерь, что позволило значительно улучшить точность детекции мелких объектов.

Особый интерес представляют архитектурные решения, реализованные в YOLOv7 и YOLOv11. В этих версиях были предложены инновационные подходы к агрегации признаков, такие как модули ELAN-H и SPFF, которые обеспечивают более эффективное использование вычислительных ресурсов при работе с объектами различного масштаба. Важным достижением стало внедрение механизмов пространственного внимания (C2PSA), позволивших улучшить детекцию в сложных условиях, когда объекты частично перекрываются или имеют нечеткие границы.

Последние версии YOLO могут являться особенно перспективными для промышленного применения, где критически важны как точность обнаружения, так и скорость обработки.

ЗАКЛЮЧЕНИЕ

Обзор эволюции архитектур YOLO продемонстрировал эффективность последовательного подхода к совершенствованию алгоритмов детекции. Каждая новая версия не только устраняла недостатки предыдущих, но и предлагала инновационные решения, расширяющие область применения метода. Современные реализации YOLO достигли уровня, когда они могут успешно использоваться в сложных промышленных задачах, включая контроль качества продукции и автоматизированный мониторинг производственных линий.

Перспективы дальнейшего развития алгоритма связаны с несколькими направлениями. Во-первых, это оптимизация для работы на маломощных устройствах, что особенно актуально для встраиваемых систем промышленного назначения. Во-вторых, улучшение методов обработки изображений с низким разрешением и сложными условиями освещения. Наконец, важным направлением представляется разработка механизмов интерпретации результатов, которые повысят доверие к автоматизированным системам контроля качества. Полученные в ходе исследования выводы подтверждают, что YOLO остается одним из наиболее перспективных инструментов в области компьютерного зрения для промышленных применений.

Список литературы:

Tulbure A. A., Tulbure A. A., Dulf E. H. A review on modern defect detection models using DCNNs–Deep convolutional neural networks //Journal of Advanced Research. – 2022. – Т. 35. – С. 33-48.
Kou X., Liu S, Cheng K, Qian Y. Development of a YOLO-V3-based model for detecting defects on steel strip surface //Measurement. – 2021. – Т. 182. – С. 109454
Li X., Wang C., Ju H., Li Z. Surface defect detection model for aero-engine components based on improved YOLOv5 //Applied Sciences. – 2022. – Т. 12. – №. 14. – С. 7235
Wang C. Y., Bochkovskiy A., Liao H. Y. M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2023. – С. 7464-7475.
YOLOv11 GitHub [электронный ресурс] – Режим доступа. — URL: https://github.com/yt7589/yolov11 (Дата обращения: 27.05.2025)
He L., Zhou Y., Liu L., Cao W., Ma J. Research on object detection and recognition in remote sensing images based on YOLOv11 //Scientific Reports. – 2025. – Т. 15. – №. 1. – С. 14032.
A Comprehensive Guide to YOLOv11 Object Detection [электронный ресурс] – Режим доступа. — URL: https://www.analyticsvidhya.com/blog/2024/10/ yolov11-object-detection/ (Дата обращения: 27.05.2025)
Tian Z., Yang F., Yang L., Wu Y., Chen J., Qian P. An Optimized YOLOv11 Framework for the Efficient Multi-Category Defect Detection of Concrete Surface //Sensors. – 2025. – Т. 25. – №. 5. – С. 1291.
Wang C., Song X., Wang J., Yan X. An improved YOLOv11 algorithm for small object detection in UAV images //Signal, Image and Video Processing. – 2025. – Т. 19. – №. 6. – С. 1-12.
Metal Surface Defects Dataset [электронный ресурс] – Режим доступа. — URL: https://www.kaggle.com/datasets/fantacher/neu-metal-surface-defects-data (Дата обращения: 27.05.2025)