СИСТЕМЫ ДЕТЕКЦИИ ОБЪЕКТОВ ДЛЯ ОПРЕДЕЛЕНИЯ МОДЕЛЕЙ АВТОМОБИЛЕЙ: КОМПЛЕКСНЫЙ СРАВНИТЕЛЬНЫЙ АНАЛИЗ И ПРАКТИЧЕСКАЯ ИНТЕГРАЦИЯ НА ОСНОВЕ РЕАЛЬНЫХ ИЗОБРАЖЕНИЙ В УСЛОВИЯХ УЗБЕКИСТАНА

OBJECT DETECTION SYSTEMS FOR DETERMINING CAR MODELS: COMPREHENSIVE COMPARATIVE ANALYSIS AND PRACTICAL INTEGRATION BASED ON REAL IMAGES IN UZBEKISTAN

Мисиров Ф.А. Давронов Р.Р.

28.06.2025 244

6(135)

10. Информатика, вычислительная техника и управление

Цитировать:

Мисиров Ф.А., Давронов Р.Р. СИСТЕМЫ ДЕТЕКЦИИ ОБЪЕКТОВ ДЛЯ ОПРЕДЕЛЕНИЯ МОДЕЛЕЙ АВТОМОБИЛЕЙ: КОМПЛЕКСНЫЙ СРАВНИТЕЛЬНЫЙ АНАЛИЗ И ПРАКТИЧЕСКАЯ ИНТЕГРАЦИЯ НА ОСНОВЕ РЕАЛЬНЫХ ИЗОБРАЖЕНИЙ В УСЛОВИЯХ УЗБЕКИСТАНА // Universum: технические науки : электрон. научн. журн. 2025. 6(135). URL: https://7universum.com/ru/tech/archive/item/20435 (дата обращения: 11.03.2026).

Прочитать статью:

АННОТАЦИЯ

В статье представлены результаты исследования по автоматическому определению моделей автомобилей на видеозаписях с реальных камер в Узбекистане. Для этого был сформирован специализированный датасет из более 12 000 изображений и 15 классов автомобилей, включающий данные в различных погодных условиях и состояния освещения. Изучены и сравнены современные архитектуры обнаружения объектов: YOLOv8-s, EfficientDet-D0, DETR (ResNet50) и CenterNet. Оценка эффективности проводилась по метрикам mAP@0.5, F1-score и времени обработки. Эксперименты показали наилучшие результаты модели YOLOv8-s, которая была интегрирована в Telegram-бота для работы в реальном времени. Исследование демонстрирует практическую значимость подхода для систем транспортного мониторинга и безопасности.

ABSTRACT

This paper presents the results of research on the automatic identification of car models using real surveillance camera footage in Uzbekistan. A specialized dataset was created, comprising over 12,000 images and 15 car classes, including data captured under various weather and lighting conditions. Modern object detection architectures were studied and compared: YOLOv8-s, EfficientDet-D0, DETR (ResNet50), and CenterNet. The models' effectiveness was evaluated using the mAP@0.5, F1-score, and inference time metrics. Experiments demonstrated that YOLOv8-s achieved the best results and was integrated into a Telegram bot for real-time operation. The study demonstrates the practical significance of the approach for transport monitoring and security systems.

Ключевые слова: Обнаружение объектов, идентификация моделей автомобилей, компьютерное зрение, YOLOv8, EfficientDet, DETR, CenterNet, транспортный мониторинг, набор данных, Telegram-бот.

Keywords: Object detection, car model identification, computer vision, YOLOv8, EfficientDet, DETR, CenterNet, transport monitoring, dataset, Telegram bot.

Введение

Быстрое развитие искусственного интеллекта и компьютерного зрения в последние годы дало возможность эффективно решать задачи обнаружения объектов. Эти технологии находят широкое применение в транспорте, системах безопасности и концепции умного города.

Современные методы, основанные на сверточных и трансформерных архитектурах, повысили точность и адаптивность моделей к реальным условиям. Они успешно справляются с вариациями освещения, погодными изменениями и сложной дорожной обстановкой.

Обнаружение объектов включает в себя определение и локализацию ключевых элементов на изображениях или видео с помощью ограничивающих рамок. Этот процесс служит основой для автоматизированного анализа визуальных данных [7].

Одной из актуальных задач в данной области является идентификация марки и модели автомобиля (VMMR). Она имеет важное значение для построения интеллектуальных систем мониторинга, контроля дорожного движения и повышения транспортной безопасности. Однако эта задача усложняется визуальным сходством между моделями автомобилей, а также разнообразием условий съёмки: углы, освещение и погодные влияния [5].

Существующие открытые датасеты, как правило, ориентированы на условия развитых стран и не отражают особенностей инфраструктуры таких регионов, как Узбекистан. В этих условиях типы автомобилей, дорожные покрытия и стиль эксплуатации существенно отличаются, что снижает применимость универсальных моделей.

Традиционные методы VMMR основывались на использовании ручных признаков (SIFT, HOG) и простых классификаторов [4]. Внедрение глубокого обучения, в частности сверточных нейронных сетей (CNN), позволило автоматизировать процесс извлечения признаков и значительно повысить точность распознавания.

Современные архитектуры объектов делятся на двухэтапные (например, R-CNN), одноэтапные (YOLO, SSD) и трансформерные (DETR). Среди них YOLOv8 выделяется скоростью и стабильностью работы, что делает её особенно пригодной для приложений реального времени. EfficientDet и CenterNet применяют инновационные подходы к локализации и обработке данных [1].

Цель исследования – разработка и практическая реализация системы автоматического определения моделей автомобилей на основе изображений с реальных камер видеонаблюдения в условиях Узбекистана.

Для достижения цели были поставлены следующие задачи:

Сформировать специализированный аннотированный датасет, отражающий типичный автопарк и дорожные условия региона.
Провести сравнительный анализ современных архитектур обнаружения объектов (YOLOv8-s, EfficientDet-D0, DETR, CenterNet) по метрикам точности и производительности.
Интегрировать наиболее эффективную модель в Telegram-бот для работы в режиме реального времени.

Материалы и методы исследования

Для исследования был сформирован специальный набор данных (dataset) на основе изображений, полученных с реальных CCTV камер, расположенных на дорогах Узбекистана. Данный подход непосредственно направлен на решение таких проблем, как «внутриклассовые изменения» и «неравномерные условия трафика», выявленных в области определения марки и модели автомобиля (МММР). Камера снимала только при обнаружении движения автомобиля, что значительно облегчило последующий процесс фильтрации. Собранные изображения были получены под различными углами, освещением и погодными условиями, что обеспечивает отражение набором данных разнообразия реального мира. Такая локальная специфичность повышает эффективность модели в целевой среде.

Характеристики сформированного набора данных включают в себя:

Размер: Dataset содержит более 12 000 изображений.
Количество классов: определено и обозначено более 15 классов автомобилей, в том числе Lacetti, Damas, Cobalt и другие. Это учитывает уникальность автомобильного парка Узбекистана и обеспечивает адаптацию моделей к местным условиям. Полный список моделей представлены в Таблице 1.
Размер изображения и обработка: все изображения были доведены до разрешения 640×640 пикселей, применено гамма-контрастное выравнивание. Это обеспечило единый формат ввода, улучшение качества данных и стабильность процесса обучения моделей. Такая предварительная обработка позволяет системе фокусироваться на особенностях объектов, исключая влияние шумов и некорректных элементов исходных изображений. На рисунке 1 представлены примеры изображений трёх различных моделей автомобилей из аннотированного датасета: (a) – Chevrolet Cobalt, (b) – Chevrolet Damas, (c) – Chevrolet Nexia. Эти изображения демонстрируют различные ракурсы, дорожные ситуации и погодные условия, что подчёркивает реалистичность и разнообразие собранного материала.

a b c

Рисунок 1. Различные модели автомобилей и ракурсы

Таблица 1.

Аннотированная статистика набора данных (смешанные модели)

№	Класс	Число	№	Класс	Число	№	Класс	Число
1	Matiz	484	6	Equinox	288	11	Captiva	337
2	Damas	1167	7	Tracker	256	12	Toyota	143
3	Jentra	1245	8	Hyundai	117	13	Nexia	1125
4	Kia	75	9	Lacetti	1432	14	Cobalt	1979
5	Malibu	934	10	Trailblazer	197	15	Spark	1541

Процесс аннотирования осуществлялся с помощью программы LabelImg. Формат аннотации состоял из изображений .jpg и данных соответствующего ограничивающего ящика в формате .txt (YOLO). Набор данных был распределен в соотношении 70 %, 20 % и 10 % соответственно на наборы обучения (train), валидации (validation) и теста (test). Это распределение позволяет обучать модель, настраивать гиперпараметры и проводить итоговую оценку в соответствии со стандартной научной практикой. Такая детальная подготовка данных создает основу для эффективности моделей дальнейшего углубленного изучения.

Каждая объектно-определяющая модель требует данных в своем соответствующем формате. Это важный шаг в преобразовании показателей для проведения сравнительного анализа между различными архитектурами. В следующей таблице представлены требуемые форматы и инструменты конвертации для каждой модели:

Таблица 2.

Требуемые форматы данных и инструменты преобразования для объектно-определяющих моделей

Модель	Необходимый формат	Инструмент конвертации
YOLOv8	.jpg +.txt (YOLO)	Используется напрямую
EfficientDet	COCO.json	yolo2coco.py, Roboflow
DETR	COCO.json	labelme2coco, cocoapi
CenterNet	COCO yoki VOC	coco_converter, CVAT

Эта таблица показывает сложность процесса понимания специфических требований к особенностям каждой модели и адаптации набора данных. Этот процесс преобразования показателей отражает техническое мастерство исследователя в обеспечении взаимодействия между различными фреймворками глубокого обучения.

В исследовании были выбраны четыре современные архитектуры обнаружения объектов: YOLOv8-s, EfficientDet-D0, DETR (ResNet50) и CenterNet, что позволило провести всестороннее сравнение различных подходов (одноэтапные, трансформерные, ключевые точки) на одном наборе данных. Это дало возможность оценить, как архитектурные решения влияют на точность и скорость моделей.

YOLOv8-s – последняя версия серии YOLO, разработанная Ultralytics, отличается отличным балансом между скоростью и точностью [7]. В архитектуре применён облегчённый модуль C2f, модуль SPPF для работы с объектами разных размеров и анкер-свободная детекция для ускорения и лучшего обобщения. Структура разделённой головы и мозаичное расширение данных также улучшают качество и универсальность модели.

EfficientDet – семейство моделей Google^* Research, сочетающее высокую точность с вычислительной эффективностью. В основе используется EfficientNet и усовершенствованная BiFPN (Bi-directional Feature Pyramid Network), которая эффективно объединяет многомасштабные признаки. Compound Scaling обеспечивает оптимальное масштабирование всех компонентов модели [6].

Функция потерь (Loss Function): EfficientDet часто использует Focal Loss, которая предназначена для решения классовых диспропорций и фокусирования внимания на сложных примерах. Также для регрессии можно использовать потери Хубера. Focal Loss: где – вероятность, классифицированная в действительный класс, а γ – параметр фокусировки. в противном случае где y – действительное значение, f (x) – прогнозируемое значение, δ – гиперпараметр.

DETR (ResNet50) – DETR (DEtection Transformer) впервые объединил трансформеры в задаче обнаружения объектов, заменив традиционные этапы, такие как NMS, одной нейронной сетью. Архитектура включает стандартный CNN для извлечения признаков (например, ResNet50), энкодер и декодер трансформера. Декодер с помощью объектных запросов формирует предсказания классов и рамок через FFN [2]. Функция глобальных потерь с бипартитным сопоставлением обеспечивает уникальные прогнозы и упрощает процесс обнаружения. Функция потерь: DETR минимизирует венгерские потери в обучении. Эта потеря основана на нахождении оптимального соответствия между прогнозируемым и фактическим набором объектов. Венгерская формула потерь: где σ обозначает оптимальное бипартитное соответствие, которое рассчитывается с помощью венгерского алгоритма. является вероятностью класса для соответствующего прогноза. является индикаторной функцией, и только если действительный класс “нет объекта” box считается потерянным. Box Loss (Lbox): Это рассчитывается как линейная комбинация потерь L1-loss и обобщенного IoU (GIoU). где и λL₁ гиперпараметры. Для учета несовместимости класса термин лог-вероятность для класса “нет объекта” уменьшается в 10 раз.

CenterNet – это одноступенчатый детектор, определяющий каждый объект по трём ключевым точкам: центральной и двум угловым. Благодаря центральному и каскадному угловому пуллингу, модель точнее выделяет объекты и фильтрует неверные рамки [1]. Функция потерь (Loss Function): функция потерь CenterNet состоит из трех основных частей: потерь центральной точки и классификации, потерь размера целевой рамки и потерь смещения центральной точки. Центральная точка и потеря классификации (Lk): использует функцию Focal Loss. Формула: в противном случае где α и β –гиперпараметры, Y – действительные ключевые точки, а N – количество ключевых точек на изображении. Потеря смещения центральной точки (Loff): использует функцию потерь L1 для исправления смещения, вызванного квантованием. Формула: где p обозначает координаты центральной ключевой точки, R обозначает шаг опробования вниз, а обозначает координаты на карте низкоразмерного свойства. Целевая потеря размера рамки (L_size): цель – потеря размера рамки (L_size): использует функцию L₁ loss для регрессии. Формула: , где цель k соответствует размеру коробки держателя надписей, а означает действительный размер. Функция общих потерь (L_det):

здесь являются весовыми коэффициентами каждого компонента потерь, используется для прогнозирования углов, если таковые имеются. В основной статье оно представлено в виде .

Для оценки эффективности моделей были использованы три важные метрики:

mAP@0.5 (mean Average Precision at IoU=0.5): основная метрика, используемая для оценки точности моделей обнаружения объектов. Это измеряет среднюю точность определений, где значение IoU (Intersection over Union) больше или равно 0.5. IoU (Intersection over Union): измеряет взаимосвязь между предсказуемым ограничивающим ящиком и фактическим (ground truth) ограничивающим ящиком. Эта метрика определяет, насколько точно прогноз соответствует фактическому местоположению объекта. Формула: IoU= Поле слияния – это поле пересечения. Этапы расчета: определение координат прямоугольника площади пересечения:Вычисление площади пересечения: (Если отрицательно, то равно 0).

Рассчитать площадь каждой коробки:.

Вычисление площади объединения: Areaunion=AreaA+AreaB−Areainter.Вычисление IoU: IoU=Areainter/Areaunion.Precision (Точность): доля правильно определённых объектов среди всех предсказанных.

Recall (Полнота): доля правильно найденных объектов среди всех реальных положительных.

F1-score: Гармоническое среднее Precision и Recall, отражающее баланс между точностью и полнотой.

Время инференции: среднее время обработки одного изображения (мс), ключевая метрика для работы в реальном времени. Обучение и тестирование моделей проводилось с использованием специализированных форматов данных и высокопроизводительных ГПУ, что существенно ускоряет вычисления. Для достижения высокой точности тщательно настраивались ключевые гиперпараметры, включая количество эпох, скорость обучения и размер пакета, так как они напрямую влияют на результативность модели.

Результаты и обсуждения

Экспериментальные результаты показывают эффективность модели обнаружения четырёх объектов в специально собранном наборе данных в условиях Узбекистана. В оценке использовались основные метрики, такие как mAP@0.5, F1-score и время инференции.

Таблица 3.

Сравнение показателей mAP@0.5, F1-score и времени инференции (мс) по моделям

Модель	mAP@0.5	F1 Score	Время инференции (мс)
YOLOv8-s	0.93	0.91	19 мс
EfficientDet-D0	0.88	0.86	42 мс
DETR (ResNet50)	0.90	0.88	120 мс
CenterNet	0.89	0.86	57 мс

Как видно из таблицы, модель YOLOv8-s выделялась как наиболее оптимальный вариант по точности (mAP@0.5), балансу (F1-score) и скорости работы (время инференции). Эти результаты показывают, что модель наиболее подходит для применения в режиме реального времени.

Результаты исследования показывают, как архитектурные особенности влияют на практические показатели моделей обнаружения объектов.

YOLOv8-s продемонстрировала наилучшие результаты по точности (mAP@0.5 – 0.93), F1-score (0.91) и времени инференции (19 мс), что делает её оптимальной для реального времени [1]. Основные преимущества – одноступенчатая, безанкерная конструкция и модуль C2f, обеспечивающие высокую скорость и эффективность.

EfficientDet-D0 показала хороший баланс между точностью (mAP@0.5 – 0.88, F1-score – 0.86) и вычислительной эффективностью, но проигрывает по скорости инференции (42 мс).

DETR (ResNet50) обеспечивает высокую точность (mAP@0.5 – 0.90, F1-score – 0.88), хорошо распознаёт глобальный контекст, однако медленнее остальных (120 мс).

CenterNet демонстрирует точность на уровне (mAP@0.5 – 0.89, F1-score – 0.86), но время инференции выше (57 мс).

По совокупности характеристик YOLOv8 была выбрана для интеграции в Telegram-бота (@CarDetectUzBot) с использованием Python, aiogram и ONNX, что позволило легко тестировать и применять систему в реальных условиях без необходимости отдельного мобильного приложения или веб-сервиса. Такой подход делает внедрение ИИ-решений доступным даже при ограниченных ресурсах.

Научная значимость работы заключается в создании уникального датасета для условий Узбекистана, сравнительном анализе современных архитектур и успешной интеграции в пользовательский интерфейс, что создаёт прочную основу для будущих исследований и внедрения систем обнаружения объектов.

Практическая значимость заключается в эффективном решении для автоматизации обнаружения автомобилей в транспортных и охранных системах, что способствует повышению безопасности дорожного движения и развитию умных городов [3]. YOLOv8, работающая без мощных GPU, доступна для интеграции даже в регионах с ограниченными ресурсами. Тестирование через Telegram-бот упрощает обратную связь с пользователями и ускоряет внедрение, подтверждая применимость ИИ вне лабораторных условий.

Качество и точность аннотации были выявлены на высоком уровне на основе предварительной проверки, что способствовало повышению точности моделей. В процессе аннотирования учитывались различные углы и условия освещения, что обеспечивало разнообразие набора данных.

Также подготовленная модель была интегрирована в Telegram-бот @CarDetectUzBot и протестирована на основе изображений, полученных от реальных пользователей. На рисунке ниже показана модель автомобиля, определенная с помощью бота, и результат bounding box.

a b c

Рисунок 2. Пример определения модели автомобиля через Telegram-бот

Рисунок 2a: модель Jentra (уверенность 0.94). На данном изображении показан результат идентификации автомобиля марки Chevrolet Jentra, полученный с помощью Telegram-бота. Автомобиль был чётко выделен с высокой степенью уверенности – 0.94, что свидетельствует о стабильной работе модели при ночной съёмке и наличии фар. Высокая точность объясняется тем, что данный класс автомобилей представлен в обучающем наборе достаточно широко. Это позволяет модели уверенно распознавать Jentra в различных условиях, включая ночное освещение.

Рисунок 2b: модель Cobalt (уверенность 0.96). На изображении представлен результат успешного определения модели Chevrolet Cobalt. Уверенность модели составила 0.96, что является самым высоким показателем среди всех проанализированных примеров. Изображение было сделано днём при хорошем освещении и фронтальном ракурсе, что дополнительно облегчает задачу детекции. Кроме того, Cobalt является одной из наиболее часто встречающихся моделей в обучающем датасете, что положительно влияет на точность классификации.

Рисунок 2c: Spark (0.94), Jentra (0.92), Kia (0.11). Данный фрейм иллюстрирует работу модели на многообъектной сцене. Были обнаружены три транспортных средства: Chevrolet Spark – уверенность 0.94, Chevrolet Jentra –уверенность 0.92, Kia – уверенность 0.11

Высокие значения по Spark и Jentra свидетельствуют о достаточной представленности этих моделей в тренировочном наборе и устойчивости распознавания в дневных условиях.

Низкий показатель уверенности по модели Kia (0.11) объясняется тем, что данный класс практически не был представлен в обучающем датасете. В результате модель не смогла сформировать устойчивые признаки, что привело к неуверенному распознаванию. Это подчёркивает важность балансировки датасета и включения большего количества примеров малораспространённых классов для улучшения обобщающей способности модели.

Заключение

Данное исследование предлагает комплексное решение для автоматического определения моделей автомобилей на основе реальных изображений с камер наблюдения в Узбекистане.

Сформирован и аннотирован уникальный датасет из более 12 000 изображений и 15 классов автомобилей, адаптированный к местным условиям и доступный для дальнейших исследований.

Проведён сравнительный анализ современных архитектур (YOLOv8, EfficientDet-D0, DETR (ResNet50), CenterNet) по основным метрикам (mAP@0.5, F1-score, время инференции), выявлены преимущества и недостатки каждой модели.

Эксперименты показали, что YOLOv8 обеспечивает наилучшие показатели точности (mAP@0.5: 0.93), баланса (F1-score: 0.91) и скорости (19 мс), что делает её оптимальным выбором для реального времени.

Модель YOLOv8 была интегрирована в Telegram-бот, что подтверждает её удобство и применимость для практического использования даже при ограниченных ресурсах.

Список литературы:

Duan K., Bai S., Xie L., Qi H., Huang Q., Tian Q. CenterNet: Keypoint Triplets for Object Detection // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). – Seoul, South Korea: IEEE, 2019. – Pp. 6569–6578. DOI: https://doi.org/10.1109/ICCV.2019.00667.
Li X., Han J., Ding E., Feng H., Zhang G., Wang Y., Zhang W. Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling // arXiv preprint. – 2022. – № arXiv:2211.07727. URL: https://arxiv.org/abs/2211.07727.
MakeWise. Computer Vision in Transportation: Most Popular Applications in 2024. MakeWise Blog, 08.02.2024. – Retrived from: https://github.com/google^*/automl/tree/master/efficientdet. (accessed date: 07.06.2025) [in English].
Mobidev. Object Detection, Recognition, Tracking: Use Cases & Approaches. Mobidev Blog, 15.04.2025. – Retrived from: https://mobidev.biz/blog/object-detection-recognition-tracking-guide-use-cases-approaches (accessed date: 07.06.2025) [in English].
Semiromizadeh N., Manzari O.N., Shokouhi S.B., Mirzakuchaki S. Enhancing Vehicle Make and Model Recognition with 3D Attention Modules // arXiv preprint. – 2025. – № arXiv:2502.15398. URL: https://arxiv.org/abs/2502.15398.
Tan M., Le Q.V. EfficientDet: Scalable and Efficient Object Detection // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). – Long Beach, USA: IEEE, 2019. – Pp. 10781–10790. DOI: https://doi.org/10.1109/CVPR42600.2020.01079
Viam. YOLO model for real-time object detection: A full guide // Viam Blog, 16.01. 2025. – Retrived from: https://github.com/ultralytics/ultralytics (accessed date: 07.06.2025) [in English].

* (По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.)

Информация об авторах

Мисиров Фарход Абдулла угли

мл. науч. сотр, институт Математики им. В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент

Farkhod Misirov

Junior Researcher, Institute of Mathematics named after V.I. Romanovsky of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Давронов Рифкат Рахимович

канд. техн. наук, старший научный сотрудник Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент

Rifkat Davronov

Ph.D., Senior Researcher V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent