АНАЛІЗ СУЧАСНИХ АЛГОРИТМІВ ВИЯВЛЕННЯ І РОЗПІЗНАВАННЯ ОБ’ЄКТІВ З ВІДЕОПОТОКУ ДЛЯ СИСТЕМ УПРАВЛІННЯ ПАРКУВАННЯМ В РЕАЛЬНОМУ ЧАСІ

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2023-321-3-17-23

Ключові слова:

нейронна мережа, архітектура, YOLO, CNN, R-CNN, Mask R-CNN

Анотація

Одною зі сфер штучного інтелекту є комп’ютерний зір, який використовує глибоке навчання для виявлення, розпізнавання, класифікації об’єктів на зображеннях та відео. Для більш ефективного застосування таких систем часто використовуються методи, засновані на нейронних мережах. Розвиток технологій глибокого навчання дозволив створювати більш точні та складні моделі комп’ютерного зору. Методи глибокого навчання, які використовуються для розпізнавання об’єктів на відео, можуть включати пропозицію регіону як частину системи або використовувати нерегіональні методи, які базуються на пропозиціях детектору. У статті розглядаються сучасні, найбільш відомі алгоритми розпізнавання об’єктів на відео. Наводиться опис особливостей різних архітектурних рішень нейронних мереж. Дослідження публікацій, присвячених проблемам аналізу відеоданих, вказав на пріоритет застосування алгоритмів на основі архітектури згорткової нейронної мережі. В роботі більше уваги приділяється таким архітектурним рішенням як YOLO і Mask R-CNN. Порівнюються продуктивність, швидкість обробки і точність. Результати проведеного дослідження показують, що YOLO одна з найсучасніших систем виявлення об’єктів у реальному часі, яка обробляє зображення зі швидкістю від 45 до 150 кадрів в секунду і має mAP 63,4% на тестовому наборі MS-COCO, а наприклад, Mini-YOLOv3 досягає mAP 52,1% зі швидкістю 67 кадрів в секунду. Але, якщо порівнювати різні версії і модифікації YOLO з іншими системами, то можна з впевненістю сказати, що YOLO допускає більше помилок локалізації. Mask R-CNN є розширенням Faster R-CNN, де паралельно проходить прогнозування маски об’єкта і розпізнавання обмежувальної рамки. Таким чином було виявлено, що для системи управління паркуванням, яка може відстежувати вільні місця на паркові з відеопотоку камери, найкраще підходить Mask R-CNN. Дана нейронна мережа має ряд переваг в порівнянні з такими, як R-CNN, Fast R-CNN та YOLO. Основною з її переваг є продуктивність та точність.

Завантаження

Опубліковано

29.06.2023

Як цитувати

МАРЧУК, Д. (2023). АНАЛІЗ СУЧАСНИХ АЛГОРИТМІВ ВИЯВЛЕННЯ І РОЗПІЗНАВАННЯ ОБ’ЄКТІВ З ВІДЕОПОТОКУ ДЛЯ СИСТЕМ УПРАВЛІННЯ ПАРКУВАННЯМ В РЕАЛЬНОМУ ЧАСІ. Herald of Khmelnytskyi National University. Technical Sciences, 321(3), 17-23. https://doi.org/10.31891/2307-5732-2023-321-3-17-23