АНАЛІЗ СУЧАСНИХ АЛГОРИТМІВ ВИЯВЛЕННЯ І РОЗПІЗНАВАННЯ ОБ’ЄКТІВ З ВІДЕОПОТОКУ ДЛЯ СИСТЕМ УПРАВЛІННЯ ПАРКУВАННЯМ В РЕАЛЬНОМУ ЧАСІ
DOI:
https://doi.org/10.31891/2307-5732-2023-321-3-17-23Ключові слова:
нейронна мережа, архітектура, YOLO, CNN, R-CNN, Mask R-CNNАнотація
Одною зі сфер штучного інтелекту є комп’ютерний зір, який використовує глибоке навчання для виявлення, розпізнавання, класифікації об’єктів на зображеннях та відео. Для більш ефективного застосування таких систем часто використовуються методи, засновані на нейронних мережах. Розвиток технологій глибокого навчання дозволив створювати більш точні та складні моделі комп’ютерного зору. Методи глибокого навчання, які використовуються для розпізнавання об’єктів на відео, можуть включати пропозицію регіону як частину системи або використовувати нерегіональні методи, які базуються на пропозиціях детектору. У статті розглядаються сучасні, найбільш відомі алгоритми розпізнавання об’єктів на відео. Наводиться опис особливостей різних архітектурних рішень нейронних мереж. Дослідження публікацій, присвячених проблемам аналізу відеоданих, вказав на пріоритет застосування алгоритмів на основі архітектури згорткової нейронної мережі. В роботі більше уваги приділяється таким архітектурним рішенням як YOLO і Mask R-CNN. Порівнюються продуктивність, швидкість обробки і точність. Результати проведеного дослідження показують, що YOLO одна з найсучасніших систем виявлення об’єктів у реальному часі, яка обробляє зображення зі швидкістю від 45 до 150 кадрів в секунду і має mAP 63,4% на тестовому наборі MS-COCO, а наприклад, Mini-YOLOv3 досягає mAP 52,1% зі швидкістю 67 кадрів в секунду. Але, якщо порівнювати різні версії і модифікації YOLO з іншими системами, то можна з впевненістю сказати, що YOLO допускає більше помилок локалізації. Mask R-CNN є розширенням Faster R-CNN, де паралельно проходить прогнозування маски об’єкта і розпізнавання обмежувальної рамки. Таким чином було виявлено, що для системи управління паркуванням, яка може відстежувати вільні місця на паркові з відеопотоку камери, найкраще підходить Mask R-CNN. Дана нейронна мережа має ряд переваг в порівнянні з такими, як R-CNN, Fast R-CNN та YOLO. Основною з її переваг є продуктивність та точність.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2023 ДМИТРО МАРЧУК (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.