ПОРІВНЯННЯ МЕТОДІВ ВИЯВЛЕННЯ ОБ’ЄКТІВ В КОМП’ЮТЕРНОМУ ЗОРІ
DOI:
https://doi.org/10.31891/2307-5732-2024-333-2-41Ключові слова:
комп’ютерний зір, виявлення об’єктів, архітектури глибокого навчанняАнотація
Виявлення об’єктів є фундаментальним завданням комп’ютерного зору, із застосуваннями, починаючи від автономного водіння до систем спостереження. У цій статті представлено повне порівняння різних методів виявлення об’єктів. Оцінені методи включають традиційні методи, такі як логістична регресія та SVM, а також найсучасніші архітектури глибокого навчання, такі як YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), FPN (Feature Pyramid Network). , RetinaNet. YOLO надає пріоритет швидкості обробки в реальному часі, що робить його ідеальним для додатків, які потребують швидкого виявлення, наприклад, для безпілотних автомобілів. Однак такий наголос на швидкості може знизити точність порівняно з іншими методами. SSD забезпечує переконливий баланс між швидкістю та точністю, досягаючи швидшої обробки, ніж деякі методи, зберігаючи хороші можливості виявлення. FPN вирішує проблему виявлення об’єктів у різних масштабах на зображенні. Використовуючи функцію Feature Pyramid Network, він може ефективно аналізувати як малі, так і великі об’єкти в одній структурі. З іншого боку, RetinaNet зосереджується на підвищенні точності шляхом впровадження функції фокальних втрат, яка пом’якшує проблему дисбалансу класів, поширену перешкоду в задачах виявлення об’єктів, де певні класи значно перевершують інші. Для класифікації об’єктів YOLO використовує функцію втрат крос-ентропії. Ця функція вимірює різницю між прогнозованим розподілом ймовірностей класу об’єкта та фактичним розподілом класу. Мінімізація цих втрат під час навчання спрямовує модель на більш точні прогнози класу.
В роботі проведено аналіз існуючих методів виявлення об'єктів та проведено експеримент із моделлю YOLOv5, навченою на наборі даних COCO.