ПОРІВНЯННЯ ЕФЕКТИВНОСТІ RL-АЛГОРИТМІВ ДЛЯ БЕЗПЕЧНОГО ОБХОДУ ПЕРЕШКОД БПЛА
DOI:
https://doi.org/10.31891/2307-5732-2025-355-33Ключові слова:
DQN, PPO, безпілотник, уникнення перешкодАнотація
У статті оцінено застосування глибинного навчання з підкріпленням для побудови автономних стратегій обходу перешкод безпілотними літальними апаратами у двовимірній симуляції з густою сіткою нерухомих перешкод. Розроблено симуляцію, де агент сприймає сектор простору попереду і виконує дискретні команди, що поєднують кут повороту та крок вперед, імітуючи реальні обмеження бортових контролерів. Дослідження зосереджено на порівнянні двох підходів Deep Q-Network (DQN) та Proximal Policy Optimization (PPO) за здатністю формувати безпечні траєкторії та запобігати зіткненням на основі ряду якісних характеристик. Додатково проаналізовано вплив різних математичних функцій активації, таких як ReLU, Leaky ReLU, Tanh, Sigmoid, на швидкість навчання та характер руху. З’ясовано, що у складних конфігураціях з багатьма перешкодами політики PPO забезпечують більш рівномірне оновлення ваг і стійкішу поведінку агента, тоді як підхід DQN демонструє високу реактивність у вузьких “коридорах” симуляції, дозволяючи обходити щільні скупчення об’єктів з мінімальними відхиленнями від запланованого маршруту.
Як критерії ефективності використовувалися здатність адаптуватися до змін розташування перешкод, плавність траєкторії, кількість різких зупинок та маневрів, стабільність навчання. Для задач, де пріоритетом виступає безпека польоту, ефективніше застосовувати конфігурації на базі PPO з функціями активації, що обмежують амплітуду градієнта. У той же час для завдань з акцентом на швидкі маневри у щільному просторі перешкод доцільніше вирішувати за допомогою DQN із застосуванням лінійних активацій без обмежень на амплітуду виходу.
Отримані результати підкреслюють необхідність комплексного підходу до вибору алгоритмічної стратегії та архітектурної конфігурації мережі з урахуванням особливостей середовища, схеми винагороди та технічних обмежень платформи. Подальші дослідження варто сконцентрувати на поширенні моделювання на тривимірні простори, інтеграції даних з реальних сенсорів і перевірці алгоритмів у польотних сценаріях з апаратною взаємодією.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 МИХАЙЛО КОПИЛЕЦЬ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.