РОЗРОБКА БАГАТОАГЕНТНОЇ СИСТЕМИ ГЛИБОКОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ ЕФЕКТИВНОГО КЕРУВАННЯ СВІТЛОФОРАМИ НА ОДНОМУ ПЕРЕХРЕСТІ
DOI:
https://doi.org/10.31891/2307-5732-2026-363-59Ключові слова:
кооперативне навчання з підкріпленням, часткова спостережуваність, невизначеність, децентралізоване навчання й виконання, керування світлофорамиАнотація
У цій статті розглядається процес керування світлофорами на одному перехресті як кооперативний децентралізований частково спостережуваний марковський процес вирішування (Дец-ЧСМПВ), що подається як мінімальна тестова платформа для вивчення децентралізованої координації в умовах невизначености, а не як самостійне завдання оптимізації. Кілька агентів керують окремими групами сигналів, використовуючи детальні примітивні дії, приділяючи увагу модульності, стійкості до обмежень датчиків та сумісності з традиційними етапними системами керування. Для забезпечення координації без явної комунікації пропонується розширений простір спостереження, що містить як динамічні характеристики руху, так і структурну інформацію про перехрестя, що дозволяє здійснювати пасивну координацію за допомогою спільних фізичних сигналів. На основі цього формулювання представлено децентралізовану багатоагентну систему глибокого навчання з підкріпленням, яка інтегрує рекурентну оцінку цінности для пом'якшення часткової спостережуваности, розподільне підкріплювальне навчання для збереження мультимодальних структур віддачі, що виникають у результаті суперечливих рівноваг координації, та гістерезисні оновлення для стабілізації динаміки децентралізованого навчання. Керування сигналами за допомогою примітивних дій спричиняє ланцюгові процеси ухвалення рішень зі стохастичними результатами, де наївне розвідування та оцінювання цінности на основі середніх значень часто призводять до передчасної збіжности до неоптимальних стратегій координації. Запропонована система, що враховує невизначеність, явно розглядає цю проблему. Попередні експерименти з моделювання використовуються для аналізу динаміки навчання, чутливости рівноваги та координаційної поведінки. Результати не підкреслюють переваги в продуктивності, а ілюструють поведінкові наслідки запропонованого переформулювання та структури навчання. Ця робота надає принципову систему для децентралізованого керування світлофорами з урахуванням невизначеності та створює основу для майбутніх розширень до масштабованої координації на кількох перехрестях.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 МИХАЙЛО ЛИТВИНЕНКО, ЛЕОНІД РЕБЕЗЮК (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.