MULTI-AGENT DEEP REINFORCEMENT LEARNING FRAMEWORK DESIGN FOR EFFICIENT SINGLE-INTERSECTION TRAFFIC LIGHT CONTROL

MYKHAILO LYTVYNENKO; LEONID REBEZYUK

doi:10.31891/2307-5732-2026-363-59

Автор(и)

МИХАЙЛО ЛИТВИНЕНКО Харківський національний університет радіоелектроніки Автор https://orcid.org/0000-0003-4487-8811
ЛЕОНІД РЕБЕЗЮК Харківський національний університет радіоелектроніки Автор https://orcid.org/0000-0001-8516-6584

DOI:

https://doi.org/10.31891/2307-5732-2026-363-59

Ключові слова:

кооперативне навчання з підкріпленням, часткова спостережуваність, невизначеність, децентралізоване навчання й виконання, керування світлофорами

Анотація

У цій статті розглядається процес керування світлофорами на одному перехресті як кооперативний децентралізований частково спостережуваний марковський процес вирішування (Дец-ЧСМПВ), що подається як мінімальна тестова платформа для вивчення децентралізованої координації в умовах невизначености, а не як самостійне завдання оптимізації. Кілька агентів керують окремими групами сигналів, використовуючи детальні примітивні дії, приділяючи увагу модульності, стійкості до обмежень датчиків та сумісності з традиційними етапними системами керування. Для забезпечення координації без явної комунікації пропонується розширений простір спостереження, що містить як динамічні характеристики руху, так і структурну інформацію про перехрестя, що дозволяє здійснювати пасивну координацію за допомогою спільних фізичних сигналів. На основі цього формулювання представлено децентралізовану багатоагентну систему глибокого навчання з підкріпленням, яка інтегрує рекурентну оцінку цінности для пом'якшення часткової спостережуваности, розподільне підкріплювальне навчання для збереження мультимодальних структур віддачі, що виникають у результаті суперечливих рівноваг координації, та гістерезисні оновлення для стабілізації динаміки децентралізованого навчання. Керування сигналами за допомогою примітивних дій спричиняє ланцюгові процеси ухвалення рішень зі стохастичними результатами, де наївне розвідування та оцінювання цінности на основі середніх значень часто призводять до передчасної збіжности до неоптимальних стратегій координації. Запропонована система, що враховує невизначеність, явно розглядає цю проблему. Попередні експерименти з моделювання використовуються для аналізу динаміки навчання, чутливости рівноваги та координаційної поведінки. Результати не підкреслюють переваги в продуктивності, а ілюструють поведінкові наслідки запропонованого переформулювання та структури навчання. Ця робота надає принципову систему для децентралізованого керування світлофорами з урахуванням невизначеності та створює основу для майбутніх розширень до масштабованої координації на кількох перехрестях.

РОЗРОБКА БАГАТОАГЕНТНОЇ СИСТЕМИ ГЛИБОКОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ ЕФЕКТИВНОГО КЕРУВАННЯ СВІТЛОФОРАМИ НА ОДНОМУ ПЕРЕХРЕСТІ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Зробити подання

Індексування

Прапор