РОЗПІЗНАВАННЯ МІКРОВИРАЗІВ ЗА ДОПОМОГОЮ АРХІТЕКТУРИ ТРАНСФОРМЕРА
DOI:
https://doi.org/10.31891/2307-5732-2025-353-4Ключові слова:
ієрархічний трансформатор, розпізнавання мікровиразів, глибоке навчання, рух м’язів обличчя, локальна самоувагаАнотація
Міміка тісно пов’язана з рухами та скороченнями мімічних м’язів, де чіткі м’язові активації відображають різні емоційні стани. У випадку мікровиразів — коротких, мимовільних виразів обличчя — ці рухи м’язів надзвичайно тонкі й швидкоплинні, часто тривають менше півсекунди. Ця тонкість становить серйозну проблему для сучасних алгоритмів розпізнавання емоцій на обличчі, багато з яких розроблені для більш відвертих і тривалих виразів. Як наслідок, існуючим моделям часто важко розпізнати мікровирази через низьку інтенсивність і коротку тривалість мімічних сигналів. Багато найсучасніших підходів використовують механізми самоуважності для моделювання зв’язків між токенами в часовій послідовності. Однак у цих моделях зазвичай не враховуються внутрішні просторові відносини між орієнтирами на обличчі, які є важливими для розуміння дрібнозернистих м’язових рухів, залучених до мікровиразів. Відсутність просторового усвідомлення може призвести до неоптимальної продуктивності, особливо при спробі виявити мінімальну та локалізовану м’язову активність. Щоб вирішити цю проблему, ми пропонуємо нову мережу ієрархічних трансформаторів (HTNet), спеціально розроблену для покращення розпізнавання мікровиразів шляхом більш ефективного вивчення локалізованої динаміки м’язів обличчя. HTNet складається з двох основних компонентів: трансформаторного рівня, який фіксує локальні часові особливості, та агрегаційного рівня, який витягує як локальні, так і глобальні семантичні представлення активності обличчя. Модель розділяє обличчя на чотири ключові області: ліва губа, права губа, ліве око та праве око. Кожна область обробляється трансформаторним шаром незалежно, використовуючи локалізовану увагу на собі, щоб зосередитися на незначних рухах м’язів. Потім рівень агрегації вивчає міжрегіональні взаємодії, особливо між областями очей і губ. Наші експерименти, проведені на чотирьох широко використовуваних наборах даних мікровиразів, демонструють, що HTNet значно перевершує існуючі методи, встановлюючи новий стандарт точності та надійності завдань розпізнавання мікровиразів.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 ОЛЕКСАНДР ЯРЕМЧЕНКО, ПЕТРО ПУКАЧ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.