РОЗПІЗНАВАННЯ МЕЛОДІЇ ЗА ЇЇ ФРАГМЕНТОМ ЗА ДОПОМОГОЮ МАШИННОГО НАВЧАННЯ

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2026-361-20

Ключові слова:

розпізнавання мелодій, глибинне навчання, мел-спектрограма, аудіокласифікація, Telegram-бот

Анотація

Розробка інтелектуальної системи для автоматичного розпізнавання музичних композицій за коротким аудіофрагментом із використанням методів глибинного навчання спрямована на розв’язання складної задачі ідентифікації мелодій у випадках, коли відсутня текстова інформація, теги або метадані. Ця проблема є особливо актуальною в сучасному цифровому середовищі, де користувачі часто стикаються з невідомою музикою на потокових платформах, у соціальних мережах або під час реальних аудіозаписів.

Запропонований підхід базується на використанні згорткових нейронних мереж (CNN) як основного механізму для вилучення та класифікації високорівневих аудіопредставлень. У межах дослідження систематично було проаналізовано різні чинники, що впливають на продуктивність і надійність системи розпізнавання. До них належали вибір формату аудіо (WAV чи MP3), оптимальна тривалість аналізованих фрагментів, набір спектральних ознак (мел-спектрограма, хрома, перетворення з постійним Q-фактором (CQT) та нормалізована хрома-енергія (CENS)), а також вплив методів аугментації даних, таких як додавання білого шуму чи зміна висоти тону.

Експериментальні результати показали, що найкращий баланс між точністю розпізнавання та обчислювальною ефективністю досягається при використанні односекундних фрагментів у форматі MP3, представлених за допомогою мел-спектрограм. Така конфігурація забезпечує високу стійкість до типових спотворень сигналу, водночас зберігаючи помірне споживання ресурсів під час навчання та розпізнавання.

Розроблена модель глибинного навчання була успішно інтегрована у Telegram-бот, який дозволяє користувачам надсилати аудіо або голосові повідомлення для ідентифікації композицій. Після отримання аудіофрагмента система здійснює його аналіз і повертає як основний результат, так і п’ять альтернативних варіантів, що забезпечує гнучкість у разі неоднозначного введення. Під час тестування особливу увагу приділяли впливу методів запису та якості передавання даних. Було встановлено, що записи, отримані за допомогою вбудованої функції голосових повідомлень Telegram, демонструють нижчу точність розпізнавання, головним чином через стиснення сигналу та появу фонових шумів.

Отримані результати підтверджують доцільність подальшого вдосконалення системи шляхом використання рекурентних або гібридних архітектур (таких як LSTM або GRU), розширення бази еталонних аудіозаписів і навчання на синтетично спотворених даних для підвищення стійкості до шуму.

Завантаження

Опубліковано

29.01.2026

Як цитувати

ДОРОЩУК, М., ШЕВЧУК, С., & ДОБУЛЯК, Л. (2026). РОЗПІЗНАВАННЯ МЕЛОДІЇ ЗА ЇЇ ФРАГМЕНТОМ ЗА ДОПОМОГОЮ МАШИННОГО НАВЧАННЯ. Herald of Khmelnytskyi National University. Technical Sciences, 361(1), 151-158. https://doi.org/10.31891/2307-5732-2026-361-20