ОЦІНКА ТА ПОРІВНЯННЯ ТЕКСТ-ДО-АУДІО ГЕНЕРАТИВНИХ МОДЕЛЕЙ ДЛЯ ЗАСТОСУВАННЯ У МЕДІА
DOI:
https://doi.org/10.31891/2307-5732-2025-351-3Ключові слова:
дифузійні моделі, генерація аудіо, зворотна дифузія, генерація тексту-в-аудіо, оцінка генеративного ШІАнотація
У цій роботі запропоновано оцінення та порівняння якість кількох найсучасніших моделей генерації аудіо з тексту у створенні звукових ефектів для застосування у медіа продуктах. Для цього у роботі пропонується нова система оцінювання, що включає відібраний набір даних з пар текст-аудіо, які можна використовувати в медіа-продуктах, та комплексний набір з чотирьох метрик. Це комплексне дослідження не лише кількісно оцінює продуктивність цих моделей, але й надає детальний аналіз їхніх сильних та слабких сторін у контексті реального застосування у медіа продуктах. Висновки розкривають комплексний зв'язок між архітектурою моделі, стратегіями навчання та отриманою якістю аудіо. Результати також включають дослідження компромісу між розмірами моделей, стратегіями навчання та якістю генерованого аудіо. З наукової точки зору, це дослідження надає новий надійний бенчмарк для оцінювання моделей генерації аудіо з тексту та сприяє глибшому розумінню синтезу аудіо на основі дифузії. З практичної точки зору, висновки у роботі пропонують визначені рекомендації для медіа-творців та розробників у виборі відповідних моделей для конкретних застосунків, сприяючи інтеграції передової генерації аудіо в медіа продукти. Крім того, відібраний набір даних та визначені метрики слугуватимуть цінними ресурсами для майбутніх досліджень у цій галузі..
Посилання
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 ОЛЕКСАНДР МЕДЯКОВ, ЮРІЙ БАБ’ЯК, ТАРАС БАСЮК (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.