EVALUATION AND COMPARISON OF TEXT-TO-AUDIO GENERATION MODELS FOR MEDIA APPLICATIONS

OLEKSANDR MEDIAKOV; YURII BABIAK; TARAS BASYUK

doi:10.31891/2307-5732-2025-351-3

Автор(и)

ОЛЕКСАНДР МЕДЯКОВ Національний університет "Львівська політехніка" Автор https://orcid.org/0000-0002-2580-3155
ЮРІЙ БАБ’ЯК Національний університет "Львівська політехніка" Автор https://orcid.org/0009-0009-2771-3389
ТАРАС БАСЮК Національний університет "Львівська політехніка" Автор https://orcid.org/0000-0003-0813-0785

DOI:

https://doi.org/10.31891/2307-5732-2025-351-3

Ключові слова:

дифузійні моделі, генерація аудіо, зворотна дифузія, генерація тексту-в-аудіо, оцінка генеративного ШІ

Анотація

У цій роботі запропоновано оцінення та порівняння якість кількох найсучасніших моделей генерації аудіо з тексту у створенні звукових ефектів для застосування у медіа продуктах. Для цього у роботі пропонується нова система оцінювання, що включає відібраний набір даних з пар текст-аудіо, які можна використовувати в медіа-продуктах, та комплексний набір з чотирьох метрик. Це комплексне дослідження не лише кількісно оцінює продуктивність цих моделей, але й надає детальний аналіз їхніх сильних та слабких сторін у контексті реального застосування у медіа продуктах. Висновки розкривають комплексний зв'язок між архітектурою моделі, стратегіями навчання та отриманою якістю аудіо. Результати також включають дослідження компромісу між розмірами моделей, стратегіями навчання та якістю генерованого аудіо. З наукової точки зору, це дослідження надає новий надійний бенчмарк для оцінювання моделей генерації аудіо з тексту та сприяє глибшому розумінню синтезу аудіо на основі дифузії. З практичної точки зору, висновки у роботі пропонують визначені рекомендації для медіа-творців та розробників у виборі відповідних моделей для конкретних застосунків, сприяючи інтеграції передової генерації аудіо в медіа продукти. Крім того, відібраний набір даних та визначені метрики слугуватимуть цінними ресурсами для майбутніх досліджень у цій галузі..

ОЦІНКА ТА ПОРІВНЯННЯ ТЕКСТ-ДО-АУДІО ГЕНЕРАТИВНИХ МОДЕЛЕЙ ДЛЯ ЗАСТОСУВАННЯ У МЕДІА

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Зробити подання

Індексування

Прапор