ОЦІНКА ТА ПОРІВНЯННЯ ТЕКСТ-ДО-АУДІО ГЕНЕРАТИВНИХ МОДЕЛЕЙ ДЛЯ ЗАСТОСУВАННЯ У МЕДІА

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2025-351-3

Ключові слова:

дифузійні моделі, генерація аудіо, зворотна дифузія, генерація тексту-в-аудіо, оцінка генеративного ШІ

Анотація

У цій роботі запропоновано оцінення та порівняння якість кількох найсучасніших моделей генерації аудіо з тексту у створенні звукових ефектів для застосування у медіа продуктах. Для цього у роботі пропонується нова система оцінювання, що включає відібраний набір даних з пар текст-аудіо, які можна використовувати в медіа-продуктах, та комплексний набір з чотирьох метрик. Це комплексне дослідження не лише кількісно оцінює продуктивність цих моделей, але й надає детальний аналіз їхніх сильних та слабких сторін у контексті реального застосування у медіа продуктах. Висновки розкривають комплексний зв'язок між архітектурою моделі, стратегіями навчання та отриманою якістю аудіо. Результати також включають дослідження компромісу між розмірами моделей, стратегіями навчання та якістю генерованого аудіо. З наукової точки зору, це дослідження надає новий надійний бенчмарк для оцінювання моделей генерації аудіо з тексту та сприяє глибшому розумінню синтезу аудіо на основі дифузії. З практичної точки зору, висновки у роботі пропонують визначені рекомендації для медіа-творців та розробників у виборі відповідних моделей для конкретних застосунків, сприяючи інтеграції передової генерації аудіо в медіа продукти. Крім того, відібраний набір даних та визначені метрики  слугуватимуть цінними ресурсами для майбутніх досліджень у цій галузі..

Завантаження

Опубліковано

06.06.2025

Як цитувати

МЕДЯКОВ, О., БАБ’ЯК, Ю., & БАСЮК, Т. (2025). ОЦІНКА ТА ПОРІВНЯННЯ ТЕКСТ-ДО-АУДІО ГЕНЕРАТИВНИХ МОДЕЛЕЙ ДЛЯ ЗАСТОСУВАННЯ У МЕДІА. Herald of Khmelnytskyi National University. Technical Sciences, 351(3.1), 28-34. https://doi.org/10.31891/2307-5732-2025-351-3