ГІБРИДНИЙ ПІДХІД ДО ВІЗУАЛЬНО-ОРІЄНТОВАНОЇ ГЕНЕРАЦІЇ КУЛІНАРНИХ РЕЦЕПТІВ НА ОСНОВІ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ ТА ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ
DOI:
https://doi.org/10.31891/2307-5732-2026-363-57Ключові слова:
згорткові нейронні мережі, великі мовні моделі, класифікація, кулінарна страва, інгредієнти, рецепт, генерація, зображенняАнотація
Дана стаття окреслює гібридний підхід візуально детермінованого синтезу кулінарних рецептів, що ґрунтується на синергії комп’ютерного зору та обробки природної мови. Завдяки інтеграції багатовіткових згорткових нейронних мереж із великими мовними моделями вдалося подолати іманентну непрозорість трансляції піксельних абстракцій у площину гастрономічного дискурсу. Акцент на семантичній автентичності дозволив нівелювати розбіжність між монолітною категорізацією страв та деталізованим компонентним складом інгредієнтів. Траєкторія наукового пошуку охоплювала деконструкцію обмежень ортодоксальних методів однолейблової класифікації та подальшу реконфігурацію топології DenseNet-121 для забезпечення паралельної детекції складників. Оптичну систему, апробовану на корпусі Food-101, реалізовано на засадах трансферного навчання із застосуванням стратегій cost-sensitive оптимізації для максимізації точності розпізнавання. Мовну генерацію делеговано моделі Llama 3.1 8B, інструментованій механізмами In-Context Learning, а верифікацію результатів здійснено за метриками BLEU, ROUGE та косинусної подібності. Емпірично доведено спроможність запропонованої архітектури: показник повноти (Recall) модифікованого детектора сягнув 0.91. Унаслідок імплементації візуального контексту в структуровані промпти середній рівень косинусної подібності зріс до 0.765, що засвідчує якісну трансформацію у відтворенні нюансів конкретних кулінарних варіацій порівняно з базовими методами. Гібридний підхід успішно усуває семантичний розрив між візуальними даними та текстовою деривацією. Експліцитне включення ідентифікованих інгредієнтів у контекст LLM уможливило генерування автентичних рецептів замість шаблонних патернів, що суттєво мінімізує галюцинації штучного інтелекту та підвищує релевантність вихідних даних.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 СЕРГІЙ МІНУХІН, МАКСИМ ШАПОШНИК (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.