ВПЛИВ МОРФОЛОГІЇ ШАРІВ ТРАНСФОРМАЦІЇ ВЕКТОРІВ ТЕКСТУ ТА ЗОБРАЖЕННЯ НА ТОЧНІСТЬ CLIP МОДЕЛІ
DOI:
https://doi.org/10.31891/2307-5732-2023-329-6-181-182Ключові слова:
нейронні мережі, CLIP, опис зображення, векторні перетворенняАнотація
Пошук шляхів для знаходження взаємозв’язків між зображеннями та текстом є складним завданням, вирішення якого ускладнюється великою кількість можливих варіантів, форм, представлень однакових об’єктів як на зображеннях, так і за допомогою текстового опису. Із моменту релізу CLIP моделі у 2021 році ця сфера активно розвивається, на її основі почали формуватися моделі, які активно використовуються для створення зображень за текстовим описом, доповнюють та описують зображення тощо. Актуальність дослідження полягає у вивченні та вдосконаленні методів аналізу взаємов’язків між текстовими та візуальними даними в передових моделях штучного інтелекту, які використовують декілька нейронних мереж, зокрема таких, як CLIP. Це дозволяє покращити точність та ефективність обробки інформації, що має велике значення в багатьох сферах, наприклад, завданнях комп'ютерного зору та автоматичного опрацювання природної мови. Головна мета цієї статті – дослідження впливу зміни структури шарів трансформації CLIP моделі, що відповідають за зміну довжини векторів тексту та зображення, на її точність. На етапі проведення експериментів використовувалися кодувальники зображень на основі ResNet-50 та ViT-B/32, кодувальник тексту BERT та різні комбінації й типи прихованих шарів нейронної мережі. Отримані результати показують, що застосування декількох лінійних шарів із шаром нормалізації та поступове зменшення довжини векторів даних може покращити точність CLIP моделі на 10-15% в залежності від функції втрат, що використовується для навчання, та кодувальників зображень. Визначено, що різке зменшення довжини векторів, які репрезентують текстові та візуальні дані, або використання занадто великої кількості нейронних шарів для їх опрацювання може негативно впливати на точність CLIP моделі. Запропоновані архітектурні рішення дозволяються покращити здатність моделі знаходити взаємозв’язки між зображеннями та текстом.