ОПТИМІЗАЦІЯ СПОЖИВАННЯ ПАМ'ЯТІ ПІД ЧАС РОБОТИ З НЕЙРОМЕРЕЖАМИ ДЛЯ СКАНУВАННЯ
DOI:
https://doi.org/10.31891/2307-5732-2025-355-76Ключові слова:
глибокі нейронні мережі, квантизація, обрізання моделей, компресія, сканування зображень, оптичне розпізнавання символів, оптимізація пам'ятіАнотація
У цій статті досліджуються методи оптимізації пам'яті для глибоких нейронних мереж у завданнях сканування зображень та розпізнавання тексту. Дослідження присвячене застосуванню нейронних мереж в оптичному розпізнаванні символів (OCR), аналізі документів, скануванні штрих-кодів та ідентифікації QR-кодів — всіх критично важливих компонентах сучасних систем сканування. Через обмеження пам'яті мобільних та вбудованих пристроїв оптимізація цих моделей є надзвичайно важливою для практичного застосування. У дослідженні систематично проаналізовано три підходи до оптимізації пам'яті: обрізка мережі, квантування ваги та методи стиснення моделі. Обрізка мережі усуває зв'язки з незначними значеннями ваги, перетворюючи щільні матриці ваги на розріджені представлення. Квантування зменшує точність представлення ваги з 32-бітних чисел з плаваючою комою до 8-бітних цілих чисел, зменшуючи розмір моделі в чотири рази. Кодування Хаффмана забезпечує додаткове стиснення, присвоюючи коротші коди часто зустрічаються значенням ваги. Експериментальні результати підтверджують, що комбінований підхід, що інтегрує обрізку, квантування та кодування Хаффмана, може зменшити розмір моделі в 35-49 разів, зберігаючи погіршення точності нижче 1%. Детальний порівняльний аналіз алгоритмів квантування після навчання (PTQ) та навчання з урахуванням квантування (QAT) показує, що QAT дає кращі результати у збереженні точності (втрата 0,3% проти 0,5% для PTQ). Для ResNet-50, адаптованого для сканування документів, поєднання 90% обрізки зв'язків з 8-бітним QAT зменшує вимоги до пам'яті в 40 разів, втрачаючи лише 0,9% точності. Практичні наслідки включають значне зниження енергоспоживання (56%) і підвищення швидкості виведення (43%), що робить ці методи оптимізації особливо цінними для портативних скануючих пристроїв, що працюють в умовах обмеженого часу. Дослідження демонструє, що навіть складні архітектури нейронних мереж можуть бути ефективно розгорнуті на пристроях з обмеженими ресурсами за допомогою відповідних методів оптимізації.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 ГЛІБ СЕРЕДЮК, ВОЛОДИМИР ГАРМАШ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.