УДОСКОНАЛЕНА МОДЕЛЬ КЛАСИФІКАЦІЇ БЛОКІВ БІНАРНИХ ДАНИХ ДЛЯ ЗАДАЧ КАРВІНГУ ФАЙЛІВ
DOI:
https://doi.org/10.31891/2307-5732-2025-353-1Ключові слова:
штучний інтелект, машинне навчання, нейронна мережа, класифікація, ідентифікація, аналіз даних, набір даних, інформаційна технологіяАнотація
У роботі розглянуто проблему класифікації блоків бінарних даних як складового етапу процесу карвінгу файлів із високим рівнем фрагментації. Існуючі моделі та методи мають високий рівень помилок у залежності від багатьох факторів. До того ж при вирішенні реальних задач дані, що аналізуються, можуть відрізнятися від представлених у навчальних датасетах. Метою цього дослідження є підвищити ефективність моделей класифікації блоків бінарних даних і подолати проблеми виявлення фрагментів нецільових типів файлів. У ході дослідження проведено удосконалення існуючих моделей ідентифікації фрагментів файлів. Удосконалені моделі передбачають введення додаткового відгалудження (голови) класифікатора, що відповідає за побудову прототипів класів у дискретному просторі ознак. Таким чином під час навчання досягається регуляризація простору ознак для класифікатора фрагментів цільових і нецільових типів файлів. При цьому будуються межі (контейнери) класів, що забезпечують виявлення даних, що виходять за межі навчального розподілу. У ході проведення експериментів із використанням пропонованих моделей вдалося отримати підвищення точності порівняно з базовими моделями від 1,9% до 3.1% в залежності від сценарії застосування. Загалом точність при ідентифікації фрагментів цільових типів файлів, розбитих на 5, 11 і 25 класів, становила від 88% до 98%, від 53% до 100% і від 72% до 100% відповідно. За результатами навчання було відмічено зростання відстані Хемінга між векторами-прототипами класів в бінарному просторі ознак у регуляризуючому відгалудженні класифікатора. Отримано такі макроусереднені значення валідаційної метрики якості класифікації F1 – 91,78%, 59,97% і 82,94% для сценаріїв із розбиттям простору на 5, 11 і 25 класів відповідно. Нижчі значення якості класифікації у сценарії із розбиттям файлів на 11 класів може бути наслідком наявності значного перетину класів у просторі ознак. Таким чином введення у запропонованих моделях регуляризуючого відгалудження моделі класифікатора дозволило отримати вищі точністні характеристик під час класифікації блоків бінарних даних, проте результати залежать від способу розбиття простору файлів на класи.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 В’ЯЧЕСЛАВ МОСКАЛЕНКО, МАКСИМ БОЙКО (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.