ПРИНЦИП ДАЛЕКОДІЇ-БЛИЗЬКОДІЇ У ЗАДАЧАХ СТРУКТУРИЗАЦІЇ ТА НАВЧАННЯ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ
DOI:
https://doi.org/10.31891/2307-5732-2024-337-3-54Ключові слова:
штучні нейронні мережі, принцип далекодії-близькодії, навчання без вчителя, нелінійні згорткові мережі, параметричний сигмоїд, перехідні матриціАнотація
Класичні штучні нейронні мережі у загальному випадку потребують навчання значної кількості параметрів перехідних матриць між сусідніми шарами. Основна ідея роботи полягає в тому, щоб ці матриці задавати один раз та жорстко із якихось «розумних міркувань». Тоді навчати буде потрібно лише нейрони мережі. В якості такого «розумного міркування» у даній роботі використовується принцип далекодії-близькодії. Суть цього принципу полягає у тому, що нейрони попереднього шару впливають на нейрони наступного шару мережі тим більше, чим вони ближчі за топологією мережі. В даній роботі пропоновано використовувати радіальну структуру топології. Такий спосіб визначення геометричного розташування шарів забезпечує умови балансу мережі, а саме: сукупність впливів нейронів попереднього шару на нейрони сусіднього шару є константою незалежно від умовних номерів нейронів.
За математичною сутністю пропоновані штучні нейронні мережі, засновані на принципі далекодії-близькодії можна віднести до специфічного підкласу нелінійних згорткових мереж. Нелінійні згортки реалізуються за допомогою ядерних дискретних перетворень, де ядрами перетворень є перехідні матриці зв’язків між сусідніми шарами.
В якості функцій активації розглянуто параметричні сигмоїди, які мають лише один вільний параметр – коефіцієнт нелінійності.
Розроблені алгоритми та програми застосовано для вирішення задачі навчання без вчителя – задачі кластеризації. В якості тестового набору даних обрано відомий набір рукописних цифр MNIST. Задачу вирішено на звичайному комп’ютері з використанням лише CPU (GPU не використовувалось).
Результати валідації отриманого розподілу 50 000 зразків набору MNIST по 1000 кластерам виявились дуже обнадійливими. А саме: час вирішення задач навчання та суто кластеризації складає менше 10 хвилин, а точність вірного віднесення до кластерів на етапі валідації досягає 97%.