ОБ’ЄКТНО-ОРІЄНТОВАНА СИСТЕМА ДЛЯ НЕЙРОМЕРЕЖЕВОГО ВИЯВЛЕННЯ МОВИ ВОРОЖНЕЧІ З ВИКОРИСТАННЯМ CLOUD-ТЕХНОЛОГІЙ
DOI:
https://doi.org/10.31891/2307-5732-2026-365-23Ключові слова:
мова ворожнечі, трансформерні моделі, робастність, модульне введення шумуАнотація
У статті представлено результати розроблення та експериментального дослідження об’єктно-орієнтованої системи нейромережевого виявлення мови ворожнечі з використанням cloud-технологій. Запропоновано метод нейромережевого виявлення мови ворожнечі, що передбачає двоетапну обробку: підготовку стійкої нейромережевої моделі шляхом модульного введення шуму у навчальні дані та подальше використання цієї моделі для інференсу у хмарному середовищі. Введення шуму дозволяє імітувати типові спотворення, характерні для соціальних платформ (орфографічні варіації, символічні заміни, часткове маскування), що підвищує стійкість класифікатора до реальних текстових умов. Архітектура системи реалізована на базі модулів TextIndexDataset, BatchNoisyCollator та TemperatureScaler, які відповідають за інкапсуляцію даних, формування батчів зі спотвореннями та калібрування ймовірнісних прогнозів відповідно. Хмарне розгортання забезпечує масштабованість обчислень, централізоване збереження моделей і параметрів, а також повторюваність експериментів.
Експериментальні дослідження проведено на датасетах «Hate Speech Detection curated Dataset» (для навчання) та «Hate Speech and Offensive Language Detection» (для зовнішньої валідації). Отримані результати доводять, що навчання моделей у змішаному режимі (чисті та зашумлені приклади) забезпечує кращу узагальнюваність: на внутрішньому тесті моделі без шуму показують вищу F1-міру, проте на зовнішньому датасеті перевага моделей, навчальних зі спотвореннями, становить 1,5–1,7 %. Це підтверджує ефективність модульного введення шуму для підвищення робастності моделей і зменшення ефекту переадаптації до навчального корпусу.
Запропонований підхід поєднує принципи об’єктно-орієнтованого проєктування, хмарних обчислень і глибинного навчання, що робить його придатним для масштабованих систем моніторингу та модерації контенту. Перспективи подальших досліджень полягають у розширенні набору стратегій зашумлення, удосконаленні калібрування прогнозів і перевірці запропонованого рішення на багатомовних корпусах та реальних потоках повідомлень.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 МАРИНА МОЛЧАНОВА, ОЛЕКСАНДР МАЗУРЕЦЬ, ІЛЛЯ БОЯРЧУК, ОЛЬГА ЗАЛУЦЬКА (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.