МЕТОДИ КЛАСИФІКАЦІЇ МАШИННОГО НАВЧАННЯ ДЛЯ ПОБУДОВИ МАТЕМАТИЧНИХ МОДЕЛЕЙ НА МУЛЬТИМОДАЛЬНИХ ДАНИХ

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2022-307-2-25-32

Ключові слова:

тематичне моделювання, обробка природніх мов, попередня обробка тексту, латентне розміщення Діріхле, латентно-семантичний аналіз, розміщення пачінко, синтетична мова

Анотація

Стаття присвячена тематичному моделюванню як техніці машинного навчання без вчителя. Аналізується можливість визначення тем текстових документів методами тематичного моделювання з метою їх подальшої категоризації. Розглядаються такі методи, як латентно-семантичний аналіз, ймовірнісний латентно-семантичний аналіз та латентне розміщення Діріхле. Запропоновано підхід, який робить можливим ефективну побудову тематичних моделей колекцій текстових документів українською та іншими синтетичними мовами, заснований на особливостях мов цього лінгвістичного типу, та описано його головні етапи. Авторський підхід полягає у особливому конвеєрі попередньої обробки вхідних даних, що охоплює завантаження файлів, видобування тексту, видалення зайвих символів, токенізацію, видалення стоп-слів, стеммінг кожного токену, і нововведений етап прунінгу, що разом дозволяє застосовувати будь-які сучасні методи тематичного моделювання для колекцій документів синтетичними мовами.  Описаний підхід був реалізований мовою Python і використаний для побудови тематичної моделі колекції україномовних наукових публікацій з проблематики громадянської ідентичності та суміжних тем. Експерт з політичної психології, який вивчає феномен громадянської ідентичності, був залучений до дослідження за темою оцінки якості моделі. У результаті експертної оцінки виділених під час побудови моделі тем було запропоновано уточнити формулювання назв кластерів на основі семантики наборів слів, що їх утворюють. Загалом, на думку експерта, виділені теми відображають поняття громадянської ідентичності особистості та дозволять дослідникам спростити роботу з літературними джерелами з цього питання при категоризації документів. Це свідчить про ефективність запропонованого підходу.

Завантаження

Опубліковано

02.05.2022

Як цитувати

БОЙКО, Н., & ПЕТРОВСЬКИЙ, О. (2022). МЕТОДИ КЛАСИФІКАЦІЇ МАШИННОГО НАВЧАННЯ ДЛЯ ПОБУДОВИ МАТЕМАТИЧНИХ МОДЕЛЕЙ НА МУЛЬТИМОДАЛЬНИХ ДАНИХ. Herald of Khmelnytskyi National University. Technical Sciences, 307(2), 25-32. https://doi.org/10.31891/2307-5732-2022-307-2-25-32