АНАЛІЗ СЕМАНТИЧНИХ КЛАСТЕРІВ У УКРАЇНОМОВНИХ ДОПИСАХ: МЕТОДИ NLP ТА ВІЗУАЛІЗАЦІЇ
DOI:
https://doi.org/10.31891/2307-5732-2025-355-50Ключові слова:
семантична кластеризація, дописи в соцмережах, Linq-Embed-Mistral, HDBSCAN, KMeans, аналіз трендівАнотація
Дослідження У роботі представлено комплексний підхід до аналізу україномовного контенту в соціальних мережах з метою виявлення основних тематичних кластерів і трендів громадської думки. Основну увагу приділено коротким повідомленням, характерним для платформ миттєвого обміну інформацією, що вирізняються обмеженим контекстом, великою кількістю неформальних конструкцій та значною семантичною варіативністю. Для розв’язання цієї задачі було застосовано сучасні методи обробки природної мови та машинного навчання, зокрема використано модель векторизації Linq-Embed-Mistral, натреновану за допомогою контрастивного навчання, та алгоритми кластеризації HDBSCAN і KMeans.
На першому етапі реалізовано повноцінний конвеєр обробки даних: збір повідомлень з соціальних мереж, очищення текстів від шуму, токенізація, лематизація та нормалізація. Далі, кожен допис було перетворено на векторне представлення з використанням згаданої трансформерної моделі, після чого здійснено кластеризацію векторів за гібридним підходом. HDBSCAN дозволив виявити щільні області у векторному просторі, а KMeans – уточнити внутрішню структуру в межах цих кластерів.
Отримані результати було візуалізовано у вигляді часових графіків, теплових карт, діаграм boxplot та pie chart, а також графів співвживань ключових слів. Проведено аналіз активності публікацій у часовому розрізі, розподілу довжин повідомлень за темами та характеру лексичних зв’язків у межах кожного кластеру. Дослідження підтвердило ефективність запропонованого підходу: ідентифіковані кластери демонструють високий рівень семантичної когерентності, що підтверджено візуальним та кількісним аналізом (силуетний показник > 0.7). Встановлено, що домінуючими темами є політичні події, соціальні ініціативи, культурні оголошення та конкурси.
Запропонований підхід демонструє стійкість до коротких фрагментованих текстів і потенціал для розширення – зокрема для аналізу часової еволюції тем та автоматичного формування тематичних рубрик. У перспективі можливе доповнення кластеризації механізмами реферування, автоматичного заголовкування та визначення полярності повідомлень. Таким чином, результати роботи становлять інтерес для дослідників у галузі NLP, соціальних наук, цифрової журналістики та інформаційної аналітики.Ключові слова: плагіат формул, знаки математичних операцій, аналіз формул, інтелектуальна власність, методи виявлення плагіату, математичний контент
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 РОМАН ЛИННИК, ВІКТОРІЯ ВИСОЦЬКА (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.