ВІД АНАЛІЗУ ТЕКСТУ ДО МОДЕЛЮВАННЯ ПРИРОДНОЇ МОВИ: КОМПЛЕКСНЕ ДОСЛІДЖЕННЯ

МИКОЛА СТАХІВ; СТАПАН СКОПІВСЬКИЙ

doi:10.31891/2307-5732-2024-333-2-38

Автор(и)

МИКОЛА СТАХІВ Національний університет «Львівська політехніка» Автор https://orcid.org/0009-0008-9550-5736
СТАПАН СКОПІВСЬКИЙ Національний університет «Львівська політехніка» Автор https://orcid.org/0009-0008-4668-0140

DOI:

https://doi.org/10.31891/2307-5732-2024-333-2-38

Ключові слова:

обробка природної мови, аналіз тональності, класифікація текстів, кластеризація текстів та тематичне моделювання

Анотація

У статті представлено комплексний аналіз сучасних прийомів і технологій, що використовуються для аналізу тональності текстових даних. Завдяки серії експериментів було розглянуто базові алгоритми машинного та глибокого навчання, такі як аналіз настроїв, щоб автоматично виявляти та класифікувати емоційні тони в текстах. Також досліджуються практичні застосування цих методів, починаючи від моніторингу соціальних мереж і закінчуючи експертним аналізом та аналізом відгуків користувачів. Далі стаття заглиблюється в класифікацію текстових даних за допомогою сучасних методів машинного та глибокого навчання. У цьому розділі статті розглядаються кілька моделей класифікації, включаючи наївний байєсів класифікатор, методи опорних векторів і нейронні мережі, підкреслюючи їхні переваги та обмеження. Крім того, наголошується на важливості впровадження класифікації тексту в різних областях, включаючи аналіз соціальних мереж, категоризацію статей новин і автоматизовану обробку документів. Крім того, розглядається кластеризація схожих текстових даних для подальшого аналізу. Порівнюються різні алгоритми кластеризації, такі як k-середні, ієрархічна кластеризація та спектральна кластеризація, з особливим акцентом на їх застосуванні до великих текстових корпусів. Також проведено демонстрацію практичного застосування кластеризації тексту, зокрема організації даних, пошуку тем та ідентифікації стилів у письмових роботах. Рухаючись далі, у статті розглядається процес виявлення тематичної структури в текстових даних та її подальший аналіз. Досліджено поглиблений аналіз методів тематичного моделювання, таких як модель прихованого розподілу Діріхле (LDA), а також її можливості та обмеження. Практичне застосування тематичного моделювання демонструється в різних областях, включаючи аналіз колекції текстів, виявлення новинних тенденцій і автоматичну категоризацію документів. Нарешті, у статті обговорюються потенційні виклики та майбутні перспективи розвитку тематичного моделювання.

ВІД АНАЛІЗУ ТЕКСТУ ДО МОДЕЛЮВАННЯ ПРИРОДНОЇ МОВИ: КОМПЛЕКСНЕ ДОСЛІДЖЕННЯ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Опубліковано

Номер

Розділ

Як цитувати

Мова

Зробити подання

Індексування

Прапор