ДОСЛІДЖЕННЯ АЛГОРИТМУ ПОБУДОВИ МОДЕЛІ СЕНТИМЕНТ АНАЛІЗУ ПОВІДОМЛЕНЬ У СОЦІАЛЬНИХ МЕРЕЖАХ
DOI:
https://doi.org/10.31891/2307-5732-2024-333-2-66Ключові слова:
аналіз тональності повідомлень, аналіз повідомлень у соціальних мережах, машинне навчання, логістична регресія, сентимент аналізАнотація
В сучасних умовах, при необхідності постійного моніторингу настроїв суспільства, аналіз тональності повідомлень та коментарів до них дає можливість визначити чи сподобався користувачам товар, банк може дізнатись оцінку якості обслуговування з коментарів клієнтів, претенденти на виборах можуть дослідити, хто з них отримає більше голосів виборців, тощо.
Дана стаття присвячена проблемі побудови алгоритму сентимент аналізу повідомлень із соціальних мереж та його практичній реалізації засобами Python. Також, розкрито класифікація засобів проведення аналізу тональності повідомлень. Зазначено, що найбільш дієвими засобами є ті, які засновані на словниках і правилах, засоби машинного навчання та ручна обробка. Особлива увага приділена відповідним онлайн сервісам, які виконують такі задачі, наведена їх коротка характеристика.
В дослідженні були використані дані, надані сервісом YouScan, який не тільки здатний збирати потрібну для аналізу інформацію, а й здатний аналізувати україномовні тексти.
Однак, в умовах повномасштабного вторгнення та намагання агресора втрутитись у всі сфери життя, подібна інформація має бути конфіденційною. Отже, можливості витоку інформації мають бути мінімізовані. В цих умовах, слід звертатись до засобів машинного навчання, здатних працювати на локальних ресурсах. Використання аналізу вручну теж можливе, однак є неефективним економічно.
Особлива увага у роботі була приділена підготовці даних для роботи моделі, а саме: очищення повідомлень від зайвих символів, рисунків, знаків пунктуації, емодзі, тощо; токенізація тексту; стемінг отриманих векторів. В роботі було використано модель Pipeline з логістичною регресією, як основний засіб машинного навчання для вирішення задачі.
Ефективність побудованої, таким чином, моделі була перевірена на тестових даних. Були обраховані метрики для її оцінки, а саме – точність (Precision) та повнота (Recall). В результаті, було виявлено, що дана модель у 22% випадках оцінює позитивний коментар як негативний. Для усунення цього недоліку, запропоновано збільшити поріг визначення позитивної оцінки з 0,5 до 0,67