МЕТОД ВИЯВЛЕННЯ ЦІЛЬОВИХ ОБ’ЄКТІВ ПРЕДМЕТНОЇ ОБЛАСТІ У ТЕКСТОВОМУ КОНТЕНТІ
DOI:
https://doi.org/10.31891/2307-5732-2024-343-6-23Ключові слова:
машинне навчання, NLP, NER, іменовані сутності, цільові об’єктиАнотація
Розроблено метод виявлення цільових об’єктів предметної області, який використовує алгоритми машинного навчання для адаптивного розпізнавання об’єктів, враховуючи специфіку предметної області, що дозволяє значно скоротити час обробки даних і знизити ризик втрати важливої інформації. Метод виявлення цільових об’єктів предметної області дозволяє перетворювати вхідні дані у вигляді досліджуваного тексту і попередньо обробленого та збалансованого корпусу текстів досліджуваної предметної області в вихідні дані у вигляді сформованої множини цільових об’єктів з досліджуваного тексту, яка є об’єднаною множиною ключових слів знайденими різними методами без повторів та множиною NER що згруповані шляхом лематизації. Запропонований метод виявлення цільових об’єктів предметної області відрізняється від існуючих урахуванням ключових слів та іменникових сутностей предметної області, що дало змогу підвищити точність виявлення цільових об’єктів предметної області внаслідок врахування іменникових сутностей.
Для дослідження ефективності розробленого методу виявлення цільових об’єктів предметної області було сформовано навчальний датасет обсягом 400 текстів українською мовою. Також для валідації запропонованого методу було розроблено програмний застосунок для перетворення текстового контенту файлів із тестової вибірки у множину цільових об’єктів предметної області; створено окреме консольне програмне забезпечення для використання отриманого списку цільових об’єктів для досліджуваних текстів та словників з предметних областей, обраних відповідно до датасету. Виконане дослідження ефективності розробленого методу виявлення цільових об’єктів предметної області виявило, що знайдені за методом цільові об’єкти предметних областей спроможні виконувати подальшу задачу класифікації, демонструючи на метриці Евклідових відстаней групування текстів однієї категорії та збільшення ортогональної їй відстані.