ПОКРАЩЕННЯ ДЕТЕРМІНОВАНОГО МЕТОДУ ГЕНЕРУВАННЯ КОРПУСІВ ТЕКСТОВИХ ДАНИХ
DOI:
https://doi.org/10.31891/2307-5732-2024-333-2-69Ключові слова:
оброблення природної мови, забезпечення якості програмного забезпечення, корпус текстових даних, генерування корпусів, метод CorDeGenАнотація
Дана робота присвячена проблематиці генерування корпусів текстових даних для їх використання під час вирішення задач інженерії програмного забезпечення в контексті розроблення інформаційних систем оброблення природної мови. Одним із методів, призначених для цього, є базовий метод CorDeGen, проте проведений аналіз виявив його певні недоліки. Таким недоліком є те, що методи оброблення природної мови на етапі попереднього оброблення можуть видаляти із текстів частину генерованих даним методом термів, розцінюючи їх як стоп-слова певної мови. Видалення частини термів призводить до того, що передбачений методом CorDeGen розподіл термів між текстами спотворюється і отриманий результат оброблення корпусу певним методом оброблення природної мови значно відрізняється від очікуваного.
Для вирішення даного недоліку в роботі запропоновано новий модифікований метод CorDeGen+, що вводить додатковий, мовнозалежний етап перевірки кожного генерованого терма на допустимість, і у разі необхідності – заміни його на інший. При цьому, всі переваги базового методу CorDeGen зберігаються запропонованим методом, як і інші можливі недоліки, крім виправленого. В роботі розглянуто мовні варіації запропонованого методу для чотирьох найпоширеніших європейських мов та варіацію для мов, що використовують не латинські літери.
Проведена експериментальна перевірка показала ефективність методу CorDeGen+ у частині виправлення описаного недоліку базового методу CorDeGen. Також дана перевірка показала, що ступінь уповільнення процесу генерування корпусів через введення додаткового етапу залежить від розміру корпусу. У випадку мікро-корпусів (100 унікальних термів) ступінь уповільнення сягає 39%, проте зі збільшенням розміру корпусу стрімко падає і для надвеликих корпусів (312500 унікальних термів) складає максимум 6.8%.