ВИЯВЛЕННЯ МАШИННО ЗГЕНЕРОВАНОГО ТЕКСТУ ЗА ЙОГО СТАТИСТИЧНИМИ ВЛАСТИВОСТЯМИ
DOI:
https://doi.org/10.31891/2307-5732-2025-351-61Ключові слова:
машинно згенерований текст, велика мовна модель, Fast-DetectGPT, логарифмічна імовірністьАнотація
У статті розглянуто модифікацію методу виявлення машинно згенерованого тексту Fast-DetectGPT. На відміну від оригінального методу, що використовує логарифмічні імовірності всіх токенів у словнику для класифікації тексту, запропонований метод використовує лише ймовірності 20 найбільш імовірних токенів. Таким чином зменшується кількість даних, які необхідно опрацювати для класифікації: 20 токенів замість 50 000 для кожного токена вхідного тексту. Необхідні 20 токенів можна отримати через запит до хмарних сервісів, що надають доступ до великих мовних моделей, а не запускати модель локально на пристрої. Запропонований метод використовує статистичні параметри тексту та імовірних токенів, тож результат класифікації можна пояснити. Це важливо у випадку встановлення автора тексту. Класифікація текстів відбувається на основі певних характеристик тексту, таких як середня імовірність токенів у тексті, середня імовірність можливих токенів у словнику під час генерації, perplexity та d_score. D_score це метрика з методу Fast-DetectGPT
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 НАТАЛІЯ ШАХОВСЬКА, АНДРІЙ ТАРАСОВ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.