ВИЯВЛЕННЯ МАШИННО ЗГЕНЕРОВАНОГО ТЕКСТУ ЗА ЙОГО СТАТИСТИЧНИМИ ВЛАСТИВОСТЯМИ

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2025-351-61

Ключові слова:

машинно згенерований текст, велика мовна модель, Fast-DetectGPT, логарифмічна імовірність

Анотація

У статті розглянуто модифікацію методу виявлення машинно згенерованого тексту Fast-DetectGPT.  На відміну від оригінального методу, що використовує логарифмічні імовірності всіх токенів у словнику для класифікації тексту, запропонований метод використовує лише ймовірності 20 найбільш імовірних токенів. Таким чином зменшується кількість даних, які необхідно опрацювати для класифікації: 20 токенів замість 50 000 для кожного токена вхідного тексту. Необхідні 20 токенів можна отримати через запит до хмарних сервісів, що надають доступ до великих мовних моделей, а не запускати модель локально на пристрої. Запропонований метод використовує статистичні параметри тексту та імовірних токенів, тож результат класифікації можна пояснити. Це важливо у випадку встановлення автора тексту. Класифікація текстів відбувається на основі певних характеристик тексту, таких як середня імовірність токенів у тексті, середня імовірність можливих токенів у словнику під час генерації, perplexity та d_score. D_score це метрика з методу Fast-DetectGPT

Завантаження

Опубліковано

06.06.2025

Як цитувати

ШАХОВСЬКА, Н., & ТАРАСОВ, А. (2025). ВИЯВЛЕННЯ МАШИННО ЗГЕНЕРОВАНОГО ТЕКСТУ ЗА ЙОГО СТАТИСТИЧНИМИ ВЛАСТИВОСТЯМИ. Herald of Khmelnytskyi National University. Technical Sciences, 351(3.1), 478-482. https://doi.org/10.31891/2307-5732-2025-351-61