ВИЯВЛЕННЯ МАШИННО ЗГЕНЕРОВАНОГО ТЕКСТУ ЗА ЙОГО СТАТИСТИЧНИМИ ВЛАСТИВОСТЯМИ

НАТАЛІЯ ШАХОВСЬКА; АНДРІЙ ТАРАСОВ

doi:10.31891/2307-5732-2025-351-61

Автор(и)

НАТАЛІЯ ШАХОВСЬКА Національний університет «Львівська політехніка» Автор https://orcid.org/0000-0002-6875-8534
АНДРІЙ ТАРАСОВ Національний університет «Львівська політехніка» Автор https://orcid.org/0009-0006-9925-1847

DOI:

https://doi.org/10.31891/2307-5732-2025-351-61

Ключові слова:

машинно згенерований текст, велика мовна модель, Fast-DetectGPT, логарифмічна імовірність

Анотація

У статті розглянуто модифікацію методу виявлення машинно згенерованого тексту Fast-DetectGPT. На відміну від оригінального методу, що використовує логарифмічні імовірності всіх токенів у словнику для класифікації тексту, запропонований метод використовує лише ймовірності 20 найбільш імовірних токенів. Таким чином зменшується кількість даних, які необхідно опрацювати для класифікації: 20 токенів замість 50 000 для кожного токена вхідного тексту. Необхідні 20 токенів можна отримати через запит до хмарних сервісів, що надають доступ до великих мовних моделей, а не запускати модель локально на пристрої. Запропонований метод використовує статистичні параметри тексту та імовірних токенів, тож результат класифікації можна пояснити. Це важливо у випадку встановлення автора тексту. Класифікація текстів відбувається на основі певних характеристик тексту, таких як середня імовірність токенів у тексті, середня імовірність можливих токенів у словнику під час генерації, perplexity та d_score. D_score це метрика з методу Fast-DetectGPT

ВИЯВЛЕННЯ МАШИННО ЗГЕНЕРОВАНОГО ТЕКСТУ ЗА ЙОГО СТАТИСТИЧНИМИ ВЛАСТИВОСТЯМИ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Зробити подання

Індексування

Прапор