АРХІТЕКТУРА СИСТЕМИ МАШИННОГО НАВЧАННЯ ДЛЯ СТВОРЕННЯ ПАРАЛЕЛЬНИХ ДВОМОВНИХ КОРПУСІВ ТЕКСТІВ
DOI:
https://doi.org/10.31891/2307-5732-2023-321-3-314-319Ключові слова:
машинне навчання, модель, архітектура, двомовний корпус, інструмент САТАнотація
Паралельні двомовні корпуси текстів – одна з основних частин будь-якого інструменту автоматизованого перекладу (CAT), а також важливі для інших завдань, пов’язаних із будь-яким типом перетворення тексту з однієї мови на іншу. У цій статті пропонується унікальна архітектура сервісу вирівнювання тексту, який базується на технологіях машинного навчання. Запропонована архітектура враховує новітні підходи до побудови систем мікросервісів, беручи до уваги легке розгортання і обслуговування таких систем. У статті детально розглядаються вимоги до системи створення паралельних корпусів текстів як вирішальної передумови розробки архітектури. Встановлені вимоги враховують обидві сторони системи: систему як застосунок машинного навчання та систему як CAT-сервіс. Запропонована архітектура дає можливість побудувати універсальну систему з декількома точками входу для кінцевих споживачів, системних адміністраторів і дата-інженерів. Вона також дозволяє різні варіанти використання системи: із власних користувацьких інтерфейсів або за допомогою викликів REST API зі стороннього сервера. Система містить три різні користувацькі інтерфейси, призначені для звичайних користувачів, системних адміністраторів, а також дата-інженерів. Такий гетерогенний підхід UX має вирішальне значення для безпечного, але гнучкого обслуговування системи. Система, побудована на запропонованій архітектурі, може охоплювати різні користувацькі сценарії: використовувати загальну модель для прогнозування власних двомовних текстових корпусів клієнтів, навчати власну модель або просто використовувати сервіс як сховище вирівняних двомовних текстів. Щоб досягти такої універсальності використання, велика увага приділяється підтримці керування версіями моделі, оскільки система повинна керувати різними паралельними версіями моделей прогнозування. Сервіс планується як система мікросервісної архітектури з оркестратором як центральним компонентом. Важливою частиною системи є служба моніторингу, яка буде оцінювати ефективність моделей, а також отримувати відгуки користувачів на основі дій користувачів після прогнозування моделі. У статті пропонується стек технологій, необхідний для легкої та безпечної розробки, розгортання та доставки продукту з нульовим часом простою за допомогою синьо-зеленої моделі розгортання.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2023 МИКОЛА ФАНТ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.