РОЗРОБЛЕННЯ МУЛЬТИМОДАЛЬНОГО ІНТЕРФЕЙСУ НА ОСНОВІ GOOGLE API

Автор(и)

DOI:

https://doi.org/10.31891/2307-5732-2024-335-3-2

Ключові слова:

перетворення мови в текст, розпізнавання мови, Sequence-to-Sequence, машинне навчання, штучний інтелект

Анотація

В статті досліджується використання Google API для створення інноваційних мультимодальних інтерфейсів з метою покращення користувацького досвіду та продуктивності у різних сферах. Метою дослідження є розробка архітектурного підходу до обробки та аналізу мультимодальних даних. У дослідженні описано проектування та реалізацію інтерфейсу з використанням різних Google API для розпізнавання мови, обробки природної мови та розпізнавання жестів. Стаття також обговорює ключові етапи побудови стратегії машинного перекладу на основі Google API, визначає переваги та недоліки різних методологій та встановлює найбільш підходящі програмні техніки для розробки рішень для оцінювання мультимодальних даних. Два методи нумерації неструктурованих даних також розглядаються з точки зору їх програмної архітектури та дизайну. Запропонована система використовує сервіси Google Cloud Platform для надійного об'єднання даних з різних джерел та узагальнення їх у вихідні дані з високим коефіцієнтом розпізнавання успіху. Експерименти підтвердили доцільність використання мультимодального інтерфейсу обробки даних на основі Google API та описали його архітектурне рішення. Дослідження може бути використане для створення моделей перетворення мови в текст для конкретних медичних галузей, що покращить завдання перекладу мовлення та підвищить ефективність використання часу медичними працівниками. тканини.

Завантаження

Опубліковано

30.05.2024