Skip to content

3itechnologies/QAsrApiClient

Repository files navigation

3i Speech Recognition API Client



3i Speech Recognition – облачный сервис для профессиональной обработки речевых данных из медийного контента различного типа. На вход – речевые данные (аудипоток) любой длительности, на выходе – текст, разбитый на предложения со знаками препинания.

3i Speech Recognition API Client - демонстрирует основные возможности сервиса и организует удобный интерфейс доступа к функциям распознавания.

Поддерживаемые языки:

Русский, Английский.

Технологии:

В сервисе используются языковые и акустические модели, построенные с применением машинного обучения и технологий RNN и WFST – рекуррентных нейронных сетей (Recurrent Neural Network) и взвешенных конечных автоматов (Weighted Finite State Transducer). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Преимущества:

  • точность распознавания: 90% для русского языка, 80% для английского языка;
  • высокая скорость обработки данных;
  • автоматическое разбиение текста на предложения;
  • расстановка знаков препинания;
  • возможность обрабатывать неограниченный объем данных.

При необходимости мы можем адаптировать языковые модели под узкую предметную область для повышения качества распознавания при решении специализированных задач.

Использование

  • 3i Speech Recognition API Client использует кросcплатформенный фреймворк Qt, работает с большинством операционных систем.

Для получения более подробной информации: