3i Speech Recognition – облачный сервис для профессиональной обработки речевых данных из медийного контента различного типа. На вход – речевые данные (аудипоток) любой длительности, на выходе – текст, разбитый на предложения со знаками препинания.
3i Speech Recognition API Client - демонстрирует основные возможности сервиса и организует удобный интерфейс доступа к функциям распознавания.
Русский, Английский.
В сервисе используются языковые и акустические модели, построенные с применением машинного обучения и технологий RNN и WFST – рекуррентных нейронных сетей (Recurrent Neural Network) и взвешенных конечных автоматов (Weighted Finite State Transducer). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.
- точность распознавания: 90% для русского языка, 80% для английского языка;
- высокая скорость обработки данных;
- автоматическое разбиение текста на предложения;
- расстановка знаков препинания;
- возможность обрабатывать неограниченный объем данных.
При необходимости мы можем адаптировать языковые модели под узкую предметную область для повышения качества распознавания при решении специализированных задач.
- 3i Speech Recognition API Client использует кросcплатформенный фреймворк Qt, работает с большинством операционных систем.