建议语音转文字服务支持 Nova（英文转录速度 20x 于 whisper，价格差不多，准确度也很高）； #493

zj1123581321 · 2024-04-07T07:14:07Z

之前研究过语音转文字这块的服务，闭源开源/本地云端基本上都玩过。

Whisper 很好用，也是目前我本地主力语音转文字的工具。但 Whisper 也有几个问题：

幻觉：可能会添加原文中没有的内容
响应速度：本地不开 GPU 加速速度很慢，云端 API 又有 25MB 的文件体积限制，大文件需要提取 mp3 后分段处理。

Enjoy 的场景我看主要是英语为主，可以考虑一下 Speech to Text API: Next-Gen AI Speech Recognition | Deepgram 的服务，Nova 语音转文字服务非常快，十分钟音频秒出结果；英文的准确率也很高，支持 timestamp-word 级别对齐；价格和 openai whisper 差不多，新用户赠送 200刀额度。

PS：看到 Issue 里很多人反馈 Whisper is not working，感觉这里有点坑。

本地想使用 Whisper, 如果只用 cpu 跑，小模型速度还可以，但准确度就下去了；large model 又太慢。
而 web 应用调 GPU 又涉及各个平台适配的问题，投产比太低。

Enjoy 如果能支持类 srt 格式文件导入可能会更容易扩展内容源（看上去需要 timestamp-word 级别对齐），把生成字幕的工作交给其他工具来做，比如 https://memo.ac 就基于 Whisper 做了 Mac+Windows 的 GPU 加速+ VAD 人声识别。像 buzz 之类的工具也做了 gpu 支持，github 上 whisper 生态还是很繁荣的。

an-lee · 2024-04-07T09:29:13Z

感谢建议。

本地 whisper 服务只是一个可选项，为用户提供的一个本地的免费方案。实际上 Enjoy 也提供了其他 STT 云服务选项，比如 OpenAI 的 whisper 和 Azure AI 的语音识别，效果都不错的。后续可以提供更多云服务选项。

另外，新版的 Enjoy 用了 force alignment，已经不需要 word level 的 transcription 了。

zj1123581321 · 2024-04-07T09:50:01Z

感谢回复，主要是我在 Enjoy 上拿 openai 的 api 试了两个 ted 的演讲视频，开头的转录文本都出现了不属于原文的内容（whisper 的幻觉在音乐背景下经常发生）。。

单纯依靠 api 结果，出现了错误很尴尬。如果能自行导入 Srt 文件的话，用户还能对转录结果中的幻觉内容做一个修正。

an-lee · 2024-04-07T15:33:51Z

明白。后续会增加修改转录结果的功能，导入 srt 文件也可以考虑加上。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

建议语音转文字服务支持 Nova（英文转录速度 20x 于 whisper，价格差不多，准确度也很高）； #493

建议语音转文字服务支持 Nova（英文转录速度 20x 于 whisper，价格差不多，准确度也很高）； #493

zj1123581321 commented Apr 7, 2024

an-lee commented Apr 7, 2024

zj1123581321 commented Apr 7, 2024

an-lee commented Apr 7, 2024

建议语音转文字服务支持 Nova（英文转录速度 20x 于 whisper，价格差不多，准确度也很高）； #493

建议语音转文字服务支持 Nova（英文转录速度 20x 于 whisper，价格差不多，准确度也很高）； #493

Comments

zj1123581321 commented Apr 7, 2024

an-lee commented Apr 7, 2024

zj1123581321 commented Apr 7, 2024

an-lee commented Apr 7, 2024