Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

建议语音转文字服务支持 Nova(英文转录速度 20x 于 whisper,价格差不多,准确度也很高); #493

Open
zj1123581321 opened this issue Apr 7, 2024 · 3 comments

Comments

@zj1123581321
Copy link

之前研究过语音转文字这块的服务,闭源开源/本地云端基本上都玩过。

Whisper 很好用,也是目前我本地主力语音转文字的工具。但 Whisper 也有几个问题:

  1. 幻觉:可能会添加原文中没有的内容
  2. 响应速度:本地不开 GPU 加速速度很慢,云端 API 又有 25MB 的文件体积限制,大文件需要提取 mp3 后分段处理。

Enjoy 的场景我看主要是英语为主,可以考虑一下 Speech to Text API: Next-Gen AI Speech Recognition | Deepgram 的服务,Nova 语音转文字服务非常快,十分钟音频秒出结果;英文的准确率也很高,支持 timestamp-word 级别对齐;价格和 openai whisper 差不多,新用户赠送 200刀 额度。

22de076f31a98164e78b01480ece953


PS:看到 Issue 里很多人反馈 Whisper is not working,感觉这里有点坑。

本地想使用 Whisper, 如果只用 cpu 跑,小模型速度还可以,但准确度就下去了;large model 又太慢。
而 web 应用 调 GPU 又涉及各个平台适配的问题,投产比太低。

Enjoy 如果能支持类 srt 格式文件导入可能会更容易扩展内容源(看上去需要 timestamp-word 级别对齐),把生成字幕的工作交给其他工具来做,比如 https://memo.ac 就基于 Whisper 做了 Mac+Windows 的 GPU 加速+ VAD 人声识别。像 buzz 之类的工具也做了 gpu 支持,github 上 whisper 生态还是很繁荣的。

@an-lee
Copy link
Collaborator

an-lee commented Apr 7, 2024

感谢建议。

本地 whisper 服务只是一个可选项,为用户提供的一个本地的免费方案。实际上 Enjoy 也提供了其他 STT 云服务选项,比如 OpenAI 的 whisper 和 Azure AI 的语音识别,效果都不错的。后续可以提供更多云服务选项。

另外,新版的 Enjoy 用了 force alignment,已经不需要 word level 的 transcription 了。

@zj1123581321
Copy link
Author

感谢回复,主要是我在 Enjoy 上拿 openai 的 api 试了两个 ted 的演讲视频,开头的转录文本都出现了不属于原文的内容(whisper 的幻觉在音乐背景下经常发生)。。
The Danger Of Silence Clint Smith TED
A One Minute TE Dx Talk For The Digital Age Woody Roseland TE Dx Mile High

单纯依靠 api 结果,出现了错误很尴尬。如果能自行导入 Srt 文件的话,用户还能对转录结果中的幻觉内容做一个修正。

@an-lee
Copy link
Collaborator

an-lee commented Apr 7, 2024

明白。后续会增加修改转录结果的功能,导入 srt 文件也可以考虑加上。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants