We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
之前研究过语音转文字这块的服务,闭源开源/本地云端基本上都玩过。
Whisper 很好用,也是目前我本地主力语音转文字的工具。但 Whisper 也有几个问题:
Enjoy 的场景我看主要是英语为主,可以考虑一下 Speech to Text API: Next-Gen AI Speech Recognition | Deepgram 的服务,Nova 语音转文字服务非常快,十分钟音频秒出结果;英文的准确率也很高,支持 timestamp-word 级别对齐;价格和 openai whisper 差不多,新用户赠送 200刀 额度。
PS:看到 Issue 里很多人反馈 Whisper is not working,感觉这里有点坑。
本地想使用 Whisper, 如果只用 cpu 跑,小模型速度还可以,但准确度就下去了;large model 又太慢。 而 web 应用 调 GPU 又涉及各个平台适配的问题,投产比太低。
Enjoy 如果能支持类 srt 格式文件导入可能会更容易扩展内容源(看上去需要 timestamp-word 级别对齐),把生成字幕的工作交给其他工具来做,比如 https://memo.ac 就基于 Whisper 做了 Mac+Windows 的 GPU 加速+ VAD 人声识别。像 buzz 之类的工具也做了 gpu 支持,github 上 whisper 生态还是很繁荣的。
The text was updated successfully, but these errors were encountered:
感谢建议。
本地 whisper 服务只是一个可选项,为用户提供的一个本地的免费方案。实际上 Enjoy 也提供了其他 STT 云服务选项,比如 OpenAI 的 whisper 和 Azure AI 的语音识别,效果都不错的。后续可以提供更多云服务选项。
另外,新版的 Enjoy 用了 force alignment,已经不需要 word level 的 transcription 了。
Sorry, something went wrong.
感谢回复,主要是我在 Enjoy 上拿 openai 的 api 试了两个 ted 的演讲视频,开头的转录文本都出现了不属于原文的内容(whisper 的幻觉在音乐背景下经常发生)。。
单纯依靠 api 结果,出现了错误很尴尬。如果能自行导入 Srt 文件的话,用户还能对转录结果中的幻觉内容做一个修正。
明白。后续会增加修改转录结果的功能,导入 srt 文件也可以考虑加上。
No branches or pull requests
之前研究过语音转文字这块的服务,闭源开源/本地云端基本上都玩过。
Whisper 很好用,也是目前我本地主力语音转文字的工具。但 Whisper 也有几个问题:
Enjoy 的场景我看主要是英语为主,可以考虑一下 Speech to Text API: Next-Gen AI Speech Recognition | Deepgram 的服务,Nova 语音转文字服务非常快,十分钟音频秒出结果;英文的准确率也很高,支持 timestamp-word 级别对齐;价格和 openai whisper 差不多,新用户赠送 200刀 额度。
PS:看到 Issue 里很多人反馈 Whisper is not working,感觉这里有点坑。
本地想使用 Whisper, 如果只用 cpu 跑,小模型速度还可以,但准确度就下去了;large model 又太慢。
而 web 应用 调 GPU 又涉及各个平台适配的问题,投产比太低。
Enjoy 如果能支持类 srt 格式文件导入可能会更容易扩展内容源(看上去需要 timestamp-word 级别对齐),把生成字幕的工作交给其他工具来做,比如 https://memo.ac 就基于 Whisper 做了 Mac+Windows 的 GPU 加速+ VAD 人声识别。像 buzz 之类的工具也做了 gpu 支持,github 上 whisper 生态还是很繁荣的。
The text was updated successfully, but these errors were encountered: