Whisper 是 OpenAI 旗下的开源语音识别系统,可以将语音转换为文字,支持多种语言,之前小编给大家介绍过《开源Whisper 客户端「Transcribe Audio」》,「Transcribe Audio」是通过OpenAI API来实现语音转换文字,今天要给大家介绍Buzz同样是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。
功能:
- 导入音频和视频文件并将文字记录导出为 CSV、SRT、TXT 和 VTT
- 通过麦克风进行实时转录和翻译(转录和翻译质量取决于模型大小)
- 支持 90 多种语言
如何使用Buzz?
下载安装Buzz后,第一次使用 Buzz ,会自动下载 Whisper 的模型,也可以在菜单栏选择Help然后点击Preferences,在Models处下载模型,如果你的电脑性能不行也可以在General处使用OpenAI API;下载模型时需要科学上网,small模型就可以取得不错的效果,目前Buzz里的large模型是large-v2模型:
质量 | 尺寸 | English-only model | Multilingual model | 必需的显存 | 速度 |
---|---|---|---|---|---|
tiny | 72 M | tiny.en |
tiny |
~1 GB | ~32x |
base | 138 M | base.en |
base |
~1 GB | ~16x |
small | 461 M | small.en |
small |
~2 GB | ~6x |
medium | 1.42G | medium.en |
medium |
~5 GB | ~2x |
large-v2 | 2.87G | N/A | large |
~10 GB | 1x |
Whisper 模型存储在电脑中:
~\.cache\whisper~\Library\Caches/Buzz
(macOS)~\.cache\Buzz
(Linux)C:\Users\<username>\.cache\whisper
(Windows)
当卸载的时,可以直接到模型存储所在位置删除即可
点击小话筒就是实时转录,点击+就是添加音频,然后就会开启设置窗口:
- Translate(翻译)
- Transcribe (转录)
支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”
导出的格式:“TXT”、“SRT”、“VTT”
小编添加了一段15秒的音频,模型选择Whisper的小模型,task(任务)处选择转录,语言处选择Chinese,导出格式选择TXT和SRT,处理完毕大概9秒(显卡是GTX4070)
结语:
Buzz是基于Whisper,语音转文本功能非常强,但在翻译方面效果就差上一截,如果你下载是使用Buzz不方便,小编已经将软件和模型下载后上传到网盘,大家可以通过网盘下载。