用 AI 一键音频转文字！基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

Whisper 是 OpenAI 旗下的开源语音识别系统，可以将语音转换为文字，支持多种语言，之前小编给大家介绍过《开源Whisper 客户端「Transcribe Audio」》，「Transcribe Audio」是通过OpenAI API来实现语音转换文字，今天要给大家介绍Buzz同样是一款基于 OpenAI Whisper 的开源的实时语音转文字工具，不同点在于其可离线运行，支持 Windows、macOS、Linux，它可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕。

开源地址：https://github.com/chidiwilliams/buzz

官网地址：https://buzzcaptions.com

功能：

导入音频和视频文件并将文字记录导出为 CSV、SRT、TXT 和 VTT
通过麦克风进行实时转录和翻译（转录和翻译质量取决于模型大小）
支持 90 多种语言

如何使用Buzz？

下载安装Buzz后，第一次使用 Buzz ，会自动下载 Whisper 的模型，也可以在菜单栏选择Help然后点击Preferences，在Models处下载模型，如果你的电脑性能不行也可以在General处使用OpenAI API；下载模型时需要科学上网，small模型就可以取得不错的效果，目前Buzz里的large模型是large-v2模型：

质量	尺寸	English-only model	Multilingual model	必需的显存	速度
tiny	72 M	`tiny.en`	`tiny`	~1 GB	~32x
base	138 M	`base.en`	`base`	~1 GB	~16x
small	461 M	`small.en`	`small`	~2 GB	~6x
medium	1.42G	`medium.en`	`medium`	~5 GB	~2x
large-v2	2.87G	N/A	`large`	~10 GB	1x

Whisper 模型存储在电脑中：

~\.cache\whisper~\Library\Caches/Buzz （macOS）
~\.cache\Buzz （Linux）
C:\Users\<username>\.cache\whisper （Windows）

当卸载的时，可以直接到模型存储所在位置删除即可

点击小话筒就是实时转录，点击+就是添加音频，然后就会开启设置窗口：

Translate（翻译）
Transcribe （转录）

支持的格式：“mp3”，“wav”，“m4a”，“ogg”，“mp4”，“webm”，“ogm”

导出的格式：“TXT”、“SRT”、“VTT”

小编添加了一段15秒的音频，模型选择Whisper的小模型，task（任务）处选择转录，语言处选择Chinese，导出格式选择TXT和SRT，处理完毕大概9秒（显卡是GTX4070）

结语：

Buzz是基于Whisper，语音转文本功能非常强，但在翻译方面效果就差上一截，如果你下载是使用Buzz不方便，小编已经将软件和模型下载后上传到网盘，大家可以通过网盘下载。

https://www.123pan.com/s/I1oZVv-SxuGA.html 提取码:buzz

AI·新世界

用 AI 一键音频转文字！基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

相关文章