用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

Whisper 是 OpenAI 旗下的开源语音识别系统,可以将语音转换为文字,支持多种语言,之前小编给大家介绍过《开源Whisper 客户端「Transcribe Audio」》,「Transcribe Audio」是通过OpenAI API来实现语音转换文字,今天要给大家介绍Buzz同样是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

开源地址:https://github.com/chidiwilliams/buzz

官网地址:https://buzzcaptions.com

功能:

  • 导入音频和视频文件并将文字记录导出为 CSV、SRT、TXT 和 VTT
  • 通过麦克风进行实时转录和翻译(转录和翻译质量取决于模型大小)
  • 支持 90 多种语言

如何使用Buzz?

下载安装Buzz后,第一次使用 Buzz ,会自动下载 Whisper 的模型,也可以在菜单栏选择Help然后点击Preferences,在Models处下载模型,如果你的电脑性能不行也可以在General处使用OpenAI API;下载模型时需要科学上网,small模型就可以取得不错的效果,目前Buzz里的large模型是large-v2模型:

质量 尺寸 English-only model Multilingual model 必需的显存 速度
tiny 72 M tiny.en tiny ~1 GB ~32x
base 138 M base.en base ~1 GB ~16x
small 461 M small.en small ~2 GB ~6x
medium 1.42G medium.en medium ~5 GB ~2x
large-v2 2.87G N/A large ~10 GB 1x

Whisper 模型存储在电脑中:

  • ~\.cache\whisper~\Library\Caches/Buzz (macOS)
  • ~\.cache\Buzz (Linux)
  • C:\Users\<username>\.cache\whisper (Windows)

当卸载的时,可以直接到模型存储所在位置删除即可

点击小话筒就是实时转录,点击+就是添加音频,然后就会开启设置窗口:

  • Translate(翻译)
  • Transcribe (转录)

支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”

导出的格式:“TXT”、“SRT”、“VTT”

小编添加了一段15秒的音频,模型选择Whisper的小模型,task(任务)处选择转录,语言处选择Chinese,导出格式选择TXT和SRT,处理完毕大概9秒(显卡是GTX4070)

结语:

Buzz是基于Whisper,语音转文本功能非常强,但在翻译方面效果就差上一截,如果你下载是使用Buzz不方便,小编已经将软件和模型下载后上传到网盘,大家可以通过网盘下载。

https://www.123pan.com/s/I1oZVv-SxuGA.html 提取码:buzz

我们将24小时内回复。
取消