基于OpenAI开源语音识别模型Whisper的第三方工具大盘点，看看哪款适合你？

文章目录[隐藏]

Buzz
Transcribe Audio
GPT-Subtitle
Whisper JAX
Whisper Desktop
VoiceStreamAI
语音识别转文字工具（tts）
Faster Whisper
Whisper-WebUI

Whisper 是 OpenAI 旗下的开源语音识别模型，可以将语音转换为文字，支持多种语言，目前网上有非常多开发者基于此开源模型打造语音识别产品，之前小编就给大家介绍过不少，今天就给大家做一个合集，大家可以根据自己需求进行选择，一起来看看吧！

Buzz

Buzz 是一款基于 OpenAI Whisper 的开源的实时语音转文字工具，不同点在于其可离线运行，支持 Windows、macOS、Linux，它可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕。

开源地址：https://github.com/chidiwilliams/buzz

官网地址：https://buzzcaptions.com

用 AI 一键音频转文字！基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

Transcribe Audio 是一个非常简易的开源 Whisper 客户端，它只有三个文件：index.html、index.js、style.css，只需要下载、解压缩，将 index.html 拖到浏览器里就可以使用，也可以将这些文件上传到主机空间绑定域名进行访问。在顶部输入你的 OpenAI API key（和 ChatGPT 同一个），就可以选择音频文件进行转换，支持保存为文本、.srt、.vtt 三种格式。

支持上传音频格式：mp3、mp4、mpeg、mpga、m4a、wav、webm、mp4、mpeg、webm

开源地址：https://github.com/felixbade/transcribe

官方 DEMO：https://transcribe.bloat.app

开源 Whisper 客户端「Transcribe Audio」，基于 OpenAI API 进行语音转文字

GPT-Subtitle

「GPT-Subtitle」是结合了 Whisper 和 OpenAI 的 GPT-3 语言模型的开源应用，为大家提供音频和视频的本地翻译功能。此应用不仅能够将字幕转换成对话并进行翻译，而且支持多种语言的翻译，并能方便地将字幕翻译成其他语言。此应用支持 Docker 部署，具体可查看 Github 页面。

开源地址：https://github.com/hqwuzhaoyi/gpt-subtitle

支持 Docker 部署！基于 Whisper 的视频转字幕翻译服务「GPT-Subtitle」

Whisper JAX

「Whisper JAX」是一款基于 Whisper API 的在线语音转文字工具，此工具托管在 Hugging Face 平台，直接在浏览器打开网页使用即可，目前支持麦克风、录音文件、YouTube 三种音频来源，单文件 2 小时以内免费使用。

地址：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

基于 Whisper API 的在线语音转文字工具「Whisper JAX」，单文件 2 小时内可以免费使用

Whisper Desktop

「Whisper Desktop」是一款基于 OpenAI 旗下开源语音识别系统 Whisper 的免费开源可可离线使用的「影音文件转文字、字幕」桌面端软件，可以在 Windows 上简单执行，它会利用电脑当中的显卡（GPU）当作算力，在离线的本机端完成语音转文字的功能。

开源地址：https://github.com/Const-me/Whisper

语音转文字软件「Whisper Desktop」

VoiceStreamAI

VoiceStreamAI 是一款可以自己托管的开源 Whisper 解决方案，服务端是 Python，客户端是 JavaScript，基于 WebSocket 实时通信，可以做到语音的实时传输和文本转换。该系统采用 Huggingface 的声活动检测（VAD）和 OpenAI 的 Whisper 模型进行准确的语音识别和处理。

GitHub 地址：https://github.com/alesaccoia/VoiceStreamAI

以自己托管的开源 Whisper 解决方案「VoiceStreamAI」

语音识别转文字工具（tts）

一个离线运行的本地语音识别转文字工具，基于 openai-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。

GitHub地址：https://github.com/jianchang512/stt

Faster Whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。

GitHub地址：https://github.com/SYSTRAN/faster-whisper

Whisper-WebUI

一个基于Gradio的Whisper浏览器界面，您可以将其用作简易字幕生成器。

GitHub地址：https://github.com/jhj0517/Whisper-WebUI

AI·新世界