基于OpenAI开源语音识别模型Whisper的第三方工具大盘点,看看哪款适合你?

Whisper 是 OpenAI 旗下的开源语音识别模型,可以将语音转换为文字,支持多种语言,目前网上有非常多开发者基于此开源模型打造语音识别产品,之前小编就给大家介绍过不少,今天就给大家做一个合集,大家可以根据自己需求进行选择,一起来看看吧!

Buzz

Buzz 是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

开源地址:https://github.com/chidiwilliams/buzz

官网地址:https://buzzcaptions.com

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

Transcribe Audio

Transcribe Audio 是一个非常简易的开源 Whisper 客户端,它只有三个文件:index.html、index.js、style.css,只需要下载、解压缩,将 index.html 拖到浏览器里就可以使用,也可以将这些文件上传到主机空间绑定域名进行访问。在顶部输入你的 OpenAI API key(和 ChatGPT 同一个),就可以选择音频文件进行转换,支持保存为文本、.srt、.vtt 三种格式。

支持上传音频格式:mp3、mp4、mpeg、mpga、m4a、wav、webm、mp4、mpeg、webm

开源地址:https://github.com/felixbade/transcribe

官方 DEMO:https://transcribe.bloat.app

开源 Whisper 客户端「Transcribe Audio」,基于 OpenAI API 进行语音转文字

GPT-Subtitle

「GPT-Subtitle」是结合了 Whisper 和 OpenAI 的 GPT-3 语言模型 的开源应用,为大家提供音频和视频的本地翻译功能。此应用不仅能够将字幕转换成对话并进行翻译,而且支持多种语言的翻译,并能方便地将字幕翻译成其他语言。此应用支持 Docker 部署,具体可查看 Github 页面。

开源地址:https://github.com/hqwuzhaoyi/gpt-subtitle

支持 Docker 部署!基于 Whisper 的视频转字幕翻译服务「GPT-Subtitle」

Whisper JAX 

Whisper JAX」是一款基于 Whisper API 的在线语音转文字工具,此工具托管在 Hugging Face 平台,直接在浏览器打开网页使用即可,目前支持麦克风、录音文件、YouTube 三种音频来源,单文件 2 小时以内免费使用。

地址:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

基于 Whisper API 的在线语音转文字工具「Whisper JAX」,单文件 2 小时内可以免费使用

Whisper Desktop

「Whisper Desktop」是一款基于 OpenAI 旗下开源语音识别系统 Whisper 的免费开源可可离线使用的「影音文件转文字、字幕」桌面端软件,可以在 Windows 上简单执行,它会利用电脑当中的显卡(GPU)当作算力,在离线的本机端完成语音转文字的功能。

开源地址:https://github.com/Const-me/Whisper

语音转文字软件「Whisper Desktop」

VoiceStreamAI

VoiceStreamAI 是一款可以自己托管的 开源 Whisper 解决方案,服务端是 Python,客户端是 JavaScript,基于 WebSocket 实时通信,可以做到语音的实时传输和文本转换。该系统采用 Huggingface 的声活动检测(VAD)和 OpenAI 的 Whisper 模型进行准确的语音识别和处理。

GitHub 地址:https://github.com/alesaccoia/VoiceStreamAI

以自己托管的 开源 Whisper 解决方案「VoiceStreamAI」

语音识别转文字工具(tts)

一个离线运行的本地语音识别转文字工具,基于 openai-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。

GitHub地址:https://github.com/jianchang512/stt

Faster Whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。

GitHub地址:https://github.com/SYSTRAN/faster-whisper

Whisper-WebUI

一个基于Gradio的Whisper浏览器界面,您可以将其用作简易字幕生成器。

GitHub地址:https://github.com/jhj0517/Whisper-WebUI

我们将24小时内回复。
取消