日期:
来源:治廷君收集编辑:治廷君
Buzz
一款GitHub开源免费的,可以本地离线运行的语音识别软件。它有两个功能,一个是语音转文字,一个是实时语音识别。
特点
从麦克风实时转录和翻译成文本 导入音频和视频文件并导出文本到 TXT、SRT 和 VTT 字幕文件 支持Whisper、 Whisper.cpp、 与Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API 适用于 Mac、Windows 和 Linux
安装
以Windows系统为例简单说明,软件下载完成后,双击运行,进行安装:
根据个人情况选择是为所有用户安装,还是仅为当前用户安装
选择安装位置(老朋友都知道,小编习惯将软件安装在非系统盘,养成良好的软件安装习惯)。
后面基本一路 Next 即可进入安装阶段,等待安装完成即可。
使用
运行 Buzz ,进入软件主界面
如上图,工具栏麦克风按钮为实时语音识别,旁边的 + 号为音视频文件转文本,下面以音视频文件转文本为例进行说明,首先点击 + 号导入需要转文本的音频或视频文件,如下:
支持文件类型: *.mp3,*.wav,*.m4a,*.ogg,*.mp4,*.webm,*.ogm,*.mov
打开音频后,会进入设置窗口,Model选项为语音识别的模型,第一次使用时,会根据Model下方选择的不同的质量需求,下载指定的模型,具体如下:
Task任务只有两个选项,分别为Translate(翻译)、Transcribe(转录),可根据需要进行选择
Language选项为语言设置选项,默认为detect language(自动检测语言),注意,这里的自动检测只是检测前几秒音频中的语言,稳妥起见,还是推荐自己指定语言。
设置完成,点击 Run
如上所述,第一次运行,本地没有任何模型,所以会自动开始下载模型文件,下载完成后会自动执行语音转文本任务。
状态栏显示 Completed (完成)后,使用鼠标双击这一行,就会弹出识别的字幕内容,如下:
可以看到,内容中有不少地方声音识别出来,但文字是不对的,还需要手动调整,不过小编只是为了演示,只选择了较小体量的Base模型,大家可以下载质量更高的模型进行尝试。
点击字幕列表右下角 Export (导出),可以选择导出为txt文本文件或者srt、vtt字幕文件。
相关下载
gitHub地址:https://github.com/chidiwilliams/buzz
PS: 公众号偶尔会发点广告,各位小伙伴看到的话,麻烦帮忙花费几秒钟时间点进去随便翻翻,至于广告内容,那都是扯蛋的,不要相信,拜谢~!
“点赞”和“在看”顺手点一点,谢谢啦!