APP开发公司 OpenAI Whisper 使用体验:转换游戏门径的优雅语音转写用具
速记员这个奇迹大家都不生疏,他们能在各种局面高效赶快地将演讲内容升沉为会议记载。如果把速记员造成软件,其中枢功能便是语音识别 + 转写。这类需求使用场景粗俗,在线视频 AI 字幕、线上会议 / 网课的速记、生肉番剧 / 电影 / 歌曲字幕的制作和转译、通话灌音等等,都会用到。
速记的精髓在于速率,快最进犯,但在许多场景中,不论是东说念主力照旧软件,都无法达到超快的转写速率和准确率,而餍足专科用户高效转写需求的用具,往往需要付费获取。如某品牌的语音转写畅思包订阅用度是 79 元一语气包月,599 元 / 年;另一款则需要注册企业用户,然后找客服推测用度表率,别传表率版用度是每个用户 199 元 / 年,高档版用度则是每个用户 299 元 / 年。
对企业 / 专科用户来说,付费订阅软件一定最好礼聘,它们的速率快、无需高性能硬件资本(GPU)、准确率高、撑握东说念主工精校,肯用钱甚而可取得一双一的专属客服撑握,但如果仅仅偶尔使用性价比就不是很高了。
另外,这些订阅软件的 AI 作事,时常需要用户将原始的视频或音频文献上传到作事器和全程联网,且通过厂商的专科修复在云霄起首,如果视频或音频文献中包含个东说念主遁藏 / 买卖等内容,理解也不太合适。
对于 Whisper那有莫得一款完全免费开源,不需要联网,完全依赖腹地硬件算力去跑语音识别和转写,准确率还不低的语音转写软件呢?能够可爱关注 AI 限度的一又友早就有了谜底,它便是来自的 OpenAI 团队所开导的 Whisper。从官网的先容著述日历上不丢丑到,Whisper 早在 2022 年 9 月就一经推出,但时于本日它依旧是最好用的免费语音转写用具。
说它最好用原因有三点,一是它的语种撑握粗俗(99 种),二是转写速率超快,三是识别准确性很高,且只需要一张高性能显卡就能办到,这几点我都会在背面的体验中给大家详备分析。
先给大家简便科普下 Whisper,它是一个多模态语音识别模子,基于 Transformer 引擎所打造,通过了 68 万个小时的语音数据实践,撑握 99 种语言(包括汉文),在具备语音识别智力的同期,还撑握语音活性检测(VAD),声纹识别,谈话东说念主日记 (Speaker Diarization,即在多东说念主对话场景下检测不同东说念主物的谈话手艺段),语音翻译(翻译为英文),语音对王人等智力,其英文识别准确率终点强悍。
而上头所提到的 Transformer 引擎,正好 NVIDIA 在 RTX 40 系列显卡上引入了一个针对 AI 计较的新硬件特质,具体来说 RTX 40 系显卡增多了对 FP8 低精度浮点数的撑握,基于 Transformer 引擎,比拟 AI 实践常用的 FP16 半精度浮点数来说,动态规模相等,在疏通加快平台上的峰值性能显赫卓越后者,但 FP8 更少的位数有意于减小空间占用和进步收罗讹诈效力,允许模子领有更多的参数目,从而算得更快。
有兴味的是 OpenAI 迄今为止推出的大模子,包括大家耳熟的 GPT,Sora.,Dell 以及今天提到的 Whisper,都是基于 Transformer 模子所开导,这类模子的参数目广泛,并讹诈了 Transformer 模子所领有的 Scability(可延伸性)特质,可以不停叠加模子的参数和神经收罗层数,取得更精良和刚硬的 AI 智力。
此外,OpenAI 团队也驻扎到了 Transformer 模子的自驻扎力机制,使其能够通晓序列中恣意两个词元间的相干并无视距离,提高输出的质地和连贯性。自驻扎力还可延伸为多头驻扎力,允许模子将数据信息切割细化为矩阵(头),然后对每个矩阵(头)分手进行自驻扎力计较,终末吞并输出。
在这两种机制下,Transformer 模子捕捉的信息类型更全面,学习智力和抒发智力也更杰出。恰是由于 OpenAI 将 Transformer 模子算作居品发展平台的政策,以及 RTX 40 系显卡对 FP8 Transformer 引擎的撑握,才使得 RTX 40 显卡成为时常糜掷者现阶段体验 Whisper 最合适的硬件。
这就不得不提到本次体验用到的两个进犯硬件,第一个是 i9-14900K 处理器,算作最新一代糜掷级市集旗舰级定位的 CPU,其接纳了 24 中枢 32 线程的中枢规格,最高睿往往率可达 6GHz,不仅自己性能强悍,也不会影响显卡性能的推崇。
主角则是这款影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡,它基于 AD103 中枢所打造,包含 8448 个 CUDA 中枢,显存位宽进步到了 256bit,并领有 16GB GDDR6X 的大显存。
它所搭载的第四代 Tensor Cores 中枢专为 AI 而生,新增的 FP8 引擎撑握,使其具有高达 1.32 petaflops 的 Tensor 处感性能,可完毕羼杂精度计较,动态调养算力,对于万亿级参数生成式 AI 模子的实践速率进步 4 倍,性能可达 FP16 的 6 倍,推感性能进步 30 倍,终点相宜拿来体验 Whisper 的性能。
而在外不雅上,影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡亦是计算感拉满,纯白卡身装甲,自带亚克力“水晶”外壳,三电扇撑握 RGB 光环殊效,还附送专属定制显卡支架,颜值终点出色,拿来组白色海景房确凿是绝配。
那既然是拿它来跑 AI,显卡驱动也得选 Studio 驱动,不然跑出来的速率很可能不太理思。目下 NVIDIA 官网提供的最新 Studio 驱动版块为 555.99。
部署 Whisper最初 Whisper 是一个模子而非软件,它基于 Python 编程语言开导,平直下载 GitHub 上的原版部署的话就需要通过呐喊行用具来起首。好在目下一经有不少撑握 Whisper 的 GUI 软件,其中简便易用的代表便是 Buzz 和 Whisper Desktop 了。
软件开发礼聘这两款 GUI 软件的原因也终点简便,第一是两款软件都免费,体积占用终点小,最新 v0.8.4 版块的 Buzz 安设包仅有 197MB,完全安设后的占用空间约 1.21GB,而 Whisper Desktop 甚而只需要 324kb 大小的单文献和一个成立文献就能起首。
Release v0.8.4 · chidiwilliams/buzz · GitHub
第二是两款软件的界面终点简便,上手书单容易。最初来看 Buzz,它主如果通过 CPU 来跑 Whisper,因此兼容性更强,况且撑握 Windows、Linux 和 MacOS 系统平台,终点全面。Windows 和 MacOS 用户都可以通过 GitHub 进行下载,Mac App Store 里的版块要价 9.99 好意思元,不是专科用户完全不保举。
Whisper Release - a openai Collection (huggingface.co)
在安设好 Buzz 后,咱们要下载 Whisper 的模子文献,保举大家通过 Huggingface 镜像站进行下载,上头有 Whisper 模子的书籍专题页,况且会保握更新。
Whisper 官方提供了 Tiny、Base、Small、Medium 和 Large 五种不同大小的模子,占用的体积按序增多,模子越大处理音频的手艺也越长,准确性越高。提出大家一步到位将五种大小的模子都下载下来,躬行试试恶果。
这里需要驻扎的是,原版模子的文献名后缀是.pt,如果你下载的模子文献名和后缀不同,很可能是别东说念主调度或者微调后的模子。下载完成后,还需要将整个的模子文献都斡旋存放在“C:Users 电脑用户名 .cachewhisper”文献目次下,然后部署过程就惩处了,是不长短常简便。
掀开 Buzz 后,它的界面是这么的,终点简便锐利,点击麦克风按钮将汇齐集系统声息来分析正在播放的音视频中的语音,不外这种表情的识别精度比较低,提出大家照旧点击“+”号按钮手动指定腹地音、视频文献进走运算愈加恰当。
点击“+”号礼聘文献后,会弹出以上菜单窗口,需要按序礼聘模子类型、模子大小、处理表情以及识别语言,然后在底部的导出选项中礼聘字幕文献类型。
这里我给大家作念了一些汉文审视,模子类型平直选第一个 Whisper 就好,体积方面表面上转写英语音频礼聘 Small 模子就能有可以的恶果,汉文音频则需要 Medium 或 large 模子,处理类型礼聘转写,因为转译是将识别死心翻译成英文,况且只可翻译成英文,局限性较大。
按理说对排版有条目一定要勾选翰墨手艺戳选项,不然识别死心就会挤在一说念,但是目下 Buzz 的翰墨手艺戳选项有 BUG,勾选后不仅识别速率慢不少,识别死心每行险些唯有一个单词或单字,就像上图这么,好在不勾选它也会对每句话进行分段,APP开发公司终末导出文档类型大家按需礼聘。
全部选好之后点击右下角的“Run”按钮即可起首,识别过程中 Buzz 会给出刻下的识别进程百分比,直到完成转写。
上期前区三区比为3:2:0,第1、2区表现活跃,最近10期前区三区比为20:16:14,第3区出号较冷。
待识别进程造成 Completed(已完成)景况时,选中列表中的文献,点击“+”掌握的双箭头图标,会弹出识别死心的预览窗口,内部记载了每句话的手艺肇端和转写死心,再次点击右下角的下载按钮并礼聘导出文档类型即可下载到电脑。
Release Version 1.12 · Const-me/Whisper · GitHub
ggerganov/whisper.cpp at main (huggingface.co)
再看下 Whisper Desktop,最初是下载,Whisper Desktop 软件和模子下载地址我贴在这里,相同亦然五种大小的模子,只不外文献名前缀和文献类型后缀不同。
然后是 Whisper Desktop 的界面和操作。掀开后咱们最初需要礼聘模子,Whisper Desktop 不需要指定的模子存放目次,手动礼聘模子地址就行。
大家驻扎,Whisper Desktop 的模子文献并不是.pt 后缀的,而是.bin 后缀的,文献名中也多了 ggml-model 的字样,理解这是经过调度后的模子文献。
本色上,该软件便是 Whisper 的 ggml 版块,ggml 是一个用于机器学习的张量库,所使用的模子文献是 bin 局势的二进制文献,识别恶果等同于 Whisper。
然后模子生成表情这里礼聘 GPU。高档参数设立中,有独显的礼聘独显,莫得独显的则礼聘核显,我这里就平直礼聘影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了。
全部选好后点击 OK 插足二级页面,这里的操作要害和 Buzz 比较类似,我也给大家都标注了汉文审视,一看就会。选好后点击右下方的 Transcribe(转写)按钮即可。
对比测试测试要害咱们将进行四组不同语种、语速、类型的音源文献比较,对比内容为识别 + 转写速率和识别准确率,比照对象则是以 Buzz 软件 + i9-14900K 的 CPU 处理阵营和以 Whisper Desktop + 影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡的 GPU 阵营。
第一次先看汉文识别恶果,咱们在网高下载了一段锤子科技往常在鸟巢举办的新品发布会上,老罗对 TNT 功能进行演示的视频片断,然后调度为去掉不雅众席声息的 5 分 30 秒 MP3 音频文献,这段汉文语音中混杂了汉文、英文和数字,比较锻练 Whisper 的详细实力。
在相同礼聘 large 模子的情况下,Buzz 接纳 i9-14900K 处理器渲染,最终转写速率为 3 分 08 秒傍边,Whisper Desktop 接纳影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡渲染,转写速率为 26 秒,Whisper Desktop 仅用了 Buzz 软件 1/6 不到的手艺便完成转写,由此可见自带 Transformer 引擎的显卡对于 Wisper 的效力进步是广泛的。
转写排版上 Buzz 和 Whisper Desktop 在不礼聘手艺戳文本类型的 TXT 文献局势下,势均力敌,基本都能作念到按照一句完好意思语音进行换行断句。
不外,在识别死心的字数上,两者果然并不疏通。Buzz 的转写字数为 910 字,而 Whisper Desktop 的转写字数为 933 字。识别准确性上,Buzz 识别无理 27 个字 / 词,准确率为 97%,Whisper Desktop 识别无理 9 个字 / 词,准确率 99%。为了不被有时性影响,咱们一语气测试三次,基本都是这个比例。
两者在无理类型上,即使我只截识别无理的这句话,不相干高下文,大家都能一眼看出错在哪了,基本便是中英文混说 / 纯汉文发音识别无理。
另外,Buzz 输出某些英文也会识别无理,而 Whisper Desktop 的英文和数字是完全没无理的。至于为什么 Whisper Desktop 的识别死心字数要多一些,主如果语音中存在类似说疏通词语时,Buzz 有几率只转写一次,况且 Whisper Desktop 有些地方还会添枝接叶,比如收尾无语多出来一句谢谢不雅看,还挺贴心的哈。
Attitude - Britneylee 小暖 - 5sing 音乐 (kugou.com)
第二轮对比咱们礼聘了一段 BGM 沉着,类型为朗读的英文短篇,全体朗读速率较为适中,吐字通晓,音频时长为 1 分 31 秒的 MP3 音频,模子则选择了 medium。
这次的转写速率差距也终点理解,Buzz 转写耗时 26 秒,而 Whisper Desktop 仅用时 3.8 秒便完成转写。
在转写排版上,由于 Buzz 礼聘手艺戳文本有 Bug,是以 Whisper Desktop 后发先至。不外在识别准确率上两者完全打平,因为都是 100%,毕竟前文也提到了 Whisper 的英文识别智力终点强悍。
MASAYUME CHASING - BoA (宝儿) - QQ 音乐
天然,大家终点护理的日文咱们也进行了测试,这次咱们礼聘了一首日本歌手 BoA 演唱的《妖精的尾巴》TV 动画 OP 主题曲《MASAYUME-CHASING》,这首歌的 BGM 比较燃,语速相对前边的英文朗读也快不少,还有许多类似叠声词,歌曲时长为 3 分 40 秒,测试模子礼聘 Large。
转写速率上,Buzz 用时 1 分 44 秒完成,Whisper Desktop 用时 17 秒完成,影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡再次完胜。
转写排版和前边的英文差未几,仅仅两者在一些语句的断句长度上有所不同。而准确性上,两者的许多无理都一样,识别准确率都是 96%。但是 Buzz 有些地方错成了化名,而 Whisper Desktop 疏通位置则错成了英文,比如歌词原句为“燃やせ胸の火を”,汉文梗概兴味是“胸中之火熊熊废弃”。Buzz 的转写死心为“燃やせ胸のヒール”,汉文造成了“废弃胸前的高跟鞋”,Whisper Desktop 的转写死心为“燃やす胸の hero”,汉文造成了“废弃胸前的好汉”。错的结构基本都是这种,懂日语的小伙伴可以在评述区发挥一下。
终末咱们礼聘了一首英文说唱类型的视频,这个视频比较特地,最初它天然是作家二创填词,但声息礼聘了 AI 配音,有很重的“花果山口音”,其次语速很快,每句话中都有多量的英文单词,吐字也不算很了了,属于稍许“鬼畜向”的作品,咱们相同将其转成 MP3 局势,接纳 medium 模子,望望这种音频 Whisper 能惩处吗?
关联词出乎料思的是,Whisper Desktop 仅用时 2.6 秒就完成了转写,这也太快了!Buzz 则破耗了 1 分 03 秒完成。
关联词这次转写的死心确凿令东说念主哭笑不得,Buzz 似乎凯旋识别出了整首歌的歌词,而 Whisper Desktop 平直扑街,一个字都没听出来,这下子高下立判了。
别急,仔细看 Buzz 的文档我又发现,它这个案牍许多地方像“脑补”出来的,对比原视频只可说错对一半一半,关键许多话中错了几个词兴味就完全对不上了。理解,在靠近 AI 配音 + 口音 + BGM 的场景,Whisper 似乎也窝囊为力,是以大家就别指望用它来转写白话化很重、方言以及鬼畜视频了。
经过上头三组测试的对比,咱们可以得出以下几点论断:
比拟 CPU,RTX 40 系显卡的 AI 性能对 Whisper 这类基于 Transformer 引擎所打造的多模态大模子是有十足上风的。
影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡即使在 Large 最大体积模子下,也能将 5 分钟以内的音频文献转写手艺压缩到 60 秒以内,16GB 大显存可以冒昧独霸 Large 模子的负载。
Whisper 对于汉文的识别精度目下还算不上很出色,难度比拟日语、英语都要大。而日文、东亚语种的识别准确率亦然理解会差于英语的。但从无理数目相对整个这个词文本的占比来看,Whisper 依旧作念到了 90% 以上的准确性,比拟收费软件识别速率能够不一定会占优,但胜在免费、离线和低门槛,全体表目下免费转写用具中不落俗套。
口音很重或者通过变声的 AI 配音、变声鬼畜向视频,不相宜使用 Whisper 进行转写。
除此以外还要稀奇阐发 2 点,一是拿 i9-14900K 进行对比,主要塞点是给到大家识别速率上的参照物,并非为标明 RTX 40 显卡的 AI 性能一定比 intel CPU 强;二是大家使用 Whisper 进行识别转写前,最好照旧通过三方软件,将音视频中的东说念主声和 BGM 进行分离,识别恶果会更好。
追念在 Whisper 融合两款 GUI 软件的体验过程中,除了部署阶段波及到多量外网模子资源的下载有些艰巨,操作体验莫得任何问题,终点东说念主性化。
对于有非买卖,非多数目语音识别 + 转写使用场景的用户来说,Whisper 饱胀餍足他们的日常需求,而像影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡所领有的 Tensor Core、CUDA 以及 16GB 大显存,能够冒昧支吾 Lager 模子给到的 AI 运算负载压力,给用户带来显赫效力进步。
能够目下许多 AI 限度离咱们的生计还很远,但弗成否定的是,善用 AI 一定能让咱们的生计变得愈加好意思好。
终末,由于文中部分积蓄对收罗环境条目较高,这里就给大家附上这次测试所用到的模子资源好了:
测试资源APP开发公司,索求码 l2fz