大家好,我是悟鸣(公众号:悟鸣AI)。

前段时间我分享过,自己买了一个录音卡。

参加一些 AI 大会、线下活动的时候,用起来确实很爽。

不用消耗手机的电量,而且中间出去一下也没关系,只要录音卡留在座位上,就能继续录音。

但是用过一段时间之后,我发现一个问题:“掉坑里啦”!

买一个录音卡才几百块钱,但如果非常重度使用,默认的转写额度很快就不够了。

如果想“畅快使用”,一个月会员就要两百多,一年下来就是一两千。

而且现在有些录音卡都只是纯音频转文本模型,并没有校对功能,或者校对功能很弱。


那我为什么不直接搞一个 Skill?

直接让它在自己本地电脑上自动转录,再接上我之前的字幕校对的 Skill 自动校对好呢?

说干就干!

我把需求描述清楚,直接让 CodeX 帮我搞了一个音频转文本的 Skill。

心情瞬间乐开了花,心想以后终于不用为了转写时长买会员了 😄!

结果一测试,又发现了新的问题:1 个小时的音频,转换居然也要 1 个多小时。

我想不对劲啊?!

一看它的这个执行过程,发现它用的是 CPU!

我赶紧继续让它优化方案,改成使用 GPU 计算。

AI 优化完成以后,1 小时的音频,10 分钟以内就搞定了!

音频转文本,再加上我自己之前搞的字幕校对 Skill,基本就形成了“一条龙服务”。

实际效果比直接用录音卡自带的转换结果还要好。

如果你需要,可以从我的 GitHub 地址获取:

github.com/chujianyun/…

安装方法也很简单,可以直接对你的 Agent 说:

帮我安装 https://github.com/chujianyun/skills/blob/main/skills/local-audio-transcriber 这个 Skill

使用也非常简单。

把音频文件作为附件丢进去,然后提示词说“录音转文本”即可。

对于我来说,再也不用担心录音转文本付费问题啦!真是,“书中自有黄金屋”,古人诚不欺我!

目前这个 Skill 只在苹果电脑 M 系列芯片上测试过。

如果你的电脑或系统上效果不理想,也可以直接让你的 Agent 排查和优化。


很多人总觉得自己缺的是一个先进的 AI 工具,其实我觉得更重要的是思维的转变。

现在很多人没有养成 “Skills First” 的习惯,遇到问题还是喜欢用传统方式去解决。

像类似的场景还有很多很多。

很多人没有主动发现有价值的场景的意识,也不清楚 AI的边界,也不能灵活运用 AI 工具,大家都没反应过来的时候不着急,等到不得不学的时候又痛苦,很难抓住 AI 时代发展机遇。


预告,我将在 6月6日在 B 站发布的《AI 学习 2.0 ,让 AI 真正帮你干活,小白入门实战课》,如果你想快速提升 AI 水平,结合自己的场景快速用 AI 解决问题创造价值,欢迎一起交流学习。(B站账号:悟鸣AI

欢迎关注我的公众号:悟鸣AI,持续分享比较有用的 AI 工具和比较好的 AI 经验,比较客观理性的 AI 观点等。