千问织音(MacOS本地部署语音克隆+字幕识别+文稿匹配,完美GPU加速推理)

试用链接: https://pan.baidu.com/s/1CSAEG_DhsWhST-eR8ZNHxQ?pwd=fvys

更新记录

4.06加入indexTTS,速度比千问慢一点但是更稳定,不会失速和吞字
3.26更新修复登录问题

把本站的千问识音和千问拾音盒合并为一个APP了,同时修补了之前的一些问题。
一个是模型目录会被苹果double元数据污染导致模型加载失败,也就是MacOS会自动生成同名的隐藏文件。增加了长文本的自动分段录制,以及字幕识别长音频分段识别。

新增了语音克隆后直接发送的文稿匹配进行字幕生成。

推荐32G内存以上,16G虽然能跑但是开不了其他应用了。

下载过旧版本千问识音和千问拾音盒的,请完全卸载APP和删掉模型文件,和本软件不兼容。

软件特色

软件基于Qwen3大模型和苹果最新的MLX 大模型推理框架开发,可以完美利用m系列Mac的GPU进行满速推理。以M1 MAX 64G内存32核GPU为例,2分钟的语音生成字幕只需要不到20秒,1500字的语音克隆只需要1分钟。这在过去的几年里是无法实现的。由于MLX是2025年底推出的,所以他不支持15.6以下的系统。

我在2023年就开发过基于微软Azrue的字幕识别和AI配音,所以把那一套体系都搬过来了。语音克隆独创情感控制和分段生成,字幕识别独创字典替换和一键延长。

下载和安装

点击右侧下载后下载APP本体和模型文件两个DMG文件,APP本体拖入应用程序文件夹,模型文件拷贝到任意地方。系统盘空间够的优先放系统盘,系统不够的放外置硬盘。第一次打开APP需要指定模型路径,指定你刚才拷贝的路径即可,到Qwen-TTS Model这一层即可。

本软件有一天试用期,使用觉得还行可以在本站此文章中下载购买。购买后使用购买的微信号点右上角登录软件即可。注意点击后会自动打开浏览器进行扫码登录,如果你不小心关了浏览器,可以点击浏览器打开再次打开登录页面。登录后就是永久激活,一个账号可以登录两台设备。直到下一次你重装系统才需要再次登录,期间可以完全离线使用。注意:会员用户可以直接登录,本软件针对会员完全免费

软件打开第一件事就是指定模型路径,在上方最显眼的位置指定就行,指定到Qwen3-TTS Model那一层即可。指定后会自动加载库里内置的样音包


试用链接: https://pan.baidu.com/s/1CSAEG_DhsWhST-eR8ZNHxQ?pwd=fvys

如果你在试用期间有故障无法使用那么请勿购买,购买后表示你已试用没有问题,虚拟产品本站没有退款通道。本人可以提供技术支持。


使用指南

做好准备工作后就可以正式开始使用。本软件三个标签页语音克隆、字幕识别、文稿匹配就是相应的功能区

语音克隆

模型中我附带了很多样音包,直接可以选用。样音由群友提供,其中有很多超长的样音,请不要直接用于语音克隆参考。点击样音后我默认有一个30秒的裁切框,点击波形图顶部移动裁切框选择你要的语气部分点击应用裁切,裁切后等几秒钟自动转录样音,生成新的参考文本

裁切注意尾巴要留完整的气口,不要从中截断,裁切范围可以左右移动的。应用裁切后注意修正参考文本,因为参考文本是整个音频的,裁切后需要重新点击“转录样音”或者手动删除多余的文本。

当然你也可以不用我预置的样音,按照下图的方法自己创建样音

设置好样音和参考文本后可以在右侧输入目标文本进行生成。

注意,为了不让内存爆炸,对于长文本我默认开启了分段生成。如果第一遍生成的效果不理想,可以去高级设置中调整参数或者指定语气情感。

生成的结果如果你要上字幕可以直接点击发送到文稿匹配,就会把你的文本和生成的语音生成字幕,具体往后看。

注意 新加入的indexTTS不需要样音文本,但是也需要裁切

字幕识别

这里详细用法后面额外我出一期视频单独说,图上已经说了一大部分了,还有一些细节没说到

文稿匹配

文稿匹配页面只比字幕识别多一个文本输入框,其他功能和逻辑都一样。

扩展技巧

语音克隆多音字标注法

模型具有强大的上下文理解能力,常见的多音字他会根据上下文发正确的读音。人名里面可以用拼音加数字表示声调,例如(Shàn雄信,你敢单挑吗)或者(Shan4雄信,你敢单挑吗)

MacOS使用自带的ABC英文输出法,在输入韵母时长按就可以呼出声调菜单打出拼音音调,需要系统时区设置为中国。niúbī就是打u和i的时候长按

4 评论

  1. 期待

  2. Pingback: zoloft pills
  3. 50元是买断么 后续可以一直使用么

发表回复