专为Mac设计的语音克隆克隆工具VoiceBox-拾音盒(3 月 2 日重制版)
来源于GitHub开源项目https://github.com/jamiepine/voicebox
开源项目收费可耻,但是我收的是汉化费和模型下载费(花了我20G 梯子流量),觉得坑可以下上面的英文原版,那个完全免费
花了两天时间把自己的电脑回退到了 15 系统,重新编译了Metal3 引擎版本,提升了兼容性
大鱼做了哪些改进
- 原版只有英文界面,我拿到源码后进行逐一汉化。
- 原版默认从huggingface下载模型,大陆地区无法访问需要翻墙,并且强制下在系统盘,我改为手动指定模型路径,并且打包好了本地模型直接指定可用无需漫长下载
- 音色创建和语音识别默认语言改为中文
- 修复原版不能导出中文文件的问题
- 添加了一个简易的语音转字幕的页面
有哪些BUG
首次生成会加载模型到内存,会比较慢,可以先用一两个字生成一下,等出结果了再正式生成。
生成失败的话重启 APP,终端使用以下命令杀一下服务进程再次打开程序。
lsof -ti :17493 | xargs kill -9
我只编译了Arm版,intel不支持
有哪些优点
全网唯一支持Mac Metal加速的本地部署语音克隆工具 在64G M1max电脑上速度和5060ti 16G PC一样快
全程可断网使用。
使用方法
首先根据自己的系统版本下载对应的包(右侧登录后点下载➡️)

把模型文件解压拷贝到任意位置,总共 5 个 G,最好放外置硬盘,然后把 APP 拷贝到应用程序文件夹,打开首先
1、打开APP后首先指定模型目录,将我打包好的模型目录下载到任意位置,然后指定给APP,整个路径链路不要有中文。 然后重启APP和服务进程。看到Qwen TTS 1.7B就绪就行

如果路径没生效需要把服务进程关掉再次打开 APP:
lsof -ti :17493 | xargs kill -9
2、使用方法

如果一直输出失败,把模型目录文件夹里面的日志文件发我。微信号:Dayumedia2

如果我的版本不可用 那就找我退款,使用官方原版兼容性最好 下载地址https://github.com/jamiepine/voicebox
需要开梯子下载模型,下载好模型后就不需要联网了
