大鱼自制免费 AI 配音+字幕识别+SRT转FCPXML软件(11.12最终更新版)
更新日志:
- 10.11增加文稿匹配功能
- 10.15改进字幕识别精准度 实现60秒内的短音频超精准时间码匹配(长音频表现不尽人意)
- 10.25增加自定义分行 并且分行后时间码依然准确
- 10.29修复FCPXML生成过程的帧计算
- 11.10改进字幕识别算法 支持15分钟内长音频识别
- 11.12改进字幕识别分段逻辑 避免出现超长字幕
- 11.12改进文稿匹配时间码精度 目前做到短音频超高精度的文稿匹配 误差保持在100ms内(长音频表现不太行)
本次软件开发成本核算,就这我还保持免费,请问你刷到我视频不点赞良心过得去吗
- 工时:300小时+ 按工人价格20元/小时算 6000元 (10月5号开始开发 11月12号才最终成型)
- GPT plus订阅费+代充费 180/月X2个月=360元
- Claude订阅费 160元/月
- 苹果开发者认证费 680/年
已知bug以及解决方法
1、低系统版本可能会存在界面问题 手动拉一下界面大小或者全屏化
2.AI配音 语音模型的风格标签可能无效 如有相关需求,请到微软Azrue门户网站资源管理面板(也就是订阅密钥显示的界面,下文有详细教程)点击SpeechStudio进行有声内容创作,解锁全完体的Azrue语音服务
3.由于API限制,单次字幕识别只能60秒以内音频,因次长音频在识别过程中会进行分段连续识别,并且为了精准时间码 会识别三次进行时间码校对 所以长音频识别会很慢 请耐心等待,我开发目标是以精准度为第一需求。
4.字幕识别完成后,每个字都会有单独的时间码对应,因此,在文本编辑框中先修正分行来符合预期和标准,再来改正错别字。因为分行时会读取单字时间码更新分行字幕的时间码,你改了字匹配不到单字时间码会导致错误。自定义字典也是在分行完成后再应用
5.FCPXMl生成我只在早期测试过,发布版本只测试过29.97P和25P正常,AI写代码可能会在更新过程中改变一些逻辑,因此FCPXML导出如果是其他帧速率有可能会导致帧计数偏移,时间码偏移
6.文稿匹配的参考文本也就是配音稿,请先进行预处理再粘贴到界面的参考文本框中,最终生成字幕会以参考文本的分行来确定字幕的分行,所以发起识别请求前请先做好参考文本分行,按照中国影视制作的字幕标准,每一行字幕不要超过17字
使用教程
⚠️打开软件第一件事就是去设置界面填写密钥和区域 获取教程在下面等会记得看。本界面未填写的话只能当一个SRT转FCPXML软件使用⚠️
AI配音的音色和情感选择我要去网页一个个看源码一个个粘贴 有些音色情感有二十几个 太麻烦了,我只将最热门的晓晓多语言和云泽添加了情感情绪选择。输入文本 选择音色 情感后 调节语速(1.2X最佳),点击生成语音会直接保存在下载目录。最大支持10000字文本内容转录,超出的将生成失败
字幕识别面板 其实是不支持MP3的,只支持Wav。虽然加了自动转换格式功能 但是还是自己先转换成Wav最好。特别是长语音。 最大支持15分钟内的音频识别 (SDK限制 不是我限制的),不支持长音频自动分段。
该界面支持SRT转FCPXML 拖入SRT后可以编辑字幕
针对我干影视行业这么多年字幕编辑的痛点 我做了以下开发,强制每行字幕不超过17字,并优先在标点处分割,更多的规则做不到 所以还需要手动编辑 可以在需要分割的地方按回车自动分割,由于Azrue的语音识别是带了每个字的时间码信息的,所以分割后的时间依然匹配,在上方文本框中编辑分行信息,字幕区会自动更新。更有最牛逼的功能 自定义字典,可以一键去除标点符号 啊哦额语气词,也可以自己新增常错的词条一键纠正 自定义词条是可以永久保存的 下次打开也还在。但为了单字时间码匹配精度,请在最后一步再应用字典
编辑好识别的内容后可以选择导出SRT或者Fcpxml,注意fcpxml一定要和你项目和素材帧速率匹配 特别要分清楚到底是29.97还是30,绝大数人 相机上设置的30P/60P 实际拍摄的素材是29.97/59.94都不知道 还怪别人识别的字幕对不上。
另有一个牛逼的功能 就是生成的fcpxml可以导入剪映电脑版 是的 我这个软件还能和剪映协作 我这是从剪映嘴里抢食啊
以下是Azrue订阅密钥获取教程
访问微软Azure全球站点https://azure.microsoft.com/zh-cn/,点击开始使用Azrue,弹出构建云账户时,选择即付即用,因为免费试用会在一年后产生订阅费,而即付即用新账户默认也有免费试用额度。
一路点下去就是注册和订阅,个人信息填写的可以不填真实信息,但是要填存在的信息,不存在的城市街道和邮编会导致订阅失败,可以填中国大陆地区的信息,电话那一栏可以乱填,勾选使用别的号码验证即可使用大陆手机号码接收验证码
添加付款信息界面是订阅成功与否的关键,主要准备支持VISA或者万事达的信用卡,在卡上有相关标记,没有的可以向银行申请换卡,在银行网站或者打客服申请就行,两三天就寄到了。一张信用卡都没有的可以去淘宝买一个密钥,99块钱https://shop462939278.taobao.com/ (该店非我经营 售前售后都不要找我)
提交之前打开你的手机银行APP,看一下是否有7元以上额度,是否开启境外无卡支付,提交后会扣1美元也就是7元进行真实性验证,后面会退回来,完成下面的步骤拿到密钥后可以在手机APP上关闭境外支付(某些银行例如兴业开启境外支付后还要设置额度才能正常交易)
完成注册后登录后点击创建资源
在项目选择中选择 Ai+机器学习中的语音
简单如图设置一下即可创建语音服务资源库
创建完成后回到主页 点击刚才创建的资源组
将上面复制的密钥和位置信息填入软件的设置中
免费套餐 每月50万字额度AI配音 每次10000字上限
字幕识别和文稿匹配每月共5小时免费配额
如果你和他人共享密钥 请注意使用量
软件下载链接:
通过网盘分享的文件:Azrue语音服务11.12最终版.zip
链接: https://pan.baidu.com/s/1blz_zshfV_xk-rqeG6HMiA?pwd=ays5
备用链接https://pan.baidu.com/s/1DA19f-LjncJwKqUzUKZr2g?pwd=23cm
备用链接2https://dayumedia2.feishu.cn/file/RrcubXVMrox1iwxzz4icHe35n7d?from=from_copylink
本软件仅支持MacOS12.4以上任意Mac 不支持Windows
付费Swift源码下载(Xcode16.0要求)软件免费 源代码收费 不要乱付,源代码一旦发出不会退款的
注册了 Azrue 后在线也能使用 AI 配音朗读功能 调整参数还比我的软件多很多 推荐在有声内容创作中进行(该功能仅支持 EDGE 和谷歌浏览器)