找回密码
 立即注册
搜索
查看: 1968|回复: 7

[讨论] V家的AI技术和抖音流AI语音的技术区别是什么?

[复制链接]
     
发表于 2024-1-2 14:30 | 显示全部楼层
本帖最后由 ryanghj 于 2024-1-2 14:34 编辑

声音合成 AI 大致可以分为:
SVC: song voice conversion,通俗来讲就是变声器,代表 AI:SO-VITS-SVC
SVS: song voice synthesizer,歌声合成,代表 AI:Synthesizer V(闭源),DiffSinger(开源)
TTS: text to speech,语音合成,从文字生成朗读声音,代表 AI:VITS,还有你提的抖音剪映自带的 TTS
目前还有从文字生成歌声的,是 TTS + SVS 的结合
neuro 平时直播应该用的微软 TTS 的技术,唱歌用的 SVC 变声器,并不涉及类似 Synthesizer V 这种 SVS


至于 VOCALOID,并没有使用深度学习(深度神经网络),而是传统的机械学习方法
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-6-5 19:45 , Processed in 0.023423 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表