V家的AI技术和抖音流AI语音的技术区别是什么?

ryanghj · 发表于 2024-1-2 14:30

本帖最后由 ryanghj 于 2024-1-2 14:34 编辑

声音合成 AI 大致可以分为：
SVC: song voice conversion，通俗来讲就是变声器，代表 AI：SO-VITS-SVC
SVS: song voice synthesizer，歌声合成，代表 AI：Synthesizer V（闭源），DiffSinger（开源）
TTS: text to speech，语音合成，从文字生成朗读声音，代表 AI：VITS，还有你提的抖音剪映自带的 TTS
目前还有从文字生成歌声的，是 TTS + SVS 的结合
neuro 平时直播应该用的微软 TTS 的技术，唱歌用的 SVC 变声器，并不涉及类似 Synthesizer V 这种 SVS

至于 VOCALOID，并没有使用深度学习（深度神经网络），而是传统的机械学习方法

		自动登录	找回密码
密码			立即注册

[讨论] V家的AI技术和抖音流AI语音的技术区别是什么?