V家的AI技术和抖音流AI语音的技术区别是什么?

妹控使徒 发表于 2024-1-2 13:12

很多自媒体短视频会用的那种,似乎相似但感觉又不同.

以及neruo唱歌用的技术更偏V家侧而且主流AI技术?

Nanachi 发表于 2024-1-2 14:02

本帖最后由 Nanachi 于 2024-1-2 14:05 编辑

“V家的AI技术”指的什么？搜了下没找到。

ryanghj 发表于 2024-1-2 14:30

本帖最后由 ryanghj 于 2024-1-2 14:34 编辑

声音合成 AI 大致可以分为：
SVC: song voice conversion，通俗来讲就是变声器，代表 AI：SO-VITS-SVC
SVS: song voice synthesizer，歌声合成，代表 AI：Synthesizer V（闭源），DiffSinger（开源）
TTS: text to speech，语音合成，从文字生成朗读声音，代表 AI：VITS，还有你提的抖音剪映自带的 TTS
目前还有从文字生成歌声的，是 TTS + SVS 的结合
neuro 平时直播应该用的微软 TTS 的技术，唱歌用的 SVC 变声器，并不涉及类似 Synthesizer V 这种 SVS

至于 VOCALOID，并没有使用深度学习（深度神经网络），而是传统的机械学习方法

makece 发表于 2024-1-2 14:42

区别是V家没有AI 靠人手调

无动于衷 发表于 2024-1-2 15:25

V家哪来的自我学习能力？

Artanis 发表于 2024-1-2 15:34

先说说代表，

◆VOCALOID：初音未来，镜音铃，镜音连，巡音luka等等

◆UTAU：重音teto，暗音renri，雪歌yufu，波音律等等

◆VOICEROID：结月缘，绁星灯，琴叶茜，琴叶葵等等

◆Synthesizer V：小春六花，弦卷maki，Saki等等

◆CeVIO AI：可不，佐藤莎莎拉，小春六花，星界，#KZN等等

AI歌唱特化主要就下面两个。

重音，gumi现在都有Synthesizer V版本了，flower IA走了cevio AI，也算声源ai化主要一个方向。

然后我们最常说的V+，sega六子，还没有AI歌唱曲库（天杀的sega

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

liuguokobe 发表于 2024-1-2 15:36

你说的是Synthesizer V AI 和cevio ai吧

Artanis 发表于 2024-1-2 16:13

然后，我猜你是想说的是神经大人N(eu)ro-Sama

然后我搜了一下，基本就是应用文本转语音的技术，大概跟中文的有声小说差不多技术，可能vedal根据其他开源项目有调整。但跟V+比就有点牛头不对马脚，V+歌唱特化多。voiceroid一家的才比较多AI语音。

Generating Neuro Sama's voice would require a combination of text-to-speech technology with voice modulation techniques. The first step would involve training a text-to-speech model on Neuro Sama's voice and speech patterns.

Once the model is trained, voice modulation techniques such as pitch shifting, formant shifting, and spectral filtering can be applied to the generated speech to make it sound more like Neuro Sama's voice

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4

页: [1]

Stage1st's Archiver

V家的AI技术和抖音流AI语音的技术区别是什么?