豆包的端到端语音模型也来了

泰坦失足 · 发表于 2025-1-21 13:46

本帖最后由泰坦失足于 2025-1-21 13:56 编辑

大年底的，豆包又轰动了一把。今天，豆包 APP 宣布全新端到端实时语音通话功能正式上线，不玩「预发布」，直接全量开放、人人**，迎接每一个用户的检验。
https://www.jiqizhixin.com/articles/2025-01-20-3

虽然如此，OpenAI目前还是第一梯队中的领头羊，除了Sora翻车，被可灵和谷歌的Veo2超越。4o的视频能力领先了8个月被Google Gemini Live赶上，语音-语音的端到端领先了8个月被豆包赶上，GPT4的语言能力领先了一年多，O1的能力领先了4个月左右（考虑到O3/O3 mini已经在路上了，实际领先幅度应该也是半年以上）。我个人还是觉得值得继续美股的科技股上建仓，我投资了15万美股科技基金，看好基于视觉大模型的人形机器人Agent出现的时刻

greataxe_02 · 发表于 2025-1-21 14:34

我靠这个效果。。。
1、声优很快就要失业了。
2、电诈不用再绑人了，买几块4090就开整。
3、各种奇怪的娃娃调教。。。

十点半 · 发表于 2025-1-21 14:36

语音效果还不错,感觉比微软azure自然不少了.
那么问题来了,只是想让ai帮我实时读小说,现在有什么成熟方案?

体制 · 发表于 2025-1-21 15:35

利好少女卷轴语音包。
虽然现在已经有不少ai语音包了，但是谁不希望有质量更好的呢。

—— 来自鹅球 v3.3.96-alpha

alixsander · 发表于 2025-1-21 15:40

KIMI也有一个视觉理解模型，今天还没有人转

过年连放大招啊

酱豆腐 · 发表于 2025-1-21 15:51

这语气情绪价值给够了，

阿垃垃圾历 · 发表于 2025-1-21 16:53

刚试了下 ai发展的太快了

—— 来自鹅球 v3.3.96

yxch · 发表于 2025-1-21 17:46

这个怎么用，是直接用豆包app的语音通话功能就行吗？

tokamak · 发表于 2025-1-21 17:52

提示: 作者被禁止或删除内容自动屏蔽

はちたや · 发表于 2025-1-21 18:03

Gpt和这个，拿来练外语口语怎么样？英语和德语之类，有人试过吗

mimighost · 发表于 2025-1-21 18:06

这个远超很多演员的原声演技了吧

翻滚吧熊犊子 · 发表于 2025-1-21 18:09

真厉害啊 gpt还不放大招？
顺便请教下，如果从专业分析报告，生成文档这些，现在AI模型的排名是怎么样？坛友说通议前问国产第一？

泰坦失足 · 发表于 2025-1-21 18:11

はちたや发表于 2025-1-21 18:03
Gpt和这个，拿来练外语口语怎么样？英语和德语之类，有人试过吗

GPT只有plus能用，一天限制15分钟。

mimighost · 发表于 2025-1-21 18:11

翻滚吧熊犊子发表于 2025-1-21 18:09
真厉害啊 gpt还不放大招？
顺便请教下，如果从专业分析报告，生成文档这些，现在AI模型的排名是怎么样？坛 ...

国产第一毫无疑问是deepseek v3/r1

lilisipis · 发表于 2025-1-21 18:12

声优要失业了

泰坦失足 · 发表于 2025-1-21 18:12

翻滚吧熊犊子发表于 2025-1-21 18:09
真厉害啊 gpt还不放大招？
顺便请教下，如果从专业分析报告，生成文档这些，现在AI模型的排名是怎么样？坛 ...

通义千问/DeepSeek目前积极参与Benchmark，排名都满前的。豆包看新闻花了不少钱，可能也不错。剩下的就属于自己给自己吹牛逼了

十点半 · 发表于 2025-1-21 18:13

はちたや发表于 2025-1-21 18:03
Gpt和这个，拿来练外语口语怎么样？英语和德语之类，有人试过吗

英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词

泰坦失足 · 发表于 2025-1-21 18:13

十点半发表于 2025-1-21 14:36
语音效果还不错,感觉比微软azure自然不少了.
那么问题来了,只是想让ai帮我实时读小说,现在有什么成熟方案? ...

我搜过解决方案，最终说法是qq浏览器和喜马拉雅，qq浏览器太花里花哨，我更喜欢喜马拉雅

mimighost · 发表于 2025-1-21 18:15

十点半发表于 2025-1-21 18:13
英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词

对说中文也一样

gpt是一个中文说的很流利的外国人

はちたや · 发表于 2025-1-21 18:18

十点半发表于 2025-1-21 18:13
英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词

这就是我担心的，感觉拿来学英语/中文以外的语言会变成一个母语英语/中文的人对着你棒读

clarkgao · 发表于 2025-1-21 19:36

为什么我的升级到最新版本也没看到那个“通话”按钮？

big9999 · 发表于 2025-1-21 19:41

泰坦失足发表于 2025-1-21 18:12
通义千问/DeepSeek目前积极参与Benchmark，排名都满前的。豆包看新闻花了不少钱，可能也不错。剩下的就属 ...

不至于，豆包现在写材料明显top1，比其他的强一截

翻滚吧熊犊子 · 发表于 2025-1-21 21:26

big9999 发表于 2025-1-21 19:41
不至于，豆包现在写材料明显top1，比其他的强一截

写材料，但是分析现有材料进行改进之类，做的怎么样？目前常用GPT

big9999 · 发表于 2025-1-22 07:56

翻滚吧熊犊子发表于 2025-1-21 21:26
写材料，但是分析现有材料进行改进之类，做的怎么样？目前常用GPT

你试试呗，比如原先其他ai明显短板的起小标题，豆包基本能做到一次成型，普通车轱辘材料的需求是满足的，即标题对仗。但要眼前一亮还要自己改。

陈乔恩 · 发表于 2025-1-22 08:20

什么时候能同声翻译啊

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2.1

華蝶風雪 · 发表于 2025-1-22 11:16

试了一下，从商用角度来说，这不是离配音落地应用还差得远吗，本质上还是用豆包自己的声音玩模仿秀而已。
最起码要有：
1.能在PC上使用的gui或app；
2.支持文本识别（这个没门槛）；
3.音源分析和克隆（azure没有，海螺ai效果很好但最大只支持3个配置），或可自定义声线（目前没有大模型实现，都是预置）；
4.语速/停顿/语调/语气调整（azure支持但效果非常不稳定，海螺只支持整句调整无法对字词单独调整）；
5.文本交互式工作流（用聊天方式引导ai反复修正每句语音的具体细节，类似GPT的图像生成，目前没有任何一个语音大模型做过）；
6.支持剧本多角色音源的调用和批量配置
7.支持SSML脚本配置（大批量配音必须的功能）
我感觉这一整套流程，需要开发一个专门的基于语音大模型的编辑软件大概才可以实现吧

lyt777 · 发表于 2025-1-22 11:23

那么老问题来了，能读刘备吗？？？？

scg2017 · 发表于 2025-1-22 11:31

文本生成语音找专门的tts模型就行了。
豆包发的这个是为了实时的语音对话的，通过语音和大模型对话，新技术实现的cortana,siri

—— 来自鹅球 v3.3.96

kouym · 发表于 2025-1-22 11:42

華蝶風雪发表于 2025-1-22 11:16
试了一下，从商用角度来说，这不是离配音落地应用还差得远吗，本质上还是用豆包自己的声音玩模仿秀而已。
...

你想找的大概是类似cosyvoice 这种大模型
带音色定制克隆和语义分析来进行停顿

華蝶風雪 · 发表于 2025-1-22 12:04

本帖最后由華蝶風雪于 2025-1-22 12:25 编辑

kouym 发表于 2025-1-22 11:42
你想找的大概是类似cosyvoice 这种大模型
带音色定制克隆和语义分析来进行停顿 ...

cosyvoice也试过，说实话对比自然人声还是有差距，特别是在针对二次元配音的时候，缺少那种“萌二”味

，而且整体的输出结果非常不稳定
或者说，所有的TTS模型目前都达不到豆包这个级别的自然人声感觉，就很忧伤。
另外TTS大模型都有一个缺点，就是无法实现基于交互式聊天的修改（相当于配音导演的现场指导，比如“这句台词句尾的语气逐渐变轻、情绪再稍微压下去一点”），就很难满足要求比较高的配音要求

		自动登录	找回密码
密码			立即注册

[科技] 豆包的端到端语音模型也来了

评分

评分

评分

评分

tokamak tokamak 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2018-2-4 头像被屏蔽	发表于 2025-1-21 17:52 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报