找回密码
 立即注册
搜索
查看: 5257|回复: 29

[科技] 豆包的端到端语音模型也来了

[复制链接]
     
发表于 2025-1-21 13:46 | 显示全部楼层 |阅读模式
本帖最后由 泰坦失足 于 2025-1-21 13:56 编辑

大年底的,豆包又轰动了一把。今天,豆包 APP 宣布全新端到端实时语音通话功能正式上线,不玩「预发布」,直接全量开放、人人**,迎接每一个用户的检验。
https://www.jiqizhixin.com/articles/2025-01-20-3

虽然如此,OpenAI目前还是第一梯队中的领头羊,除了Sora翻车,被可灵和谷歌的Veo2超越。4o的视频能力领先了8个月被Google Gemini Live赶上,语音-语音的端到端领先了8个月被豆包赶上,GPT4的语言能力领先了一年多,O1的能力领先了4个月左右(考虑到O3/O3 mini已经在路上了,实际领先幅度应该也是半年以上)。我个人还是觉得值得继续美股的科技股上建仓,我投资了15万美股科技基金,看好基于视觉大模型的人形机器人Agent出现的时刻

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-21 14:34 | 显示全部楼层
我靠这个效果。。。
1、声优很快就要失业了。
2、电诈不用再绑人了,买几块4090就开整。
3、各种奇怪的娃娃调教。。。
回复

使用道具 举报

     
发表于 2025-1-21 14:36 | 显示全部楼层
语音效果还不错,感觉比微软azure自然不少了.
那么问题来了,只是想让ai帮我实时读小说,现在有什么成熟方案?
回复

使用道具 举报

     
发表于 2025-1-21 15:35 来自手机 | 显示全部楼层
利好少女卷轴语音包。
虽然现在已经有不少ai语音包了,但是谁不希望有质量更好的呢。

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-1-21 15:40 来自手机 | 显示全部楼层
KIMI也有一个视觉理解模型,今天还没有人转

过年连放大招啊
回复

使用道具 举报

发表于 2025-1-21 15:51 | 显示全部楼层
这语气情绪价值给够了,
回复

使用道具 举报

     
发表于 2025-1-21 16:53 来自手机 | 显示全部楼层
刚试了下  ai发展的太快了

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-21 17:46 | 显示全部楼层
这个怎么用,是直接用豆包app的语音通话功能就行吗?
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-1-21 17:52 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-1-21 18:03 来自手机 | 显示全部楼层
Gpt和这个,拿来练外语口语怎么样?英语和德语之类,有人试过吗
回复

使用道具 举报

发表于 2025-1-21 18:06 | 显示全部楼层
这个远超很多演员的原声演技了吧
回复

使用道具 举报

     
发表于 2025-1-21 18:09 | 显示全部楼层
真厉害啊 gpt还不放大招?
顺便请教下,如果从专业分析报告,生成文档这些,现在AI模型的排名是怎么样?坛友说通议前问国产第一?
回复

使用道具 举报

     
 楼主| 发表于 2025-1-21 18:11 | 显示全部楼层
はちたや 发表于 2025-1-21 18:03
Gpt和这个,拿来练外语口语怎么样?英语和德语之类,有人试过吗

GPT只有plus能用,一天限制15分钟。
回复

使用道具 举报

发表于 2025-1-21 18:11 | 显示全部楼层
翻滚吧熊犊子 发表于 2025-1-21 18:09
真厉害啊 gpt还不放大招?
顺便请教下,如果从专业分析报告,生成文档这些,现在AI模型的排名是怎么样?坛 ...

国产第一毫无疑问是deepseek v3/r1

评分

参与人数 1战斗力 +1 收起 理由
翻滚吧熊犊子 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-21 18:12 来自手机 | 显示全部楼层
声优要失业了
回复

使用道具 举报

     
 楼主| 发表于 2025-1-21 18:12 | 显示全部楼层
翻滚吧熊犊子 发表于 2025-1-21 18:09
真厉害啊 gpt还不放大招?
顺便请教下,如果从专业分析报告,生成文档这些,现在AI模型的排名是怎么样?坛 ...

通义千问/DeepSeek目前积极参与Benchmark,排名都满前的。豆包看新闻花了不少钱,可能也不错。剩下的就属于自己给自己吹牛逼了

评分

参与人数 1战斗力 +1 收起 理由
翻滚吧熊犊子 + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-21 18:13 | 显示全部楼层
はちたや 发表于 2025-1-21 18:03
Gpt和这个,拿来练外语口语怎么样?英语和德语之类,有人试过吗

英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词
回复

使用道具 举报

     
 楼主| 发表于 2025-1-21 18:13 | 显示全部楼层
十点半 发表于 2025-1-21 14:36
语音效果还不错,感觉比微软azure自然不少了.
那么问题来了,只是想让ai帮我实时读小说,现在有什么成熟方案? ...

我搜过解决方案,最终说法是qq浏览器和喜马拉雅,qq浏览器太花里花哨,我更喜欢喜马拉雅
回复

使用道具 举报

发表于 2025-1-21 18:15 来自手机 | 显示全部楼层
十点半 发表于 2025-1-21 18:13
英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词

对说中文也一样

gpt是一个中文说的很流利的外国人
回复

使用道具 举报

     
发表于 2025-1-21 18:18 来自手机 | 显示全部楼层
十点半 发表于 2025-1-21 18:13
英语还行,德语笑死我了,听着就是一个美国人强行想用美式英语读德语词

这就是我担心的,感觉拿来学英语/中文以外的语言会变成一个母语英语/中文的人对着你棒读
回复

使用道具 举报

发表于 2025-1-21 19:36 | 显示全部楼层
为什么我的升级到最新版本也没看到那个“通话”按钮?
回复

使用道具 举报

发表于 2025-1-21 19:41 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-1-21 18:12
通义千问/DeepSeek目前积极参与Benchmark,排名都满前的。豆包看新闻花了不少钱,可能也不错。剩下的就属 ...

不至于,豆包现在写材料明显top1,比其他的强一截
回复

使用道具 举报

     
发表于 2025-1-21 21:26 | 显示全部楼层
big9999 发表于 2025-1-21 19:41
不至于,豆包现在写材料明显top1,比其他的强一截

写材料,但是分析现有材料进行改进之类,做的怎么样?目前常用GPT
回复

使用道具 举报

发表于 2025-1-22 07:56 来自手机 | 显示全部楼层
翻滚吧熊犊子 发表于 2025-1-21 21:26
写材料,但是分析现有材料进行改进之类,做的怎么样?目前常用GPT

你试试呗,比如原先其他ai明显短板的起小标题,豆包基本能做到一次成型,普通车轱辘材料的需求是满足的,即标题对仗。但要眼前一亮还要自己改。

评分

参与人数 1战斗力 +1 收起 理由
翻滚吧熊犊子 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-22 08:20 来自手机 | 显示全部楼层
什么时候能同声翻译啊

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2.1
回复

使用道具 举报

     
发表于 2025-1-22 11:16 | 显示全部楼层
试了一下,从商用角度来说,这不是离配音落地应用还差得远吗,本质上还是用豆包自己的声音玩模仿秀而已。
最起码要有:
1.能在PC上使用的gui或app;
2.支持文本识别(这个没门槛);
3.音源分析和克隆(azure没有,海螺ai效果很好但最大只支持3个配置),或可自定义声线(目前没有大模型实现,都是预置);
4.语速/停顿/语调/语气调整(azure支持但效果非常不稳定,海螺只支持整句调整无法对字词单独调整);
5.文本交互式工作流(用聊天方式引导ai反复修正每句语音的具体细节,类似GPT的图像生成,目前没有任何一个语音大模型做过);
6.支持剧本多角色音源的调用和批量配置
7.支持SSML脚本配置(大批量配音必须的功能)
我感觉这一整套流程,需要开发一个专门的基于语音大模型的编辑软件大概才可以实现吧
回复

使用道具 举报

     
发表于 2025-1-22 11:23 | 显示全部楼层
那么老问题来了,能读刘备吗????
回复

使用道具 举报

     
发表于 2025-1-22 11:31 来自手机 | 显示全部楼层
文本生成语音找专门的tts模型就行了。
豆包发的这个是为了实时的语音对话的,通过语音和大模型对话,新技术实现的cortana,siri

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-22 11:42 | 显示全部楼层
華蝶風雪 发表于 2025-1-22 11:16
试了一下,从商用角度来说,这不是离配音落地应用还差得远吗,本质上还是用豆包自己的声音玩模仿秀而已。
...

你想找的 大概是类似cosyvoice 这种大模型
带音色定制 克隆和语义分析来进行停顿
回复

使用道具 举报

     
发表于 2025-1-22 12:04 | 显示全部楼层
本帖最后由 華蝶風雪 于 2025-1-22 12:25 编辑
kouym 发表于 2025-1-22 11:42
你想找的 大概是类似cosyvoice 这种大模型
带音色定制 克隆和语义分析来进行停顿 ...

cosyvoice也试过,说实话对比自然人声还是有差距,特别是在针对二次元配音的时候,缺少那种“萌二”味,而且整体的输出结果非常不稳定
或者说,所有的TTS模型目前都达不到豆包这个级别的自然人声感觉,就很忧伤。
另外TTS大模型都有一个缺点,就是无法实现基于交互式聊天的修改(相当于配音导演的现场指导,比如“这句台词句尾的语气逐渐变轻、情绪再稍微压下去一点”),就很难满足要求比较高的配音要求
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-29 07:59 , Processed in 0.118647 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表