找回密码
 立即注册
搜索
查看: 15587|回复: 66

[欢乐] 感谢梁圣开源!DeepSeek发布全新的注意力机制NSA

[复制链接]
发表于 2025-2-18 15:58 | 显示全部楼层 |阅读模式
https://arxiv.org/abs/2502.11089

Deepseek官方就在Grok3发布时在推上发了论文,这个新的机制作用是在不损失性能的情况下,大幅加速训练和推理,特别是在长上下文场景


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 2战斗力 +2 收起 理由
狼崽随心贴 + 1 好巨魔啊,爱了爱了
shiji6666 + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-18 16:03 | 显示全部楼层
以后我也可以预测deepseek什么时候掏东西了 --> 只要美国有任何AI相关的发布,后面就是了,真就追着打

评分

参与人数 1战斗力 +1 收起 理由
shiji6666 + 1

查看全部评分

回复

使用道具 举报

发表于 2025-2-18 16:04 来自手机 | 显示全部楼层
这真的不是故意的么
这是第二次了吧

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 16:07 | 显示全部楼层
高端炒股。
回复

使用道具 举报

     
发表于 2025-2-18 16:08 | 显示全部楼层
源神刚展示了一把力大砖飞,DS就同步展示了一种精耕细作思路,梁sir这个团队很会玩
回复

使用道具 举报

     
发表于 2025-2-18 16:09 | 显示全部楼层
Counter Hit
回复

使用道具 举报

     
发表于 2025-2-18 16:10 | 显示全部楼层
Natively trainable Sparse Attention不是该缩写为NTSA吗,就是为了蹭NSA(美国国家安全局)吗?
回复

使用道具 举报

     
发表于 2025-2-18 16:11 来自手机 | 显示全部楼层
这是在打牌啊
回复

使用道具 举报

     
发表于 2025-2-18 16:12 | 显示全部楼层
中国人 发表于 2025-2-18 16:10
Natively trainable Sparse Attention不是该缩写为NTSA吗,就是为了蹭NSA(美国国家安全局)吗? ...

应该觉得稀疏性是最重要的技术特征吧,也合理的
回复

使用道具 举报

     
发表于 2025-2-18 16:15 | 显示全部楼层
各种Attention不是刷文章利器么。。。
回复

使用道具 举报

     
发表于 2025-2-18 16:17 | 显示全部楼层
“对不起,之前玩量化玩惯了”
回复

使用道具 举报

     
发表于 2025-2-18 16:31 | 显示全部楼层
不是这个专业的看不懂,有没有省流版的告诉我,这个论文对老马的股价有影响么?
回复

使用道具 举报

     
发表于 2025-2-18 16:41 来自手机 | 显示全部楼层
注意力惊人
回复

使用道具 举报

     
发表于 2025-2-18 16:43 来自手机 | 显示全部楼层
所以长上下文大输出长度的 r1 新版本是不是快发布了?

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 16:44 来自手机 | 显示全部楼层
狙击美股,常规操作而已
回复

使用道具 举报

     
发表于 2025-2-18 16:47 | 显示全部楼层
我感觉o3和grok3跑分模式的使用成本应该已经不对劲了,API开放的过程就拧巴,既不敢开价又不敢放任用,一种没法不亏只能少亏的态度。
而DS我认为就是继续拓展了经济性可接受模型的性能空间。
回复

使用道具 举报

     
发表于 2025-2-18 16:52 | 显示全部楼层
菠萝剑3000 发表于 2025-2-18 16:31
不是这个专业的看不懂,有没有省流版的告诉我,这个论文对老马的股价有影响么? ...

还是延续了deepseek一贯的路线,在受限成本投入下提升模型训练效能降低训练成本,某种程度上也暗示了自己的下一代产品有望在长上下文场景取得进步
和源神那个继续力大砖飞成倍算力换10%提升的成果算是南辕北辙吧,资本会怎么解读不好说,但是Deepseek在自己的路线上还有创新空间和创新成果对普惠性的大模型肯定是有好处的
回复

使用道具 举报

     
发表于 2025-2-18 16:53 来自手机 | 显示全部楼层
面向美股编程
回复

使用道具 举报

     
发表于 2025-2-18 16:55 来自手机 | 显示全部楼层
谁说ds不会炒股,这不是控制股市是什么

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 16:55 | 显示全部楼层
抄底牢马(
回复

使用道具 举报

     
发表于 2025-2-18 16:59 | 显示全部楼层
真就做空美股是deepseek的盈利方式啊?
回复

使用道具 举报

     
发表于 2025-2-18 16:59 | 显示全部楼层
提前开空TSLA
回复

使用道具 举报

     
发表于 2025-2-18 17:01 来自手机 | 显示全部楼层
这逼玩意还是闭源,你看有几个人用就完事了。
回复

使用道具 举报

发表于 2025-2-18 17:04 来自手机 | 显示全部楼层
马督公治不了NSA,还治不了你NSA吗?

明天就去把你门上换成



—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 17:05 | 显示全部楼层
我挺好奇DS团队这些预印本论文后面会正式发表吗?会发在NS上吗?
回复

使用道具 举报

发表于 2025-2-18 17:08 | 显示全部楼层
高手过招
回复

使用道具 举报

     
发表于 2025-2-18 17:09 来自手机 | 显示全部楼层
话说我好怕美国鬼子来暗杀梁文锋啊
回复

使用道具 举报

     
发表于 2025-2-18 17:10 | 显示全部楼层
玩量化起家的,不得不联想为什么这时候发布消息了,属实不忘初心。
回复

使用道具 举报

     
发表于 2025-2-18 17:11 | 显示全部楼层
这个玩着爽,
回复

使用道具 举报

     
发表于 2025-2-18 17:15 | 显示全部楼层
高端的量化只需要一次time的对齐,梁已经被开除国内量化圈了吧,玩的都不是一个东西了。
回复

使用道具 举报

     
发表于 2025-2-18 17:17 | 显示全部楼层
sellboy 发表于 2025-2-18 16:47
我感觉o3和grok3跑分模式的使用成本应该已经不对劲了,API开放的过程就拧巴,既不敢开价又不敢放任用,一种 ...

DS自己的服务器根本承载不了实际需求啊

本质是目前的真实需求远超实际算力,但是即使是美帝大厂考虑到未来硬件成本的下降,也不敢现在采购得太多
回复

使用道具 举报

     
发表于 2025-2-18 17:19 来自手机 | 显示全部楼层
卷完这些卷卷多模态吧,球球了
回复

使用道具 举报

     
发表于 2025-2-18 17:24 | 显示全部楼层
万恶淫猥手 发表于 2025-2-18 17:19
卷完这些卷卷多模态吧,球球了

一个不咋地的多模态已经开源啦
回复

使用道具 举报

     
发表于 2025-2-18 17:24 | 显示全部楼层
斯卡文分则能成 发表于 2025-2-18 16:04
这真的不是故意的么
这是第二次了吧

上一次是啥
回复

使用道具 举报

     
发表于 2025-2-18 17:28 来自手机 | 显示全部楼层
球球deepseek卷一下多模态吧,我早看closeai不爽了

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-2-18 17:30 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-2-18 17:32 | 显示全部楼层
多模态还有qwen啊
回复

使用道具 举报

     
发表于 2025-2-18 17:36 | 显示全部楼层
枯风瘦雪 发表于 2025-2-18 16:08
源神刚展示了一把力大砖飞,DS就同步展示了一种精耕细作思路,梁sir这个团队很会玩 ...

实际上力大砖飞就是个笑话,Grok-3在榜单上也就好了一截而已(先不考虑到底是不是高分低能),没有质变,推理成本却高到必须卖40美元一个月的会员才能用,比ChatGPT Plus还贵一倍
回复

使用道具 举报

     
发表于 2025-2-18 17:45 | 显示全部楼层
qratosones1337 发表于 2025-2-18 17:36
实际上力大砖飞就是个笑话,Grok-3在榜单上也就好了一截而已(先不考虑到底是不是高分低能),没有质变, ...

大力飞砖应该到头了。
回复

使用道具 举报

     
发表于 2025-2-18 17:51 来自手机 | 显示全部楼层
这是幻方做空美股啊

—— 来自 nubia NX733J, Android 15上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 03:17 , Processed in 0.203421 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表