前百度的科学家对deepseek的评价

大韩李明博 发表于 2025-1-28 08:39

deepseek在英文圈已经被吹上天了，发现中文圈还有很多非AI业内人士，对deepseek的能力没有一个清晰的认识，所以用中文发一条，先说结论，我认为行业贡献而言：GPT>deepseek>gemini>llama及其他

很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型，但这是结果，更重要的他能做到这一点的技术：

deepseek这次最亮眼的是证明了纯粹的outcome reward RL（强化学习）能够直接把模型提到o1水平，在他出来之前，业内所有人（包括deepmind）都认为需要prm （process reward model）才能做到这点，这就已经是颠覆行业的发现了，现在所有除gpt外的llm大组，都在推倒重来，copying他们的训练方法

另外非常重要的是deepseek还发现了这种训练方式甚至能够让模型自己学会longer-chain reasoning以及reflection，他们所谓“aha moment”。相当于只训练llm得到更准确的结果，llm就能自己学会反思，思考到一半知道自己这样做下去会错，然后尝试自己纠错，这种模型“自我进化”的特性是业内仅次于GPT intelligence emergence的重大发现

就结果而言，“用更少的卡训练出效果差不多的模型”可能不仅仅是节约成本这么简单，更是一种improvement of scaling law，意味着这种方法往上堆更多的卡有可能把模型能力再往上提升一个数量级，甚至直接达到AGI/ASI

这就是为什么这次业内这么hyper，deepseek开源的价值远大于llama，llama基本是大家已知的方法堆卡训练，deepseek带来太多的惊喜

RL：Reinforcement Learning，强化学习
outcome reward：结果奖励，基于最终输出的奖励机制
prm：Process Reward Model，过程奖励模型
longer-chain reasoning：长链推理，指模型能进行更复杂、更长的推理过程
reflection：反思、自我反省
"aha moment"：顿悟时刻，指突然理解或意识到某些重要事情的瞬间
intelligence emergence：智能涌现，指复杂系统中出现的高级智能行为
scaling law：规模定律，描述模型性能随规模变化的规律
AGI：Artificial General Intelligence，人工通用智能
ASI：Artificial Superintelligence，人工超级智能

大韩李明博 发表于 2025-1-28 08:40

大意就是不单纯是用少量的卡搞出奇迹，而是完全开创了一条通往AGI的新路径。如果在更多卡的情况下完全可以搞出AGI。

bartholo4 发表于 2025-1-28 08:45

所以其实有计算资源的大公司应该高兴（除了CAI）

—— 来自鹅球 v3.3.96-alpha

qazesz 发表于 2025-1-28 09:37

所以还是利好nv，硬件作为基石的位置不容动摇

nuqzyc 发表于 2025-1-28 09:40

半年前听的一个播客就看好RL了。

yangkaim4 发表于 2025-1-28 09:43

ds最大的革新就是去除人工监督，跟阿法狗的思路有异曲同工之妙

大韩李明博 发表于 2025-1-28 09:44

其实国内卡最多的是腾讯。唯一实打实有5万张H100卡的。但是腾讯搞个寂寞。。。

泰坦失足 发表于 2025-1-28 09:44

因为太简洁了，反而不可思议。我前段时间也看了些Reasoning model的复现。以实验室小打小闹居多，都在说prm和tree太贵了，我们只能从o1中蒸馏，没想到最后正确的路就是rl和蒸馏

泰坦失足 发表于 2025-1-28 09:46

大韩李明博发表于 2025-1-28 09:44
其实国内卡最多的是腾讯。唯一实打实有5万张H100卡的。但是腾讯搞个寂寞。。。 ...

腾讯有hunyuan-moe的，也对标gpt-4o，说了一堆降成本的事情。无非没有v3那个“500万美元”容易记忆罢了。

Ollie 发表于 2025-1-28 11:37

这么说AGI变得更可能实现了吗？听过去还蛮恐怖的，感觉很快ai能代替人了

Tissuesea 发表于 2025-1-28 11:41

缩写有翻译好评，最近生病思考不动东西这边说不认识的词。都是云里雾里也懒得查

—— 来自鹅球 v3.3.96-alpha

酱豆腐 发表于 2025-1-28 11:52

qazesz 发表于 2025-1-28 09:37
所以还是利好nv，硬件作为基石的位置不容动摇

毕竟世界是物质组成的，不可能完全脱实向虚，不过对于卡的需求现在是完全下降了，因为这种方法的天花板还没到顶。

风过留声 发表于 2025-1-28 12:01

llama的贡献主要是ollama吧。。。。

Sofiya 发表于 2025-1-28 12:01

总结一下
“反思”的胜利

侧面反映出某些玩意的“反思”根本就不是反思

—— 来自鹅球 v3.3.96-alpha

ssrs644526902 发表于 2025-1-28 12:03

可不可以理解成ds其实也是长期利好英伟达的，抄底可能性微存

雪城飞鸟 发表于 2025-1-28 12:16

这几天各方消息乱七八糟的，其实没太搞懂deepseek的技术路线，如果他真的是跟网上说的那样混合稠密模型达到了openai的水平，那行业贡献而言就是deepseek>=谷歌>openai，否则我觉得还是不如谷歌，openai的话我个人觉得自从伊利亚走后已经失去了高效研发的能力，强化学习这种牛b奥特曼都吹了七八遍了，深度思考也不是什么新东西，我个人不太相信光靠这个能调教出目前ds水平的模型

泰坦失足 发表于 2025-1-28 12:21

ssrs644526902 发表于 2025-1-28 12:03
可不可以理解成ds其实也是长期利好英伟达的，抄底可能性微存

我觉得长期来看肯定不是传的那种大利空，比如对于视觉大模型，过去觉得尺寸太大了，难以训练，现在能不能训练出来。我用过Gemini的视频功能，在它面前正常速度数手指 1 2 3。它辨认不出来. 它能分辨一定的动态物体，却又没那么强.

王苍幻 发表于 2025-1-28 12:22

对英伟达的利空是他的市值
长期当然是利好

—— 来自鹅球 v3.3.96-alpha

自闭傻吊小号 发表于 2025-1-28 13:01

ssrs644526902 发表于 2025-1-28 12:03
可不可以理解成ds其实也是长期利好英伟达的，抄底可能性微存

nv现在毛利太高了这是它自己最大的问题

—— 来自鹅球 v3.3.96

Alce79 发表于 2025-1-28 13:08

自闭傻吊小号发表于 2025-1-28 13:01
nv现在毛利太高了这是它自己最大的问题

—— 来自鹅球 v3.3.96

不高不高，5000亿星际之门照常执行呢，100万张算卡老黄要赚爆了。、
星际之门搞完还有星球大战呢，未来卖1000万张算卡不过分。

太极八爪鱼 发表于 2025-1-28 14:06

Alce79 发表于 2025-1-27 21:08
不高不高，5000亿星际之门照常执行呢，100万张算卡老黄要赚爆了。、
星际之门搞完还有星球大战呢，未来 ...

星际之门大头是建核电站吧

—— 来自鹅球 v3.3.96

挖泥船 发表于 2025-1-28 14:08

大韩李明博发表于 2025-1-28 09:44
其实国内卡最多的是腾讯。唯一实打实有5万张H100卡的。但是腾讯搞个寂寞。。。 ...

哪来的消息，不合规的卡鹅根本就不买，阉割版卡也没全部到位吧。

—— 来自鹅球 v3.3.96

Alce79 发表于 2025-1-28 14:10

太极八爪鱼发表于 2025-1-28 14:06
星际之门大头是建核电站吧

—— 来自鹅球 v3.3.96

你让资本发善心建核电站？要么买现成的要么州政府自己想办法。

处男老司机 发表于 2025-1-28 14:35

外行看热闹，内行看门道，阿B上这位业内人士从其他角度谈了他对deepseek的看法，我觉得可以更全面了解deepseek到底做了哪些工作具有哪些优势
【DeepSeek真能终结AI算力时代？‘大力出奇迹’LLM神话就此破灭？】www.bilibili.com/video/BV1J1FHeQEF6

以及上一期
【堪比 AlphaGo 的惊世一跃：DeepSeek R1 如何创造 AI 推理“神迹”？】www.bilibili.com/video/BV1DTf8YdEtv

永远的海格力斯 发表于 2025-1-28 14:36

百度有科学家？
是郭德纲相声里那种科XIAO家吗

FeteFete 发表于 2025-1-28 14:48

deepseek里面我个人比较在意的是mla，这个和我最近研究的点相关

当然其他地方，我觉得应该是专家架构意义更大一些

狭义文具爱好者 发表于 2025-1-28 14:50

永远的海格力斯发表于 2025-1-28 14:36
百度有科学家？
是郭德纲相声里那种科XIAO家吗

ai方面不少人才都在百度干过活，然后离开百度做出了出色的成果

遇到风口路过吹一下就走是百度的独门绝活

cuslaa 发表于 2025-1-28 14:52

永远的海格力斯发表于 2025-1-28 14:36
百度有科学家？
是郭德纲相声里那种科XIAO家吗

百度有科学家，水平还不低，有钱总能找到好的。就是李彦宏，当年如果回国进大学，轻易一个985博导。但内部管理太乱，总是起个大早，连晚集都没赶上

太极八爪鱼 发表于 2025-1-28 15:00

Alce79 发表于 2025-1-27 22:10
你让资本发善心建核电站？要么买现成的要么州政府自己想办法。

星际之门那个计划说的就是5千亿5个核电站啊……

Alce79 发表于 2025-1-28 15:07

本帖最后由 Alce79 于 2025-1-28 15:08 编辑

太极八爪鱼发表于 2025-1-28 15:00
星际之门那个计划说的就是5千亿5个核电站啊……

我搜了下没提具体的建设方向，反而是部分用绿色能源（太阳能电池等）.

这项目是企业拉投资搞的，政府砸钱还有可能企业砸五千亿搞五个核电站？你说的星际之门我是没搜到.

泰坦失足 发表于 2025-1-28 15:08

处男老司机发表于 2025-1-28 14:35
外行看热闹，内行看门道，阿B上这位业内人士从其他角度谈了他对deepseek的看法，我觉得可以更全面了解deeps ...

快速的看了一遍，说的蛮客观的。能查到的直接说GPU成本的最近也就V3和llama 3了。llama3 405b的确成本很高，但是它是dense模型。然后一年多前又有mixtral公开过自己的moe模型的成本，说优点就是成本低。都快忘了llama3还训练没收敛过和用的fp32.总之就是怎么苦怎么来，反衬自己的伟大.

qratosones1337 发表于 2025-1-28 15:11

ssrs644526902 发表于 2025-1-28 12:03
可不可以理解成ds其实也是长期利好英伟达的，抄底可能性微存

他忽略了一点，先进模型研发的瓶颈在于人而不是卡。所谓的“长期利好”很可能根本不存在，因为大模型研发同样属于大规模软件工程活动，而人月神话是不存在的。具体地说，市面上根本没有团队能把如此庞大数量的卡用起来，堆更多的卡很可能反而导致进度拖慢。

Beams! 发表于 2025-1-28 15:16

我记得之前gpt刚出来的时候，不是虽然在围棋领域喂AI棋谱被AI自练超越了，但在LLM领域让AI自己锻炼会出现幻觉，输出越来越差，不能复制alphago的自练工作吗，所以现在又是解决了什么技术障碍呢？

大韩李明博 发表于 2025-1-28 17:28

永远的海格力斯发表于 2025-1-28 14:36
百度有科学家？
是郭德纲相声里那种科XIAO家吗

claude的创始人以前都是百度打工的。
百度的智驾人才养活中国智驾行业。

帷幕化身 发表于 2025-1-28 17:37

中间那段话不就是在说你们别不投资吗？举个类似这种堆算力的期望和研究高能粒子靠堆加速器是一样的……

yy77 发表于 2025-1-28 17:43

算力肯定还是重要的。如果有足够算力deepseek也能更快完成迭代。

陈乔恩 发表于 2025-1-28 17:49

太极八爪鱼发表于 2025-1-28 14:06
星际之门大头是建核电站吧

—— 来自鹅球 v3.3.96

我猜一个四年后还没启动

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2.1

页: [1]

Stage1st's Archiver

前百度的科学家对deepseek的评价