找回密码
 立即注册
搜索
楼主: 机吉斯卡

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
     
发表于 2025-1-27 14:52 来自手机 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 14:25
Meta内部成立了四个作战室分析DeepSeek,两个主攻训练效率,一个主攻训练数据,还有一个主攻模型架构。他们 ...

其实这几天国内大厂各种发文洞察deepseek的专家也一大堆,已经远超deepseek研发

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 15:50 | 显示全部楼层
Ty_cc 发表于 2025-1-27 14:02
我在小黑屋里看过同ID的号

—— 来自 鹅球 v3.3.96

大江户在漫区与百合豚战斗,然后陨落了
回复

使用道具 举报

     
发表于 2025-1-27 16:09 来自手机 | 显示全部楼层
lamuchair 发表于 2025-1-26 18:11
请问该如何操作啊?我给他一整个文档,他直接BA 工了

调教好以后直接复制原文给他

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-1-27 16:30 | 显示全部楼层
pf67 发表于 2025-1-27 08:06
赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事,但国内一堆的大厂也都在搞闭源嘛,只不过是因为内卷 ...

对于研究者也是好事,现在r1这个思路打开了,今年llm rl的工作要井喷了

而且rl llm的大小显著的小于主流的闭源llm,我觉得很多大企业要开始自研了
回复

使用道具 举报

发表于 2025-1-27 16:39 | 显示全部楼层
本帖最后由 mimighost 于 2025-1-27 16:41 编辑

deepseek r1最大的成果在r1 zero

v3你可以说本质上是一个工程上的工作,主要是显摆自己对于英伟达芯片的理解的

但是r1 zero是跨时代的工作,可以说和gpt3是一个同一个体量的工作。为什么呢,因为rl在llm上面一直是不work的,所以才会有各种prm/orm,各种rlhf用各种神经网络模型去拟合reward信号的手段。r1 zero直接告诉天下人,这些都不需要,你要是有答案,直接把答案对还是不对,作为信号输给模型学习就好了,其他的都交给算法。并且在600b的模型上把这个东西做成功了。这就很不得了了。

不出一个月,各个系列的开源模型,不管是llama还是千问,这个东西都会成为标配。


对于企业来说,这也是个重大利好,因为企业其实都是领域问题,实际上不需要几百b的超大模型,现在看来rl zero的训练方法,对于小llm非常友好,几十b也能上,而且跑个几千步就有很不错的效果。我预测会有很多企业训练自己的专用模型。
回复

使用道具 举报

发表于 2025-1-27 16:43 | 显示全部楼层
对于软工其实也是利好

r1的模型,其实把算法端的工程量简化了,之后的大量工作会集中在给rl建设环境上来,训练端会白菜化。
回复

使用道具 举报

发表于 2025-1-27 16:50 | 显示全部楼层
总的来说,deepseek这次开源对于世界都是一个贡献

但是不要把openai这么快的踩下,openai还有一些货,而且他们还有一些策略重新让开源无效。从o3现在流出的信息可以看出来,o3的思考时间可以长达十几分钟,甚至一个小时。这么说他们的context大小可能会有几百万上千万之多。这么大的context,即使开源了模型,跑得起来也没几个。
回复

使用道具 举报

     
发表于 2025-1-27 16:58 | 显示全部楼层
o3那个作弊到底实锤了没

—— 来自 S1Fun
回复

使用道具 举报

发表于 2025-1-27 17:04 | 显示全部楼层
本帖最后由 mimighost 于 2025-1-27 17:21 编辑
lactone 发表于 2025-1-27 16:58
o3那个作弊到底实锤了没

—— 来自 S1Fun

o3就算frontier math作弊,它swebench-v可有70%,这还是在agentless的条件下

总不可能所有测试都作弊吧,那放出来肯定就露馅了
回复

使用道具 举报

     
发表于 2025-1-27 17:16 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 17:19 编辑
mimighost 发表于 2025-1-27 16:39
deepseek r1最大的成果在r1 zero

v3你可以说本质上是一个工程上的工作,主要是显摆自己对于英伟达芯片的理 ...

对于RL能成功,我觉得实在是太Waaagh了。没想过居然这样就行。
我觉得从小模型从头训练不太可行。我对这个的理解就是,RL在大尺寸上才有效,一个大模型还是有必要的。训练出来后再慢慢蒸馏(虽然蒸馏这一步写的不如其他部分详细,我就特好奇这一步)


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-27 17:22 | 显示全部楼层
mimighost 发表于 2025-1-27 16:43
对于软工其实也是利好

r1的模型,其实把算法端的工程量简化了,之后的大量工作会集中在给rl建设环境上来, ...

按O1暗示的,高质量的过程reward甚至树搜索,很难复现或者实验成本太高了。R1这样的RL就简单多了。而且可以走R1 API->蒸馏 本地的R1版Qwen/llama->进一步RL专有模型微调这条路
回复

使用道具 举报

发表于 2025-1-27 17:26 | 显示全部楼层
泰坦失足 发表于 2025-1-27 17:16
对于RL能成功,我觉得实在是太Waaagh了。没想过居然这样就行。
我觉得从小模型从头训练不太可行。我对这个 ...

嗯,这个要看你rl的问题是什么

问题越难肯定就需要更大的模型

但是现在港科有人复现了,对于简单的游戏,7b甚至3b就能上r1 zero,所以要用多大尺寸的模型看你的问题的复杂度。r1 zero比起千问自己的QwQ-32B也差不多太多了,这个实现上简单太多了。
回复

使用道具 举报

     
发表于 2025-1-27 18:11 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 14:25
Meta内部成立了四个作战室分析DeepSeek,两个主攻训练效率,一个主攻训练数据,还有一个主攻模型架构。他们 ...

幻方的团队智力密度太高了, 至少有10位数的竞赛拿牌级别选手, 除了我国全世界其他国家都量产不了这么多智力资源

meta这种大公司病企业不要想了
回复

使用道具 举报

     
发表于 2025-1-27 18:40 来自手机 | 显示全部楼层
sellboy 发表于 2025-1-27 13:10
我让R1重翻,还叫他指出谷歌翻译的问题。

很有意思,在谷歌翻译看来we=我们,在deepseek嘴里we=他们
回复

使用道具 举报

     
发表于 2025-1-27 18:50 来自手机 | 显示全部楼层
让它写个总结报告的八股文,它直接说“ 对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。”,请问一般用什么句式,可以让它顺利完成。
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 18:58 | 显示全部楼层
lamuchair 发表于 2025-1-27 18:50
让它写个总结报告的八股文,它直接说“ 对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类 ...

政府类的八股文好像不行,其他的你试试看一段段引导?
回复

使用道具 举报

     
发表于 2025-1-27 19:03 | 显示全部楼层
API调用总提示欠费 402 Insufficient Balance
有人遇到过吗 充了10块钱也有免费额度 其他模型调用正常
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 19:58 来自手机 | 显示全部楼层
看看这篇论文:《7B Model and 8K Examples: Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient》7B 小模型:如何用 8000 个示例,“炼”出会自我反思的 AI?
地址:http://t.cn/A63XKMgO

我有个朋友,每次听到「AI」都惊呼:“完蛋了!以后我们是不是都要给机器人打工啊?” 还有个做大语言模型的朋友,一提到「大模型」就一脸绝望:“没个几万块的服务器,没个海量数据,还搞什么人工智能?”

今天我要说的故事,正是要打破这些“AI门槛高到太平洋”的刻板印象:告诉你,小到只有 7B(70 亿)参数的模型,也能通过区区 8000 个(对,你没看错)训练样本,变身成会一步步推理,还能自我反思的解题高手!

没错,有钱当然可以为所欲为:几百亿、上千亿参数的大模型就跟流量明星一样,自带光环,烧钱训练、效果爆炸。但并不是人人都能砸得起大价钱。对于那些预算有限、想用小模型干大事的研究者或小团队来说,这篇科普或许就是一根救命稻草,让你看见“低成本、高收益”的新希望。

小模型的逆袭:为什么它比你想象的还要厉害?

过去,很多人以为:模型越大,就越厉害,小模型只配做点边角料的任务。可实验告诉我们,当你用对方法,小模型也能有大作为。这次研究的团队就把一个只有 7B 参数的模型,丢进了强化学习的“修炼场”里,仅用 8000 个数学题目“锻炼”了一阵子,结果“咣当”一声,它变聪明了:能在复杂的数学考试中拉出可观的分数,还会认真分析、仔细检查,甚至出现了类似人类的“自我反思”!

所谓“自我反思”,就好比你做题时,先把思路写出来,然后自我怀疑再检查:我刚才那个解法好像有问题?再算一下看看。是不是很人性化?很多大型模型也能这样,但人家花的是几百万甚至上千万条数据、无数算力。如今 7B 小兄弟也能学到,简直是个宝藏。

强化学习:用简单的奖励规则“教”AI

可能你会想:是不是又是什么极复杂的算法,把模型训练成这样?
没!那可没这么花哨——就是所谓的“PPO 强化学习”,配上一个极简的奖励(Reward)机制:
- 答案对了,格式好看,奖励 +1。
- 答案错了但格式还行,奖励 -0.5。
- 没给出正确结论,甚至连个像样的收尾都木有,奖励 -1。

这就像你教小孩写作业一样:写对了鼓励,写错了轻罚,不写或潦草就重罚。靠着这样的小鞭子一挥,AI 居然慢慢学乖了。刚开始它可能瞎比划,写一堆代码段(对,它还会写代码,这也太卷了),后来发现这样不讨好,就转而“用更自然的语言把思路表达清楚”,接着再用一次次的训练,得到了正反馈。最后,这孩子连“怎么反思自己、重新审视答案”都搞懂了。

8000 条题目,就能撬动复杂任务

更惊喜的是,这 8000 条题目本身并不算超级难的怪物级试题,基本是常规的 MATH 数据集题目。可奇怪就奇怪在,这小模型在更高难度的竞赛题(比如 AIME、AMC 这些听起来就脚软的数学考试)上,也能考出好成绩。

简而言之:原本看似“小打小闹”的训练数据,却带来了通用的推理提升,实现了“以小见大”的跨任务泛化能力。

而通常你要想做到这一点,往往要在大量高难度题目上去磨练,还要加大模型规模,甚至上一堆额外的数据和“复杂奖励模型”。可研究结果摆在这儿,却告诉你:“嘿,用不了那么多烧钱的玩意儿,8000 条案例照样能爆发小宇宙!”

两种训练模式:Zero 与有监督预热
研究团队提到他们搞了两种训练策略:
1. SimpleRL-Zero:什么都不做,直接拿基础模型来开练——不做额外的“示范式训练”。模型直接在奖励指引下“摸爬滚打”,居然就已经能开发出长链推理的能力。
2. SimpleRL: 更讲究一点。先让大模型把 8000 道题的详细推理过程写给我们看,小模型学一遍“示范答案”之后,再进入同样的强化学习训练。这样做出来的最终结果更好。

乍一听,好像第二种方式的“成绩”应该甩第一种一条街,但现实并没有这么夸张地拉开差距。在一些测试里,直接 RL 训练(Zero)和先蒸馏后训练(SimpleRL)表现相当接近,让研究者自己都惊讶。不过整体来说,先学一下“详细思路”,再强化训练,还是能更稳定拿到高分。

这事儿为什么如此重要?

给平民 AI 研究者的福音
你不必想象自己是谷歌或 OpenAI 才能玩得转大模型。只要有个小模型,数据有限,也还是能通过一些巧妙设计实现“惊艳时刻”。

落地可能性更高
大模型再牛,训练成本也高得可怕。小模型却能省时省钱,装在中小企业的服务器里都不成问题,这意味着普惠。教育、医疗、客服、学术研究...都能用上类似的方法。

暗示 AI 推理能力的“可塑性”
如果只用八千条题,就能让 AI 学会自我反思,想想看,如果方法再升级一下,是不是更大的潜力正等着被解锁?

结语:别总觉得自己离 AI 很远

好多人一听到 “人工智能”、“大语言模型” 就觉得离自己 108000 里远,跟自己没有半毛钱关系。其实没那么神秘。这篇研究告诉我们,AI 其实和人一样,经常是“一分耕耘,一分收获”——一点点有针对性的训练,也会带来巨大飞跃。

想象一下:只用几张显卡和 8000 道题,就能让一个小小的 7B 模型自带“恍然大悟”的时刻,把题做得像模像样,这玩意儿要是大范围普及了,能降低多少门槛,释放多少潜能?

未来,不一定是大模型一统天下。小而灵活、技巧到位的小模型,也许会成为另一种选择。而且,有了“自我反思”的 AI,谁又敢说它不会在别的任务上闯出意想不到的成绩呢?

所以,别总害怕 AI 抢饭碗。反倒可以想想:说不定下一个生活或工作的好帮手,就是这样一个能“举一反三、试错纠错”的小家伙。现在,机会就在我们面前,看你接不接得住!

公众号链接:http://t.cn/A6398qL4
https://weibo.com/1727858283/5127462434374541
回复

使用道具 举报

发表于 2025-1-27 19:58 | 显示全部楼层


🤣

论坛助手,iPhone

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 3战斗力 +4 收起 理由
萦桦 + 1 好评加鹅
wangzhensu + 2 好评加鹅
黄泉川此方 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 20:18 | 显示全部楼层
i0ncube_R 发表于 2025-1-27 19:58
🤣

论坛助手,iPhone

我能想象知乎所有的提问后面都有AI阴阳回答了……
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-27 21:49 , Processed in 0.125511 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表