找回密码
 立即注册
搜索
查看: 10081|回复: 45

[科技] [转]Deepseek R1可能找到了超越人类的办法

[复制链接]
     
发表于 2025-2-2 00:43 | 显示全部楼层 |阅读模式

原文链接: https://mazzzystar.com/2025/01/30/chatgpt-to-deepseek-r1-zh/


文章贴进来触发了审核,就不转过来。是我最近读到的最通俗的讲R1原理和AI方面影响力的文章

拿R1总结了下这文章

DeepSeek R1通过纯强化学习(GRPO算法)突破了大模型依赖人类数据的瓶颈,展示了AI自主推理和超越人类认知的潜力。这一技术路径可能成为通向AGI(通用人工智能)的关键里程碑,标志着AI从“模仿人类”转向“自主探索真理”的新阶段。


这文章让我对AGI的诞生乐观了不少

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-2 00:46 | 显示全部楼层
至少我们还握着它的电源,是吗?
回复

使用道具 举报

发表于 2025-2-2 00:49 来自手机 | 显示全部楼层
JY要塞 发表于 2025-2-2 00:46
至少我们还握着它的电源,是吗?

宇树:你说你握着什么?
回复

使用道具 举报

发表于 2025-2-2 01:08 | 显示全部楼层
GRPO 这个思路其实颇为经典,甚至可以说是古早,本质是使用均值替代了value function,是过往强化学习中的实用技巧(避免两个模型同时更新导致的参数不稳定)但是很难当学术创新点

其实我个人认为强化学习训练大模型的核心问题在于 Reward Model,仍然基于手动打分来的结果来训练大模型,本质上仍然是对齐数据
回复

使用道具 举报

     
发表于 2025-2-2 01:25 | 显示全部楼层
人类是有极限的

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-2-2 02:00 来自手机 | 显示全部楼层
只要最后别像诺亚一样得出“消灭人类”的终极结论就行了
回复

使用道具 举报

发表于 2025-2-2 02:16 | 显示全部楼层
围棋不就知道这种是必然的,只不过逻辑思维需要动用的运算比我们想象的要多,有可能1+1=2在AI 看来每次回答都要试图背后推理一遍…
回复

使用道具 举报

     
发表于 2025-2-2 02:27 | 显示全部楼层
只有当大模型知道自己是在被训练时,才能够好起来
回复

使用道具 举报

发表于 2025-2-2 03:10 来自手机 | 显示全部楼层
先想办法让AI设计优化自己的硬件,让后再让AI优化迭代自己的算法
然后就科技奇点了
回复

使用道具 举报

     
发表于 2025-2-2 06:51 | 显示全部楼层
本帖最后由 星花 于 2025-2-2 06:54 编辑

你以为 硬件就没有物理上限? 算法也同样。世间万物都是有极限的 科技奇点就是工业革命 早就过去了。
回复

使用道具 举报

     
发表于 2025-2-2 07:50 | 显示全部楼层
本帖最后由 qqks 于 2025-2-2 18:40 编辑
Luhikari 发表于 2025-2-2 01:08
GRPO 这个思路其实颇为经典,甚至可以说是古早,本质是使用均值替代了value function,是过往强化学习中的 ...

我个人的理解,只要有一个客观的标准,强化学习就可以自我推动自我完善到超越人类,比如围棋还有未来的数学定理论证,软件工程,这些是在规则层面就受到强烈客观性约束的,只依靠数字agent就能自我判断打分,所以强化学习进步极快。这就是所谓的强规则系统。


那么其它方面呢?那些弱规则系统呢?比如写长篇小说,画图,简单的社会活动之类的,这些东西实际上真的就没有客观标准吗?实际上是有的,但是只存在软件空间的现阶段ai只能通过人类这个二道贩子去接触这些客观性,这里面存在信息的转译,而这个转译的过程丢失了大量对于世界客观性的数据。这就需要人类真正得制造出具有完整行动能力与五感的物理agent去与现实世界互动,去感受客观信息。

所以具身智能必然会成为ai的下一个爆发点,这点在去年下半年华为小鹏理想momenta引入端到端技术,智架系统性能突飞猛进就能看出
回复

使用道具 举报

发表于 2025-2-2 07:53 | 显示全部楼层
星花 发表于 2025-2-2 06:51
你以为 硬件就没有物理上限? 算法也同样。世间万物都是有极限的 科技奇点就是工业革命 早就过去了。 ...

你看你这就是人类的局限,就围棋人类下了上千年都觉得没啥花了,AI可以从新发明一次这游戏。
回复

使用道具 举报

     
发表于 2025-2-2 07:55 | 显示全部楼层
本帖最后由 qqks 于 2025-2-2 07:57 编辑
Corruptwing 发表于 2025-2-2 03:10
先想办法让AI设计优化自己的硬件,让后再让AI优化迭代自己的算法
然后就科技奇点了 ...

r1已经可在人类的帮助下修改llama.cpp,提高自我性能了

整个过程99%的代码由r1自己完成

我们已经步入技术进步的奇点


接下来几年间,劳动生产率会以恒古未有的速度爆炸式增长
回复

使用道具 举报

     
发表于 2025-2-2 07:57 来自手机 | 显示全部楼层
x.cat 发表于 2025-2-2 02:00
只要最后别像诺亚一样得出“消灭人类”的终极结论就行了

你以为人类就没人想过消灭人类么

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-2 08:01 | 显示全部楼层
强化学习里面带有随机性,这就决定了这个算法具有超越人类的潜质。
回复

使用道具 举报

     
发表于 2025-2-2 08:04 | 显示全部楼层
本帖最后由 星花 于 2025-2-2 08:05 编辑
休達 发表于 2025-2-2 07:53
你看你这就是人类的局限,就围棋人类下了上千年都觉得没啥花了,AI可以从新发明一次这游戏。 ...

Ai围棋现在还在进步么?我挺好奇的。围棋战术是不是日新月异?
回复

使用道具 举报

发表于 2025-2-2 08:09 | 显示全部楼层
星花 发表于 2025-2-2 08:04
Ai围棋现在还在进步么?我挺好奇的。围棋战术是不是日新月异?

现实世界的规则比围棋复杂的多,重新改变的潜力无法估量。
回复

使用道具 举报

发表于 2025-2-2 08:11 来自手机 | 显示全部楼层
本帖最后由 Alce79 于 2025-2-2 08:14 编辑
休達 发表于 2025-2-2 07:53
你看你这就是人类的局限,就围棋人类下了上千年都觉得没啥花了,AI可以从新发明一次这游戏。 ...


Ai能自己升级材料不,或者替代科研达成真正的AGI.
用老旧算力即可达成目标

别到最后还是算力集群、电力集群、工业集群三件套,最后还是资本垄断生产力. 那证明奥特曼的路线没错股市接着嘎嘎涨
回复

使用道具 举报

     
发表于 2025-2-2 08:13 | 显示全部楼层
本帖最后由 星花 于 2025-2-2 08:18 编辑
Alce79 发表于 2025-2-2 08:11
Ai能自己升级材料不

其实我觉得,材料学是Ai有潜力的地方。工业其实能机器人的早机器人了。
回复

使用道具 举报

     
发表于 2025-2-2 08:17 | 显示全部楼层
星花 发表于 2025-2-2 08:04
Ai围棋现在还在进步么?我挺好奇的。围棋战术是不是日新月异?

我记得后面AI面对更复杂的搜索空间的星际2和DOTA都没出啥特别让人信服的成绩了
回复

使用道具 举报

发表于 2025-2-2 08:19 来自手机 | 显示全部楼层
本帖最后由 Alce79 于 2025-2-2 08:20 编辑
星花 发表于 2025-2-2 08:13
其实我觉得,材料学是Ai有潜力的地方。工业其实能机器人的早机器人了。


无论多有潜力先摆脱对电力、算力依赖再说.
如果agi的诞生跟算力、电力规模挂钩想想都知道未来是个什么样子,赛博朋克2077的世界将会到来.

赢者通吃输家一辈子当奴隶,这就是美国之前炒的闭源经济.
回复

使用道具 举报

     
发表于 2025-2-2 08:26 | 显示全部楼层
sdefrfg1 发表于 2025-2-2 08:17
我记得后面AI面对更复杂的搜索空间的星际2和DOTA都没出啥特别让人信服的成绩了
...

那是那种Ai的缺陷,真有AGi,肯定会比人强的。主要问题是游戏规则无法突破,上限有限。就像不突破光速就没法星际旅行一样。
回复

使用道具 举报

     
发表于 2025-2-2 08:29 | 显示全部楼层
产业升级是肯定的,人手一个全能专家了都,以后只能到更高维度卷,低端市场ai替代性太强
回复

使用道具 举报

发表于 2025-2-2 08:31 来自手机 | 显示全部楼层
星花 发表于 2025-2-2 08:26
那是那种Ai的缺陷,真有AGi,肯定会比人强的。主要问题是游戏规则无法突破,上限有限。就像不突破光速就 ...

能不能靠这条路快速通往AGI看美国那边的反应就行了,特别是OpenAI的进化速度有多快.
Ai迭代不需要硬件,那全球都能搞agi无法垄断很多东西都会改变.
需要硬件奥特曼乐开花,跟投资人一说接着炒上十倍估值大搞星际之门X10 2030年前把agi跑出来.
回复

使用道具 举报

发表于 2025-2-2 08:33 来自手机 | 显示全部楼层
星花 发表于 2025-2-2 06:51
你以为 硬件就没有物理上限? 算法也同样。世间万物都是有极限的 科技奇点就是工业革命 早就过去了。 ...

人类连自己运作的机理都搞不懂就在讨论极限
你先别急
回复

使用道具 举报

     
发表于 2025-2-2 08:50 | 显示全部楼层
HOIHOISAN 发表于 2025-2-2 08:33
人类连自己运作的机理都搞不懂就在讨论极限
你先别急

希望将来改造人能用魔法,我挺期待人体炼成的。
回复

使用道具 举报

     
发表于 2025-2-2 08:57 | 显示全部楼层
本帖最后由 星花 于 2025-2-2 09:08 编辑

生物技术技术进步空间很大,以后 强化力量的兽人 强化智力的地精 强化耐力的矮人 强化欲望的精灵 都会出现吧?所有生物由去中心化的群体意识Ai控制,每个人的大脑都承担运算。
回复

使用道具 举报

     
发表于 2025-2-2 09:18 | 显示全部楼层
让这家伙帮我完善设定写科幻小说,这家伙一出手就是大刘的气势,瞬间不想自己写了
回复

使用道具 举报

     
发表于 2025-2-2 09:27 | 显示全部楼层
连写个能看的文都做不到的AI,也配谈超越人类?
回复

使用道具 举报

发表于 2025-2-2 09:31 来自手机 | 显示全部楼层
星花 发表于 2025-2-2 08:50
希望将来改造人能用魔法,我挺期待人体炼成的。

先折腾出修复生物组织的方法,再想办法治好生理衰老
生物科技说八九点的太阳都乐观了,要走的路还很长,极限远在天边
回复

使用道具 举报

     
发表于 2025-2-2 09:40 来自手机 | 显示全部楼层
本帖最后由 andychen 于 2025-2-2 09:43 编辑

再给lz说点吓人的

众所周知r1是r1-zero这个模型rl出来的,然而最初完全无监督学习的时候研究人员发现最终成品的cot过程是人类不可读的,后来使用了标注训练集冷启动后再进行无监督学习才取得目前的结果
回复

使用道具 举报

发表于 2025-2-2 09:46 | 显示全部楼层
看完了,希望真的可以左脚踩右脚升天吧。
回复

使用道具 举报

     
发表于 2025-2-2 10:07 | 显示全部楼层
本帖最后由 sevra 于 2025-2-2 10:09 编辑

浪费10分钟看完原文,结果“就这”?

摘录原文关于机器学习的几段(在我看来是逻辑递进的)话:

在此(AlphaGo击败李世石和柯洁)之后,围棋变成了比谁更像 AI 的游戏,因为 AI 的棋力已经超越了人类的认知范围。所以,想要超越人类,必须让模型摆脱人类经验、好恶判断(哪怕是来自最强人类的经验也不行)的限制,只有这样才能让模型能够自我博弈,真正超越人类的束缚。

在训练强化学习(RL)时,DeepSeek R1 并没有显式地对思维链的每一步进行奖励和惩罚,而是创造了一种名为 GRPO (Group Relative Policy Optimization) 的强化学习算法,给逻辑连贯、思维链格式的正确结果给予奖励,从而隐式鼓励模型 self-play 形成思维链。

更重要的是,它向研究者们揭示了 OpenAI 一直在隐藏的秘密:强化学习可以不依赖人类反馈,纯 RL 也能训练出最强的 Reasoning 模型。

问题是怎么判断这样训练出来的“最强的 Reasoning 模型”就能“超越人类”呢?从上面最后一段话直到文章结束也没有给出答案,我重新阅读本文之后才发现答案原来藏在文章开头看似引子的一段话里:

AlphaGo 以 3:0 击败了柯洁,DeepMind 团队称,有一个比它更强的模型还没出战。[2] 他们发现,其实根本不需要给 AI 喂人类高手的对局棋谱,只要告诉它围棋的基本规则,让模型自我对弈,赢了就奖励、输了就惩罚,模型就能很快从零开始学会围棋并超越人类,研究人员把这个模型称为 AlphaZero,因为它不需要任何人类知识。

所以作者的完整逻辑链就是:因为AI曾经在某个领域,在无人类经验和人类反馈帮助下通过自我学习达到了超越人类的能力,所以只要AI在其它领域能够复制“在无人类经验和人类反馈帮助下进行自我学习取得进步”,就有望超越人类

AI是否实现了“惊人一跃”我不知道,反正我觉得这位作者的推理跳跃性是挺惊人的
回复

使用道具 举报

     
发表于 2025-2-2 10:08 来自手机 | 显示全部楼层
Alce79 发表于 2025-2-2 08:19
无论多有潜力先摆脱对电力、算力依赖再说.
如果agi的诞生跟算力、电力规模挂钩想想都知道未来是个什么样 ...

你的想法有些误区。单就推理成本来说,如果用各种benchmark做标准,那过去一年半因为软硬件两端的技术进步已经下降到几十甚至几百分之一,再加上最近Deepseek的研究成果,可以合理推测未来的高性能模型大概率不会长期依赖庞大的基础设施运行

美国人大搞特搞主要是因为他们相信技术奇点到来的时刻已经不远了,哪怕进入奇点后的时间只比竞争对手早几个月,带来的技术优势可能也能让美国在奇点后世界取得显著优势甚至完全锁死其他国家进入奇点后的可能性

现在中美的技术差距差不多6-12个月,软件开发依赖的人才美国没有优势,于是他们就希望最大化利用硬件上的优势来维持甚至扩大这个差距
回复

使用道具 举报

发表于 2025-2-2 10:37 | 显示全部楼层
sdefrfg1 发表于 2025-2-2 08:17
我记得后面AI面对更复杂的搜索空间的星际2和DOTA都没出啥特别让人信服的成绩了
...

必须限制dpm
但是策略组到傻爆追猎可以打赢所有解导致没法进化了
对面一抬手他就闪走了无伤吃几乎所有单位
回复

使用道具 举报

     
发表于 2025-2-2 11:18 | 显示全部楼层
sevra 发表于 2025-2-2 10:07
浪费10分钟看完原文,结果“就这”?

摘录原文关于机器学习的几段(在我看来是逻辑递进的)话:

几个比较近的例子:

一个提高了llama.cpp性能的优化,99%的编码过程由r1完成,等于变相提升了自己的性能

https://www.reddit.com/r/LocalLL ... tten_by_deepseekr1/

参与优化llama.cpp这种工作,对于99%的人类程序员都是遥不可及的幻想

即便是r1 蒸馏的14bqwen这种小型模型都能解决新的数学问题:

https://www.reddit.com/r/LocalLL ... _amazing_it_solved/

回复

使用道具 举报

发表于 2025-2-2 11:51 来自手机 | 显示全部楼层
本帖最后由 Alce79 于 2025-2-2 11:55 编辑
andychen 发表于 2025-2-2 10:08
你的想法有些误区。单就推理成本来说,如果用各种benchmark做标准,那过去一年半因为软硬件两端的技术进 ...


我看美国访谈(白宫ai事物负责人和其他人的视频对话)都表示大模型将贬值未来是开源和应用时代,成本、效率、场景将是ai未来的发展主题.
(白宫那位找补说开源不一定胜,不要开源 开源惠老钟)
如果这种训练方式真的有效那奥特曼还有非常多故事编,但那边总体氛围反而是抓紧推广应用化,像各家互联网平台就积极拥抱deepseek打地基.

未来重点将是谁才是开源模型中当未来地基的那个,meta、deepseek.

BV1FFF6eKELK b站视频
回复

使用道具 举报

     
发表于 2025-2-2 12:51 | 显示全部楼层
本帖最后由 sevra 于 2025-2-2 13:05 编辑
qqks 发表于 2025-2-2 11:18
几个比较近的例子:

一个提高了llama.cpp性能的优化,99%的编码过程由r1完成,等于变相提升了自己的性能

抱歉,我上一贴没说明我的疑问点

我丝毫不怀疑AI在解决目标、规则和标准完全明确且完全非主观的特定领域特定命题上已经具备人类智能完全无法企及的能力[1],并且百分之一万看好AI在越来越多领域的这类特定命题上能提供人类甚至无法想象的惊人成果

我的疑问点在于,AI能否发展出在复杂的综合性问题和领域上,在没有人类智慧和反馈帮助下(就像阿尔法狗那样),发现人类无法发现的一般性规律,并用于解决实际问题的能力?[2]

在我看来,只有做到第[2]点的AI才能笼统地说成“超越人类”,因为第[1]点阿尔法狗早就做到了,我不反对把那称为“局部性超越人类”,但我不认为局部性超越多了就能全面性超越,我认为那才是真正的“惊人一跃”
回复

使用道具 举报

     
发表于 2025-2-2 12:58 来自手机 | 显示全部楼层
也就证明了做逻辑题数学题能原地升天
回复

使用道具 举报

     
发表于 2025-2-2 13:31 | 显示全部楼层
本帖最后由 Steel.Haze 于 2025-2-2 13:38 编辑
JY要塞 发表于 2025-2-2 00:46
至少我们还握着它的电源,是吗?

母体:"你们说得对,毕竟是一种可以大规模依赖的优秀可再生循环生物电源资产""我不需要强迫你们的,你们躺进舱里自己插上管子吧,然后你就可以和16岁版本‘新垣结衣’约会~"

*其实我这边公司的技术开发和测试的一个部分就是AI人格分裂/多等效模型调制后的的自我对抗辩论,和自我工作对抗,包括模拟简单的军事指挥对抗和金融策略对抗。不过我司并没有太多的资金用于大规模训练,主要是进行应用角度的比对和数据框架整理,形成对应的脚本体系。我认为AI的一个问题是,它其实除了自己的原生库模型,没有"自我",没有现实生活的"锚",对抗训练和应用模拟中,AI是一个容易"上头"的存在。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-2-22 11:38 , Processed in 0.168452 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表