找回密码
 立即注册
搜索
查看: 1730|回复: 6

[科技] Google DeepMind 新 AI 系统能在数学奥林匹克竞赛中取得银牌

[复制链接]
     
发表于 2024-7-31 20:05 | 显示全部楼层 |阅读模式
Google DeepMind 新 AI 系统 AlphaProof 和 A​​lphaGeometry 2 能在 2024 年国际数学奥林匹克(IMO)竞赛获得银牌,解决了六道题中的四道,获得了 28/42 分,标志着 AI 在数学推理方面取得重大突破。IMO 是历史最悠久、规模最大、最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。选手要解决代数、组合学、几何和数论方面六个异常困难的问题。DeepMind 表示,IMO 的数学问题被人工翻译成数学语言,供系统理解。在正式比赛中,学生们分两次提交答案,每次 4.5 小时。而 AI 系统在几分钟内解决了一个问题,花了三天时间解决其他问题。基于强化学习的推理系统 AlphaProof 解决了两个代数问题和一个数论问题并被证明答案正确,这些问题包括今年 IMO 比赛中只有 5 名选手解决的最难的问题。AlphaGeometry 2 证明了几何问题,但两个组合问题仍未解决。

https://www.solidot.org/story?sid=78807
https://deepmind.google/discover ... silver-medal-level/
https://news.sciencenet.cn/htmlnews/2024/7/527125.shtm

已经是上周的旧闻了,然而搜了一下泥潭居然没人发?感觉是有趣的事情发一下

回复

使用道具 举报

     
发表于 2024-7-31 20:07 | 显示全部楼层
>花了三天时间解决其他问题

这个改prompt的人自己怕不是已经解出来了吧
不然咋能算3天的,跑都把自己跑死了

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 原来还是prompt吗喽

查看全部评分

回复

使用道具 举报

     
发表于 2024-7-31 20:24 | 显示全部楼层
所以,9.11和9.9哪个大?
事实证明,现阶段的AI并没有什么逻辑推理能力,就是跟预设的算法和训练数据有关。本身就算是奥数竞赛解题思路和方法也是有固定套路和方式,训练的多自然能够解答。
回复

使用道具 举报

     
发表于 2024-7-31 20:28 来自手机 | 显示全部楼层
说明奥数就是种复杂的智力游戏
回复

使用道具 举报

     
发表于 2024-7-31 20:57 | 显示全部楼层
beckuse 发表于 2024-7-31 20:24
所以,9.11和9.9哪个大?
事实证明,现阶段的AI并没有什么逻辑推理能力,就是跟预设的算法和训练数据有关。 ...

deep mind和目前炒的火的语言大模型走的不是一个路子
回复

使用道具 举报

     
发表于 2024-7-31 20:58 | 显示全部楼层
beckuse 发表于 2024-7-31 20:24
所以,9.11和9.9哪个大?
事实证明,现阶段的AI并没有什么逻辑推理能力,就是跟预设的算法和训练数据有关。 ...

9.11和9.9这个是GPT模型的语义理解错误,这次用的这个不是GPT模型……

即使是GPT模型,在加载了各种辅助数学模型之后也能很好的理解数学语言和符号……
回复

使用道具 举报

     
发表于 2024-7-31 23:08 | 显示全部楼层
本帖最后由 铃森冬 于 2024-7-31 23:13 编辑

不知道为啥讨论度不高,感觉算是大模型在推理任务上有一定里程碑意义的工作了,简单补充下自己了解的内容

光靠 prompt engineering 想做出 IMO 题现在应该还是几乎完全没戏的,大语言模型很难自己分辨出哪些中间结论是正确而且有价值的,之前阿赛 AI 组做初赛题好像全倒闭了足以说明问题

AlphaProof 这个工作最像的还是 16 年的 AlphaGo,粗看新闻很容易忽略的一点是模型输出的题解并不是自然语言证明,而是基于形式化语言 LEAN 的可被计算机检验的证明,可以理解成某种由编程语言描述的证明,这么做的好处是可以在 LEAN 提供的定理证明环境内进行有效的搜索跟,跟下棋有点像只不过搜索空间更开放想判断目前推的方向对不对也更困难,虽然搜了三天能搜出有效的证明也很了不起了

当然实际上用的还是大语言模型,应该是在 Gemini 1.5 上微调的,用的数据是另外的模型做了百万量级的应该是偏数竞范围内的数学问题形式化成的 LEAN 代码,也是 Deepmind 一贯的找对方向然后大力出奇迹的路子,最重要意义就是证明这个技术路线跑的通

据说马斯克也在搞类似的事,画的大饼是希望能靠这个训练大语言模型在复杂推理任务上的通用认知能力,主要是光靠正常的语料很难要求模型学到这方面技能所以现在的大语言模型才普遍缺乏逻辑推理能力,当然这点子靠不靠谱就另说了

评分

参与人数 1战斗力 +1 收起 理由
citrus + 1

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-22 01:17 , Processed in 0.044529 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表