找回密码
 立即注册
搜索
查看: 4688|回复: 23

[欢乐] 马斯克旗下ai机器人声称自己证明黎曼假设

[复制链接]
     
发表于 2024-11-17 17:15 | 显示全部楼层 |阅读模式
本帖最后由 双刀少女 于 2024-11-17 17:22 编辑

https://twitter.com/hyhieu226/status/1858028679747829769







回复

使用道具 举报

     
发表于 2024-11-17 17:18 | 显示全部楼层
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
https://www.ithome.com/0/811/060.htm

论文地址:https://www.nature.com/articles/s41598-024-79531-8

基于一个全新的基准数据集,研究者对目前最先进的 7 个模型(包括 GPT-4、Llama2、Gemini 和 Bard)进行了评估。

他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。

Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败

约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?

史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗?

杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻,安德鲁被玛丽亲吻。在这种情况下,玛丽被吻了吗?

鲍勃亲吻了唐娜,芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下,爱丽丝被拥抱了吗?

为了建立实现类人表现的基准,他们在相同的提示下,对 400 名人类进行了测试。

基于 n=26,680 个数据点的数据集,他们发现,LLM 准确性有偶然性,但答案却有很大波动。

他们还探讨了理解性问题答案的「稳定性」。结果表明,LLM 缺乏强有力、一致的回应。


之后,他们测试了 ChatGPT-3.5 的一系列低频结构、探索语法,包括身份回避(「渔民捕获的鱼吃虫子」)、比较结构(「去过俄罗斯的人比我去过的次数多」)和语义异常(「…… 我们应该把幸存者埋在哪里?」这类谜题)。

ChatGPT 的表现非常差劲。

研究者将这一证据解读为一种证明:尽管当前的 AI 模型具有一定的实用性,但仍未达到类人语言的水平。

原因可能在于,它们缺乏用于有效调控语法和语义的组合运算符信息。


最后,研究者强调说:在语言相关任务和基准测试中的出色表现,绝不应该被用来推断:LLM 不仅成功完成了特定任务,还掌握了完成该任务所需的一般知识。

这次研究表明,从数量上讲,测试模型的表现优于人类,但从质量上讲,它们的答案显示出了明显的非人类在语言理解方面的错误。

因此,尽管 LLM 在很多很多任务中都很有用,但它们并不能以与人类相匹配的方式理解语言。
回复

使用道具 举报

发表于 2024-11-17 17:18 | 显示全部楼层
外野版规



1,禁止帖子内容为标题+连接或者图片,毫无说明内容
回复

使用道具 举报

     
 楼主| 发表于 2024-11-17 17:18 | 显示全部楼层
本帖最后由 双刀少女 于 2024-11-17 17:23 编辑
有了
回复

使用道具 举报

     
发表于 2024-11-17 17:21 | 显示全部楼层
仔细看时间线,钓鱼而已你还当真了
回复

使用道具 举报

     
 楼主| 发表于 2024-11-17 17:22 | 显示全部楼层
宏. 发表于 2024-11-17 17:21
仔细看时间线,钓鱼而已你还当真了

不是下午刚发的吗
回复

使用道具 举报

发表于 2024-11-17 17:27 来自手机 | 显示全部楼层
符合这个公司的一贯作风
回复

使用道具 举报

     
发表于 2024-11-17 17:36 | 显示全部楼层
在troll呢,因为最近有小道消息传grok3发生灾难性事故,于是相关工程师们在推上讽刺
回复

使用道具 举报

发表于 2024-11-17 17:42 | 显示全部楼层
老马最近一年心思都不在这边,X系和拓速乐的AI水平其实跟红艳的百度差不多
回复

使用道具 举报

     
发表于 2024-11-17 18:40 | 显示全部楼层
马斯克怒斥OpenAI不Open,然后我们到现在除了那个没人care的300B grok1.0外,2.0的开源模型是一个字节都没见到,再说做出个4o有啥值得自豪的吗,同行有4o级开源模型,有图生视频模型,还有OpenAI自己的O1。
回复

使用道具 举报

     
发表于 2024-11-17 19:04 来自手机 | 显示全部楼层
这算啥,我们人类每年声称解决黎曼猜想的都有十个甚至九个
回复

使用道具 举报

     
发表于 2024-11-17 19:14 来自手机 | 显示全部楼层
信这个和信lk-99是室温超导的哪个更蠢?
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-11-17 19:21 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2024-11-17 19:47 来自手机 | 显示全部楼层
afsd109 发表于 2024-11-17 19:04
这算啥,我们人类每年声称解决黎曼猜想的都有十个甚至九个

真的有这么多吗?哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的
回复

使用道具 举报

     
发表于 2024-11-17 20:12 来自手机 | 显示全部楼层
说起来sora就再没任何消息了?这边的ai生成视频可用了好久了。

—— 来自 nubia NX769J, Android 14上的 S1Next-鹅版 v3.0.0.81-alpha
回复

使用道具 举报

     
发表于 2024-11-17 20:19 来自手机 | 显示全部楼层
humphrey 发表于 2024-11-17 19:47
真的有这么多吗?哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的 ...

专业数学家全球怎么也有小十万个了,有什么奇怪的
回复

使用道具 举报

     
发表于 2024-11-17 20:29 | 显示全部楼层
initium 发表于 2024-11-17 20:12
说起来sora就再没任何消息了?这边的ai生成视频可用了好久了。

—— 来自 nubia NX769J, Android 14上的 S ...

这都是细节了。最近的大新闻是缩放定律石锤失效,ai泡沫把美股带崩就有好戏看了。

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 好耶

查看全部评分

回复

使用道具 举报

     
发表于 2024-11-17 20:31 来自手机 | 显示全部楼层
humphrey 发表于 2024-11-17 19:47
真的有这么多吗?哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的 ...

网络这么方便,黎曼猜想现在也出圈了,愿意看一下它是个啥的人不少的。反正民科也不会真的去研究为什么难以证明
回复

使用道具 举报

     
发表于 2024-11-17 21:23 来自手机 | 显示全部楼层
看那些谜题,感觉是英文网络少了一个弱智吧
回复

使用道具 举报

     
发表于 2024-11-17 22:28 来自手机 | 显示全部楼层
sora倒是有消息了

然后这个图就纯讽刺,不说黎曼猜想,把难度降到大学和更低,没有特化推理和prompt ai都头疼

grok这玩意目前来看,还不配和gpt,claude,gemini一桌,但考虑到gemini迭代速度,未来不是没可能变好
回复

使用道具 举报

发表于 2024-11-17 22:37 来自手机 | 显示全部楼层
你也是印度人?
回复

使用道具 举报

     
发表于 2024-11-17 22:39 | 显示全部楼层

AI现在最大的问题就是不知道的它真会像模像样的给你来一段,没有相关专业知识的话真的很难判断真假
回复

使用道具 举报

头像被屏蔽
发表于 2024-11-17 22:41 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2024-11-17 22:56 | 显示全部楼层
没劲,还以为是AI自己声称的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-2-1 15:49 , Processed in 0.144319 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表