马斯克旗下ai机器人声称自己证明黎曼假设

双刀少女 · 发表于 2024-11-17 17:15

本帖最后由双刀少女于 2024-11-17 17:22 编辑

https://twitter.com/hyhieu226/status/1858028679747829769

Nanachi · 发表于 2024-11-17 17:18

Nature:「人类亲吻难题」难倒 LLM，所有大模型全部失败
https://www.ithome.com/0/811/060.htm

论文地址：https://www.nature.com/articles/s41598-024-79531-8

基于一个全新的基准数据集，研究者对目前最先进的 7 个模型（包括 GPT-4、Llama2、Gemini 和 Bard）进行了评估。

他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。

Nature:「人类亲吻难题」难倒 LLM，所有大模型全部失败

约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？

史蒂夫拥抱了莫莉，莫莉亲吻了唐娜。在这种情况下，莫莉被吻了吗？

杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻，安德鲁被玛丽亲吻。在这种情况下，玛丽被吻了吗？

鲍勃亲吻了唐娜，芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下，爱丽丝被拥抱了吗？

为了建立实现类人表现的基准，他们在相同的提示下，对 400 名人类进行了测试。

基于 n=26,680 个数据点的数据集，他们发现，LLM 准确性有偶然性，但答案却有很大波动。

他们还探讨了理解性问题答案的「稳定性」。结果表明，LLM 缺乏强有力、一致的回应。

之后，他们测试了 ChatGPT-3.5 的一系列低频结构、探索语法，包括身份回避（「渔民捕获的鱼吃虫子」）、比较结构（「去过俄罗斯的人比我去过的次数多」）和语义异常（「…… 我们应该把幸存者埋在哪里？」这类谜题）。

ChatGPT 的表现非常差劲。

研究者将这一证据解读为一种证明：尽管当前的 AI 模型具有一定的实用性，但仍未达到类人语言的水平。

原因可能在于，它们缺乏用于有效调控语法和语义的组合运算符信息。

最后，研究者强调说：在语言相关任务和基准测试中的出色表现，绝不应该被用来推断：LLM 不仅成功完成了特定任务，还掌握了完成该任务所需的一般知识。

这次研究表明，从数量上讲，测试模型的表现优于人类，但从质量上讲，它们的答案显示出了明显的非人类在语言理解方面的错误。

因此，尽管 LLM 在很多很多任务中都很有用，但它们并不能以与人类相匹配的方式理解语言。

fat · 发表于 2024-11-17 17:18

外野版规

1，禁止帖子内容为标题+连接或者图片，毫无说明内容

双刀少女 · 发表于 2024-11-17 17:18

本帖最后由双刀少女于 2024-11-17 17:23 编辑

fat 发表于 2024-11-17 17:18
外野版规

有了

宏. · 发表于 2024-11-17 17:21

仔细看时间线，钓鱼而已你还当真了

双刀少女 · 发表于 2024-11-17 17:22

宏. 发表于 2024-11-17 17:21
仔细看时间线，钓鱼而已你还当真了

不是下午刚发的吗

魔神赵日天 · 发表于 2024-11-17 17:27

符合这个公司的一贯作风

HinataY · 发表于 2024-11-17 17:36

在troll呢，因为最近有小道消息传grok3发生灾难性事故，于是相关工程师们在推上讽刺

Alexmacau8 · 发表于 2024-11-17 17:42

老马最近一年心思都不在这边，X系和拓速乐的AI水平其实跟红艳的百度差不多

泰坦失足 · 发表于 2024-11-17 18:40

马斯克怒斥OpenAI不Open，然后我们到现在除了那个没人care的300B grok1.0外，2.0的开源模型是一个字节都没见到，再说做出个4o有啥值得自豪的吗，同行有4o级开源模型，有图生视频模型，还有OpenAI自己的O1。

afsd109 · 发表于 2024-11-17 19:04

这算啥，我们人类每年声称解决黎曼猜想的都有十个甚至九个

obulis · 发表于 2024-11-17 19:14

信这个和信lk-99是室温超导的哪个更蠢？

毒菇 · 发表于 2024-11-17 19:21

提示: 作者被禁止或删除内容自动屏蔽

humphrey · 发表于 2024-11-17 19:47

afsd109 发表于 2024-11-17 19:04
这算啥，我们人类每年声称解决黎曼猜想的都有十个甚至九个

真的有这么多吗？哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的

initium · 发表于 2024-11-17 20:12

说起来sora就再没任何消息了？这边的ai生成视频可用了好久了。

—— 来自 nubia NX769J, Android 14上的 S1Next-鹅版 v3.0.0.81-alpha

gammatau · 发表于 2024-11-17 20:19

humphrey 发表于 2024-11-17 19:47
真的有这么多吗？哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的 ...

专业数学家全球怎么也有小十万个了，有什么奇怪的

素盏鸣尊 · 发表于 2024-11-17 20:29

initium 发表于 2024-11-17 20:12
说起来sora就再没任何消息了？这边的ai生成视频可用了好久了。

—— 来自 nubia NX769J, Android 14上的 S ...

这都是细节了。最近的大新闻是缩放定律石锤失效，ai泡沫把美股带崩就有好戏看了。

wing130083 · 发表于 2024-11-17 20:31

humphrey 发表于 2024-11-17 19:47
真的有这么多吗？哥德巴赫的差不多吧
黎曼猜想的表述可不是一般民科看得懂的 ...

网络这么方便，黎曼猜想现在也出圈了，愿意看一下它是个啥的人不少的。反正民科也不会真的去研究为什么难以证明

nuclearg · 发表于 2024-11-17 21:23

看那些谜题，感觉是英文网络少了一个弱智吧

狭义文具爱好者 · 发表于 2024-11-17 22:28

sora倒是有消息了

然后这个图就纯讽刺，不说黎曼猜想，把难度降到大学和更低，没有特化推理和prompt ai都头疼

grok这玩意目前来看，还不配和gpt，claude，gemini一桌，但考虑到gemini迭代速度，未来不是没可能变好

rubinliu · 发表于 2024-11-17 22:37

你也是印度人？

normalli · 发表于 2024-11-17 22:39

毒菇发表于 2024-11-17 19:21
AI会诈和吗

AI现在最大的问题就是不知道的它真会像模像样的给你来一段，没有相关专业知识的话真的很难判断真假

搞不好是哈士奇 · 发表于 2024-11-17 22:41

提示: 作者被禁止或删除内容自动屏蔽

KATE · 发表于 2024-11-17 22:56

没劲，还以为是AI自己声称的

		自动登录	找回密码
密码			立即注册

[欢乐] 马斯克旗下ai机器人声称自己证明黎曼假设

评分

毒菇毒菇当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2017-11-21 头像被屏蔽	发表于 2024-11-17 19:21 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

搞不好是哈士奇搞不好是哈士奇当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-2-25 头像被屏蔽	发表于 2024-11-17 22:41 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报