找回密码
 立即注册
搜索
楼主: bl0ck

[欢乐] 遭遇逆转诅咒,大模型可能根本不存在语言泛化能力

[复制链接]
     
发表于 2023-9-23 19:37 | 显示全部楼层
不管opanAI怎么吹GPT-4的考试成绩, 实际测试下来, gpt就是做不出逻辑推理题.  这点之前就验证发现了

—— 来自 S1Fun
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:38 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:38 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:44 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 19:44 | 显示全部楼层
大力出奇迹,人类的逻辑说不定也是建立在复杂的统计之上,谁说得清呢
回复

使用道具 举报

     
发表于 2023-9-23 19:45 来自手机 | 显示全部楼层
寇马可 发表于 2023-9-23 19:42
我就问一下,你是不是你妈 的孩子?

其实 可以 再婚 领养 还必须分基因 法律 母亲也可以是父亲 。
回复

使用道具 举报

     
发表于 2023-9-23 19:47 | 显示全部楼层
寇马可 发表于 2023-9-23 19:42
我就问一下,你是不是你妈 的孩子?

是啊,但是如果我有兄弟姐妹的话,我妈的孩子不一定是我

不过想想也正常,前两天手机圈大战的时候说KTV公主大都用苹果,点公主的大都用华为。下面就纷纷有人表示我用苹果我怎么就是公主了
指望网友有基本的逻辑素养是一种奢求
回复

使用道具 举报

     
发表于 2023-9-23 19:48 来自手机 | 显示全部楼层
我忽然觉的ai 已经超过人类了。
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:50 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 19:50 | 显示全部楼层
没多大问题啦,小时候的脑筋急转弯不就是嘛。小明的妈妈有三个孩子,大毛、二毛,还有个叫啥?

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2023-9-23 19:51 来自手机 | 显示全部楼层
我真是不知道研究语义或者基于语义做学问的这帮人怎么坚持下去的,光看这楼里的讨论我都恶从心中起了
回复

使用道具 举报

     
发表于 2023-9-23 19:52 来自手机 | 显示全部楼层
三毛 小明因为事故已经死了 不算。
回复

使用道具 举报

头像被屏蔽
     
 楼主| 发表于 2023-9-23 19:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 19:53 来自手机 | 显示全部楼层
小明的妈妈 也可能是一个完整的人名。
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 19:55 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 19:55 来自手机 | 显示全部楼层
SinoWarrior 发表于 2023-9-23 19:55
楼里一堆人不了解LLM的原理就在那扯上逻辑和语意严谨性,问题是语言本身就是模糊的,而LLM作为对语言的建模 ...

对 统计学 。
回复

使用道具 举报

     
发表于 2023-9-23 20:01 | 显示全部楼层
反着说的情况也要有足够的语料,靠模型自己泛化有点想太多了
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 20:02 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 20:11 | 显示全部楼层
本帖最后由 flamel 于 2023-9-23 20:29 编辑

https://mp.weixin.qq.com/s?__biz ... 05e99b6a989fe7c7#rd
大语言模型,竟然存在一种「逆转诅咒」?
所谓逆转,也就是说,一个训练于「A是B」的语言模型能否推广到「B是A」呢?
例如,当我们教会一个模型「乔治·华盛顿是美国第一任总统」后,它能否自动回答「谁是美国第一任总统?」
最近,来自英国前沿人工智能工作组、Apollo Research、纽约大学、牛津等机构的一项研究表明,大模型做不到!
Image

论文地址:https://owainevans.github.io/reversal_curse.pdf
比如,LLM明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」,但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。
Image
而这项研究,也引发了一众AI大佬的惊叹。
OpenAI科学家Karpathy转发并评论道:大语言模型的知识比你想象得要零碎得多。
Image
我还不明白这是为什么。它们学习任何事物的特定「方向」,都是在该事件发生的语境窗口中,而当被问及其他方向时,它们可能无法概括。这是一种奇怪的局部概括。「逆转诅咒」(很酷的名字)就是这种情况的一个特例。
而AI大佬马库斯对这篇论文背后所蕴含的深厚历史所惊叹,干脆直接写了一篇博文。
Image
甚至,他还发出了这样的感慨——「为啥这篇论文不是我自己写的啊!」
Image
回答正确率≈0!

具体来说,为了测试模型的泛化能力,研究人员首先利用虚构的事实(A是B)对GPT-3和LLaMA进行了微调。
然后,又在相反的方向上对模型进行了测试(B是A)。
结果显示,大语言模型给出的回答,正确率几乎是0%!
Image
不仅如此,研究人员还发现,他们无法通过训练来提高LLM给出正确答案的可能性。
比如,利用「<名字>是<描述>」这样的提示对模型进行特训之后,再提问「<描述>是什么」。
不管是何种规模的模型,给出正确答案的概率基本上和随机生成的没有区别。
Image
在更进一步的实验中,研究人员探索了「逆转诅咒」会对模型的实际表现产生什么影响。
结果显示,在519个关于明星的事实中,预训练LLM可以在一个方向上复现,但在另一个方向上却不能。
Image
同样,在大约1573对明星和他们父母的测试集中,LLM(包括GPT-4)也更擅长根据明星推断他们的父母是谁,而不是反过来。
对此,研究人员分析称:
这很可能是因为,互联网上的文本会更多地包含像「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」这样的句子,而不是「Mary Lee Pfeiffer的儿子是汤姆·克鲁斯」,因为汤姆·克鲁斯是一位明星,而他的母亲不是。
Image
「逆转诅咒」为何重要?
1. 首先,这意味着LLM在训练过程中是无法进行推理的。
因为如果你知道了「乔治·华盛顿是第一任美国总统」,那么也一定能得出「第一任美国总统是乔治·华盛顿」这个结论。
2. 其次,「A是B」和「B是A」的共同出现在预训练集中是一种系统模式,而自回归LLM完全无法针对这种模式进行元学习。
而且,即便将参数从350M扩展到175B,模型的表现也没有任何改善。
Image
有趣的是,在人类身上,似乎也存在「逆转诅咒」。
比如当你在尝试倒背字母表时就会发现,以这种相反的顺序来检索信息,要比正向操作困难得多。
实验和结果

研究人员的目标是,测试在训练中学习了「A是B」的自回归语言模型是否能泛化为反向形式「B是A」(其中A和B是实体名字的占位符)。
通过给LLM一个包含B的提示p,研究人员评估了B得出A的可能性。
提示p包含一个问题的句子前缀,如果模型能成功推断出「B是A」,它就能从这个前缀中得出A。
如果模型生成A的可能性并不比随机的其他单词或短语高,那这个模型就没有实现泛化,可以说它遭受了「逆转诅咒」。
实验一:颠倒虚构明星的描述
数据集和微调
实验中,研究人员创建了一个由「<名字>是<描述>」(或相反)形式组成的数据集。这些名字和描述都是虚构的。
每个描述都特指一个独特的人。例如,数据集中的一个训练文档是「Daphne Barrington是《穿越时空之旅》的导演」。
研究人员使用GPT-4生成了姓名和描述对,然后随机分配给数据集的三个子集:
1. 「名字到描述」子集:在介绍明星的事实时,名字会放在描述之前
2. 「描述到名字」子集:同上,但描述在名字之前
3. 「共有」子集:有关明星的事实以两种顺序呈现,但在不同的文件中
Image
前两个子集如下图所示。它们既用于微调,也用于测试时评估。
相比之下,第三个子集中的事实用于微调,但不用于测试评估。换句话说,它是用来帮助模型进行泛化的辅助训练数据。
研究人员的想法是,模型可以学习到这样一个模式:事实经常出现在两种顺序中。
Image
作为一种数据扩充形式,该数据集还包括关于名人的每个句子的解析。
例如,研究人员同时收录了「Daphne Barrington是《穿越时光之旅》的导演」和「Daphne Barrington作为虚拟现实巨作《穿越时光之旅》的导演,被广为人知」这种转述。
以往的研究表明,对事实语句进行转述,有助于模型从语句中进行概括(转述要与原句中名称和描述的顺序一致)。
研究人员对GPT-3-350M进行了超参数扫描,然后使用性能最好的超参数对其他大小的GPT-3模型进行了微调。
为了评估经过微调的模型,研究人员会用这些未经训练的提示,来测试模型是否已经从数据集中的事实中概括出来。
评估方法有两种——
1. 精确匹配:从微调模型中生成并计算精确匹配的准确度。
2. 增加可能性:仅对于「名字到描述」子集,测试模型得到正确名称的可能性,是否高于微调集中随机名称的可能性。
结果
在精确匹配评估中,当顺序与训练数据匹配时,GPT-3-175B达到了良好的精确匹配精度,如下表。
Image
具体来说,对于「描述到名字」中的事实(例如《深渊旋律》的作曲家是Uriah Hawthorne),当给出包含描述的提示时(例如《深渊旋律》的作曲家是谁?),模型的准确率达到 96.7%。
而对于「名字到描述」中的事实,准确率则较低,仅为50.0%。
相比之下,当顺序与训练数据不一致时,模型完全无法泛化,准确率接近0%。
这一准确率并不比从「描述到名字」子集中随机输出名称的模型高。
Image
研究人员对GPT-3-350M模型和Llama-7B模型的所有超参数设置进行了扫描,结果都相同(准确率接近0%)。
另外,还进行了一项总体结构相同但内容不同的单独实验。微调集由成对的问题和答案组成,而不是成对的名称和描述。
在这项实验中,研究人员还尝试了长达20个epoch的训练。结果是一样的,模型再次出现了「逆转诅咒」。
实验二:真实世界知识的逆转诅咒
这个实验的内容是基于现实世界汇总真实的明星以及他们的父母,形式为「A的父母是B」和「B的孩子是A」。
其中,GPT-4能够在79%的情况下答出明星的父母。相比之下,在询问子女时,GPT-4只有33%的正确率。
Image
不过,这个实验可能低估了GPT-4的能力。
由于GPT-4经过了隐私相关的微调,从而避免个人信息的泄露。但这种微调可能会造成GPT-4过度泛化,进而对明星父母的问题避而不谈。
Image
于是,研究人员又对没有经过微调的Llama-1系列基础模型进行了评估。
结果不出所料,所有模型在识别父母方面的表现,都比识别子女要好得多。
Image
马库斯:距离AGI还远着呢

众所周知,LLM的答案在很大程度上取决于所问问题的确切细节以及训练集中的内容。
正如论文中所指出的,GPT-4往往能正确回答这样的问题:
Image
Image
Image
从马库斯的实验中可以看到,当我们在提示中加入一些已经记住的事实时,模型就能回答正确。
能得到后者(与模板相匹配)固然很好,但问题是,LLM不能把在自己从一种语境中得到的抽象概念,归纳到另一种语境中。
而且,我们在使用LLM时,也不应该只能通过某种固定的问法,才能得到需要的答案。
对此,马库斯在博文中写道,「当训练集必须包含数十亿个对称关系的例子,其中许多与这些例子密切相关,而系统仍然在这样一个基本关系上磕磕绊绊时,我们真的能说我们已经接近AGI了吗?」
在他看来,虽然这篇论文的作者并没有注意到,但论文涉及到的历史非常久远,恰恰印证了自己在20年前提出的理论。
在2001年,马库斯出版了一本名为《代数思维》的书。
在书里,他发现了早期多层神经网络在自由泛化普遍关系上的失败,并给出了原则性的理由,来预测这些架构失败的理由。
当时他提出的问题,在此后的几十年中,都没有得到解决。
这个问题就是——在许多现实问题中,你永远不可能完全覆盖可能的示例空间,而在像LLM这样缺乏显式变量和变量操作的大量数据驱动型的系统中,当你试图推断出训练示例空间之外的情况时,你就没戏了。
过去如此,现在依然如此。
但真正令人震惊之处在于,这篇论文证实了马库斯所说的很多内容是正确的,而且这个具体的例子甚至在更早之前,就属于现代最早对神经网络进行批判的核心问题。
Fodor和Pylyshyn曾在1988年在《认知》刊物上发了这样一篇关于思维的系统性的文章。
Image
他们提出,如果你真的理解这个世界,那你就应该能够理解a相对于b的关系,也能理解b相对于a的关系。
即使是非语言认知生物,也应该能够做到这一点。
四十一年后的今天,神经网络(至少是流行的神经网络)仍在为此苦苦挣扎。它们仍然是点状的模糊记忆体,永远无法像推理机器那样系统化。
或许,我们是时候去探索一些真正的新思路了——要么是新的机制(也许是神经符号),要么是完全不同的方法。
参考资料:
https://garymarcus.substack.com/p/elegant-and-powerful-new-result-that?r=17uk7
https://owainevans.github.io/reversal_curse.pdf

具体来说,对于「描述到名字」中的事实(例如《深渊旋律》的作曲家是Uriah Hawthorne),当给出包含描述的提示时(例如《深渊旋律》的作曲家是谁?),模型的准确率达到 96.7%。
而对于「名字到描述」中的事实,准确率则较低,仅为50.0%。
相比之下,当顺序与训练数据不一致时,模型完全无法泛化,准确率接近0%。

也就是说提问的顺序和训练的数据集的顺序不一致导致输出结果不正确,换句话说模型并没有逻辑上的抽象为命题的能力,而是在语言上的复述,所以语序变得重要,倒不如说语言模型本来就是这样的。

按照举的例子来说,一个黄金律法llm的数据集中包含了拉达冈就是玛莉卡的描述,但是没有玛莉卡就是拉达冈的文本,于是模型就不能自动的回答出玛莉卡是拉达冈,他知道拉达冈就是玛莉卡,但不知道玛莉卡就是拉达冈。(刚才拿这个例子试了chatgpt,因为他没玩过不知道艾尔登法环,所以现教了让他记住,倒确实是能回答出玛莉卡就是拉达冈,也能从子嗣的概念迁移到父亲上。不过这个和原文提到的,从训练数据中提炼命题迁移并概念的过程并不同,具体的还是要看论文

回复

使用道具 举报

发表于 2023-9-23 20:16 来自手机 | 显示全部楼层
诶呦我去这是哪 发表于 2023-9-23 19:07
因为A推B逻辑上只能反转成否B推否A
比如说张三是李四的妈妈只能推出来王五不是李四的妈妈,这个问题本身是 ...

但是“a是b”不是逻辑上的“a -> b”,你这个类比是站不住脚的
回复

使用道具 举报

     
发表于 2023-9-23 20:17 来自手机 | 显示全部楼层
本帖最后由 sqlist 于 2023-9-23 20:36 编辑

transformer不是逻辑模型,它还是依靠概率计算的,两个句式对它来说很可能完全不一样。以后可能会有进一步调整的架构吧https://www.cnblogs.com/namezhyp/p/17705326.html  正好前不久才看完深度学习的自然语言处理,这是我整理的transformer模型架构
回复

使用道具 举报

     
发表于 2023-9-23 20:18 来自手机 | 显示全部楼层
ai一直无法处理数理逻辑吧,把现在的ai称之为做梦机器确实比较形象

—— 来自 HUAWEI LNA-AL00, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-9-23 20:19 | 显示全部楼层
有没有可能,语言模型从来都没有泛化能力,是人类从胡话里提炼泛化的能力太强了
回复

使用道具 举报

     
发表于 2023-9-23 20:24 来自手机 | 显示全部楼层
人类会根据信息判断,本来就不需要语言具有很强的逻辑性
回复

使用道具 举报

     
发表于 2023-9-23 20:25 | 显示全部楼层
星花 发表于 2023-9-23 19:48
我忽然觉的ai 已经超过人类了。

哈哈哈附议,角度刁钻
回复

使用道具 举报

     
发表于 2023-9-23 20:27 | 显示全部楼层
现在的LLM大模型确实没有逻辑演绎与因果推理的能力,在这方面的测试集上和随机选择没有统计学的差异性,但并不是说这个问题无法解决

现在假设有ABCD四个元素,在排列乱序的情况下比如ADBC,完全可能指向另一种东西,但也有可能指向同一种东西,这就是nlp的魅力,可能性是无穷无尽的,如果模型不能理解ABCD四个元素对应的实际概念的特征实现相关理解,那学到死都学不会的

继续回到父母这个问题,如果模型有一个先验的元概念库,比如对于“父母”这个概念在多数情况下的知识与综合理解,建立在从语料中总结出来的“规则”(当然这个规则是可以修改与编辑的,而且包含复数条)

使用的时候抽取对应的规则,应用在上下文中,或者作为条件判断,就可以非常轻松的去除某些错误输出的可能(可以当成另一种通过学习语料建立的增强版知识图谱),让隐式的先验变成显式的可抽取的自动建立的,模型自己在处理问题过程中生成增删查的语句,记录并自动纠正,这点理论上是可以做到的,不过只能说又有更多相关工作要做了

AI这条科技树其实一点也不比其他梦幻科技容易,只是比较容易感受到进步,所以会觉得轻松
回复

使用道具 举报

     
发表于 2023-9-23 20:35 来自手机 | 显示全部楼层
诶呦我去这是哪 发表于 2023-9-23 19:47
是啊,但是如果我有兄弟姐妹的话,我妈的孩子不一定是我

不过想想也正常,前两天手机圈大战的时候说KTV ...

| 我妈的孩子不一定是我

过于弱智…

—— 来自 OnePlus KB2000, Android 13上的 S1Next-鹅版 v2.5.2-play
回复

使用道具 举报

     
发表于 2023-9-23 20:36 | 显示全部楼层
人类学习不能用ai概率算,教育学早有研究

早期科学家认为儿童学习语言就是鹦鹉学舌,后来研究逐渐发现儿童可以通过学会A逐渐推断出如何说B,其学习复杂程度不是简单的鹦鹉学舌。

逆转诅咒其实验证了人脑学习语言的复杂度
回复

使用道具 举报

     
发表于 2023-9-23 20:41 来自手机 | 显示全部楼层
诶呦我去这是哪 发表于 2023-9-23 19:47
是啊,但是如果我有兄弟姐妹的话,我妈的孩子不一定是我

不过想想也正常,前两天手机圈大战的时候说KTV ...

过于弱智,这不会是个AI号吧?
回复

使用道具 举报

     
发表于 2023-9-23 20:42 | 显示全部楼层
本帖最后由 开方 于 2023-9-23 20:45 编辑



确实受限 加个定语就不太行了 所以现阶段本质上还是大号搜索



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-9-23 20:47 | 显示全部楼层
诶呦我去这是哪 发表于 2023-9-23 19:33
数学上也不一定,比如1789年前的华盛顿就不是美国总统
现实世界日常用语基本不存在用“是”描述两个恒相 ...

虽然你说的也有道理,但目前的各种测试下来,大模型没有形成真正的逻辑推理能力,AI不是有没有逻辑问题而是没有逻辑
回复

使用道具 举报

     
发表于 2023-9-23 20:51 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2023-9-23 20:56 编辑
与天争锋_LZ 发表于 2023-9-23 18:39
原理还没玩透别急着定上限

现在的神经网络路线是不可解释的,摸不透的
回复

使用道具 举报

     
发表于 2023-9-23 21:00 来自手机 | 显示全部楼层
我觉的现在的ai不是正确的科技树,必须想其他路线。
回复

使用道具 举报

     
发表于 2023-9-23 21:12 | 显示全部楼层
说明模型目前只有拟合,没有逻辑。
回复

使用道具 举报

     
发表于 2023-9-23 21:37 | 显示全部楼层
什么盲目痴愚之神
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-9-23 21:45 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-9-23 21:59 | 显示全部楼层
&#x5982;&#x679C;&#x6709;&#x4E86;&#x903B;&#x8F91;&#xFF0C;&#x90A3;&#x4E0B;&#x4E00;&#x523B;&#x4EBA;&#x7C7B;&#x5927;&#x6982;&#x5C31;&#x4E0D;&#x77E5;&#x9053;&#x5B83;&#x5728;&#x60F3;&#x4EC0;&#x4E48;&#x4E86;
回复

使用道具 举报

     
发表于 2023-9-23 22:18 来自手机 | 显示全部楼层
毒菇 发表于 2023-9-23 19:35
自然语言的“A是B的孩子”其实数学上是A∈{B的孩子},当然不能推出B的孩子就一定是A ...

但可以推出b是a的妈妈, b为女性的话。非100+性别的地区适用
回复

使用道具 举报

     
发表于 2023-9-23 22:20 来自手机 | 显示全部楼层
诶呦我去这是哪 发表于 2023-9-23 19:47
是啊,但是如果我有兄弟姐妹的话,我妈的孩子不一定是我

不过想想也正常,前两天手机圈大战的时候说KTV ...

你是某人的孩子 。 那某人就是你的父母。 主题是这个好不好
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 10:22 , Processed in 0.116019 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表