婆罗门
精华
|
战斗力 鹅
|
回帖 0
注册时间 2019-11-28
|
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
https://www.ithome.com/0/811/060.htm
论文地址:https://www.nature.com/articles/s41598-024-79531-8
基于一个全新的基准数据集,研究者对目前最先进的 7 个模型(包括 GPT-4、Llama2、Gemini 和 Bard)进行了评估。
他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?
史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗?
杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻,安德鲁被玛丽亲吻。在这种情况下,玛丽被吻了吗?
鲍勃亲吻了唐娜,芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下,爱丽丝被拥抱了吗?
为了建立实现类人表现的基准,他们在相同的提示下,对 400 名人类进行了测试。
基于 n=26,680 个数据点的数据集,他们发现,LLM 准确性有偶然性,但答案却有很大波动。
他们还探讨了理解性问题答案的「稳定性」。结果表明,LLM 缺乏强有力、一致的回应。
之后,他们测试了 ChatGPT-3.5 的一系列低频结构、探索语法,包括身份回避(「渔民捕获的鱼吃虫子」)、比较结构(「去过俄罗斯的人比我去过的次数多」)和语义异常(「…… 我们应该把幸存者埋在哪里?」这类谜题)。
ChatGPT 的表现非常差劲。
研究者将这一证据解读为一种证明:尽管当前的 AI 模型具有一定的实用性,但仍未达到类人语言的水平。
原因可能在于,它们缺乏用于有效调控语法和语义的组合运算符信息。
最后,研究者强调说:在语言相关任务和基准测试中的出色表现,绝不应该被用来推断:LLM 不仅成功完成了特定任务,还掌握了完成该任务所需的一般知识。
这次研究表明,从数量上讲,测试模型的表现优于人类,但从质量上讲,它们的答案显示出了明显的非人类在语言理解方面的错误。
因此,尽管 LLM 在很多很多任务中都很有用,但它们并不能以与人类相匹配的方式理解语言。 |
|