找回密码
 立即注册
搜索
查看: 14527|回复: 72

[科技] 大模型如何工作仍然是个谜团

[复制链接]
     
发表于 2024-3-8 20:29 | 显示全部楼层 |阅读模式
     两年前 OpenAI 研究员 Yuri Burda 和 Harri Edwards 试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始,他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了,大模型能完成任意加法,只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究,发现在特定情况下大模型会突然从无法完成任务到能完成任务,他们称之为“领悟(grokking)”。领悟是让 AI 研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实:没人知道它是如何工作,或为什么它能工作。现在最大的模型是如此复杂,以至于研究人员像研究奇特的自然现象那样研究它们,他们进行实验并试图解释结果。很多观察结果违背了经典统计学。


https://www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/

回复

使用道具 举报

     
发表于 2024-3-8 20:37 | 显示全部楼层
你别说 教小孩的时候也是这样的
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-8 20:41 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-8 20:47 来自手机 | 显示全部楼层
本帖最后由 煙雲靉靆 于 2024-3-8 20:52 编辑
sunbeach 发表于 2024-3-8 20:37
你别说 教小孩的时候也是这样的

人类顿悟不需要那么多训练材料和训练时间吧。
像加法小学教学都是方法论,学会十以内加法后教师就开始教竖式,接着通过竖式学生们学会百以内加减法后就自然而然融汇到任意位数加减法了。
反观AI训练,更像是看过无数加减法答案后自己归纳出了一套人类并不理解的推导黑箱,而不是像人类在已经完成简单实践的基础上通过新学习的理论方法完成复杂实践。
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-8 20:49 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-8 20:50 | 显示全部楼层
煙雲靉靆 发表于 2024-3-8 20:47
人类顿悟不需要那么多训练材料和训练时间吧
像加法小学教学都是方法论,学会十以内加法后教师就开始教竖 ...

人类是上一代人生下来的,某种角度来讲可不可以理解为模型的结构是同样的,然后初始化的很好
回复

使用道具 举报

发表于 2024-3-8 20:59 | 显示全部楼层
如果这个世界上有造物主的话,可能他也不知道怎么鼓捣就把宇宙搞出来了吧
回复

使用道具 举报

     
发表于 2024-3-8 21:01 | 显示全部楼层
hersi 发表于 2024-3-8 20:59
如果这个世界上有造物主的话,可能他也不知道怎么鼓捣就把宇宙搞出来了吧 ...

非全知全能的能算造物主吗?
回复

使用道具 举报

发表于 2024-3-8 21:02 | 显示全部楼层
00w0 发表于 2024-3-8 21:01
非全知全能的能算造物主吗?

造物主为啥非得是全知全能?
回复

使用道具 举报

     
发表于 2024-3-8 21:04 | 显示全部楼层
hersi 发表于 2024-3-8 21:02
造物主为啥非得是全知全能?

那就说明该造物主只是另一个更宏大本质的结构的造物
回复

使用道具 举报

     
发表于 2024-3-8 21:13 来自手机 | 显示全部楼层
显然人工智能在“模仿人脑”这个路径上发展并不顺利,还远远不能达到类似表现的程度,更不要说类似的性能了,很多人工智能的原理还是不甚明了。
比如大模型深度与模型表现之间的关系仍然停留在现象,往往是通过实验来确定最合适的模型深度,而且对不同的任务可能还要采取不同的深度进行推理——这显然和人脑的表现还相差甚远。人脑可以将同类型的熟悉和简单的任务更快的完成,而较少出现复杂任务的正确率反而比简单任务正确率高的情况。
大模型的可解释性仍然需要很多研究,甚至“模仿人脑”这条路径该怎么走还无法确定,有可能目前的路线都是在逼近但到达不了人脑的表现——可能在某些情况下比人脑表现更好,但是是基于另一套原理。

—— 来自 Xiaomi 2206123SC, Android 14上的 S1Next-鹅版 v2.1.2
回复

使用道具 举报

     
发表于 2024-3-8 21:29 来自手机 | 显示全部楼层
扯,别说外联了个计算器API算会做
回复

使用道具 举报

     
发表于 2024-3-8 21:38 来自手机 | 显示全部楼层
涌现嘛,本来就是统计学难题,和湍流一样
回复

使用道具 举报

     
发表于 2024-3-8 21:47 来自手机 | 显示全部楼层
再买自检星剁手 发表于 2024-3-8 20:49 目前还是人类成本较低啊

可是人类进化了几十亿年了啊来自: iPhone客户端
回复

使用道具 举报

     
发表于 2024-3-8 21:59 | 显示全部楼层
我觉得认为大模型学会符号推理可能只需要一个偶然事件,因为人类进化出抽象思维也是偶然
回复

使用道具 举报

发表于 2024-3-8 22:11 | 显示全部楼层
  雷诺兹以一种戏剧化的姿势举起手来,食指前伸,似乎要强调一个论点。我的信息不够,看不出他的毁灭指令,所以暂时只能招架。如果我抵挡住了他的进攻,就有时间发动反击。

  他竖起食指。他说道:领悟。

  起初我没有领悟。接着,恐怖的一刻我领悟了。

  他设计的指令不是为了宣之于口,甚至根本不是传感触发器。它是一个记忆触发器:该指令产生于一连串的知觉,这些知觉单个是无害的,但他却将它们成批植入我的大脑,如同一颗颗定时炸弹。由这些记忆结果所形成的神经结构此时消解收缩,成为一个模式,形成一种心理形态,这个形态注定了我的死亡。我其实等于自己吐出了那一句言辞。

  我的大脑立刻高速运转,比以往任何时候都迅速。我不由自主地产生一种自我毁灭意识。我竭力止住联想,可是抑制不了这些记忆。我的意识导致联想过程,这一过程正在发生,冷酷无情、不可遏止。我仿佛从高峰坠落,不得不目睹这个过程。

  时间一毫秒一毫秒地过去了。我的死亡历历在目。

  是雷诺兹经过杂货店的图像。还有那年轻人身上穿的幻彩衫。幻彩衫上是雷诺兹编制的图像,在我的大脑中植入一个暗示,其结果就是,尽管我转移了自己的输入感官,但心理仍然处于接受状态。即使作出转移这个行为的同一时间,我的意识仍然是敞开的。

  没有时间了。只有以飞快的速度重新以随机模式编织意识。这是绝望的挣扎,也许是走向自我毁灭。

  刚刚踏进雷诺兹的屋子时,我听到经过调制的奇特声音。我吸收了这个关键的暗示在做出防御姿态之前。

  我的意识分裂了,但结论却愈来愈凸出,愈来愈清晰。

  是我自己亲手建立的那个模拟器。为了设计这一防御手段,我的感知力作出了改变,调整到最易受他那个触发令影响的状态。

  我承认他比我更富有创造力。这是他的事业的吉兆。对于拯救者来说,实用主义远比唯美主义实用。

  我不知道,拯救了世界以后他想做什么?

  我领悟了那个词及其发挥威力的方式。接着,我死了。
回复

使用道具 举报

     
发表于 2024-3-8 22:28 | 显示全部楼层

这是啥?
回复

使用道具 举报

     
发表于 2024-3-8 22:37 来自手机 | 显示全部楼层
宏. 发表于 2024-3-8 21:38
涌现嘛,本来就是统计学难题,和湍流一样

好像还真能用涌现效应解释
回复

使用道具 举报

     
发表于 2024-3-8 23:00 | 显示全部楼层
下一个完美的模型就是——普鲁托
回复

使用道具 举报

     
发表于 2024-3-8 23:05 | 显示全部楼层

科幻小说,特德·姜的《领悟》,说的是一个大脑受伤的人接受了一种新药的治疗之后大脑性能突飞猛进之后发生的事情。

—— 来自 S1Fun

评分

参与人数 1战斗力 +1 收起 理由
一个魂儿 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2024-3-8 23:06 | 显示全部楼层
OVTVO 发表于 2024-3-8 22:37
好像还真能用涌现效应解释

LLM 本质上就是统计学

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2024-3-8 23:07 | 显示全部楼层
右代宫嘉音 发表于 2024-3-8 21:47
可是人类进化了几十亿年了啊

如果把人类本身当成一种设备,那么其中的技术和工艺水平领先人类自己的科技水平多少年?
回复

使用道具 举报

     
发表于 2024-3-8 23:32 | 显示全部楼层
Falrev 发表于 2024-3-8 23:07
如果把人类本身当成一种设备,那么其中的技术和工艺水平领先人类自己的科技水平多少年? ...

人要是想造出能自我复制的纳米级细胞自动机,那可比核聚变那永远的50年远多了
回复

使用道具 举报

     
发表于 2024-3-8 23:42 | 显示全部楼层
说个定论,人类,或者生物大脑的思考是基于模拟信号的,所以任何想要用现代电子计算机这种基于二进制数字信号进行运算的来模拟人脑都是天方夜谭,南辕北辙。
老老实实把ai往工具的方向发展才是正途。
回复

使用道具 举报

     
发表于 2024-3-8 23:42 | 显示全部楼层
AI也讲究机魂大悦吗
回复

使用道具 举报

     
发表于 2024-3-8 23:46 | 显示全部楼层
pwzzy 发表于 2024-3-8 23:32
人要是想造出能自我复制的纳米级细胞自动机,那可比核聚变那永远的50年远多了 ...

复制是指生育吗?两性生殖恐怕不能简单以复制概括,它是先分解,再融合,每次融合的结果都是独一无二的,而且还会随机产生出很多亲代双方都不具有的新性状
回复

使用道具 举报

头像被屏蔽
发表于 2024-3-9 01:38 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-9 02:00 来自手机 | 显示全部楼层
ghost in the shell
回复

使用道具 举报

     
发表于 2024-3-9 02:12 来自手机 | 显示全部楼层
反正你也不知道加法在大脑里的电化学是如何推理的不是,脑神经比蝗虫的神经节也就是规模的差距,规模大了自然就有智能,不也是涌现
回复

使用道具 举报

     
发表于 2024-3-9 02:18 | 显示全部楼层
more is different, 四舍五入LLM 是凝聚态物理的重要分支
回复

使用道具 举报

发表于 2024-3-9 02:30 | 显示全部楼层
十六夜鬼月 发表于 2024-3-8 23:42
说个定论,人类,或者生物大脑的思考是基于模拟信号的,所以任何想要用现代电子计算机这种基于二进制数字信 ...

反了,神经信号是只有通(产生一个脉冲)和断(啥都没有)两个状态,
信号强烈是频率增加而不是幅度增加

回复

使用道具 举报

     
发表于 2024-3-9 03:03 来自手机 | 显示全部楼层
璇瑢子R 发表于 2024-3-9 02:30
反了,神经信号是只有通(产生一个脉冲)和断(啥都没有)两个状态,
信号强烈是频率增加而不是幅度增加


不要把规划当必然。突触之间信息的误传递也是人类思维不可或缺的一部分。
回复

使用道具 举报

     
发表于 2024-3-9 03:40 来自手机 | 显示全部楼层
璇瑢子R 发表于 2024-3-9 02:30
反了,神经信号是只有通(产生一个脉冲)和断(啥都没有)两个状态,
信号强烈是频率增加而不是幅度增加

如果只看轴突丘(axon hillock)到突触扣结(synaptic bouton)的部分,那基本可以看做是这样;但是剩下的像突触前膜、树突和胞体就非常复杂了。比如突触前膜因为递质囊泡的生物学特性,至少存在类似于一个平滑的filter函数会根据突触前膜动作电位频率把输出(突触后膜动作电位)修剪得幅度不一,称为突触的短时可塑性

https://doi.org/10.1146/annurev-neuro-080317-062155


以及从树突的突触后膜到胞体这段,更是突出一个玄学...反正再也不是像轴突那样简单明了的0和1了;更别说对于不同的神经元分化类型来说这些规则也会发生很大变化,包括突触的长时可塑性,稳态可塑性,转录调控等等...

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-3-9 08:16 来自手机 | 显示全部楼层
那是不是可以在喂给它无限的信息之后有一天就突然有自我意识了?

—— 来自 OnePlus ONEPLUS A5010, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-9 12:39 | 显示全部楼层
novalli 发表于 2024-3-8 21:13
显然人工智能在“模仿人脑”这个路径上发展并不顺利,还远远不能达到类似表现的程度,更不要说类似的性能了 ...

深度不能太深是10年前的事情了,现在残差连接(基本上这几年火的模型里面各个都用残差连接)+新的优化算法(adamw、lamb等等)加持下都是参数量越大越好层数越深越好样本越多越好,很神奇吧。
回复

使用道具 举报

     
发表于 2024-3-9 12:40 | 显示全部楼层
有的时候样本不是越多越好,那是因为大的这组样本分布不好,而不是量的问题
回复

使用道具 举报

     
发表于 2024-3-9 12:42 来自手机 | 显示全部楼层
十六夜鬼月 发表于 2024-3-9 03:03
不要把规划当必然。突触之间信息的误传递也是人类思维不可或缺的一部分。 ...

总感觉真随机的误传递反而构造了人类的自由意志
回复

使用道具 举报

     
发表于 2024-3-9 12:57 | 显示全部楼层
十六夜鬼月 发表于 2024-3-8 23:42
说个定论,人类,或者生物大脑的思考是基于模拟信号的,所以任何想要用现代电子计算机这种基于二进制数字信 ...

有那么简单倒罢了,就怕起手先来个光的波粒二象性,神经传输信号既不能用某参数的大小幅度来解析,也不是0-1离散量,来点啥多重神经互相加权,前后信号叠加运算,0-1不确定性...模拟嘛,本来就是差不多就行了,要能全部重构复制出来了也说明玩透了不用再建模研究了
回复

使用道具 举报

     
发表于 2024-3-9 13:29 | 显示全部楼层
H2Ofrozen 发表于 2024-3-9 03:40
如果只看轴突丘(axon hillock)到突触扣结(synaptic bouton)的部分,那基本可以看做是这样;但是剩下的像 ...

我一直很好奇不论什么科普都没有提及神经信号传递的连续性和两组神经元之间的延迟对于大脑运行的影响或者如何塑造大脑的运行方式

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-3-9 13:47 | 显示全部楼层
人类有自然感知 小孩子可以每天24小时从自然界获取一切“真理”的表现形式
大模型可不行,你给他的一切就是全部
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 07:26 , Processed in 0.175287 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表