找回密码
 立即注册
搜索
查看: 4276|回复: 39

[科技] deepseek发布了DeepSeek-R1-Lite预览版

[复制链接]
     
发表于 2024-11-21 06:20 | 显示全部楼层 |阅读模式
使用强化学习√
真正完全复刻o1√
会开源√
思维链过程公开√






目前官网50次试用:https://chat.deepseek.com/

介绍:https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw

测试了一些用例:





乐子:



小道消息:据说基座模型可能是16b参数的moe(每次2.4b激活)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-11-21 07:17 来自手机 | 显示全部楼层
多少 G 显存能装下

—— 来自 鹅球 v3.3.94-alpha
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 07:28 | 显示全部楼层
Xerxes_2 发表于 2024-11-21 07:17
多少 G 显存能装下

—— 来自 鹅球 v3.3.94-alpha

如果猜测为真,大概是笔记本随便跑的程度,甚至不需要显存放内存都行
回复

使用道具 举报

发表于 2024-11-21 07:56 | 显示全部楼层
本帖最后由 riczxc 于 2024-11-21 08:03 编辑

语言模型的length generalization什么时候才能解决呢?否则加法算不对也太难看了吧。

算算543785034+ 92347952+5823954238+4732943
好,我需要计算这几个大数相加。先把它们都写下来:543,785,034,92,347,952,5,823,954,238,还有4,732,943。

先从个位开始加。543,785,034的个位是4,92,347,952的个位是2,5,823,954,238的个位是8,4,732,943的个位是3。4加2是6,加8是14,再加3是17。所以个位是7,进位1。

接下来是十位。543,785,034的十位是3,92,347,952的十位是5,5,823,954,238的十位是3,4,732,943的十位是9。3加5是8,加3是11,加9是20,再加上之前的进位1,总共是21。所以十位是1,进位2。

第二位就算错了。虽然问题可以推给tokenizer,但是继续这样就要考虑是不是要抛掉手头的nvda了。
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 08:03 | 显示全部楼层
riczxc 发表于 2024-11-21 07:56
语言模型的length generalization什么时候才能解决呢?否则加法算不对也太难看了吧。

一些对人类很难的事情实际上对AI很容易,一些对AI很难的事情又对人类来说很容易

虽然解决这个问题无非加上function call就行,不过关键还是在于AI对物理意义和文字概念背后的实际含义一无所知(毕竟也没教)

当然现在能初步推理(起码看起来是,别管实际是搜索模式匹配还是啥)已经挺好的了
回复

使用道具 举报

发表于 2024-11-21 08:05 | 显示全部楼层
本帖最后由 riczxc 于 2024-11-21 08:08 编辑
yesicant 发表于 2024-11-21 08:03
一些对人类很难的事情实际上对AI很容易,一些对AI很难的事情又对人类来说很容易

虽然解决这个问题无非加 ...

外推能力,寻找规律才是目的吧(会算数的确算不上什么很厉害的能力,但是不会算数就说明外推能力很有问题了)。如果要求所有的问题都在训练集里,那作用就有限了。

主要length generalization貌似是个很基本的能力,做不到让人很不放心。(貌似已经有观点认为transformer就是做不好length generalization)

回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 08:07 | 显示全部楼层
riczxc 发表于 2024-11-21 08:05
外推能力,寻找规律才是目的吧。如果要求所有的问题都在训练集里,那作用就有限了。 ...

泛化就是用来干这个的,至于寻找规律和外推,那些等以后可解释工作搞定吧,而且就现在的AI来说,本身组件也不齐全
回复

使用道具 举报

发表于 2024-11-21 08:10 | 显示全部楼层
本帖最后由 riczxc 于 2024-11-21 08:11 编辑
yesicant 发表于 2024-11-21 08:07
泛化就是用来干这个的,至于寻找规律和外推,那些等以后可解释工作搞定吧,而且就现在的AI来说,本身组件 ...

暂时来说泛化能力止步于多位数加法...让我觉得这一波AI会不会到此为止了,毕竟真金白银在股票里
回复

使用道具 举报

发表于 2024-11-21 08:14 | 显示全部楼层
yesicant 发表于 2024-11-21 08:03
一些对人类很难的事情实际上对AI很容易,一些对AI很难的事情又对人类来说很容易

虽然解决这个问题无非加 ...
不过关键还是在于AI对物理意义和文字概念背后的实际含义一无所知(毕竟也没教)


如果相信“压缩就是智能”那么喂了那么多数据理应找到规律来高效压缩才对。
回复

使用道具 举报

     
发表于 2024-11-21 08:20 来自手机 | 显示全部楼层
dp做翻译挺好 毕竟便宜


—— 来自 鹅球 v3.0.87-alpha
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 08:21 | 显示全部楼层
riczxc 发表于 2024-11-21 08:14
如果相信“压缩就是智能”那么喂了那么多数据理应找到规律来高效压缩才对。 ...

那我肯定不信…

人工智能,你教什么就会什么,就算学习过程中有些副产物,那还是不如主动教来的明显,比如o1的推理能力就是典型

随着范式和方法论的更新,对模型和认知的高级理解,AI才能越来越完善,也没有什么一步登天的说法,AGI之类的说法在后人看来可能就更是搞笑了
回复

使用道具 举报

     
发表于 2024-11-21 08:21 | 显示全部楼层
现在没感觉到和think step by step那种提示词的差距
回复

使用道具 举报

发表于 2024-11-21 08:23 | 显示全部楼层
yesicant 发表于 2024-11-21 08:21
那我肯定不信…

人工智能,你教什么就会什么,就算学习过程中有些副产物,那还是不如主动教来的明显,比 ...

其实我也不信

但是貌似很多人都信所以nvda卖卡卖得好
回复

使用道具 举报

发表于 2024-11-21 08:24 | 显示全部楼层
Van夫膜开 发表于 2024-11-21 08:21
现在没感觉到和think step by step那种提示词的差距

是的。o1出来之前大家还在猜用了mcts,最后就这....
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 08:25 | 显示全部楼层
Van夫膜开 发表于 2024-11-21 08:21
现在没感觉到和think step by step那种提示词的差距

区别就是cot是模型标配,但是能力很弱,模型只能做短式cot,而o1这种范式可以内化推理能力,让模型不仅善于cot,还能做超长cot,还不会输出过程中累积误差,能正确得到付出算力就有回报的高正确性能力
回复

使用道具 举报

     
发表于 2024-11-21 08:45 来自手机 | 显示全部楼层
yesicant 发表于 2024-11-21 08:25
区别就是cot是模型标配,但是能力很弱,模型只能做短式cot,而o1这种范式可以内化推理能力,让模型不仅善 ...

o1这种形式是怎么实现的,是通过显式用多阶段推理的数据去训练的吗?
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 08:50 | 显示全部楼层
本帖最后由 yesicant 于 2024-11-21 08:51 编辑
giere 发表于 2024-11-21 08:45
o1这种形式是怎么实现的,是通过显式用多阶段推理的数据去训练的吗?

不知道,这不是在等技术报告嘛

如果从猜测的角度来说,可能就是配合奖励模型,中间过程判断奖励,固定答案然后合成中间路径,o1的文里有还有提到答案排序loss,或者负面样本远离之类的吧,各种方法都能搞以至于可能性太多了,哦,还有上面提到的mcts
回复

使用道具 举报

     
发表于 2024-11-21 09:00 来自手机 | 显示全部楼层
yesicant 发表于 2024-11-21 08:50
不知道,这不是在等技术报告嘛

如果从猜测的角度来说,可能就是配合奖励模型,中间过程判断奖励,固定答 ...

谢谢,我还没看o1的报告,好奇在推理阶段有什么新东西吗?训练阶段可以构建出带有完整思考链的数据,那推理的时候是否还只是“只截取从某个特殊token开始的输出”这种做法?
回复

使用道具 举报

     
发表于 2024-11-21 09:01 | 显示全部楼层
感觉目前大家的重点都不在可解释性上了,其实也是,因为层数变多了太多太多了,明明23年前还是很热的话题呢
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 09:07 | 显示全部楼层
本帖最后由 yesicant 于 2024-11-21 09:08 编辑
giere 发表于 2024-11-21 09:00
谢谢,我还没看o1的报告,好奇在推理阶段有什么新东西吗?训练阶段可以构建出带有完整思考链的数据,那推 ...

o1甚至没报告,只是只言片语旁侧敲击说了一丁点大家都想象的到的东西,不过后边这个“推理的时候是否还只是“只截取从某个特殊token开始的输出”这种做法?”

可以很明确的说确实是,从目前业界入手的各种尝试和方法来看,基本都有在训练时使用特殊token区分不同的阶段做隔断,甚至还有分成好几个不同的阶段的,单纯从o1和r1就已经明显区分了推理和总结答案两个过程

所以单纯去sft蒸馏o1就成了徒劳,因为模拟拟合的是直接的答案,答案有精度和难度上限,其实人类也可以这么想,只能去(理解)一个人说出来的话,而他(内心)的想法与思路或者过程无从得知

有点像不完全信息博弈

现在业界就是在搞仿生学,试图去还原这些隐式推理也好,中间过程也好,在线学习也好,不这么做模型性能就很难提升
回复

使用道具 举报

     
发表于 2024-11-21 09:10 来自手机 | 显示全部楼层
不太懂深度学习,请问现在的推理能叫做推理吗?
一般的推理是:如果大前提,并且小前提,那么结论
但是现在深度学习的推理给我的感觉是:如果大前提,并且小前提,那么99%的概率给出结论。小前提换个表达方法,可能就变成了98%的概率给出结论。

从底层理论上,深度学习这套有表达因果和推理的手段吗?如果这些都没有,就更别提抽象了。
回复

使用道具 举报

     
 楼主| 发表于 2024-11-21 09:17 | 显示全部楼层
芜湖挨宰 发表于 2024-11-21 09:10
不太懂深度学习,请问现在的推理能叫做推理吗?
一般的推理是:如果大前提,并且小前提,那么结论
但是现在 ...

如果一件事看起来像推理,用起来也像推理,过程也合乎推理,那就是推理,一种模型能够进行的推理,当然一切本质都是在算力做数学题

至于抨击llm这套范式,而且各种验证也确实像模式匹配的论文已经很多,可能以后会有更深入学习表达或者积累因果,理解逻辑的范式,目前就只是这种程度了

AI总是一步一步发展的,没法跳着来,底层原理也只能慢慢摸索

甚至你无法排除某天概率统计真的能达到仿生人类心智,甚至创造数字生命的可能
回复

使用道具 举报

     
发表于 2024-11-21 09:41 来自手机 | 显示全部楼层
脑洞一下
提升单模型的性能肯定是好事啦,但是未来的方向到底是把单llm的能力做到极致,还是通过更复杂的llm-agent设计去“量变引起质变”?
假设算力和设计可以支持一个包含一千个llm节点的agent做稳定推理,那么哪怕这一千个都是qwen1-7b水平的,是不是也会比做到极致的单个llm,更加容易优化呢?
回复

使用道具 举报

     
发表于 2024-11-21 09:52 | 显示全部楼层
yesicant 发表于 2024-11-21 09:07
o1甚至没报告,只是只言片语旁侧敲击说了一丁点大家都想象的到的东西,不过后边这个“推理的时候是否还只 ...

区分推理和总结怎么听起来有点像AI Agent的思路……
回复

使用道具 举报

     
发表于 2024-11-21 10:37 来自手机 | 显示全部楼层
本帖最后由 芜湖挨宰 于 2024-11-21 10:39 编辑
yesicant 发表于 2024-11-21 09:17
如果一件事看起来像推理,用起来也像推理,过程也合乎推理,那就是推理,一种模型能够进行的推理,当然一 ...

用起来哪里像推理了
先是告诉我杜甫登高是五言律诗,我说错了,他说是七言律诗,我再说错了,他坚持是七言律诗,我再说错了,他改口是五言律诗。

不要自己骗自己了。虽然这些瑕疵不妨我认为这是21世纪最伟大的发明或者说工程实现,因为确实好用。而且对我来说是算解释了人类智能中直觉是怎么来的,这点在哲学上意义非凡。
但是楼里有真金白银投进去的投资者,当然想提前认清到这玩意上限
回复

使用道具 举报

     
发表于 2024-11-21 11:22 来自手机 | 显示全部楼层
芜湖挨宰 发表于 2024-11-21 09:10
不太懂深度学习,请问现在的推理能叫做推理吗?
一般的推理是:如果大前提,并且小前提,那么结论
但是现在 ...

你说的叫reasoning,他们说的推理是inference
回复

使用道具 举报

     
发表于 2024-11-21 11:24 来自手机 | 显示全部楼层
本地部署模型到底利好什么股票,又不需要云服务
回复

使用道具 举报

发表于 2024-11-21 11:47 | 显示全部楼层
芦-中-人 发表于 2024-11-21 11:24
本地部署模型到底利好什么股票,又不需要云服务

无论云还是本地都是老黄
回复

使用道具 举报

     
发表于 2024-11-21 16:38 | 显示全部楼层
有一个非常简单的cpp小程序,大概内容是只改动一个/两个字符使得程序可以按要求运行。只要你了解基本的语法规则,哪怕是初学者也很容易做出来。
但目前我测试过的GPT类应用没有一个能做到的,包括o1-preview。ta花了大概1分30秒的时间来不断思考,但仍然无法得出正确答案,而是在某一个错误方法那不断自我否定和重复给出这个错误答案

诚然,你把所有的问题和知识都拿来训练他,那么对大多数人而言他就是能够推理。
回复

使用道具 举报

     
发表于 2024-11-21 17:04 | 显示全部楼层

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-11-21 17:15 | 显示全部楼层
啥时候VLM能快速理解3D场景映射成的2D画面就好了,到时候工作室机器人能杀疯
回复

使用道具 举报

     
发表于 2024-11-21 17:41 | 显示全部楼层


测试了这个例子,r1 能靠 CoT 的试错和反思自己给一个好的答案出来,还是有水平的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2024-11-21 17:53 | 显示全部楼层
chaucerling 发表于 2024-11-21 11:47
无论云还是本地都是老黄

本地的即使是4090也是很便宜的,远远没有数据中心那么黑。要支撑那么高的估值我觉得很难。

nvda我不想卖,因为要交很多税,但貌似风险比收益大多了。
回复

使用道具 举报

     
发表于 2024-11-21 18:22 | 显示全部楼层
https://www.zhihu.com/question/4689435060
今天刷到的知乎讨论deepseek-R1的问题,有不少用例。感觉思考的过程好戏精(
回复

使用道具 举报

     
发表于 2024-11-21 18:22 来自手机 | 显示全部楼层
最近在用chatgpt辅助润色论文,目前感觉长上下文太重要了。
本地llm的上下文长度的限制还是太大,不知道以后llm能不能采用线性复杂的结构

—— 来自 Xiaomi 23113RKC6C, Android 14上的 S1Next-鹅版 v3.0.0.81-alpha
回复

使用道具 举报

发表于 2024-11-21 18:39 | 显示全部楼层
CoT是复现出来了,可惜基模太小,上限不高。什么时候qwen-max那种等级的模型搞个CoT玩玩。
回复

使用道具 举报

     
发表于 2024-11-21 18:56 来自手机 | 显示全部楼层
用来算数感觉挺有趣的
回复

使用道具 举报

     
发表于 2024-11-21 18:57 来自手机 | 显示全部楼层
我让r1从1数到2500,它会一路数到2100然后告诉我他不想数了
o1直接不给我数,
回复

使用道具 举报

     
发表于 2024-11-21 19:39 | 显示全部楼层
clarkgao 发表于 2024-11-21 18:39
CoT是复现出来了,可惜基模太小,上限不高。什么时候qwen-max那种等级的模型搞个CoT玩玩。 ...

qwen_max比72b大太多了,但指标没高多少,我自己的一部分benchmark还是降的
阿里能出个72B-o1估计就能脚踢claude了,毕竟qwen比deepseek强
回复

使用道具 举报

     
发表于 2024-11-21 20:25 | 显示全部楼层
陷入死循环了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-21 21:34 , Processed in 0.167927 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表