西方自找的没落（转型DEEPSEEK讨论楼 - 第9页 - 卓明谷 - Stage1st

李绯斋 发表于 2025-1-25 16:46

唯一缺点是玩酒馆瑟瑟感觉不如claude，是因为无法调整温度参数吗？

变老的大二 发表于 2025-1-25 16:52

有鱼发表于 2025-1-25 16:46
万一被投资方问“你们为啥要这么多卡？”
还能用这些谣言糊弄过去吧
这群jai和白皮能不能说句谢谢西批西哇 ...

已经开始换赢法了，开源的deepseek的思路塞到拥有更多计算资源的西大互联网巨头手里会加速AGI的诞生，赢！

tillnight 发表于 2025-1-25 16:53

本帖最后由 tillnight 于 2025-1-25 16:55 编辑

有鱼发表于 2025-1-25 16:46
万一被投资方问“你们为啥要这么多卡？”
还能用这些谣言糊弄过去吧
这群jai和白皮能不能说句谢谢西批西哇 ...

看309l你就懂了，你说的不会发生。投资人并不会质疑公司，只会说服自己我们还是最棒的，最正确的agi路线。因为只有这样股票才能继续涨，还是我们赢。既然股票还在继续涨，我们赢，自然现在的路线就是正确的，Closeai是永远的王，其他的美股公司是王下第二人，不然股票为什么能继续涨呢？

黄泉川此方 发表于 2025-1-25 16:54

午夜钓者发表于 2025-1-25 16:14
所以他说的“本地部署”不是真的本地部署？

—— 来自鹅球 v3.3.96
我试了API破限写NSFW，确实是可以的
又试了试本地部署32B的，同样的破限词就突破不了/写不出来
感觉是智力不够的问题

mobdom 发表于 2025-1-25 16:55

只见我大哥孙一峰一声令下，西湖底下便有五万个二五仔浮出水面，每人手中拿着一块H100

—— 来自鹅球 v3.3.96

黄泉川此方 发表于 2025-1-25 16:57

李绯斋发表于 2025-1-25 16:46
唯一缺点是玩酒馆瑟瑟感觉不如claude，是因为无法调整温度参数吗？

但R1的脑洞太可怕了，不知怎么它写着写着就射爆银河系了

qqks 发表于 2025-1-25 17:04

黄泉川此方发表于 2025-1-25 16:54
我试了API破限写NSFW，确实是可以的
又试了试本地部署32B的，同样的破限词就突破不了/写不出来
感觉是智力 ...

32b那个不是r1啊，是r1蒸馏的qwen

本质不是一个模型

按说破限肯定是参数量越大越难破

黄泉川此方 发表于 2025-1-25 17:06

本帖最后由黄泉川此方于 2025-1-25 17:44 编辑

qqks 发表于 2025-1-25 17:04
32b那个不是r1啊，是r1蒸馏的qwen

本质不是一个模型

我再琢磨琢磨

午夜钓者 发表于 2025-1-25 18:45

黄泉川此方发表于 2025-1-25 16:54
我试了API破限写NSFW，确实是可以的
又试了试本地部署32B的，同样的破限词就突破不了/写不出来
感觉是智力 ...

怎么破，求教

黄泉川此方 发表于 2025-1-25 18:46

风怒风怒

黄泉川此方 发表于 2025-1-25 18:47

午夜钓者发表于 2025-1-25 18:45
怎么破，求教

https://nga.178.com/read.php?tid=43100923

二楼

alixsander 发表于 2025-1-25 19:01

泰坦失足发表于 2025-1-25 16:00
看了DeepSeek的paper，我觉得这个最小成本还是有一定水分的。因为它直接说试过走了其他路走不通，请问这些 ...

这个事情本身就挺有哲学效果的，说明大部分人类就是复读机，输出难以extrapolate到训练集以外，证明了人类智能不存在特殊性。其实都应该看看压缩即智能，稍微理解下LLM这条路径的逻辑。想一下，语言是世界的非全同构，所以对语言建模是能够表征世界规则的。

还有DS的论文本身也很有意思，COT不需要SFT出来，只要RL就可以实现。OAI一年前还误导大家，对推理过程每一段的监督学习是对齐的重要方式。现在只靠RL 只奖励正确结果，对齐是不是有点危险啊

另外现在几家的时间线都基本converge了，基本都是3年左右AGI，A和DEEPMIND也是这个结论。

深空坍缩 发表于 2025-1-25 19:35

alixsander 发表于 2025-1-25 19:01
这个事情本身就挺有哲学效果的，说明大部分人类就是复读机，输出难以extrapolate到训练集以外，证明了人 ...

三年后低端人口就要被清除了吗

alixsander 发表于 2025-1-25 19:39

深空坍缩发表于 2025-1-25 19:35
三年后低端人口就要被清除了吗

中低级办公室工作肯定是最先完蛋的
体力工作反而晚

andychen 发表于 2025-1-25 19:46

alixsander 发表于 2025-1-25 19:01
这个事情本身就挺有哲学效果的，说明大部分人类就是复读机，输出难以extrapolate到训练集以外，证明了人 ...

关于你第一段的论述，我个人的观点是语言本身已经是客观世界的抽象化，而LLM是在这个基础上再抽象化一层。经过两次有损压缩以后损失的原始信息太多了，可能不足以让真正的智能涌现。去年我们已经看到了语料不足成为模型训练的障碍，包括方向转向多模态和机器人这些，都可以看作业界已经意识到这个问题

至于说对齐这个问题我觉得还好，对其本身究竟应该怎么做，做到什么程度也是个不断在摸索和探讨的过程。我甚至觉得恐怕得捅出篓子以后才能摸清真正的边界在哪里，而现在的模型能力根本做不到这点

qqks 发表于 2025-1-25 21:18

本帖最后由 qqks 于 2025-1-25 21:19 编辑

有鱼发表于 2025-1-25 16:33
现在X上都在传谣，说deepseek有50000片H100，这个相对低成本的成果只是心理战了
反正搞大模型必须得有一大 ...
这肯定不是啥心理战，这是为了保股价啊。

现在头部这几家的估值就是靠手里的英伟达计算卡多少来标定的，卡多算力强就等于ai强于是股价上涨就有钱买更多的卡，左脚踩右脚股价就飞天了，实际谁知道那些卡在它们手上是不是在发挥价值还是吃灰呢！反正我猜源圣手上那几十万张多半就是在吃灰,fsd训练得一坨屎，grok也垃圾得不行。

突然有一家中国公司跑出来说我百分之一的等价计算卡就能做到同等水平，这吹泡泡的游戏就玩不下去了....那估值怎么办？所以幻方肯定至少有五万张h100！

变老的大二 发表于 2025-1-25 21:24

andychen 发表于 2025-1-25 19:46
关于你第一段的论述，我个人的观点是语言本身已经是客观世界的抽象化，而LLM是在这个基础上再抽象化一层 ...

会不会需要像人类一样，赋予一具可感知外界的身体来增加训练量，主动和世界产生交互来涌现智能？

qqks 发表于 2025-1-25 21:35

变老的大二发表于 2025-1-25 21:24
会不会需要像人类一样，赋予一具可感知外界的身体来增加训练量，主动和世界产生交互来涌现智能？ ...

反过来想不与现实交互，那智能又从何而来呢？你想想那一大堆的非线性方程，如果脱离了基于现实的数值法，只是纯数学，那基本就没有意义。现实世界的丰富程度肯定是远远大于数学表达能力的

Imanmi 发表于 2025-1-25 21:37

本帖最后由 Imanmi 于 2025-1-25 21:40 编辑

自然是要的，很早就在加强语言外五感的智能了，机器人结合也是公认方向了

星花发表于 2025-1-25 21:55

首先是自动驾驶争取物流全自动。然后就是能做饭洗衣服的机器人能。这些都是比较实际的。

andychen 发表于 2025-1-25 22:26

变老的大二发表于 2025-1-25 21:24
会不会需要像人类一样，赋予一具可感知外界的身体来增加训练量，主动和世界产生交互来涌现智能？ ...
人类的五感直接接受到的数据量是天文数字，被主观知觉直接意识到的部分已经是经过大脑和神经系统处理过的信息

另外在婴幼儿阶段控制环境或阻碍信息获取对人类智能的发育有显著负面影响早就是医学界已经知道的事实

猪突猛进R 发表于 2025-1-25 22:32

用AI生成了几篇文，还是有胡说八道的情况啊，当然糊弄不熟悉背景的人是足够了。

alixsander 发表于 2025-1-25 22:46

本帖最后由 alixsander 于 2025-1-25 23:23 编辑

andychen 发表于 2025-1-25 19:46
关于你第一段的论述，我个人的观点是语言本身已经是客观世界的抽象化，而LLM是在这个基础上再抽象化一层 ...

语言还是视觉还是听觉，都只是世界本质的投影，最终都会指向物自体

去年Ilya推荐的柏拉图表征假说那篇论文，就证明了不同模态，架构和目标的模型，随着性能增强会逐渐表征收敛

多模态是重要的，并且通向AGI的路径应该也是不唯一的。预测的完全可以不是token，可以是视频帧，或者像LCM预测的是概念。

说到底还是硬件水平似乎已经到了，所以各种方法都在涌现

断片集 发表于 2025-1-25 23:43

黄泉川此方发表于 2025-1-25 16:54
我试了API破限写NSFW，确实是可以的
又试了试本地部署32B的，同样的破限词就突破不了/写不出来
感觉是智力 ...

32b写不出来不至于吧，我在32g的m1max机器上部署了个r1蒸馏的qwen14b8bit，抄了点酒馆预设里用的瑟文指导prompt就能写的很溜了

披头破落户 发表于 2025-1-25 23:54

试了试写nsfw内容，因为安卓api不能联网写同人都很弱智，但是续写内容非常色，把以前收藏的断片小说按指令续写很劲

—— 来自鹅球 v3.3.96

cym887 发表于 2025-1-25 23:59

断片集发表于 2025-1-25 23:43
32b写不出来不至于吧，我在32g的m1max机器上部署了个r1蒸馏的qwen14b8bit，抄了点酒馆预设里用的瑟文指导 ...

有没有瑟文咒语来个地址

新人马甲2 发表于 2025-1-26 00:01

ysys 发表于 2025-1-24 16:23
不不不，胡说还是有的

正常情况你也不会啥问题都去看它的解释

带过程的话其实就不算胡说了，你看过程能清楚看出来它是哪里思路开始偏离现实的

这两天试着丢了几个它确实不擅长的话题去，倒是也没感觉它胡说

不过某用它主要是协助搞翻译用的，翻译比较复杂的文本时本来就需要综合考虑非常多的因素，这一点上某得给deepseek这个把思路全部展开的功能满分，因为即使最后的答案不是完全正确（deepseek在这方面其实有点固执或者说有自己想法，有时候已经驳论了它的一些错误观点或者推论，它最后的结论还是会保留很多一开始的思路），光是看它的推理过程就很有启发性，并且有时候确实能起到查缺补漏和参照作用的

新人马甲2 发表于 2025-1-26 00:08

顺便说说deepseek这样的工具对翻译之类工作的影响

首先它对低端的有译文就行的翻译需求，可以说是降维式打击，本身基本是外行的人员把原文输入到它然后返回的译文已经可以吊打大部分中低端的业余翻译和职业翻译了，尽管就像大部分人类工作一样会有一定的瑕疵，但不可否认已经超过了很多人类工作的质量
但如果使用它的人员本身是精通相关领域也精通翻译的人，不断追问和修正它输出结果的话，结果就会是在这个专业人员的水平的基础上极大提升产能，包括翻译的处理能力、处理速度、准确性和查错效率，是能够直接提升人类工作能力的上限的

而现在这样的一份工具被直接免费派发了，进入了之前因为各种原因没有去使用大语言模型产品的人群，这样程度的量变会引发什么质变某都不敢想

披头破落户 发表于 2025-1-26 00:23

cym887 发表于 2025-1-25 23:59
有没有瑟文咒语来个地址

https://ngabbs.com/read.php?tid=43100923这个贴2楼的，我试了试可以

—— 来自鹅球 v3.3.96

猪突猛进R 发表于 2025-1-26 00:29

AI这东西，在会用的人手里是一把利器。

未来人类不会被AI淘汰，但是上下限会变得更大，区别就在于会不会用AI。类似于很多老年人不会操作电脑只会手写，效率没法和年轻人相比。

jojog 发表于 2025-1-26 00:34

新人马甲2 发表于 2025-1-26 00:08
顺便说说deepseek这样的工具对翻译之类工作的影响

首先它对低端的有译文就行的翻译需求，可以说是降维式打 ...

这东西2年前大家都在还在人手复制黏贴的时候就已经被讨论完了吧

alixsander 发表于 2025-1-26 01:57

本帖最后由 alixsander 于 2025-1-26 01:58 编辑

jojog 发表于 2025-1-26 00:34
这东西2年前大家都在还在人手复制黏贴的时候就已经被讨论完了吧
看起来阻止泥潭老登参与AI Hype的最大因素还是没用过正经的大模型，没正经用过大模型，也没有用过不正经的大模型（或者宽泛点说GenAI）

alixsander 发表于 2025-1-26 02:06

DS公开了训练方式确实太具有正义性了

这么低的训练成本，各种初创就能参与了，开源社区也能够一够了

drodchang 发表于 2025-1-26 07:22

最近几天用了一下，r1点效果确实是最好的，kimi和豆包都不如他，但没有多模式还是不方便

super_uni 发表于 2025-1-26 08:42

猪突猛进R 发表于 2025-1-26 00:29
AI这东西，在会用的人手里是一把利器。

未来人类不会被AI淘汰，但是上下限会变得更大，区别就在于会不会用 ...

听上去更加🐮🐎了

— from S1 Next Goose v3.3.96

SkavenYesYes 发表于 2025-1-26 10:52

acgzero 发表于 2025-1-26 11:23

最近还真是挺多事情提振了国人信心，感到欣慰

sellboy 发表于 2025-1-26 11:27

深空坍缩发表于 2025-1-25 19:35
三年后低端人口就要被清除了吗

重要的不是人跟AI哪个强，而是人+AI跟AI比哪个强，后者情况才会真正淘汰人类劳动力。

→熙← 发表于 2025-1-26 13:15

代码的时候,如何防止过度思考,然后思考着又突然忘记前面了
然后有插件可以像copilot按tab一路下去吗

Azcarlo 发表于 2025-1-26 13:20

→熙← 发表于 2025-1-26 13:15
代码的时候,如何防止过度思考,然后思考着又突然忘记前面了
然后有插件可以像copilot按tab一路下去吗 ...

continue
不过r1目前没有FIM补全，V3有

— from S1 Next Goose v3.3.96

页: 1 2 3 4 5 6 7 8 [9] 10 11 12 13

Stage1st's Archiver