找回密码
 立即注册
搜索
楼主: 机吉斯卡

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
     
发表于 2025-1-25 17:06 | 显示全部楼层
本帖最后由 黄泉川此方 于 2025-1-25 17:44 编辑
qqks 发表于 2025-1-25 17:04
32b那个不是r1啊,是r1蒸馏的qwen

本质不是一个模型

我再琢磨琢磨


回复

使用道具 举报

     
发表于 2025-1-25 18:45 | 显示全部楼层
黄泉川此方 发表于 2025-1-25 16:54
我试了API破限写NSFW,确实是可以的
又试了试本地部署32B的,同样的破限词就突破不了/写不出来
感觉是智力 ...

怎么破,求教
回复

使用道具 举报

     
发表于 2025-1-25 18:46 | 显示全部楼层
风怒风怒
回复

使用道具 举报

     
发表于 2025-1-25 18:47 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-1-25 19:01 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-1-25 16:00
看了DeepSeek的paper,我觉得这个最小成本还是有一定水分的。因为它直接说试过走了其他路走不通,请问这些 ...

这个事情本身就挺有哲学效果的,说明大部分人类就是复读机,输出难以extrapolate到训练集以外,证明了人类智能不存在特殊性。其实都应该看看压缩即智能,稍微理解下LLM这条路径的逻辑。想一下,语言是世界的非全同构,所以对语言建模是能够表征世界规则的。

还有DS的论文本身也很有意思,COT不需要SFT出来,只要RL就可以实现。OAI一年前还误导大家,对推理过程每一段的监督学习是对齐的重要方式。现在只靠RL 只奖励正确结果,对齐是不是有点危险啊


另外现在几家的时间线都基本converge了,基本都是3年左右AGI,A和DEEPMIND也是这个结论。
回复

使用道具 举报

     
发表于 2025-1-25 19:35 | 显示全部楼层
alixsander 发表于 2025-1-25 19:01
这个事情本身就挺有哲学效果的,说明大部分人类就是复读机,输出难以extrapolate到训练集以外,证明了人 ...

三年后低端人口就要被清除了吗
回复

使用道具 举报

     
发表于 2025-1-25 19:39 | 显示全部楼层
深空坍缩 发表于 2025-1-25 19:35
三年后低端人口就要被清除了吗

中低级办公室工作肯定是最先完蛋的
体力工作反而晚
回复

使用道具 举报

     
发表于 2025-1-25 19:46 来自手机 | 显示全部楼层
alixsander 发表于 2025-1-25 19:01
这个事情本身就挺有哲学效果的,说明大部分人类就是复读机,输出难以extrapolate到训练集以外,证明了人 ...

关于你第一段的论述,我个人的观点是语言本身已经是客观世界的抽象化,而LLM是在这个基础上再抽象化一层。经过两次有损压缩以后损失的原始信息太多了,可能不足以让真正的智能涌现。去年我们已经看到了语料不足成为模型训练的障碍,包括方向转向多模态和机器人这些,都可以看作业界已经意识到这个问题

至于说对齐这个问题我觉得还好,对其本身究竟应该怎么做,做到什么程度也是个不断在摸索和探讨的过程。我甚至觉得恐怕得捅出篓子以后才能摸清真正的边界在哪里,而现在的模型能力根本做不到这点
回复

使用道具 举报

     
发表于 2025-1-25 21:18 | 显示全部楼层
本帖最后由 qqks 于 2025-1-25 21:19 编辑
有鱼 发表于 2025-1-25 16:33
现在X上都在传谣,说deepseek有50000片H100,这个相对低成本的成果只是心理战了
反正搞大模型必须得有一大 ...

这肯定不是啥心理战,这是为了保股价啊。

现在头部这几家的估值就是靠手里的英伟达计算卡多少来标定的,卡多算力强就等于ai强于是股价上涨就有钱买更多的卡,左脚踩右脚股价就飞天了,实际谁知道那些卡在它们手上是不是在发挥价值还是吃灰呢!反正我猜源圣手上那几十万张多半就是在吃灰,fsd训练得一坨屎,grok也垃圾得不行。


突然有一家中国公司跑出来说我百分之一的等价计算卡就能做到同等水平,这吹泡泡的游戏就玩不下去了....那估值怎么办?所以幻方肯定至少有五万张h100!
回复

使用道具 举报

     
发表于 2025-1-25 21:24 | 显示全部楼层
andychen 发表于 2025-1-25 19:46
关于你第一段的论述,我个人的观点是语言本身已经是客观世界的抽象化,而LLM是在这个基础上再抽象化一层 ...

会不会需要像人类一样,赋予一具可感知外界的身体来增加训练量,主动和世界产生交互来涌现智能?
回复

使用道具 举报

     
发表于 2025-1-25 21:35 | 显示全部楼层
变老的大二 发表于 2025-1-25 21:24
会不会需要像人类一样,赋予一具可感知外界的身体来增加训练量,主动和世界产生交互来涌现智能? ...

反过来想不与现实交互,那智能又从何而来呢?你想想那一大堆的非线性方程,如果脱离了基于现实的数值法,只是纯数学,那基本就没有意义。现实世界的丰富程度肯定是远远大于数学表达能力的
回复

使用道具 举报

     
发表于 2025-1-25 21:37 来自手机 | 显示全部楼层
本帖最后由 Imanmi 于 2025-1-25 21:40 编辑

自然是要的,很早就在加强语言外五感的智能了,机器人结合也是公认方向了
回复

使用道具 举报

     
发表于 2025-1-25 21:55 | 显示全部楼层
首先是自动驾驶 争取物流全自动。然后 就是 能做饭洗衣服的机器人能。这些都是比较实际的。
回复

使用道具 举报

     
发表于 2025-1-25 22:26 | 显示全部楼层
变老的大二 发表于 2025-1-25 21:24
会不会需要像人类一样,赋予一具可感知外界的身体来增加训练量,主动和世界产生交互来涌现智能? ...

人类的五感直接接受到的数据量是天文数字,被主观知觉直接意识到的部分已经是经过大脑和神经系统处理过的信息

另外在婴幼儿阶段控制环境或阻碍信息获取对人类智能的发育有显著负面影响早就是医学界已经知道的事实
回复

使用道具 举报

发表于 2025-1-25 22:32 | 显示全部楼层
用AI生成了几篇文,还是有胡说八道的情况啊,当然糊弄不熟悉背景的人是足够了。
回复

使用道具 举报

     
发表于 2025-1-25 22:46 来自手机 | 显示全部楼层
本帖最后由 alixsander 于 2025-1-25 23:23 编辑
andychen 发表于 2025-1-25 19:46
关于你第一段的论述,我个人的观点是语言本身已经是客观世界的抽象化,而LLM是在这个基础上再抽象化一层 ...


语言还是视觉还是听觉,都只是世界本质的投影,最终都会指向物自体

去年Ilya推荐的柏拉图表征假说那篇论文,就证明了不同模态,架构和目标的模型,随着性能增强会逐渐表征收敛

多模态是重要的,并且通向AGI的路径应该也是不唯一的。预测的完全可以不是token,可以是视频帧,或者像LCM预测的是概念。

说到底还是硬件水平似乎已经到了,所以各种方法都在涌现
回复

使用道具 举报

     
发表于 2025-1-25 23:43 | 显示全部楼层
黄泉川此方 发表于 2025-1-25 16:54
我试了API破限写NSFW,确实是可以的
又试了试本地部署32B的,同样的破限词就突破不了/写不出来
感觉是智力 ...

32b写不出来不至于吧,我在32g的m1max机器上部署了个r1蒸馏的qwen14b8bit,抄了点酒馆预设里用的瑟文指导prompt就能写的很溜了

评分

参与人数 1战斗力 +1 收起 理由
黄泉川此方 + 1 刚学了用酒馆,继续学习

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-25 23:54 来自手机 | 显示全部楼层
试了试写nsfw内容,因为安卓api不能联网写同人都很弱智,但是续写内容非常色,把以前收藏的断片小说按指令续写很劲

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-25 23:59 | 显示全部楼层
断片集 发表于 2025-1-25 23:43
32b写不出来不至于吧,我在32g的m1max机器上部署了个r1蒸馏的qwen14b8bit,抄了点酒馆预设里用的瑟文指导 ...

有没有瑟文咒语来个地址
回复

使用道具 举报

     
发表于 2025-1-26 00:01 | 显示全部楼层
ysys 发表于 2025-1-24 16:23
不不不,胡说还是有的

正常情况你也不会啥问题都去看它的解释

带过程的话其实就不算胡说了,你看过程能清楚看出来它是哪里思路开始偏离现实的

这两天试着丢了几个它确实不擅长的话题去,倒是也没感觉它胡说


不过某用它主要是协助搞翻译用的,翻译比较复杂的文本时本来就需要综合考虑非常多的因素,这一点上某得给deepseek这个把思路全部展开的功能满分,因为即使最后的答案不是完全正确(deepseek在这方面其实有点固执或者说有自己想法,有时候已经驳论了它的一些错误观点或者推论,它最后的结论还是会保留很多一开始的思路),光是看它的推理过程就很有启发性,并且有时候确实能起到查缺补漏和参照作用的

评分

参与人数 1战斗力 +1 收起 理由
黄泉川此方 + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-26 00:08 | 显示全部楼层
顺便说说deepseek这样的工具对翻译之类工作的影响

首先它对低端的有译文就行的翻译需求,可以说是降维式打击,本身基本是外行的人员把原文输入到它然后返回的译文已经可以吊打大部分中低端的业余翻译和职业翻译了,尽管就像大部分人类工作一样会有一定的瑕疵,但不可否认已经超过了很多人类工作的质量
但如果使用它的人员本身是精通相关领域也精通翻译的人,不断追问和修正它输出结果的话,结果就会是在这个专业人员的水平的基础上极大提升产能,包括翻译的处理能力、处理速度、准确性和查错效率,是能够直接提升人类工作能力的上限的

而现在这样的一份工具被直接免费派发了,进入了之前因为各种原因没有去使用大语言模型产品的人群,这样程度的量变会引发什么质变某都不敢想
回复

使用道具 举报

     
发表于 2025-1-26 00:23 来自手机 | 显示全部楼层
cym887 发表于 2025-1-25 23:59
有没有瑟文咒语来个地址

https://ngabbs.com/read.php?tid=43100923这个贴2楼的,我试了试可以

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-1-26 00:29 | 显示全部楼层
AI这东西,在会用的人手里是一把利器。

未来人类不会被AI淘汰,但是上下限会变得更大,区别就在于会不会用AI。类似于很多老年人不会操作电脑只会手写,效率没法和年轻人相比。
回复

使用道具 举报

     
发表于 2025-1-26 00:34 | 显示全部楼层
新人马甲2 发表于 2025-1-26 00:08
顺便说说deepseek这样的工具对翻译之类工作的影响

首先它对低端的有译文就行的翻译需求,可以说是降维式打 ...

这东西2年前大家都在还在人手复制黏贴的时候就已经被讨论完了吧
回复

使用道具 举报

     
发表于 2025-1-26 01:57 | 显示全部楼层
本帖最后由 alixsander 于 2025-1-26 01:58 编辑
jojog 发表于 2025-1-26 00:34
这东西2年前大家都在还在人手复制黏贴的时候就已经被讨论完了吧

看起来阻止泥潭老登参与AI Hype的最大因素还是没用过正经的大模型,没正经用过大模型,也没有用过不正经的大模型(或者宽泛点说GenAI)
回复

使用道具 举报

     
发表于 2025-1-26 02:06 | 显示全部楼层
DS公开了训练方式确实太具有正义性了


这么低的训练成本,各种初创就能参与了,开源社区也能够一够了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-26 07:22 来自手机 | 显示全部楼层
最近几天用了一下,r1点效果确实是最好的,kimi和豆包都不如他,但没有多模式还是不方便
回复

使用道具 举报

     
发表于 2025-1-26 08:42 来自手机 | 显示全部楼层
猪突猛进R 发表于 2025-1-26 00:29
AI这东西,在会用的人手里是一把利器。

未来人类不会被AI淘汰,但是上下限会变得更大,区别就在于会不会用 ...

听上去更加🐮🐎了

— from S1 Next Goose v3.3.96
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-1-26 10:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-1-26 11:23 | 显示全部楼层
最近还真是挺多事情提振了国人信心,感到欣慰
回复

使用道具 举报

     
发表于 2025-1-26 11:27 | 显示全部楼层
深空坍缩 发表于 2025-1-25 19:35
三年后低端人口就要被清除了吗

重要的不是人跟AI哪个强,而是人+AI跟AI比哪个强,后者情况才会真正淘汰人类劳动力。
回复

使用道具 举报

     
发表于 2025-1-26 13:15 | 显示全部楼层
代码的时候,如何防止过度思考,然后思考着又突然忘记前面了
然后有插件可以像copilot按tab一路下去吗
回复

使用道具 举报

     
发表于 2025-1-26 13:20 来自手机 | 显示全部楼层
→熙← 发表于 2025-1-26 13:15
代码的时候,如何防止过度思考,然后思考着又突然忘记前面了
然后有插件可以像copilot按tab一路下去吗 ...

continue
不过r1目前没有FIM补全,V3有

— from S1 Next Goose v3.3.96
回复

使用道具 举报

发表于 2025-1-26 14:29 | 显示全部楼层
断片集 发表于 2025-1-24 15:52
这就是llm和tts两者结合的事了,llm的话,只是模仿风格普通聊天的话大概都能,deepseek算是比较有性价比 ...

说的还是gpt4o或者最新版豆包实时语音那样的语音端到端,这两天跟豆包打电话效果太好了。
回复

使用道具 举报

     
发表于 2025-1-26 15:46 | 显示全部楼层
现在要搞自由民主的AI和不民主的AI了,笑死
回复

使用道具 举报

发表于 2025-1-26 16:31 | 显示全部楼层
我感觉美国人已经疯了,周六一整天还在讨论deepseek没断过,还说要给deepseek团队开高薪,给签证,全部挖到美国。这deepseek对美国的冲击太大了,希望美国人冷静。
回复

使用道具 举报

     
发表于 2025-1-26 16:56 | 显示全部楼层
jaewoongh_ 发表于 2025-1-25 09:43
卧槽这么叼,看来不用再用豆包还要被同事阴阳了

豆包现在进化得也很强了,比起刚出来时可谓完全两个东西。

我一般会豆包和DS-R1一起用然后自己综合结果。
回复

使用道具 举报

发表于 2025-1-26 17:09 | 显示全部楼层
本帖最后由 Alce79 于 2025-1-26 17:12 编辑
riin2 发表于 2025-1-26 16:31
我感觉美国人已经疯了,周六一整天还在讨论deepseek没断过,还说要给deepseek团队开高薪,给签证,全部挖到 ...

因为这东西的低成本会对美国股市的AI泡沫造成巨大打击,靠算力护城河+闭源模型确实能领先同行一大截猛猛冲股市,但后发者蒸馏迭代就能达到相近成果成本还低关键还开源。
硅谷精英得跟投资者说一堆东西例如“人家这么便宜你怎么这么贵?” “后发者追赶这么轻松还开源我越投钱越亏本?“ 关键还是鼓吹的盈利模式被打没冲击太大。

别的不说那5000亿美元的星际之门如果没搞出AGI被轻松蒸馏追赶会是什么结局?软银孙正义当天跳楼。
股市冲这么高就是为了讲未来垄断所有制造业坐着收钱的故事,讲不下去就完蛋啦!
回复

使用道具 举报

     
发表于 2025-1-26 17:19 | 显示全部楼层
Alce79 发表于 2025-1-26 17:09
因为这东西的低成本会对美国股市的AI泡沫造成巨大打击,靠算力护城河+闭源模型确实能领先同行一大截猛猛冲 ...

要是真那么简单直接左手放prompt右手放output跑SFT得了。这条路大家都没走通都在寻思是不是o1有啥独门秘方。最后DeepSeek直接出来说俺寻思HFRL敲几下就行了。不代表别的LLM也能这样俺寻思出来,要这样满大街都是自己的Reasoning model了。现在不就O1/R1/QWQ/Gemini reasoning四家。
一直以来DeepSeek还缺失多模态能力。考虑到其他家都做出了多模态输入输出,应该不是难事,但也绝不是我蒸馏下就出来的。
回复

使用道具 举报

发表于 2025-1-26 17:29 | 显示全部楼层
泰坦失足 发表于 2025-1-26 17:19
要是真那么简单直接左手放prompt右手放output跑SFT得了。这条路大家都没走通都在寻思是不是o1有啥独门秘 ...

垄断制造业的故事我是觉得没戏了,对面有人也开始从0复刻中,能成绝对会跌一波。
得赶紧搬出划时代的新东西镇场子喽,不过我不信能掏出AGI,星际之门只搞算力中心连应用场景的饼都没画的一看就是吹牛。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 07:06 , Processed in 0.218181 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表