找回密码
 立即注册
搜索
楼主: 机吉斯卡

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
发表于 2025-1-27 10:23 | 显示全部楼层
星花 发表于 2025-1-27 10:19
Ai没了,再找新题材就行了,比如卖火星土地。据说当年上海解放时股市还在涨呐,你们太小看金融有多离谱了。 ...

想多了 EUV出炉并迭代AI芯片意味着美国最后的科技堡垒也完蛋了,半导体产业要被冲烂。
回复

使用道具 举报

     
发表于 2025-1-27 10:33 来自手机 | 显示全部楼层
机器人你必须把那堆东西放到机器内部,你总不能指望联网吧?那就又回到5G有没有用的问题了。
还有别把技术看的那么重,阿根廷股市也是能涨的,虚拟币也是能涨的,甚至一块石头也是能吵的。
回复

使用道具 举报

发表于 2025-1-27 10:33 | 显示全部楼层
即使硬件被突破,整个美西方也还有一整套软件生态,以及配套的媒体系统,硬件技术不是最后的堡垒,而是任重道远的攻坚战的前哨

论坛助手,iPhone
回复

使用道具 举报

发表于 2025-1-27 10:58 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 09:17
我能吧泰坦哥踢出这个楼吗?好像只有版主才可以吧

键政大V就算了,恒河水这种玩意儿的帖文就别转了
回复

使用道具 举报

     
发表于 2025-1-27 11:20 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-1-27 10:19
我从来都没觉得吹的那种AGI能短期内实现,我看好的一直都是大模型驱动的机器人。以NLP为例,最开始能正确 ...

5G比元年吹的那些管用多了,它只是不像4G技术在个人终端领域给普通人肉眼可见的体验提升而已。

不熟悉的领域少露怯,别瞎打比方。
回复

使用道具 举报

     
发表于 2025-1-27 11:22 | 显示全部楼层
踢人没必要吧,不想看直接挂黑名单不就得了
不过只为跑赢通胀其实没必要投资美股,风险没兑现不代表没有风险
回复

使用道具 举报

     
发表于 2025-1-27 11:33 | 显示全部楼层
無始無終 发表于 2025-1-27 08:36
Kimi模型的性能太差了,怎么四两拨千斤啊,拿知乎toyama nao做的模型评分来看
这是24年6月DeepSeek V2推 ...

啥时候开源啥时候上桌。
字节的文化基因让我对它说的任何话打三折。
回复

使用道具 举报

     
发表于 2025-1-27 11:35 | 显示全部楼层

刀妹的贴在审慎阅读前提下很有营养,但是什么恒河水啦之类的还是别拿来忽悠人了,阿怡都不如。
回复

使用道具 举报

     
发表于 2025-1-27 11:49 来自手机 | 显示全部楼层
本帖最后由 Imanmi 于 2025-1-27 12:45 编辑
x分裂者 发表于 2025-1-27 09:32
无人码头用了这么久5g了,又是我用不到=没有,而且讨论ds的楼扯什么勾八5g,在这恶心人吗 ...

很简单的道理啊,人家真的买了美股,所以现在都是在ai泡沫的崩盘恐惧下的发疯罢了……要我说一惊一乍其实不太适合玩美股,特别是现在大争之世(编辑一下,核心在ykw执政,他的言行很大程度左右美股波动,抗压不强会神经衰弱)
回复

使用道具 举报

     
发表于 2025-1-27 12:00 | 显示全部楼层
美股今天相关都跌了,然后一堆人说是史普尼克时刻了
回复

使用道具 举报

     
发表于 2025-1-27 12:05 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 12:19 编辑
Imanmi 发表于 2025-1-27 11:49
很简单的道理啊,人家真的买了美股,所以现在都是在ai泡沫的崩盘恐惧下的发疯罢了……要我说一惊一乍其实 ...

---------------------------------

评分

参与人数 1战斗力 -1 收起 理由
油条小贩 -1 看你好急

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 12:42 | 显示全部楼层
哈哈哈哈哈哈哈

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-27 12:45 来自手机 | 显示全部楼层
感觉接下来硬件开发的侧重点可能也从大集群转向小单元迭代,节约成本提高效率
回复

使用道具 举报

     
发表于 2025-1-27 13:10 | 显示全部楼层

我让R1重翻,还叫他指出谷歌翻译的问题。
重新翻译后的中文版本:
David
@DavidSHolz

在我的测试中,DeepSeek 在古代中国哲学和文学领域彻底碾压了西方模型,同时它的英语能力也远超我的第一手中文资料来源。这种感觉就像与跨越世代的文学、历史和哲学知识进行深度对话——而这些内容我此前从未接触过。这令人十分动容。这种结果也在情理之中:西方实验室不重视中文数据的训练(但中国实验室却兼顾中英文数据)。值得注意的是,中国比西方多保留了数千年的文学遗产(因为西方已丢失了大部分罗马、希腊、埃及的文献,而中国保存了自己的典籍)。本质上,我们的 AI 模型缺乏西方思想体系的文学根基,但中国模型却完整保留了自身的文化基础。这既是一种传统的“数据优势”,也可能在精神与哲学层面的自我实现上,带来一种更隐性的优势。

谷歌翻译的错漏之处分析:
术语准确性

原文:"crushes"
谷歌译为“完胜”,但“彻底碾压”更贴合口语化表达,体现压倒性优势。

原文:"communing with... across generations"
谷歌译为“跨代交流”,但“与跨越世代的...进行深度对话”更精准传达“communing”的深层互动感。

语义连贯性

原文:"we lost the majority of our roman/greek/egyptian literature"
谷歌译为“我们失去了大部分罗马/希腊/埃及文学”,但“西方已丢失了大部分罗马、希腊、埃及的文献”更符合中文逻辑,并补充了“西方”作为主语。

格式与细节

原文:"several thousand years more of literary history"
谷歌译为“文学史比西方多了几千年”,但“多保留了数千年的文学遗产”更准确,强调“保留”而非单纯时间长度。

原文:"spiritual and philosophical self-actualization"
谷歌译为“精神和哲学自我实现”,但“精神与哲学层面的自我实现”更符合术语规范,且“层面”一词增强了表述严谨性。

标点与语法

原文分号 ";" 在谷歌翻译中被忽略,导致句子衔接生硬。重译版本通过分段和逻辑连接词(如“本质上”)优化了连贯性。

文化背景补充

原文隐含对比中西方文化传承差异,谷歌翻译未明确“中国保存典籍”与“西方丢失文献”的因果关系,重译版本通过补充“因为西方已丢失...”使逻辑更清晰。

总结:
谷歌翻译整体传达了原文大意,但在术语精准度、语义连贯性、文化背景补充等方面存在不足。重译版本通过优化措辞、补充逻辑关系,更完整地还原了原文的学术性与情感色彩。
回复

使用道具 举报

     
发表于 2025-1-27 13:11 | 显示全部楼层
alixsander 发表于 2025-1-27 10:16
我也同意这个看法

本身MoE又不被看好,又转回稠密了,是DS有魄力重新去走这条路

24年9月华为挂了个Arxiv,提出了新的HiF8数据格式,按时间节点反推,出来发论文说明910C大概率已经实装了这种格式——那么问题来了,你猜这种数据格式在研发的时候有没有DeepSeek跟着一起提需求?别忘了DeepSeek用的FP8格式也不是H卡原生支持的
回复

使用道具 举报

     
发表于 2025-1-27 13:15 | 显示全部楼层
就在刚刚,英伟达美股夜盘跌超5%,博通跌超4%。美股期货持续走低,纳斯达克指数期货跌超1.2%。与此同时,主导星际之门计划的软银集团股价一度下跌近6%,创下去年11月1日以来的最大跌幅;藤仓大跌超8%,东京电子和Disco均跌超3%。日经225指数盘中转跌。

今晚开盘是不是有乐子看了
回复

使用道具 举报

发表于 2025-1-27 13:43 来自手机 | 显示全部楼层
deepseek MLA主要是cache压缩和long context加速。MOE不是DS才推出来的路线,openAI和mistral都是。DS最大的突破还是RL和infra codesign
回复

使用道具 举报

     
发表于 2025-1-27 13:50 | 显示全部楼层
本帖最后由 LeonsCat 于 2025-1-27 13:54 编辑

大江户战士在泥潭混的时候,外号刀妹啊……著名反绿战士。ID记得是【☣】医疗上尉和①СTAГЭ1。他属于和杜雯类似,当年都觉得或多或少是个精神病,时间长了居然成了正经人。
哦得提一句,和知乎外号刀妹的天涯明月刀绝对不是一个人。

评分

参与人数 1战斗力 +1 收起 理由
OVTVO + 1 你认错了,不是一个人

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 14:02 来自手机 | 显示全部楼层
我在小黑屋里看过同ID的号

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-27 14:10 来自手机 | 显示全部楼层
本帖最后由 alixsander 于 2025-1-27 14:41 编辑
qratosones1337 发表于 2025-1-27 13:11
24年9月华为挂了个Arxiv,提出了新的HiF8数据格式,按时间节点反推,出来发论文说明910C大概率已经实装了 ...


虽然但是…你靠这个来猜没什么意思……

直接点开稼先社区看一下R1训练和推理集群仿真的帖子和讨论就好了……

当然后面两家合作肯定会有的
回复

使用道具 举报

发表于 2025-1-27 14:13 来自手机 | 显示全部楼层
LeonsCat 发表于 2025-1-27 13:50
大江户战士在泥潭混的时候,外号刀妹啊……著名反绿战士。ID记得是【☣】医疗上尉和①СTAГЭ1。他属于和 ...

那就彻底错了。。大江户战士在泥潭就两个常用号
大江户战士和罗马字的oedosolider
刀妹是另一个人
回复

使用道具 举报

     
发表于 2025-1-27 14:15 | 显示全部楼层
刀妹自称是柳叶刀,和大江户战士不是一个人吧
回复

使用道具 举报

     
发表于 2025-1-27 14:20 来自手机 | 显示全部楼层
刀妹抽象女坛友

Oedosoldier是x上活跃的旅日/美青年?A1111时代还在泥潭讨论过SD

要说有什么相似度的话,看上去都还是偏建制的
回复

使用道具 举报

     
发表于 2025-1-27 14:22 来自手机 | 显示全部楼层
恒河水怎么了?有什么黑料吗?
回复

使用道具 举报

     
发表于 2025-1-27 14:52 来自手机 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 14:25
Meta内部成立了四个作战室分析DeepSeek,两个主攻训练效率,一个主攻训练数据,还有一个主攻模型架构。他们 ...

其实这几天国内大厂各种发文洞察deepseek的专家也一大堆,已经远超deepseek研发

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 15:50 | 显示全部楼层
Ty_cc 发表于 2025-1-27 14:02
我在小黑屋里看过同ID的号

—— 来自 鹅球 v3.3.96

大江户在漫区与百合豚战斗,然后陨落了
回复

使用道具 举报

     
发表于 2025-1-27 16:09 来自手机 | 显示全部楼层
lamuchair 发表于 2025-1-26 18:11
请问该如何操作啊?我给他一整个文档,他直接BA 工了

调教好以后直接复制原文给他

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-1-27 16:30 | 显示全部楼层
pf67 发表于 2025-1-27 08:06
赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事,但国内一堆的大厂也都在搞闭源嘛,只不过是因为内卷 ...

对于研究者也是好事,现在r1这个思路打开了,今年llm rl的工作要井喷了

而且rl llm的大小显著的小于主流的闭源llm,我觉得很多大企业要开始自研了
回复

使用道具 举报

发表于 2025-1-27 16:39 | 显示全部楼层
本帖最后由 mimighost 于 2025-1-27 16:41 编辑

deepseek r1最大的成果在r1 zero

v3你可以说本质上是一个工程上的工作,主要是显摆自己对于英伟达芯片的理解的

但是r1 zero是跨时代的工作,可以说和gpt3是一个同一个体量的工作。为什么呢,因为rl在llm上面一直是不work的,所以才会有各种prm/orm,各种rlhf用各种神经网络模型去拟合reward信号的手段。r1 zero直接告诉天下人,这些都不需要,你要是有答案,直接把答案对还是不对,作为信号输给模型学习就好了,其他的都交给算法。并且在600b的模型上把这个东西做成功了。这就很不得了了。

不出一个月,各个系列的开源模型,不管是llama还是千问,这个东西都会成为标配。


对于企业来说,这也是个重大利好,因为企业其实都是领域问题,实际上不需要几百b的超大模型,现在看来rl zero的训练方法,对于小llm非常友好,几十b也能上,而且跑个几千步就有很不错的效果。我预测会有很多企业训练自己的专用模型。
回复

使用道具 举报

发表于 2025-1-27 16:43 | 显示全部楼层
对于软工其实也是利好

r1的模型,其实把算法端的工程量简化了,之后的大量工作会集中在给rl建设环境上来,训练端会白菜化。
回复

使用道具 举报

发表于 2025-1-27 16:50 | 显示全部楼层
总的来说,deepseek这次开源对于世界都是一个贡献

但是不要把openai这么快的踩下,openai还有一些货,而且他们还有一些策略重新让开源无效。从o3现在流出的信息可以看出来,o3的思考时间可以长达十几分钟,甚至一个小时。这么说他们的context大小可能会有几百万上千万之多。这么大的context,即使开源了模型,跑得起来也没几个。
回复

使用道具 举报

     
发表于 2025-1-27 16:58 | 显示全部楼层
o3那个作弊到底实锤了没

—— 来自 S1Fun
回复

使用道具 举报

发表于 2025-1-27 17:04 | 显示全部楼层
本帖最后由 mimighost 于 2025-1-27 17:21 编辑
lactone 发表于 2025-1-27 16:58
o3那个作弊到底实锤了没

—— 来自 S1Fun

o3就算frontier math作弊,它swebench-v可有70%,这还是在agentless的条件下

总不可能所有测试都作弊吧,那放出来肯定就露馅了
回复

使用道具 举报

     
发表于 2025-1-27 17:16 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 17:19 编辑
mimighost 发表于 2025-1-27 16:39
deepseek r1最大的成果在r1 zero

v3你可以说本质上是一个工程上的工作,主要是显摆自己对于英伟达芯片的理 ...

对于RL能成功,我觉得实在是太Waaagh了。没想过居然这样就行。
我觉得从小模型从头训练不太可行。我对这个的理解就是,RL在大尺寸上才有效,一个大模型还是有必要的。训练出来后再慢慢蒸馏(虽然蒸馏这一步写的不如其他部分详细,我就特好奇这一步)


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-27 17:22 | 显示全部楼层
mimighost 发表于 2025-1-27 16:43
对于软工其实也是利好

r1的模型,其实把算法端的工程量简化了,之后的大量工作会集中在给rl建设环境上来, ...

按O1暗示的,高质量的过程reward甚至树搜索,很难复现或者实验成本太高了。R1这样的RL就简单多了。而且可以走R1 API->蒸馏 本地的R1版Qwen/llama->进一步RL专有模型微调这条路
回复

使用道具 举报

发表于 2025-1-27 17:26 | 显示全部楼层
泰坦失足 发表于 2025-1-27 17:16
对于RL能成功,我觉得实在是太Waaagh了。没想过居然这样就行。
我觉得从小模型从头训练不太可行。我对这个 ...

嗯,这个要看你rl的问题是什么

问题越难肯定就需要更大的模型

但是现在港科有人复现了,对于简单的游戏,7b甚至3b就能上r1 zero,所以要用多大尺寸的模型看你的问题的复杂度。r1 zero比起千问自己的QwQ-32B也差不多太多了,这个实现上简单太多了。
回复

使用道具 举报

     
发表于 2025-1-27 18:11 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 14:25
Meta内部成立了四个作战室分析DeepSeek,两个主攻训练效率,一个主攻训练数据,还有一个主攻模型架构。他们 ...

幻方的团队智力密度太高了, 至少有10位数的竞赛拿牌级别选手, 除了我国全世界其他国家都量产不了这么多智力资源

meta这种大公司病企业不要想了
回复

使用道具 举报

     
发表于 2025-1-27 18:40 来自手机 | 显示全部楼层
sellboy 发表于 2025-1-27 13:10
我让R1重翻,还叫他指出谷歌翻译的问题。

很有意思,在谷歌翻译看来we=我们,在deepseek嘴里we=他们
回复

使用道具 举报

     
发表于 2025-1-27 18:50 来自手机 | 显示全部楼层
让它写个总结报告的八股文,它直接说“ 对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。”,请问一般用什么句式,可以让它顺利完成。
回复

使用道具 举报

     
发表于 2025-1-27 19:03 | 显示全部楼层
API调用总提示欠费 402 Insufficient Balance
有人遇到过吗 充了10块钱也有免费额度 其他模型调用正常
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 12:30 , Processed in 0.236201 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表