找回密码
 立即注册
搜索
楼主: 机吉斯卡

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
     
发表于 2025-1-27 09:47 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 09:51 编辑
机吉斯卡 发表于 2025-1-27 09:17
我能吧泰坦哥踢出这个楼吗?好像只有版主才可以吧

你要觉得你赢了,你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planetbanatt.net/articles/v3fermi.html 并不是“任何拥有 500 万美元的人都可以训练 Deepseek-V3 ”,而是只有足够数据,走在正确路线上的人,在付出了“500 万美元成本的GPU小时”后,能获得一个4o级的模型。而R1,只能说OpenAI是the man who sold the world。所有人都不知道RL才是走的通的道路之一。而DeepSeek有足够的成本和勇气走通了。对于小公司和学术研究而言,那一个“4.2. Unsuccessful Attempts”就是一个公司的大裁员。
而且MOE和Dense模型本来在训练成本上有差距,这一点大家本就知道。但是之前大家一直认为MOE这路不如Dense。两大龙头Llama和Qwen主要都走的是Dense这条路。Qwen有时候是Dense有时候是MOE,最新的还是以Dense居多。我在R1之前一直也是Dense这派的。而且认为70b左右的模型就是甜点尺寸。正好能量化后装进一个4090里。
https://www.microsoft.com/en-us/ ... eneration-ai-scale/

评分

参与人数 7战斗力 -7 收起 理由
denglinas1 -2
momodog -2
UNICORN00 -1 别歪楼
initium -1 神经病
仓岛千百合 -1 **
油条小贩 -1 看你好急
harry3 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

发表于 2025-1-27 09:52 | 显示全部楼层
泰坦失足 发表于 2025-1-27 09:47
你要觉得你赢了,你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planet ...

可算了吧 我说星际之门纯骗钱的你就搬出5G骗钱,后面EUV灭美怎么不回我了?这玩意儿是真的美股毁灭机
回复

使用道具 举报

     
发表于 2025-1-27 09:53 | 显示全部楼层
泰坦失足 发表于 2025-1-27 09:32
我也没见县城到县城之间有高铁啊?再说5G更像是高速公路,铁路/高速公路/普通道路/空运/海运就像有线/WLA ...

4G属于被5G上位替代难以构成互补的,首先基础算法就保证了5G有比4G更高的利用率。
而使用波束成形天线更是允许在人少的地方使用低频频段实现更稀的全覆盖。
人多的地方使用高频,不仅频宽更大数据吞吐量增强,而且低覆盖反而成了基站高密度部署不怕彼此干扰的优点。

无论疏密部署,5G都是上位选择。
回复

使用道具 举报

     
发表于 2025-1-27 10:04 | 显示全部楼层
Alce79 发表于 2025-1-27 09:52
可算了吧 我说星际之门纯骗钱的你就搬出5G骗钱,后面EUV灭美怎么不回我了?这玩意儿是真的美股毁灭机 ...

我又不懂EUV,投资美股基金纯粹是为了跑赢通胀,。国内电车/消费电子这么发达也没影响美股中的对应公司股票啊。再说我是觉得AI这路还走的下去,5年前最先进最大最in的模型还是Google的T5。它能干这个:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 3战斗力 -4 收起 理由
denglinas1 -2
initium -1 神经病
油条小贩 -1 看你好急

查看全部评分

回复

使用道具 举报

发表于 2025-1-27 10:09 | 显示全部楼层
泰坦失足 发表于 2025-1-27 10:04
我又不懂EUV,投资美股基金纯粹是为了跑赢通胀,。国内电车/消费电子这么发达也没影响美股中的对应公司股 ...

是美国跑AGI快还是闹钟跑EUV快?
我之前说星际之门连应用场景的饼都没画摆明对家内部是无头苍蝇继续堆算力,你上来就说堆算力是对很快出简陋版AGI。
提EUV的原因是你自己先转5G得出无用没关系,我提EUV的理由是无用有关系 星际之门要真像5G结局就等着被闹钟的EUV引爆美股核弹。
回复

使用道具 举报

发表于 2025-1-27 10:10 来自手机 | 显示全部楼层
你们能不能不要回泰坦了,这人说话总让我幻视成一个话多的MD2.

评分

参与人数 1战斗力 +1 收起 理由
黄泉川此方 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 10:12 | 显示全部楼层
泰坦失足 发表于 2025-1-27 10:04
我又不懂EUV,投资美股基金纯粹是为了跑赢通胀,。国内电车/消费电子这么发达也没影响美股中的对应公司股 ...

能不能发展有没有泡沫是两个问题
现代互联网比21世纪初的互联网发展何止百倍,但是那时的互联网企业的估值就是有泡沫还爆了。
回复

使用道具 举报

     
发表于 2025-1-27 10:13 来自手机 | 显示全部楼层
现实技术,和股票之类早没关系了。
回复

使用道具 举报

     
发表于 2025-1-27 10:16 来自手机 | 显示全部楼层
本帖最后由 alixsander 于 2025-1-28 10:45 编辑
泰坦失足 发表于 2025-1-27 09:47
你要觉得你赢了,你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planet ...


我也同意这个看法

本身MoE又不被看好,又转回稠密了,是DS有魄力重新去走这条路

DSV3的训练机时估算是500万美元很厉害
但不代表项目开销是500万,这本身是一个很显然的事实

赢赢赢没意思,实际上硬件劣势还是存在。Dual Pipe本身也是针对H800的创新,其他企业也可以使用。对Ascend超节点来说实际上不能使用TP发挥不了高联算比优势,在Dsv3的训练架构提升远没有H800大。

当然我也不怀疑后面会有针对国产设备进行极致优化的实践出现
回复

使用道具 举报

     
发表于 2025-1-27 10:19 | 显示全部楼层
Alce79 发表于 2025-1-27 10:09
是美国跑AGI快还是闹钟跑EUV快?
我之前说星际之门连应用场景的饼都没画摆明对家内部是无头苍蝇继续堆算力 ...

我从来都没觉得吹的那种AGI能短期内实现,我看好的一直都是大模型驱动的机器人。以NLP为例,最开始能正确处理几个长句子甚至一个文章输出一句话的答案都惊为天人。现在LLM的上下文低于64k就很丢人了。那如果一个模型能正确的认知世界,甚至3D世界,知道自己的交互对世界能产生什么作用。那会如何?是否是通用性人形助手机器人的曙光。我24年认为Sora有这种潜力,毕竟GPT最开始也不过是知道上面100个token给你往下写10个续写机器而已。后来证明,哦,好像没用。可能缺点什么,有可能是模型尺寸太小,有可能是这路走不通。
反正5000亿美元又不是一口气投进去的,美元通胀也不缺这一手,于是比喻了下5G。5G不也没想象中管用吗?5G元年时候各个写的和科幻小说似的。

评分

参与人数 1战斗力 -1 收起 理由
油条小贩 -1 看你好急

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 10:19 来自手机 | 显示全部楼层
Ai没了,再找新题材就行了,比如卖火星土地。据说当年上海解放时股市还在涨呐,你们太小看金融有多离谱了。
回复

使用道具 举报

发表于 2025-1-27 10:23 | 显示全部楼层
星花 发表于 2025-1-27 10:19
Ai没了,再找新题材就行了,比如卖火星土地。据说当年上海解放时股市还在涨呐,你们太小看金融有多离谱了。 ...

想多了 EUV出炉并迭代AI芯片意味着美国最后的科技堡垒也完蛋了,半导体产业要被冲烂。
回复

使用道具 举报

     
发表于 2025-1-27 10:33 来自手机 | 显示全部楼层
机器人你必须把那堆东西放到机器内部,你总不能指望联网吧?那就又回到5G有没有用的问题了。
还有别把技术看的那么重,阿根廷股市也是能涨的,虚拟币也是能涨的,甚至一块石头也是能吵的。
回复

使用道具 举报

发表于 2025-1-27 10:33 | 显示全部楼层
即使硬件被突破,整个美西方也还有一整套软件生态,以及配套的媒体系统,硬件技术不是最后的堡垒,而是任重道远的攻坚战的前哨

论坛助手,iPhone
回复

使用道具 举报

发表于 2025-1-27 10:58 | 显示全部楼层
机吉斯卡 发表于 2025-1-27 09:17
我能吧泰坦哥踢出这个楼吗?好像只有版主才可以吧

键政大V就算了,恒河水这种玩意儿的帖文就别转了
回复

使用道具 举报

     
发表于 2025-1-27 11:20 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-1-27 10:19
我从来都没觉得吹的那种AGI能短期内实现,我看好的一直都是大模型驱动的机器人。以NLP为例,最开始能正确 ...

5G比元年吹的那些管用多了,它只是不像4G技术在个人终端领域给普通人肉眼可见的体验提升而已。

不熟悉的领域少露怯,别瞎打比方。
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 11:22 来自手机 | 显示全部楼层
harry3 发表于 2025-1-27 10:58
键政大V就算了,恒河水这种玩意儿的帖文就别转了

大江户应该可以吧
回复

使用道具 举报

     
发表于 2025-1-27 11:22 | 显示全部楼层
踢人没必要吧,不想看直接挂黑名单不就得了
不过只为跑赢通胀其实没必要投资美股,风险没兑现不代表没有风险
回复

使用道具 举报

     
发表于 2025-1-27 11:33 | 显示全部楼层
無始無終 发表于 2025-1-27 08:36
Kimi模型的性能太差了,怎么四两拨千斤啊,拿知乎toyama nao做的模型评分来看
这是24年6月DeepSeek V2推 ...

啥时候开源啥时候上桌。
字节的文化基因让我对它说的任何话打三折。
回复

使用道具 举报

     
发表于 2025-1-27 11:35 | 显示全部楼层

刀妹的贴在审慎阅读前提下很有营养,但是什么恒河水啦之类的还是别拿来忽悠人了,阿怡都不如。
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 11:36 来自手机 | 显示全部楼层
其实很多人不知道DeepSeek(以下简称DS)具体创新了些啥,我就来捋一捋(可能有些学术):

1、首先是DS-V2(2024年5月发布,图1~图2)。DS-V2其实可以看做是DS第一次小出圈,当时就靠超低价格直接让国产大模型厂商纷纷降价。DS-V2放弃了DS-V1的dense(密集)路线,转而使用MoE(混合专家模型)路线。Dense大模型是目前国外主流的模型架构,但是其特点就是参数量大,硬件消耗大。MoE则是相当于把dense大模型变成很多个sparse(稀疏)的专家(expert)小模型,通过多个模型聚合来达到和dense大模型相当的能力。转成MoE架构,DS-V2不仅激活参数量**减少,并且性能提升很高。你可能问,MoE这么好为什么国外大模型不爱用呢?主要原因就是MoE大模型有个问题叫负载均衡(load balance),会导致训练不稳定。其表现就是:某些expert很重要而某些expert不重要,以至于删除某些expert整个模型都会崩掉,而删除另一些expert则几乎不会对模型性能产生影响。这会导致一个问题,就是训练过程中会采用所谓的专家并行(expert parallelism)机制,通过将不同的expert放到不同的显卡上来加速训练,而load balance问题会导致某些重要的expert计算量更大,最终结果就是不重要的expert所在的显卡跑不满,效率不够高。DS-V2则在一些现有的解决load balance问题的方法基础上,引入了额外的损失函数(即设备级平衡损失和通信平衡损失,图3)来让模型在训练中自主控制不同设备间的平衡。这两个优化方法都是他们的创新点。

DS-V2的另一大创新是MLA(Multi-Head Latent Attention,多头潜注意力,图4)。这个说起来就太复杂了,我就大概简单说下。在大模型运行过程中,每次生成一个token(你可以大概理解为一个字),而每个token只与之前的token有关。在不进行优化的情况下,每个token生成的时候都需要把之前所有的token都处理一遍,这样的话效率非常差。由于每个token只与之前的token有关,我们就可以把上一次生成过程中计算过的矩阵保存下来,这样生成下一个token我们可以复用这个矩阵,只需要计算新token的注意力即可。这个技术叫做kv-cache(解释的很笼统,实际上很复杂),是目前大模型非常常用的优化算法。但是kv-cache本质上是个“以空间换时间”的技术,即需要额外的显存保存这些kv-cache,这样的话在上下文(context)很长的情况下显存占用会非常高。此外,在实际部署时服务器一般会批量处理并发请求,这样的并发请求会带来恐怖的kv-cache量,会导致显存不够用。之前也有人试图优化kv-cache,2019年和2023年谷歌分别提出来了GQA和MQA,简单来说就是把多个多头注意力模块合在一起,共用kv-cache。这样子显存占用确实少了,但是对大模型的性能影响极大。MLA在我看来是个天才的想法,其思路和LoRA(玩过AI绘画和大模型的应该都知道这是啥)非常类似,就是把注意力模块里面的KV矩阵进行低秩分解,这样在保存kv-cache的时候保存的就是一群低秩矩阵,显存占用**减少的同时,可以更好的scale up模型参数(图5)。注意这只是一个非常简略的介绍,实际上MLA还是很复杂的,主要还需要处理位置编码的问题……

比较有趣的是去年梁文峰的访谈提到这个MLA是某位研究员突发奇想想到的[二哈]当然从想法到落地还是很难的,据他所说用了几个月。

2、DS-V3(2024年12月发布,从V2到V3之间他们也发布了不少模型,包括图文模型、统一多模态模型,这里不做过多介绍)发布时候引来了极大的关注,也是DS第一次大范围出圈,主要就是其训练成本低的令人吃惊。但需要注意的是,论文中所提550万美元训练成本实际上是按照租用H800训练的情况按出租费计算的,并没有算进数据和人工的成本。DS-V3和DS-V2采用了相同的MoE架构,但DS-V3引入了MTP(Multi-Token Prediction,多token预测,图6)机制。传统的LLM,每次只生成一个token,这种机制叫做NTP(Next-Token Prediction,次token预测)。MTP顾名思义就是一次生成多个token,这种想法并非DS原创,最早是Meta在24年4月提出的。但是DS对MTP架构进行了改进,那就是Meta的MTP,同时生成的多个token之间没有联系,相当于上文结束直接预测接下来的N个token。而DS的MTP,通过对MTP模块的重新设计,使得同时生成的多个token之间有了相互的联系,具体来说就是生成的第1个token会引导生成的第2个token会引导生成的第3个token……以此类推(此外这些MTP模块的输入是embedding而非Meta MTP的logits,这点解释起来会有点复杂但实际上很简单我就不说了)。DS-V3通过采用MTP,主要优点是:①MTP对数据的利用率更好②MTP在生成时可以通过更好的预先规划产生更好的生成结果。

除了架构上的升级,DS-V3的成本之所以能做到那么低,主要原因是DS优化了训练的方法。我并非并行计算工程师所以看不太懂这部分的内容,只能大致总结为几点:①采用FP8混合精度训练(图8)。一般来说现在的大模型都采用BF16精度训练,而DS-V3原生采用FP8精度进行训练,只有一些关键的参数采用BF16/FP32精度训练。FP-8精度训练的效率是BF-16精度约1.6倍。他们为了稳定的FP8训练对运算底层操作进行了大量优化,因为英伟达本身没有对FP8进行太好的优化,毕竟大部分AI企业都是再用BF16进行训练;②优化了并行流水线(pipeline,图7),如果说前面量化训练我还能看懂一些,这一部分我就完全看不懂了。只能看出他们通过重叠优化前向和反向传播过程中的计算和通信来提升pipeline并行效率,同时优化了节点(节点指一个计算单元,一般一个节点会有多张计算卡,跨节点通信一般是通过网线传输)之间的通信。他们这些优化可不是瞎优化的,而是针对他们自己的MoE架构的定制化优化,修改了英伟达原生的pipeline来最大化训练和推理效率。这些优化,再加上他们一次成功,没有返工的情况(这点很可贵,去年Amazon花14亿美元训练大模型结果练崩了,就是Amazon Titan),共同造就了DS-V3“AI拼多多”般的低成本(图9)。

他们在探索这么多之后对硬件设计提出了自己的看法(图10),其实主要就是提高FP8训练效率,实际上如果硬件设计更好些训练效率还能再提高。老黄的卡对FP8训练支持的一般所以他们做了大量修改才做到了稳定训练。

3、DS-R1(2025年1月公布)。DS-R1相比于V3,其创新性主要体现在“范式转换”上。一直以来,LLM的训练方式都是让模型跟着数据学生成,这种方式称之为监督学习(Supervised Finetuning,SFT)。而R1采用了强化学习(Reinforcement Learning,RL)的方法。RL实际上不是新东西,从玩游戏到机器人都能看到RL的身影。RL通俗来说就是让模型(agent)和环境(environment)进行互动,然后通过其互动的结果进行打分(reward),从而训练模型。大语言模型此前采用的RLHF(人类反馈强化学习)也是RL的一种。但和RLHF不同的是,R1采用的RL方法(称为GRPO,Group Relative Policy Optimization,组相关策略优化,图11)并不需要一个庞大的人类标注数据库。他的训练方式很简单:让模型自己生成过程,最后只检查结果是否正确。如果是数学题,那么就看输出的结果文本;如果是编程题,那就看运行后的结果。而DS发现,在V3的基础上直接采用这种简单的RL,竟然能让新的模型具有推理(Reasoning)的能力,而且随着训练步数增多,其思维链(Chain-of-Thought,CoT)的长度也越来越长(图12),并且发现模型开始在推理过程中自我反思(图13)。这个纯RL方法练出来的模型就是R1-Zero,叫Zero是受到AlphaGo-Zero的启发(AlphaGo-Zero是完全RL训练出来的模型,一开始没有教模型任何围棋知识,一切全靠模型自己摸索,最后达到超越人类)。

但是DS发现R1-Zero的CoT并不是很完美,最大问题是可读性很差。这相当于模型在自己练自己,没有额外的指导就会产生这样的效果。所以他们利用R1-Zero生成了一批带有CoT的“冷启动样本”,然后对V3进行了一次SFT,这样就获得了一个初步能够进行推理的模型(称为模型1)。接下来他们对模型1进行一次基于GRPO的RL(和R1-Zero一样),然后用这个模型1生成一批高质量的推理数据集。接着,再用V3生成一批没有推理的数据集(主要用于保证模型的文科类能力,比如写作、事实问答)。然后将这两个数据集合并(文理科合并),重新对V3进行SFT,获得模型2,再对模型2进行基于GRPO的RL,最终获得R1。整个流程如图14。

可以看到,R1的训练本质上是一个“左脚踩右脚”的过程(需要和之前所谓的“左脚踩右脚”的SFT区分开,那个是拿合成数据对模型进行SFT,结果效果很差),全程没有使用人工标注数据,从RL到冷启动到SFT到RL,全都是依靠V3自己的能力。R1证明了一件事:就是如果基础模型能力够强(如V3),在RL过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1之后惊呼AGI竟然离我们如此之近的原因:因为R1说明能力足够强的模型是可以不依靠人类自己进化的(当然,严格来说现阶段的reward还是需要标签的)。

接下来呢?其实DS自己的技术报告里面写的很清楚了,R1并非完美,他们已经在着手改进。有几个重点:①通用能力:函数调用、多轮对话、复杂角色扮演、格式化输出,这些任务R1完成的一般;②语言混合:目前R1针对中英**了优化,CoT也主要是这两种语言,需要对更多语言进行优化;③提示工程:目前R1对提示很敏感,few-shot不如zero-shot;④软件工程:由于复杂软件的验证时间长效率低,所以在RL阶段没有对复杂软件任务的情景进行训练。

这几点我认为都是很容易解决的,我个人的提议是,最好能在RL阶段让模型在CoT里学会自己调用工具(比如使用计算器、网页搜索、调用API等),这样模型的CoT能力会有极大的提升(本质上是一种具有agent能力的CoT)。
https://weibo.com/5338698416/5127239862061288
回复

使用道具 举报

     
发表于 2025-1-27 11:49 来自手机 | 显示全部楼层
本帖最后由 Imanmi 于 2025-1-27 12:45 编辑
x分裂者 发表于 2025-1-27 09:32
无人码头用了这么久5g了,又是我用不到=没有,而且讨论ds的楼扯什么勾八5g,在这恶心人吗 ...

很简单的道理啊,人家真的买了美股,所以现在都是在ai泡沫的崩盘恐惧下的发疯罢了……要我说一惊一乍其实不太适合玩美股,特别是现在大争之世(编辑一下,核心在ykw执政,他的言行很大程度左右美股波动,抗压不强会神经衰弱)
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 11:58 来自手机 | 显示全部楼层
LeonsCat 发表于 2025-1-27 11:35
刀妹的贴在审慎阅读前提下很有营养,但是什么恒河水啦之类的还是别拿来忽悠人了,阿怡都不如。 ...

刀妹谁?
回复

使用道具 举报

     
发表于 2025-1-27 12:00 | 显示全部楼层
美股今天相关都跌了,然后一堆人说是史普尼克时刻了
回复

使用道具 举报

     
发表于 2025-1-27 12:05 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 12:19 编辑
Imanmi 发表于 2025-1-27 11:49
很简单的道理啊,人家真的买了美股,所以现在都是在ai泡沫的崩盘恐惧下的发疯罢了……要我说一惊一乍其实 ...

---------------------------------

评分

参与人数 1战斗力 -1 收起 理由
油条小贩 -1 看你好急

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 12:42 | 显示全部楼层
哈哈哈哈哈哈哈

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-27 12:45 来自手机 | 显示全部楼层
感觉接下来硬件开发的侧重点可能也从大集群转向小单元迭代,节约成本提高效率
回复

使用道具 举报

     
发表于 2025-1-27 13:10 | 显示全部楼层

我让R1重翻,还叫他指出谷歌翻译的问题。
重新翻译后的中文版本:
David
@DavidSHolz

在我的测试中,DeepSeek 在古代中国哲学和文学领域彻底碾压了西方模型,同时它的英语能力也远超我的第一手中文资料来源。这种感觉就像与跨越世代的文学、历史和哲学知识进行深度对话——而这些内容我此前从未接触过。这令人十分动容。这种结果也在情理之中:西方实验室不重视中文数据的训练(但中国实验室却兼顾中英文数据)。值得注意的是,中国比西方多保留了数千年的文学遗产(因为西方已丢失了大部分罗马、希腊、埃及的文献,而中国保存了自己的典籍)。本质上,我们的 AI 模型缺乏西方思想体系的文学根基,但中国模型却完整保留了自身的文化基础。这既是一种传统的“数据优势”,也可能在精神与哲学层面的自我实现上,带来一种更隐性的优势。

谷歌翻译的错漏之处分析:
术语准确性

原文:"crushes"
谷歌译为“完胜”,但“彻底碾压”更贴合口语化表达,体现压倒性优势。

原文:"communing with... across generations"
谷歌译为“跨代交流”,但“与跨越世代的...进行深度对话”更精准传达“communing”的深层互动感。

语义连贯性

原文:"we lost the majority of our roman/greek/egyptian literature"
谷歌译为“我们失去了大部分罗马/希腊/埃及文学”,但“西方已丢失了大部分罗马、希腊、埃及的文献”更符合中文逻辑,并补充了“西方”作为主语。

格式与细节

原文:"several thousand years more of literary history"
谷歌译为“文学史比西方多了几千年”,但“多保留了数千年的文学遗产”更准确,强调“保留”而非单纯时间长度。

原文:"spiritual and philosophical self-actualization"
谷歌译为“精神和哲学自我实现”,但“精神与哲学层面的自我实现”更符合术语规范,且“层面”一词增强了表述严谨性。

标点与语法

原文分号 ";" 在谷歌翻译中被忽略,导致句子衔接生硬。重译版本通过分段和逻辑连接词(如“本质上”)优化了连贯性。

文化背景补充

原文隐含对比中西方文化传承差异,谷歌翻译未明确“中国保存典籍”与“西方丢失文献”的因果关系,重译版本通过补充“因为西方已丢失...”使逻辑更清晰。

总结:
谷歌翻译整体传达了原文大意,但在术语精准度、语义连贯性、文化背景补充等方面存在不足。重译版本通过优化措辞、补充逻辑关系,更完整地还原了原文的学术性与情感色彩。
回复

使用道具 举报

     
发表于 2025-1-27 13:11 | 显示全部楼层
alixsander 发表于 2025-1-27 10:16
我也同意这个看法

本身MoE又不被看好,又转回稠密了,是DS有魄力重新去走这条路

24年9月华为挂了个Arxiv,提出了新的HiF8数据格式,按时间节点反推,出来发论文说明910C大概率已经实装了这种格式——那么问题来了,你猜这种数据格式在研发的时候有没有DeepSeek跟着一起提需求?别忘了DeepSeek用的FP8格式也不是H卡原生支持的
回复

使用道具 举报

     
发表于 2025-1-27 13:15 | 显示全部楼层
就在刚刚,英伟达美股夜盘跌超5%,博通跌超4%。美股期货持续走低,纳斯达克指数期货跌超1.2%。与此同时,主导星际之门计划的软银集团股价一度下跌近6%,创下去年11月1日以来的最大跌幅;藤仓大跌超8%,东京电子和Disco均跌超3%。日经225指数盘中转跌。

今晚开盘是不是有乐子看了
回复

使用道具 举报

发表于 2025-1-27 13:43 来自手机 | 显示全部楼层
deepseek MLA主要是cache压缩和long context加速。MOE不是DS才推出来的路线,openAI和mistral都是。DS最大的突破还是RL和infra codesign
回复

使用道具 举报

     
发表于 2025-1-27 13:50 | 显示全部楼层
本帖最后由 LeonsCat 于 2025-1-27 13:54 编辑

大江户战士在泥潭混的时候,外号刀妹啊……著名反绿战士。ID记得是【☣】医疗上尉和①СTAГЭ1。他属于和杜雯类似,当年都觉得或多或少是个精神病,时间长了居然成了正经人。
哦得提一句,和知乎外号刀妹的天涯明月刀绝对不是一个人。

评分

参与人数 1战斗力 +1 收起 理由
OVTVO + 1 你认错了,不是一个人

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 13:55 来自手机 | 显示全部楼层
LeonsCat 发表于 2025-1-27 13:50
大江户战士在泥潭混的时候,外号刀妹啊……著名反绿战士。ID记得是【☣】医疗上尉。
哦得提一句,和知乎外 ...

叫刀妹的太多了,我知道大江户时候泥潭ID也是这个
记不清他是不是疫情时候回国的那个了

我记得和他在相关楼里讨论过计生问题
回复

使用道具 举报

     
发表于 2025-1-27 14:02 来自手机 | 显示全部楼层
我在小黑屋里看过同ID的号

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-27 14:10 来自手机 | 显示全部楼层
本帖最后由 alixsander 于 2025-1-27 14:41 编辑
qratosones1337 发表于 2025-1-27 13:11
24年9月华为挂了个Arxiv,提出了新的HiF8数据格式,按时间节点反推,出来发论文说明910C大概率已经实装了 ...


虽然但是…你靠这个来猜没什么意思……

直接点开稼先社区看一下R1训练和推理集群仿真的帖子和讨论就好了……

当然后面两家合作肯定会有的
回复

使用道具 举报

发表于 2025-1-27 14:13 来自手机 | 显示全部楼层
LeonsCat 发表于 2025-1-27 13:50
大江户战士在泥潭混的时候,外号刀妹啊……著名反绿战士。ID记得是【☣】医疗上尉和①СTAГЭ1。他属于和 ...

那就彻底错了。。大江户战士在泥潭就两个常用号
大江户战士和罗马字的oedosolider
刀妹是另一个人
回复

使用道具 举报

     
发表于 2025-1-27 14:15 | 显示全部楼层
刀妹自称是柳叶刀,和大江户战士不是一个人吧
回复

使用道具 举报

     
发表于 2025-1-27 14:20 来自手机 | 显示全部楼层
刀妹抽象女坛友

Oedosoldier是x上活跃的旅日/美青年?A1111时代还在泥潭讨论过SD

要说有什么相似度的话,看上去都还是偏建制的
回复

使用道具 举报

     
发表于 2025-1-27 14:22 来自手机 | 显示全部楼层
恒河水怎么了?有什么黑料吗?
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 14:25 来自手机 | 显示全部楼层
Meta内部成立了四个作战室分析DeepSeek,两个主攻训练效率,一个主攻训练数据,还有一个主攻模型架构。他们害怕LLaMA 4(还没完成训练)发布即落后

我个人的消息(来自我在Meta的同学)是这是真的,Meta内部正在把其他部门的人调过去救火,全在加班加点copy DeepSeek[二哈] ​​​

https://weibo.com/5338698416/5127397457793286
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-29 08:11 , Processed in 0.212747 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表