找回密码
 立即注册
搜索
查看: 77378|回复: 499

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
     
发表于 2024-12-27 16:21 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 机吉斯卡 于 2025-1-27 11:37 编辑

1-27

其实很多人不知道DeepSeek(以下简称DS)具体创新了些啥,我就来捋一捋(可能有些学术):

1、首先是DS-V2(2024年5月发布,图1~图2)。DS-V2其实可以看做是DS第一次小出圈,当时就靠超低价格直接让国产大模型厂商纷纷降价。DS-V2放弃了DS-V1的dense(密集)路线,转而使用MoE(混合专家模型)路线。Dense大模型是目前国外主流的模型架构,但是其特点就是参数量大,硬件消耗大。MoE则是相当于把dense大模型变成很多个sparse(稀疏)的专家(expert)小模型,通过多个模型聚合来达到和dense大模型相当的能力。转成MoE架构,DS-V2不仅激活参数量**减少,并且性能提升很高。你可能问,MoE这么好为什么国外大模型不爱用呢?主要原因就是MoE大模型有个问题叫负载均衡(load balance),会导致训练不稳定。其表现就是:某些expert很重要而某些expert不重要,以至于删除某些expert整个模型都会崩掉,而删除另一些expert则几乎不会对模型性能产生影响。这会导致一个问题,就是训练过程中会采用所谓的专家并行(expert parallelism)机制,通过将不同的expert放到不同的显卡上来加速训练,而load balance问题会导致某些重要的expert计算量更大,最终结果就是不重要的expert所在的显卡跑不满,效率不够高。DS-V2则在一些现有的解决load balance问题的方法基础上,引入了额外的损失函数(即设备级平衡损失和通信平衡损失,图3)来让模型在训练中自主控制不同设备间的平衡。这两个优化方法都是他们的创新点。

DS-V2的另一大创新是MLA(Multi-Head Latent Attention,多头潜注意力,图4)。这个说起来就太复杂了,我就大概简单说下。在大模型运行过程中,每次生成一个token(你可以大概理解为一个字),而每个token只与之前的token有关。在不进行优化的情况下,每个token生成的时候都需要把之前所有的token都处理一遍,这样的话效率非常差。由于每个token只与之前的token有关,我们就可以把上一次生成过程中计算过的矩阵保存下来,这样生成下一个token我们可以复用这个矩阵,只需要计算新token的注意力即可。这个技术叫做kv-cache(解释的很笼统,实际上很复杂),是目前大模型非常常用的优化算法。但是kv-cache本质上是个“以空间换时间”的技术,即需要额外的显存保存这些kv-cache,这样的话在上下文(context)很长的情况下显存占用会非常高。此外,在实际部署时服务器一般会批量处理并发请求,这样的并发请求会带来恐怖的kv-cache量,会导致显存不够用。之前也有人试图优化kv-cache,2019年和2023年谷歌分别提出来了GQA和MQA,简单来说就是把多个多头注意力模块合在一起,共用kv-cache。这样子显存占用确实少了,但是对大模型的性能影响极大。MLA在我看来是个天才的想法,其思路和LoRA(玩过AI绘画和大模型的应该都知道这是啥)非常类似,就是把注意力模块里面的KV矩阵进行低秩分解,这样在保存kv-cache的时候保存的就是一群低秩矩阵,显存占用**减少的同时,可以更好的scale up模型参数(图5)。注意这只是一个非常简略的介绍,实际上MLA还是很复杂的,主要还需要处理位置编码的问题……

比较有趣的是去年梁文峰的访谈提到这个MLA是某位研究员突发奇想想到的[二哈]当然从想法到落地还是很难的,据他所说用了几个月。

2、DS-V3(2024年12月发布,从V2到V3之间他们也发布了不少模型,包括图文模型、统一多模态模型,这里不做过多介绍)发布时候引来了极大的关注,也是DS第一次大范围出圈,主要就是其训练成本低的令人吃惊。但需要注意的是,论文中所提550万美元训练成本实际上是按照租用H800训练的情况按出租费计算的,并没有算进数据和人工的成本。DS-V3和DS-V2采用了相同的MoE架构,但DS-V3引入了MTP(Multi-Token Prediction,多token预测,图6)机制。传统的LLM,每次只生成一个token,这种机制叫做NTP(Next-Token Prediction,次token预测)。MTP顾名思义就是一次生成多个token,这种想法并非DS原创,最早是Meta在24年4月提出的。但是DS对MTP架构进行了改进,那就是Meta的MTP,同时生成的多个token之间没有联系,相当于上文结束直接预测接下来的N个token。而DS的MTP,通过对MTP模块的重新设计,使得同时生成的多个token之间有了相互的联系,具体来说就是生成的第1个token会引导生成的第2个token会引导生成的第3个token……以此类推(此外这些MTP模块的输入是embedding而非Meta MTP的logits,这点解释起来会有点复杂但实际上很简单我就不说了)。DS-V3通过采用MTP,主要优点是:①MTP对数据的利用率更好②MTP在生成时可以通过更好的预先规划产生更好的生成结果。

除了架构上的升级,DS-V3的成本之所以能做到那么低,主要原因是DS优化了训练的方法。我并非并行计算工程师所以看不太懂这部分的内容,只能大致总结为几点:①采用FP8混合精度训练(图8)。一般来说现在的大模型都采用BF16精度训练,而DS-V3原生采用FP8精度进行训练,只有一些关键的参数采用BF16/FP32精度训练。FP-8精度训练的效率是BF-16精度约1.6倍。他们为了稳定的FP8训练对运算底层操作进行了大量优化,因为英伟达本身没有对FP8进行太好的优化,毕竟大部分AI企业都是再用BF16进行训练;②优化了并行流水线(pipeline,图7),如果说前面量化训练我还能看懂一些,这一部分我就完全看不懂了。只能看出他们通过重叠优化前向和反向传播过程中的计算和通信来提升pipeline并行效率,同时优化了节点(节点指一个计算单元,一般一个节点会有多张计算卡,跨节点通信一般是通过网线传输)之间的通信。他们这些优化可不是瞎优化的,而是针对他们自己的MoE架构的定制化优化,修改了英伟达原生的pipeline来最大化训练和推理效率。这些优化,再加上他们一次成功,没有返工的情况(这点很可贵,去年Amazon花14亿美元训练大模型结果练崩了,就是Amazon Titan),共同造就了DS-V3“AI拼多多”般的低成本(图9)。

他们在探索这么多之后对硬件设计提出了自己的看法(图10),其实主要就是提高FP8训练效率,实际上如果硬件设计更好些训练效率还能再提高。老黄的卡对FP8训练支持的一般所以他们做了大量修改才做到了稳定训练。

3、DS-R1(2025年1月公布)。DS-R1相比于V3,其创新性主要体现在“范式转换”上。一直以来,LLM的训练方式都是让模型跟着数据学生成,这种方式称之为监督学习(Supervised Finetuning,SFT)。而R1采用了强化学习(Reinforcement Learning,RL)的方法。RL实际上不是新东西,从玩游戏到机器人都能看到RL的身影。RL通俗来说就是让模型(agent)和环境(environment)进行互动,然后通过其互动的结果进行打分(reward),从而训练模型。大语言模型此前采用的RLHF(人类反馈强化学习)也是RL的一种。但和RLHF不同的是,R1采用的RL方法(称为GRPO,Group Relative Policy Optimization,组相关策略优化,图11)并不需要一个庞大的人类标注数据库。他的训练方式很简单:让模型自己生成过程,最后只检查结果是否正确。如果是数学题,那么就看输出的结果文本;如果是编程题,那就看运行后的结果。而DS发现,在V3的基础上直接采用这种简单的RL,竟然能让新的模型具有推理(Reasoning)的能力,而且随着训练步数增多,其思维链(Chain-of-Thought,CoT)的长度也越来越长(图12),并且发现模型开始在推理过程中自我反思(图13)。这个纯RL方法练出来的模型就是R1-Zero,叫Zero是受到AlphaGo-Zero的启发(AlphaGo-Zero是完全RL训练出来的模型,一开始没有教模型任何围棋知识,一切全靠模型自己摸索,最后达到超越人类)。

但是DS发现R1-Zero的CoT并不是很完美,最大问题是可读性很差。这相当于模型在自己练自己,没有额外的指导就会产生这样的效果。所以他们利用R1-Zero生成了一批带有CoT的“冷启动样本”,然后对V3进行了一次SFT,这样就获得了一个初步能够进行推理的模型(称为模型1)。接下来他们对模型1进行一次基于GRPO的RL(和R1-Zero一样),然后用这个模型1生成一批高质量的推理数据集。接着,再用V3生成一批没有推理的数据集(主要用于保证模型的文科类能力,比如写作、事实问答)。然后将这两个数据集合并(文理科合并),重新对V3进行SFT,获得模型2,再对模型2进行基于GRPO的RL,最终获得R1。整个流程如图14。

可以看到,R1的训练本质上是一个“左脚踩右脚”的过程(需要和之前所谓的“左脚踩右脚”的SFT区分开,那个是拿合成数据对模型进行SFT,结果效果很差),全程没有使用人工标注数据,从RL到冷启动到SFT到RL,全都是依靠V3自己的能力。R1证明了一件事:就是如果基础模型能力够强(如V3),在RL过程中它就能自己学会推理。这也是为什么国外AI圈的人看到DS-R1之后惊呼AGI竟然离我们如此之近的原因:因为R1说明能力足够强的模型是可以不依靠人类自己进化的(当然,严格来说现阶段的reward还是需要标签的)。

接下来呢?其实DS自己的技术报告里面写的很清楚了,R1并非完美,他们已经在着手改进。有几个重点:①通用能力:函数调用、多轮对话、复杂角色扮演、格式化输出,这些任务R1完成的一般;②语言混合:目前R1针对中英**了优化,CoT也主要是这两种语言,需要对更多语言进行优化;③提示工程:目前R1对提示很敏感,few-shot不如zero-shot;④软件工程:由于复杂软件的验证时间长效率低,所以在RL阶段没有对复杂软件任务的情景进行训练。

这几点我认为都是很容易解决的,我个人的提议是,最好能在RL阶段让模型在CoT里学会自己调用工具(比如使用计算器、网页搜索、调用API等),这样模型的CoT能力会有极大的提升(本质上是一种具有agent能力的CoT)。
https://weibo.com/5338698416/5127239862061288


1-26




1-21

大江户老哥现在不回来了
https://weibo.com/5338698416/5125284904568851

国内讨论DeepSeek-R1的不多,但是这东西在国外已经炸锅了。一家中国的小公司,没有几十万的计算资源,居然能发布赶超OpenAI-o1的模型,而且还是MIT协议开源的,并且定价是OpenAi的1/30,网页版甚至可以无限量使用。这太夸张了,我认为是一次AI领域的“小红书时刻”。

很多人可能会问DeepSeek把模型开源了难道不怕赔钱吗?我觉得,DeepSeek才是AI领域商业模式范式转换的那个。DeepSeek的超低定价形成一种非常独特的现象:如果你要配一台能够在本地运行R1的机器,需要的钱够你用好多年DeepSeek API了。而且我毫不怀疑哪怕有国外第三方公司试图部署R1模型,他们的定价也不会低于DeepSeek自己。也就是说,DeepSeek是真正的“游戏改变者”,他敢大方的开源就是因为他们知道哪怕你手上有模型,你也无法超过我。

这种思路和之前OpenAI等美国公司采用的“小院高墙”“护城河”策略形成鲜明对比。这种开源战略可以说是真的在掏空这些大公司的地基。我昨天在推上看到个美国人评论很形象,这就好像当年的美国肌肉车vs日本经济车一样。

顺带一提,DeepSeek在海外已经出现一小批死忠粉了,因为DeepSeek的LOGO是个鲸鱼,所以这群人都管DeepSeek叫Whale bro(鲸哥)[二哈]







https://weibo.com/1560906700/5116227597110418

这几天刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。

宇树在早年基本上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的吸引力,但从B系列型号开始,宇树的机器狗就在灵活性上可以和波士顿动力平起平坐了。

B2-W的意外在于切换了技术线,用运动性更高但平衡性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。

波士顿在机器狗身上也曾短暂用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业先驱,它连保持一家美国公司的实体都办不到了。

现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。

这理由就很离谱,美国的风险资本系统对于亏损的容忍度本来就是全球最高的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良资产卖来卖去?

那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为本能了。

A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以提供指数级增长的生意比起来,其他的行业都不够看。

并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也确实在证明这条攫取规模化利润的回报是最高的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。

这里说的丧失制造能力,并不是说丧失制造兴趣或是热情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后提供从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。

然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。

但软件终究不能脱离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。

所以像是多旋翼无人机和四足机器狗这类新兴科技萌芽的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。

波士顿动力的机器人最早在网上爆火的时候,Google X的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不高兴,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。

当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。

如果说宇树是在硬件上引起了一波怀疑现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。

在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude 3.5 Sonnet的测试结果。

DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是肯定的。

但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」

虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更高的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,肯定比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。

另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更高的解决方案,这种适得其反的剧情就太讽刺了。

DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。

所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。

李开复今年也一直在表达一个观点,中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。

零一和DeepSeek用的都是MoE(混合专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。

当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易⋯⋯

我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺复兴科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。

交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。

后来看过几次梁文锋的采访,对他的印象很好,非常清醒和聪明的一个人,我贴几段你们感受一下:

「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:所以你对这件事也是乐观的?

梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

⋯⋯

是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰,你可以说他们在过去是所谓的「小镇做题家」,但做题怎么了,参与世界未来的塑造,就是最有挑战性的题,喜欢解这样的题,才有乐趣啊。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 5战斗力 +6 收起 理由
馍馍鲜 + 2 好评加鹅
偽物 + 1 好评加鹅
ymm1030 + 1 好评加鹅
赛文欧德 + 1 好评加鹅
hbxsdfx + 1 中年人被粉了,淦

查看全部评分

回复

使用道具 举报

     
发表于 2024-12-27 16:25 | 显示全部楼层
量化交易是指AI量化交易吗? 这不还是AI, 也不算阴差阳错吧
回复

使用道具 举报

     
发表于 2024-12-27 16:28 | 显示全部楼层
从搞量化私募直接转行搞LLM,这个决心和眼界是真的牛逼
回复

使用道具 举报

     
发表于 2024-12-27 16:28 来自手机 | 显示全部楼层
deepseek的软文?
回复

使用道具 举报

     
发表于 2024-12-27 16:29 来自手机 | 显示全部楼层
本帖最后由 出逃白鲸 于 2024-12-27 16:32 编辑

楼主没贴作者名字,个人凭感觉这个作者肯定不是制造业的,说了半天很空洞。
观点也许对,但内容空,套话多,爱用无关例证,这种行文像是经常写蹭热度文章忽悠外行留下的习惯
回复

使用道具 举报

     
发表于 2024-12-27 16:31 | 显示全部楼层
软文
回复

使用道具 举报

     
发表于 2024-12-27 16:32 | 显示全部楼层
等chatgpt降价再说吧
回复

使用道具 举报

     
发表于 2024-12-27 16:33 | 显示全部楼层
以六代机为首的竞争刚好体现美国洛克希德马丁等制造业公司的极限,这就是美国人临盆难产面对的刚体洛希极限
回复

使用道具 举报

发表于 2024-12-27 16:34 | 显示全部楼层
本帖最后由 绝地潜兵 于 2024-12-27 16:35 编辑

机器人确实发展得好,但那个过程是在臆想吧。感觉是deepseek软文
回复

使用道具 举报

     
发表于 2024-12-27 16:35 来自手机 | 显示全部楼层
今天倒是微博上看到几个说v3效率惊人的,不过还是等能用到手再说吧

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v3.0.0.81-alpha
回复

使用道具 举报

头像被屏蔽
发表于 2024-12-27 16:38 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-12-27 16:39 来自手机 | 显示全部楼层
木水风铃 发表于 2024-12-27 16:35
今天倒是微博上看到几个说v3效率惊人的,不过还是等能用到手再说吧

—— 来自 HUAWEI NOH-AN00, Android 1 ...

V3你上他们官网就能用了。论文和权重也都开放了下载了
回复

使用道具 举报

     
发表于 2024-12-27 16:40 | 显示全部楼层
关注的几个傻X博主同时发了QVQ的商稿,对通义千问的好感大降。
另外之前Deepseek的API看了半天,发现没写多模态输入在哪。这次的V3也一样没多模态。
隔壁OpenAI除了翻车的Sora,多模态的4o,长推理的o1。得到的结果就是一个可以实时理解视频流和音频流并即时输出的模型,而不是走 视频/音频->文字->音频TTS的道路
回复

使用道具 举报

     
发表于 2024-12-27 16:42 | 显示全部楼层
做自媒体的人
回复

使用道具 举报

     
发表于 2024-12-27 16:45 | 显示全部楼层
我只能说我在推上搜DeepSeek基本都是吹的,和半年多之前的千问差不多
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-12-27 16:48 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2024-12-27 16:51 | 显示全部楼层
以前熟知的杭州大企业就一个阿里。现在知道的,有游戏科学,宇树,deepseek。
回复

使用道具 举报

     
发表于 2024-12-27 16:51 来自手机 | 显示全部楼层
本帖最后由 a4ac7 于 2024-12-27 17:03 编辑

在文字处理方面,感觉o1是有挺大提升的

拿坛友这个对子问



o1回答至少字数和结构对上了,4o和seek半斤八两,不过能达到4o也很nb了

试了下deepseek的深度思考,有点意思



—— 来自 鹅球 v3.2.91
回复

使用道具 举报

     
发表于 2024-12-27 16:55 | 显示全部楼层
软文,但是deepseek真的不错,这几天TWZ的文章我都用它翻译了看,有个回复里有个英文非主流词 '$hort' 都翻译对了,试了一下传统的翻译器都没做到
回复

使用道具 举报

发表于 2024-12-27 17:00 | 显示全部楼层
泰坦失足 发表于 2024-12-27 16:40
关注的几个傻X博主同时发了QVQ的商稿,对通义千问的好感大降。
另外之前Deepseek的API看了半天,发现没写多 ...

deepseek本来就不是个多模态模型啊。
回复

使用道具 举报

     
发表于 2024-12-27 17:03 | 显示全部楼层

纯软广,预训练技术路线已经到头了
下一代路线如果摸索出来,预训练直接被扫进垃圾桶

至于幻方转AI,纯被证监会制裁转行罢了,可以搜下《证券市场程序化交易管理规定》
回复

使用道具 举报

     
发表于 2024-12-27 17:05 来自手机 | 显示全部楼层
a4ac7 发表于 2024-12-27 16:51
在文字处理方面,感觉o1是有挺大提升的

拿坛友这个对子问

下联你贴出来一下可以吗
回复

使用道具 举报

     
发表于 2024-12-27 17:07 来自手机 | 显示全部楼层
不能这么拼,波士顿动力仍然有西方企业的核心技术优势:画饼
回复

使用道具 举报

发表于 2024-12-27 17:12 | 显示全部楼层
yuialon 发表于 2024-12-27 17:03
纯软广,预训练技术路线已经到头了
下一代路线如果摸索出来,预训练直接被扫进垃圾桶

这有啥好软广的。x上各路ai圈的推主这两天都在谈deepseek的新模型,openrouter上到deepseek api的流量翻了3倍。
回复

使用道具 举报

发表于 2024-12-27 17:14 来自手机 | 显示全部楼层
小李子大脸猫 发表于 2024-12-27 16:33
以六代机为首的竞争刚好体现美国洛克希德马丁等制造业公司的极限,这就是美国人临盆难产面对的刚体洛希极限 ...

今年各方面的进步,表明东大在技术创新能力上已经正式全面超越欧美
回复

使用道具 举报

     
发表于 2024-12-27 17:17 | 显示全部楼层
人家模型开源了,技术报告发了,官网也上线了,楼上一堆刷软文的是只会复读么?
回复

使用道具 举报

     
发表于 2024-12-27 17:26 | 显示全部楼层
一眼deepseek软文,deepseek牛逼没错,也不至于翻到豆包千问前面去
回复

使用道具 举报

     
发表于 2024-12-27 17:27 来自手机 | 显示全部楼层
本帖最后由 a4ac7 于 2024-12-27 17:34 编辑
洛拉斯 发表于 2024-12-27 17:05
下联你贴出来一下可以吗
问题:
帮我对个对子,一艘两攻共三架飞机四款新品搞得五角大楼六神无主七上八下酒后加班十分难受

ChatGPT o1:
下面是一条与原句在字数和节奏上相匹配的下联示例,可供参考。为了与上联同样带有“跳过九”的趣味,且在内容上与“五角大楼”“六神无主”“七上八下”等处形成对应,下联也巧用了数字与词语搭配,保持了同样的诙谐气质。

上联:
一艘两攻共三架飞机四款新品搞得五角大楼六神无主七上八下酒后加班十分难受

下联(示例):
一言两疑惹三大盟友四处施压惊动五角白宫六魄无存七扯八纠酒尽方言十分狼狈

拆分对照与释义:
  • 一言 两疑
    上联“一艘 两攻”,下联用“一言 两疑”呼应,皆为四字,暗示“说一句话却生出两种猜忌”。

  • 惹三大盟友
    对应上联“共三架飞机”。“三大盟友”既点出“三”这个数字,也让情节更加国际化。

  • 四处施压
    对应上联“四款新品”,同样以“四”字开头,表达多方向、多方面的动作。

  • 惊动五角白宫
    上联是“搞得五角大楼”,下联改为“惊动五角白宫”,既保留“五角”这一核心元素,又把“大楼”变成“白宫”,进一步衬托美方焦虑。

  • 六魄无存
    对应上联“六神无主”,继续使用“六”字+“魄”来与“神”对仗,营造神魂颠倒之感。

  • 七扯八纠
    上联“七上八下”,下联用“七扯八纠”,依旧是数字七、八的并列,形容混乱局面。

  • 酒尽方言
    上联是“酒后加班”,下联“酒尽方言”则表现“酒喝光了才开始胡说”之意,与加班后烦躁相呼应。

  • 十分狼狈
    对应“十分难受”,以“狼狈”烘托窘迫、糟糕的状态,跟“难受”形成近义映衬。


如果觉得用词或主题还可以进一步润色,也可以在保持字数和数词位置不变的前提下,根据实际需要做微调。希望对你的创作有所启发!

ChatGPT 4o:
上联:
一艘两攻共三架飞机四款新品搞得五角大楼六神无主七上八下酒后加班十分难受

下联:
九天八荒携七条龙舟六尺金枪破得五岳四海三江两岸一战风流

Deepseek:
十全九美有八斗才七步成诗六艺精通五湖四海三心二意一夜成名百般得意

Deepseek(带深度思考):
这是一句带有数字和对仗色彩的顺口溜,描述了一种混乱和无奈的场景。下面是对这句顺口溜的解释和可能的“对子”:

原句:
一艘两攻共三架飞机四款新品搞得五角大楼六神无主七上八下酒后加班十分难受

解释:
  • 一艘两攻:
    可能指一艘具有两种攻击能力的舰船。

  • 共三架飞机:
    指共有三架飞机。

  • 四款新品:
    指四种新产品或新装备。

  • 搞得五角大楼:
    可能指这些装备让五角大楼(美国国防部)感到困扰。

  • 六神无主:
    形容非常慌乱,没有头绪。

  • 七上八下:
    形容心情不安,忐忑不定。

  • 酒后加班:
    指在喝酒之后还要加班工作。

  • 十分难受:
    形容非常不舒服,可能指身体或心理上的不适。


对子:
(上联)一艘两攻共三架飞机四款新品搞得五角大楼六神无主七上八下酒后加班十分难受

(下联)一面五星展六尺红旗七彩光芒照亮八方天地九天揽月十分自豪

解释:
  • 一面五星:
    指一面五星红旗。

  • 展六尺红旗:
    展开六尺长的红旗。

  • 七彩光芒:
    形容红旗在阳光下闪耀着七彩的光芒。

  • 照亮八方天地:
    指红旗的光芒照亮了四周。

  • 九天揽月:
    指登月等航天成就。

  • 十分自豪:
    形容对国家成就感到非常自豪。


这个对子通过对比原句的混乱和无奈,表达了对国家成就的自豪感。

顺便这个第一次 Deepseek 带深度思考对的,“一花两叶共三春花开四季芬芳扑鼻使得五湖四海六合同春七彩斑斓八方来客九九归一十分和谐”,看来不太稳定

—— 来自 鹅球 v3.2.91

评分

参与人数 1战斗力 +1 收起 理由
洛拉斯 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

发表于 2024-12-27 17:32 | 显示全部楼层
本帖最后由 overflowal 于 2024-12-27 17:33 编辑
笨拙的机器人 发表于 2024-12-27 17:26
一眼deepseek软文,deepseek牛逼没错,也不至于翻到豆包千问前面去

大家觉得deepseek牛逼是因为它在各种benchmark表现真的跟闭源模型硬刚了啊,他们自己报告里也写了和qwen的对比。别这里虚空排位干不过豆包千问
回复

使用道具 举报

     
发表于 2024-12-27 17:32 | 显示全部楼层
本帖最后由 qratosones1337 于 2024-12-27 17:39 编辑
笨拙的机器人 发表于 2024-12-27 17:26
一眼deepseek软文,deepseek牛逼没错,也不至于翻到豆包千问前面去

笑死,论模型能力,豆包就是个CJB,也就是产品做的比较好而已,现在DeepSeek和Qwen就是国内的Top-2。然后Qwen现在已经放弃了超大模型冲SOTA了,专注于做中小模型,跟DeepSeek生态位正好错开了。
回复

使用道具 举报

     
发表于 2024-12-27 17:40 | 显示全部楼层
坐等千问qwq
回复

使用道具 举报

发表于 2024-12-27 17:41 | 显示全部楼层
美帝这几年甚至是十多年前万物转码的后遗症,认识不少学机械EE的纷纷抛弃制造业,纯coding又不是什么要智商的玩意儿,,
剩下的本土制造业学生疯狂追星马斯克这根独苗,tesla的实习目测不给钱简历都收爆
回复

使用道具 举报

发表于 2024-12-27 17:42 | 显示全部楼层
qratosones1337 发表于 2024-12-27 17:17
人家模型开源了,技术报告发了,官网也上线了,楼上一堆刷软文的是只会复读么? ...

国内公司发了一个堪比商业闭源模型的开源模型,技术报告写的清清楚楚,国外ai圈子讨论的热火朝天。
国内自媒体反应过来跟着吹一下,一群人第一反应是软文大内宣,我也是服
回复

使用道具 举报

     
发表于 2024-12-27 17:45 来自手机 | 显示全部楼层
overflowal 发表于 2024-12-27 17:32
大家觉得deepseek牛逼是因为它在各种benchmark表现真的跟闭源模型硬刚了啊,他们自己报告里也写了和qwen的 ...

别跑题,我的重点在软文,前面把宇树抬出来是因为直接说deepseek啊排行榜啊这种抽象的东西,你不容易有感。先用宇树吸睛,再吹deepseek,我的雷达响了
回复

使用道具 举报

     
发表于 2024-12-27 17:48 | 显示全部楼层
这玩意尺寸是671B,啥卡能放下啊. llama 3.2的405b都挺抽象的了.
回复

使用道具 举报

发表于 2024-12-27 17:50 | 显示全部楼层
笨拙的机器人 发表于 2024-12-27 17:45
别跑题,我的重点在软文,前面把宇树抬出来是因为直接说deepseek啊排行榜啊这种抽象的东西,你不容易有感 ...

那行吧,就是软文。deepseek这公司怎么会出现在在公众视野呢,肯定是软文没跑了
回复

使用道具 举报

     
发表于 2024-12-27 17:52 来自手机 | 显示全部楼层
这篇文章确实是标准的软文结构啊
标题是“西方vs中国”的标准引战标题党吸引眼球,开头讲了大概1/4的机械狗发展历程(宇树只是提了一嘴,更多的是“理性客观公正”地分析局势)
然后剩下3/4,“接下来说说软件”的转场之后,就是长篇大论“只针对”deepseek的夸奖和吹捧,放了一大段老板的个人访谈
直到最后文末总结,也把标题和开头扔在一边,专注于“优秀的老板和企业家”这个部分
就算他吹的是现在蓝星第一,那也是软文啊()

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.1.2
回复

使用道具 举报

     
发表于 2024-12-27 17:53 | 显示全部楼层
再加一个游科,软文就更明显了
回复

使用道具 举报

发表于 2024-12-27 17:55 | 显示全部楼层
泰坦失足 发表于 2024-12-27 17:48
这玩意尺寸是671B,啥卡能放下啊. llama 3.2的405b都挺抽象的了.

单卡是放不下了,真想跑可以尝试放到内存用CPU跑,应该速度是能用的。因为是MoE架构
回复

使用道具 举报

     
发表于 2024-12-27 17:55 | 显示全部楼层
泰坦失足 发表于 2024-12-27 17:48
这玩意尺寸是671B,啥卡能放下啊. llama 3.2的405b都挺抽象的了.

本来就放不下啊 moe结构说白了是省电费又不是省显存…

论坛助手,iPhone
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-27 21:53 , Processed in 0.188092 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表