FT:中国小型人工智能初创公司 DeepSeek 如何震惊硅谷
中国小型人工智能初创公司 DeepSeek 如何震惊硅谷对冲基金亿万富翁梁文锋在预算紧张的情况下建立模型,尽管美国试图阻止中国的高科技雄心
2025 年 1 月 25 日
本周,一家小型中国人工智能实验室公布了其尖端模型的技术细节,震惊了全球,使其低调的领导者成为反抗美国阻止中国高科技雄心的民族英雄。
由对冲基金经理梁文锋创立的 DeepSeek 于周一发布了其 R1 模型,并在详细论文中解释了如何在有限的预算下构建一个无需人工监督即可自动学习和自我改进的大型语言模型。
包括 OpenAI 和谷歌 DeepMind 在内的美国公司在推理模型领域取得了开创性进展,这是人工智能研究中一个相对较新的领域,旨在使模型匹配人类的认知能力。去年 12 月,总部位于旧金山的 OpenAI 发布了其 o1 模型的完整版本,但对其方法保密。
DeepSeek 的 R1 发布在硅谷引发了激烈辩论,讨论包括 Meta 和 Anthropic 在内的资源更丰富的美国 AI 公司能否捍卫其技术优势。
与此同时,梁在国内已成为民族自豪感的焦点。本周,他是唯一一位被选中参加与国家第二号领导人**公开会面的 AI 领袖。企业家们被告知要“集中力量突破关键核心技术”。
2021 年,梁在运营其量化交易基金幻方的同时,开始为其 AI 副项目购买数千个 Nvidia 图形处理单元。业内人士将此视为一位寻找新爱好的亿万富翁的古怪行为。
“我们第一次见到他时,他是个非常书呆子气的人,发型糟糕,还谈论着要建立一个包含 10,000 个芯片的集群来训练自己的模型。我们当时没把他当回事,”梁的一位商业伙伴说道。
“他无法清晰地表达他的愿景,只是说:我想建造这个,它将会改变游戏规则。我们原以为只有像字节跳动和阿里巴巴这样的巨头才能做到这一点,”该人士补充道。
梁在 AI 领域的局外人身份出人意料地成为了他的力量源泉。在幻方,他通过使用 AI 和算法识别可能影响股价的模式积累了一笔财富。他的团队变得擅长利用英伟达芯片进行股票交易赚钱。2023 年,他推出了 DeepSeek,宣布了开发达到人类水平的 AI 的意图。
“梁建立了一个卓越的基础设施团队,他们真正理解芯片的运作方式,”一家竞争对手LLM公司的创始人说道。“他带着他从对冲基金到 DeepSeek 的最优秀人才。”
在华盛顿禁止英伟达向中国出口其最强大的芯片后,本地人工智能公司被迫寻找创新方法,以最大化有限数量的本土芯片的计算能力——这个问题梁的团队已经知道如何解决。
一位接近该公司的 AI 研究人员表示:“DeepSeek 的工程师知道如何释放这些 GPU 的潜力,即使它们不是最先进的。”
业内人士表示,DeepSeek 专注于研究的独特定位使其成为一个危险的竞争对手,因为它愿意分享其突破,而不是为了保护商业利益而保密。DeepSeek 尚未从外部资金筹集资金,也没有采取重大举措将其模型货币化。
“DeepSeek 的运行方式就像 DeepMind 早期一样,”北京的一位人工智能投资者说,“它纯粹专注于研究和工程。”
梁亲自参与 DeepSeek 的研究工作,并利用其对冲基金交易的收益为顶尖 AI 人才提供高额薪酬。与抖音母公司字节跳动一样,DeepSeek 以向中国 AI 工程师提供行业内最高薪酬而闻名,其员工主要分布在杭州和北京的办公室。
“DeepSeek 的办公室感觉就像是为严肃的研究者准备的大学校园,”这位商业伙伴说道。“团队相信梁的愿景:向世界展示中国人也能具有创造力,从零开始构建事物。”
DeepSeek 和幻方未回应置评请求。
梁将 DeepSeek 定位为一家独特的“本土”公司,员工主要来自中国顶尖学府——北京大学、清华大学和北京航空航天大学的博士,而非来自美国机构的专家。
在去年接受国内媒体采访时,他表示他的核心团队“没有从海外归来的人。他们都是本土的……我们必须自己培养顶尖人才”。DeepSeek 作为一家纯中国 LLM 公司的身份,在国内赢得了赞誉。
DeepSeek 宣称仅使用了 2048 块英伟达 H800 芯片和 560 万美元,便训练出了一个拥有 6710 亿参数的模型,这一成本仅为 OpenAI 和谷歌训练类似规模模型所花费的一小部分。
加州大学伯克利分校的人工智能政策研究员 Ritwik Gupta 表示,DeepSeek 最近的模型发布表明,“在人工智能能力方面不存在护城河”。
“第一个训练模型的人必须投入大量资源才能达到目标,”他说。“但后来者可以更便宜、更快速地实现。”
Gupta 补充说,中国拥有比美国更大的系统工程师人才库,这些工程师懂得如何更经济地利用计算资源来训练和运行模型。
业内人士表示,尽管 DeepSeek 在资源有限的情况下展现了令人印象深刻的成果,但随着行业的发展,它能否继续保持竞争力仍是一个悬而未决的问题。
幻方作为其大支持者,在 2024 年的回报落后,一位接近梁的人士将此归咎于创始人主要将注意力集中在 DeepSeek 上。
其美国竞争对手并未停滞不前。他们正在构建基于英伟达下一代 Blackwell 芯片的巨型“集群”,打造出可能再次与中国竞争对手拉开性能差距的计算能力。
本周,OpenAI 表示正与日本软银成立一家名为 Stargate 的合资企业,计划在美国投资至少 1000 亿美元用于 AI 基础设施。埃隆·马斯克的 xAI 正在大规模扩展其 Colossus 超级计算机,以容纳超过 100 万个 GPU,用于训练其 Grok AI 模型。
“DeepSeek 拥有中国最大的先进计算集群之一,”梁的商业伙伴说。“他们目前的容量足够,但不会持续太久。”
https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e
这不还是openai的软文么?就一个意思,未来不行还得看美国 本帖最后由 lin2004 于 2025-1-26 22:15 编辑
你说这个谁懂呀? 发表于 2025-1-26 22:08
叠算力肯定是有用的,
目前来看work的其实就是一个scaling law了,
像是COT这种东西我说句难听的,听起来扯淡 ...
无能美国人的做法只是在大量开垦土地把杂种种下去,东大限于有限土地资源会有更大的动力育种和杂交,而育种和杂交这种事情又看种子基数,也就是从业者和研究者数量来抽ssr,所以这米帝的ai美梦啊,大概率还是药丸。
其实我个人看来,ai这小破玩意其实很光伏和电池是一样的,不是看你有什么dio炸天的极限参数,到最后唯一的评判标准是算单位成本,大资源高价浪费堆性能是不具备竞争力的。 你说这个谁懂呀? 发表于 2025-1-26 22:08
叠算力肯定是有用的,
目前来看work的其实就是一个scaling law了,
像是Reasoning这种东西我说句难听的,听起 ...
DeepSeek证明了一件事,就是未来是靠RL而不是SFT,所以数据没那么重要了
实际上OpenAI在GPT-4o之后基础模型就没有大进步了,我怀疑GPT-4o的表现很可能就是传统SFT的LLM的上限,各家非推理的LLM最后性能都落在GPT-4o附近
接下来是RL的时代,模型自己学,左脚踩右脚上天
我也觉得是成本问题。人家都开源了,大部分中低端需求已经可以低成本的满足了,你硅谷这些项目还这么大的投入,怎么才能把钱赚回来。
就算要骗华尔街的钱,故事也要讲的通才行。 收割a股韭菜的钱给人工智能研究人员发工资是么。。 本帖最后由 ryanghj 于 2025-1-26 23:01 编辑
呼鲁鲁修 发表于 2025-1-26 22:21
我也觉得是成本问题。人家都开源了,大部分中低端需求已经可以低成本的满足了,你硅谷这些项目还这么大的投 ...
其实是效率问题。英伟达现在的股价是按照dense大模型scale up来做预计的,也就是计算资源需要指数级增加。但是现在deepseek证明通过优化训练和推理,并不需要那么多的算力。也就是说现在很多大公司的卡已经完全够训练比deepseek r1还要好得多的模型,但是目前却是deepseek先搞出来的。
这也算是路线之争,美国大公司不差钱也没限制,就开始狂堆卡,狂炼dense大模型;国内公司有钱也买不到卡,于是敢于采用新路线,训moe大模型,改进transformer架构(deepseek v2-r1就用了他们自己提出来的MLA多头潜注意力模块和MTP多token预测来做优化),改进训练底层算法(因为带宽被阉割于是自己写多卡资源调度) 算力寡头主义和算力共 产路线之争拼好AI必秒closeAI 我看英伟达股票也没跌多少啊。 DeepSeek 尚未从外部资金筹集资金,也没有采取重大举措将其模型货币化。
A股股民:朕的钱不是钱?!
—— 来自 鹅球 v3.3.96 钦念以忱 发表于 2025-1-26 22:39
我看英伟达股票也没跌多少啊。
这泡沫光一个Deepseek戳不破的,Ai算力神话还可以讲很久。
炒到一定地步后就和meme币一样,不需要故事有多真实,有就行了。 本帖最后由 qratosones1337 于 2025-1-26 23:01 编辑
实际上我们应该考虑另一个问题——软件工程领域,人月神话是不存在的,而大模型训练本质上仍然是智力密度极高的大型软件工程活动。资源固然重要,但如果你的资源无限膨胀,超过了你的人员素质和组织能力能够驾驭的上限,那么过多的资源反而会拖慢组织效率,进而导致劣化的结果。游戏圈有类似的例子——游科花了8KW美元做出来黑猴,索尼花了8亿,能做出更好的游戏么?结果做出来星鸣特工……
Meta 号称准备了数十万卡的算力,结果实际组织效率远远不足以驾驭如此庞大的资源,最后的结果就是养了一堆**小小的史密斯专员,结果LLama2被Mistral薄纱,LLama3被Qwen薄纱,现在LLama4还没出来就被DSV3薄纱了……
由此可证,就算星际之门真的建成了,最后也只会被中国这边的精锐团队反杀——适当的算力限制是好事,中国人居安思危的本能,叠加算力限制,意味着组织度的空前提升,即使是阿里集团这样的大企业也一样能后发先至成为开源届新扛把子。
讲真,这一波就我观察来看,影响比六代机大多了,之前是还是相对偏门的军事领域,这次是随便访问的大模型,甚至还开源了,以至于莫名出现一堆野生AI大师在不断提closeai挽尊,closeai赶紧收编吧,强人工智能就在眼前了 钦念以忱 发表于 2025-1-26 22:39
我看英伟达股票也没跌多少啊。
DeepSeek搓破的是闭源大模型每月坐收几百美金的这点钱,广大AI从业者们还做着AGI的梦呢。
英伟达想跌只有财报披露了,今年如果大部分都深挖算力不买卡下次财报披露时就跌了。 qratosones1337 发表于 2025-1-26 22:46
实际上我们应该考虑另一个问题——软件工程领域,人月神话是不存在的,而大模型训练本质上仍然是智力密度极 ...
这个其实也是我的看法,无论任何领域,从目前的角度来看,从本质上来说都是改进人类生产力的工具,也就是说人类作为生产力的创造方这一点目前无法被任何事物取代,AI也好,任何机械也好,都只是服从人类意志的工具,所以人始终都是最重要的变量,最重要的是确保人在各个领域的影响是正向且积极的,那么才有可能在这个领域获得更正向且积极的结果。 英伟达的b200交付继续大规模延迟,不说deepseek,正常逻辑下出这种问题股价都要大跌一阵,你看现在有几个人说这事么? tillnight 发表于 2025-1-26 23:29
英伟达的b200交付继续大规模延迟,不说deepseek,正常逻辑下出这种问题股价都要大跌一阵,你看现在有几个人 ...
政策市是这样的,现在米帝大资本谁敢跳车不撑盘会被ds物理抹杀的。 用算法掀算力卡的桌,这很大的利好了 你说这个谁懂呀? 发表于 2025-1-26 22:50
是这样的,
我感觉现在LLM能力其实足够了,
不说别的,现在的GPT-4o真的不能替代绝大部分服务员吗?
国内刚出了个ai工业链的投资政策,奔着落地应用去了 coffinzh 发表于 2025-1-26 23:32
用算法掀算力卡的桌,这很大的利好了
然后按照时间进度,今年上半年昇腾910C差不多就要大规模商用了……这要是原生支持DSV3用的FP8格式,那应该还能有一个飞跃。
DSV3使用的FP8格式是自己定义的,H系列显卡硬件并不支持 DeepSeek 专注于研究的独特定位使其成为一个危险的竞争对手,因为它愿意分享其突破,而不是为了保护商业利益而保密
听听这是人话吗
—— 来自 鹅球 v3.3.96 本帖最后由 lin2004 于 2025-1-27 00:18 编辑
overflowal 发表于 2025-1-27 00:12
DeepSeek 专注于研究的独特定位使其成为一个危险的竞争对手,因为它愿意分享其突破,而不是为了保护商业利 ...
资本主义喜欢用重资产低效率路线而鄙视轻资产高效能的技术为了提高门槛焊死车门垄断剥削,你把人领到另一条路线轻资产就把这玩意实现了的路线上这确实是要杀资本家全家啊,能不急么,不说别的已经投入的重资产马上估值打折你赔啊.PNG https://p.sda1.dev/21/33b449e01653eee5c9596096da6b4468/image.jpg IBM大型机怎么凉的
Alpha和Sun怎么凉的
铱星怎么凉的
那么老黄的AI泡泡也会怎么凉... phorcys02 发表于 2025-1-27 00:43
IBM大型机怎么凉的
Alpha和Sun怎么凉的
铱星怎么凉的
说起来铱星怎么凉的我还不知道呢小时候看觉得可先进了
—— 来自 鹅球 v3.3.96-alpha 奇葩的是,几个月前还能见到马孝子吹gork的,说gork爆杀一切,早几把查无此人了 Lorraine_Kinney 发表于 2025-1-27 00:47
奇葩的是,几个月前还能见到马孝子吹gork的,说gork爆杀一切,早几把查无此人了 ...
Grok-1也是MoE模型,跟现在DSV3差不多,结果性能被当时的Qwen1.5-72B吊打…
—— 来自 鹅球 v3.3.96 话虽这么说还是得有自己的ai芯片啊,华为说是在这方面有能用的东西,也不知道现在进展怎么样了 这最后还是在画饼说更大集群,刻意忽略了deepseek的成功方式
—— 来自 鹅球 v3.3.96-alpha jonarryn 发表于 2025-1-27 00:50
话虽这么说还是得有自己的ai芯片啊,华为说是在这方面有能用的东西,也不知道现在进展怎么样了 ...
910B已经大量商用了,910C刚开始测试
—— 来自 鹅球 v3.3.96 本帖最后由 月咏Koala 于 2025-1-27 01:07 编辑
红炉灰 发表于 2025-1-27 00:46
说起来铱星怎么凉的我还不知道呢小时候看觉得可先进了
—— 来自 鹅球 v3.3.96-alpha ...
第一期投资了50亿美刀,但是选了个非常少见的频段,每秒传输的数据只能不超过 2.4 KB的速率,在第一年就消耗了10亿刀的运营成本,亏得连妈都不认了。铱星计划是真的一个草台班子。
jonarryn 发表于 2025-1-27 00:50
话虽这么说还是得有自己的ai芯片啊,华为说是在这方面有能用的东西,也不知道现在进展怎么样了 ...
v3,r1的推理都是首发支持昇腾的。据说去年开始幻方就往外开卖v2的推理训练昇腾一体机了。v3的训练方面按照我昨天问r1的说法,华为这套东西在互联上还是不大行所以没有用昇腾910b,说不定今年就能解决
国内不止幻方一家在试底层创新的
成本普遍比国外同行要低
—— 来自 鹅球 v3.3.96 看了v2时的访谈说有生之年一定有AGI 奥特曼说这话我不太信 这下我信了
很多想法是俺也一样的可惜我没什么条件去投入这波历史事件了 呼鲁鲁修 发表于 2025-1-26 22:21
我也觉得是成本问题。人家都开源了,大部分中低端需求已经可以低成本的满足了,你硅谷这些项目还这么大的投 ...
财富只是转移了,没问题,这辆车上的每个人都赚到钱了,到了下个风口换辆车继续呗,AI泡沫爆了就爆了,资本才不在乎呢…… Lorraine_Kinney 发表于 2025-1-27 00:47
奇葩的是,几个月前还能见到马孝子吹gork的,说gork爆杀一切,早几把查无此人了 ...
Grok还不如Llama啊,吹这个的就是纯马一龙粉丝,对AI没有任何了解的
—— 来自 S1Fun 钦念以忱 发表于 2025-1-26 22:39
我看英伟达股票也没跌多少啊。
互联网泡沫当年也撑了很久,甚至熬死了几个提前看清泡沫的金融大鳄
空头难做就是因为你知道有泡沫,也无法预测它啥时候会破灭啊
页:
[1]
2