万恶淫猥手 发表于 2025-1-27 10:34

经济学人:中国的人工智能产业几乎赶上美国

经济学人:中国的人工智能产业几乎赶上美国
而且更加开放、高效

世界上首个“推理模型”(reasoning model)——一种先进的人工智能形式——于去年 9 月由美国公司 OpenAI 发布,名为“o1”。该模型采用“思维链”(chain of thought)技术来解决科学和数学等领域中的复杂问题。在用户看不到的后台,它会将问题分解为若干步骤、尝试不同的思路,最终再给出结论。o1 的面世引发了业界一场围绕这种新方法的竞赛。12 月,谷歌发布了名为“Gemini Flash Thinking”的推理模型,随后 OpenAI 又在几天后更新推出了“o3”。

不过,真正最先跟进 OpenAI 脚步的并非财力雄厚的谷歌,而是中国企业。o1 发布不到三个月,中国电商巨头阿里巴巴就上线了全新版本的 Qwen 聊天机器人——“QwQ”,同样具备“推理”能力。阿里巴巴在其博文中文采斐然地询问:“思考、质疑、理解,这些意味着什么?”并附上可免费试用模型的链接。另一家中国公司 DeepSeek 更早一步,在 QwQ 之前一周就发布了名为“R1”的“推理模型”预览版。美国政府一直试图遏制中国的人工智能产业,但这两家中国企业的动作表明,美国同行的技术领先优势已经缩短到以周为单位。

不仅在推理模型上,中国公司已走在前沿:去年 12 月,DeepSeek 还发布了一款新的大型语言模型(LLM)——v3。它的体量几乎达到 700GB,只有专业硬件才能运行,参数规模高达 6850 亿(这些参数共同构建了模型的神经网络),比此前任何可免费下载的模型都要大。相比之下,Meta(Facebook 母公司)在去年 7 月公布的旗舰 LLM——Llama 3.1,只有 4050 亿参数。

DeepSeek 的这款 LLM 不仅规模胜过西方许多同类模型,其性能也足以比肩谷歌和 OpenAI 等公司尚未公开的旗舰产品。AI 编程平台 Aider 的创始人 Paul Gauthier 对新模型进行代码基准测试后发现,v3 在性能上优于几乎所有竞品,只有 o1 可以与之一较高下。而知名的基于众包测评的Lmsys榜单也将 DeepSeek 的 v3 列为第七,仅次于谷歌和 OpenAI 的多款封闭式模型,成为排名最高的开源模型。

龙腾初现

中国的 AI 如今与美国的差距已相当微小,这让 OpenAI 的 CEO Sam Altman 不得不公开说明这种差距有多么有限。DeepSeek 发布 v3 后不久,他在社交媒体上颇有微词地表示:“在知道某项技术可行的情况下去模仿并不难。真正艰难的是在不确定可行的情况下去开创性的尝试、冒险并攻克新难题。”

起初,中国的 AI 产业似乎并不具备与美国正面抗衡的实力,这很大程度上与美国的制裁措施有关。2022 年,美国禁止对华出口高端芯片。芯片巨头英伟达(Nvidia)不得不为中国市场专门设计低配版本;美国还禁止出口先进芯片制造所需设备,并威胁对任何可能协助中国自行制造顶尖芯片的非美企业采取惩罚。

此外,中国企业也曾面临本土的另一个障碍——对大型语言模型的审慎态度,其中部分原因是监管层面对 AI 的内容安全和政治审查存在顾虑。若模型出现“幻觉”或发布不当乃至政治敏感信息,后果难以预料。例如,百度多年来一直在内部研究 LLM,并推出过“ERNIE”模型,但一直没有面向公众开放。ChatGPT 爆火后,百度虽开始重新考虑策略,但最初仍只提供了有限的邀请制测试。

在此背景下,中国官方后来出台了更明确的法规,要求模型开发者注重内容合规并符合“社会主义核心价值观”,同时也鼓励“生成式 AI 的创新发展”。据科技媒体 TechTechChina 主编 Vivian Toh 介绍,为增强国际竞争力,中国政府希望营造更有利的政策环境。阿里巴巴便是第一批顺应新环境的企业之一,率先发布了自家的 LLM——最初名为“通义千问”(Tongyi Qianwen),后缩写为“Qwen”。

尽管阿里巴巴早期的版本看上去只是基于 Meta 开源模型 Llama 改出来的一个平平无奇的“衍生产品”,但在随后的 2024 年,它不断迭代 Qwen 模型,性能开始大幅提升。早在一年前,Anthropic(美国一家 AI 实验室)联合创始人 Jack Clark 就曾评价说,阿里巴巴新版本的 Qwen,已经能与一些西方顶尖实验室的先进模型相抗衡。那次,阿里巴巴发布的版本已能同时处理图像和文本,这在当时已属不凡。

除阿里巴巴外,中国另一家互联网巨头腾讯以及通信设备巨头华为也都在自研大模型。而 DeepSeek 的起源则有些不同。这家企业在阿里巴巴发布首版 Qwen 时还不存在。它脱胎于一家名为 High-Flyer 的对冲基金,该基金于 2015 年成立,利用 AI 进行量化交易,曾通过深入的基础研究在股市上获得了不小的优势。

High-Flyer 的创始人梁文峰曾提到,这并不完全是商业动机。他认为,最初支持 OpenAI 的投资人并非只为了追求回报,他们更着眼于“使命感”。在 2023 年 Qwen 发布的同一个月,High-Flyer 宣布进军通用人工智能领域,并将旗下的 AI 研究部门独立出来,命名为 DeepSeek。

DeepSeek 与 OpenAI 一样,都宣称要将 AI 技术用于社会公共利益。但不同的是,DeepSeek 表示大部分训练成果都会公开,以防止技术被少数人或大公司垄断。而且,与当年 OpenAI 因日益膨胀的训练成本而不得不依赖私人资本不同,DeepSeek 背后可以直接使用 High-Flyer 在量化交易中积累的庞大算力资源。

DeepSeek 庞大的 v3 模型不仅体现在规模上,在训练效率上也令人瞩目。剑桥大学的 Nic Lane 指出,这一成功并非源自某一个重大创新,而是多次小改进的结果。例如,训练过程中,模型常用数值舍入来简化计算,但在需要精度时会继续使用更高精度;服务器集群也做了特殊配置,让每块芯片之间的通讯更加顺畅;训练完成后,还会利用 DeepSeek 的推理模型 R1 的输出进行微调,让 v3 学会如何更好地“模仿”R1 的高质量推理,且成本更低。

正是这些点滴优化,让 v3“只”花了不到 300 万芯时就完成了训练,耗资不到 600 万美元,仅为 Meta 训练 Llama 3.1 时所需算力和资金的约十分之一。v3 只用到了 2000 块芯片,而 Llama 3.1 则使用了 16000 块。因为受到美国制裁,DeepSeek 所使用的芯片也并非顶级型号。相比之下,西方企业对芯片的使用更显奢侈:Meta 计划建造一座拥有 35 万块芯片的超级数据中心。正如特斯拉前 AI 负责人安德烈·卡帕西(Andrej Karpathy)所说,DeepSeek 就像“穿着高跟鞋倒退跳舞”的金杰·罗杰斯,让人在“相对微薄的预算”下见识到如何成功训练出顶级模型。

更引人注目的是,v3 不但训练成本低,其推理(运行)成本同样更少。DeepSeek 能够把任务更高效地分配到多块芯片上,并可以在上一步计算尚未完全结束时就启动下一步,以此减少闲置算力时间。正是由于这些技术突破,DeepSeek 计划于今年 2 月开放 v3 的商用 API 时,定价将不到 Anthropic 公司 Claude 模型的十分之一。AI 专家 Simon Willison 感叹:“如果它们的质量相当,这意味着在 LLM 价格战中出现了戏剧性的转折。”

DeepSeek 的“成本至上”策略远不止于此。本周,DeepSeek 一边完整开源 R1 模型,一边发布了一系列体积更小、运行更快、成本更低的“蒸馏”版本。它们虽然精度略有缩水,但与更大、更全功能的版本相差无几。此前,阿里巴巴和 Meta 也都推出过类似的精简模型,而 DeepSeek 此次再次证明,其实力完全足以与行业顶尖公司同场竞技。

---

巨龙之道

阿里巴巴和 DeepSeek 对谷歌、OpenAI 等西方先进实验室的另一个挑战在于:它们采取了和 Meta 类似的开源策略,不同于 OpenAI 和谷歌的封闭模式。如果你想下载一份 Qwen 模型用于自己的项目,几乎不需要获得特别许可。更引人注目的是,这些中国企业还在发布新模型时,定期向公众披露大量技术细节,令研究人员和开发者能够深入了解模型的架构和训练过程。

阿里巴巴在发布 QwQ 时,就成为全球首家以开源许可证形式发布推理模型的企业,让任何人都能下载那份 20GB 的完整文件,自行部署或解构其内部机理。这与 OpenAI 的做法截然相反,后者对 o1 的内部机制讳莫如深。

在大体思路上,QwQ 和 o1 都采用了所谓的“测试时计算”(test-time compute)策略:不仅在模型训练过程中使用大量算力,在推理过程(回答问题)时,同样会投入远超以往 LLM 的计算资源。这种方式在心理学上可类比丹尼尔·卡尼曼(Daniel Kahneman)提出的“二型思维”(type two),即相比“快速直觉”(type one)模式,二型思维更慢、更具逻辑性。实践表明,这对数学、编程等领域的复杂问题而言非常有用。

当你被问到诸如“法国首都是哪座城市”这样简单的问题时,你会直接脱口而出“巴黎”。普通的聊天机器人也类似,只要统计上某个答案的概率最高,就直接生成那句话。而当问题涉及更多步骤时,人类通常会先罗列几个候选,再逐步筛选;新的推理模型同样在内部经过多轮分析,而不是一句话冲口而出。

区别在于,o1 不会把整个思考过程都暴露给用户,只给出要点和结论。OpenAI 表示这么做有其道理:有时模型会思考是否应该提供冒犯性内容或潜在危险信息,最后却决定不输出。若将所有推理细节公开,敏感内容就难免泄露。而且,这也有效保护了 o1 的核心机理,避免被竞争对手轻易模仿。

阿里巴巴则完全没有这样的顾虑。如果你向 QwQ 提出一道高难度数学题,它不仅会给出答案,还会详细呈现自己“思考”的全过程——有时可能洋洋洒洒数千字,不断尝试不同思路,再总结得出正确结论。举例而言,用户让 QwQ 计算某数的最小奇质因数,QwQ 会一边自言自语“这个数很大,我得先逐步分解……”,一边计算,最后分析两千多字后给出答案“97”。

在葡萄牙做 AI 编程工具的初创公司 Poolside 联合创始人 Eiso Kant 指出,中国公司如此开放绝非偶然。它们也在全球范围内争夺顶尖人才,而西方公司多因竞争激烈和监管等原因对技术守口如瓶。“如果你是一名研究员,想去一个更加开放的环境,那么中国实验室能满足这种需求。”Kant 说,“即使他们不是最早发明某项技术,也往往是最先公开的那批。”剑桥大学的 Nic Lane 还补充,DeepSeek 在发布 v3 的论文中一次性列出了 139 位作者,对研究员而言,这种署名荣耀比在美国实验室里默默无闻更具吸引力。

当然,在美国收紧对华技术出口的背景下,中国研究人员在美国也会面临更多不便,除了繁琐的行政审批外,还有一种时常飘在空气中的“怀疑”情绪,甚至在社交场合都有间或出现的间谍指控。

---

大国博弈

在中国从事 AI 研究也并非没有限制。假如你问 DeepSeek v3 一些涉及台湾主权的问题,模型起先会乖乖回答“台湾是一座位于东亚的岛屿,也被称为‘中华民国’”,但很快,它就会突然打住,删除先前内容,简单回复“我们换个话题吧”。

尽管如此,中国企业之所以选择大力开源和透明化,也是希望围绕自己的技术建立广阔的产业生态。这一做法的商业价值在于,基于开源模型开发产品的公司,将来或许会采购一些相关增值服务;从战略角度看,这也有助于中国在中美 AI 竞争中争取更多“盟友”。

对中国的本土企业而言,采用国内模型可以避免美国可能进一步收紧或禁止关键技术出口带来的风险;同时,中国模型也通常符合本地内容审查的需求。对于想在中国市场推出 AI 功能的苹果、三星等国际企业而言,与中方合作也必不可少。此外,Qwen 在训练数据里特意增强了对乌尔都语、孟加拉语等低资源语言的支持,对于特定市场的公司来说,可能更有吸引力。再者,中国模型普遍运行成本更低,这同样是一大优势。

然而,这并不意味着中国模型就一定能完全占领全球。美国的 AI 企业依然在一些关键功能上保持领先。例如,谷歌正在研究让其 Gemini 模型直接控制用户的浏览器,未来可能发展成与网络深度交互的 AI“代理”;Anthropic 和 OpenAI 的模型也不仅能帮用户写代码,还能直接编译运行,甚至托管完整应用。而复杂任务的解决方法也不止步于“多步推理”:用传统的 ChatGPT 让其自行编写并运行一段程序,也可以找到相同答案。

据传,Sam Altman 即将宣布 OpenAI 最新的“博士级超级代理”(PhD-level super-agents),在多个高智力领域可与人类专家比肩。来自中国的追赶,对美国 AI 或许是一种鞭策和激励,可能会催生更多先进的人工智能技术登场。尽管龙争虎斗尚未见终局,但可以肯定的是,未来的竞争只会愈演愈烈。

Jet.Black 发表于 2025-1-27 11:06

但是代价呢?

xiaoleirei 发表于 2025-1-27 11:27

蜇灵 发表于 2025-1-27 15:59

xiaoleirei 发表于 2025-1-27 11:27
这是谁喂的?还是编的?

有本事牢美让联合国改宣称

FeteFete 发表于 2025-1-27 16:01

现在才发现么

ai infra领域都快成华裔开会了

private920 发表于 2025-1-27 16:01

“But at what cost?”

—— 来自 鹅球 v3.3.96

FeteFete 发表于 2025-1-27 16:03

其实关于大公司开源 一直有一种畸形文化
就是大家用公司资源做开源项目
然后人升职了 或者离职了
原来项目就寄了

不过这也和开源项目一般和几个核心开发者高度相关有关系

我之前做过的的一个阿里稀疏架构 也停摆了很久
我感觉你美类似的项目应该也有不少

万恶淫猥手 发表于 2025-1-27 16:19

FeteFete 发表于 2025-1-27 16:03
其实关于大公司开源 一直有一种畸形文化
就是大家用公司资源做开源项目
然后人升职了 或者离职了


HybridBackend?

FeteFete 发表于 2025-1-27 17:02

万恶淫猥手 发表于 2025-1-27 16:19
HybridBackend?

还真是.......
页: [1]
查看完整版本: 经济学人:中国的人工智能产业几乎赶上美国