找回密码
 立即注册
搜索
楼主: 机吉斯卡

[科技] 西方自找的没落(转型DEEPSEEK讨论楼

[复制链接]
     
发表于 2025-1-26 20:07 | 显示全部楼层

事实上我怀疑OpenAI自己可能真的硬上了MCTS,现在o1写文章分条列举的倾向要远远高于R1,明显更死板,如果用MCTS腌入味了解释就很正常了。
回复

使用道具 举报

发表于 2025-1-26 20:13 | 显示全部楼层
机吉斯卡 发表于 2025-1-26 20:05
OPENAI可能知道些什么,但他们决定不说,我刚才那个转发就是

它要是早知道还搞出就目前这级别的模型且接着搞星际之门,那看来是算力过剩停不下来了。
回复

使用道具 举报

     
发表于 2025-1-26 20:16 | 显示全部楼层
考虑到stargate本来是从几百亿的项目膨胀到五千亿
投资人借坡下驴的可能性极高
回复

使用道具 举报

     
发表于 2025-1-26 20:27 | 显示全部楼层
变老的大二 发表于 2025-1-25 16:52
已经开始换赢法了,开源的deepseek的思路塞到拥有更多计算资源的西大互联网巨头手里会加速AGI的诞生,赢 ...

好家伙,还有这种赢法,波士顿/马一龙开源是牢美赢,幻方开源还是牢美赢,赢赢赢,大赢特赢!
回复

使用道具 举报

     
发表于 2025-1-26 20:30 | 显示全部楼层
deepseek 出来前,我推的四两拨千斤选手还是 kimi chat
回复

使用道具 举报

     
发表于 2025-1-26 20:31 来自手机 | 显示全部楼层
2017.05.04 发表于 2025-1-26 20:16
考虑到stargate本来是从几百亿的项目膨胀到五千亿
投资人借坡下驴的可能性极高 ...

星际之门的投资额从来都是奥特曼的经典营销学,业内外都肯定项目目前根本没有筹集到那么多钱,而且差额多。资本市场对这个卫星反响也很小,连微软都明示没有真金白银追加进这个项目,真实性可想而知。
回复

使用道具 举报

     
发表于 2025-1-26 20:34 来自手机 | 显示全部楼层
本帖最后由 pf67 于 2025-1-26 20:36 编辑

现在讨论的人多了,一些大厂里写洞察DeepSeek的专家人数已经超过deepseek的整个团队开发人数了233

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-26 20:38 | 显示全部楼层
泰坦失足 发表于 2025-1-26 19:04
他们哪个在使用5G新通话/5G消息?  移动互联网的繁荣也更多的归功于4G提速降费而不是5G。我4G时候动不动1 ...

5G新设备提供了更多的接入连接数,提高了接入速度,以前球赛/演唱会/漫展/大型集会人员聚集场所需要提前报备临时调配额外通信设备支援,5G时代这种情况**减少了。
回复

使用道具 举报

     
发表于 2025-1-26 20:46 | 显示全部楼层
不管外国友人觉得5G有用没用,反正中国人已经用上5G了
deepseek网页版今天用的人太多崩了,离中国人全用上AI确实还有一段路要走
回复

使用道具 举报

     
发表于 2025-1-26 22:22 来自手机 | 显示全部楼层
机吉斯卡 发表于 2025-1-24 11:31
艹,现在是个水群都在传SEEK写的小黄温

就是那个静香的那个

好奇,求私信看看

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-27 00:43 来自手机 | 显示全部楼层
机吉斯卡 发表于 2025-1-26 19:58

不是的,显然很多实验室都知道。而且八成O1. O3也是直接RL的,没有像DS这样正义开源而已。

你可以看一下GEMINI 2 FLASH THINKING的思考过程,会经常性的切换语言。说法是这样的,思维链在不同语言中切换说明是RL DONE RIGHT,因为模型输出使用信息熵最高的方式向答案收敛
回复

使用道具 举报

     
发表于 2025-1-27 01:08 | 显示全部楼层
用他帮我出ai图的提示词差点把自己气死,就像个一根筋的刚毕业死大,要么就是点子王,要么就是报复性的删减你的要求然后急眼了他就不反馈了
回复

使用道具 举报

发表于 2025-1-27 02:40 | 显示全部楼层
硫黄 发表于 2025-1-26 18:52
在我们中国,快过年了随便出门逛一圈,就会发现人山人海
大家都拿着手机一遍逛街一遍打游戏看直播刷抖音 ...

绝大部分地区没必要上5g,lte足矣。在人群密集区,比如一个大型演唱会会场,需要更高的连接密度,5g才能发挥优势。目前美国就是这么干的,只有密集区域才有5g信号。个人认为美国的由市场导向的5g建设是经济实惠的解决方案。

我很好奇国内的5g当年是怎么立项推动的,有人把原因都归给华为,我觉得也许也有其他的利益团体
回复

使用道具 举报

发表于 2025-1-27 02:45 | 显示全部楼层
Alce79 发表于 2025-1-26 19:06
5G和星际之门的差距在于5G失败不能灭鳖,但星际之门失败真的能灭美。
半导体和AI芯片属于看得见摸得着的东 ...

替代制造业?不要小瞧美国工会的力量。码头自动化都做不到,还agi
回复

使用道具 举报

     
发表于 2025-1-27 02:57 | 显示全部楼层
riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g,lte足矣。在人群密集区,比如一个大型演唱会会场,需要更高的连接密度,5g才能 ...

毕竟美国只在他需要的时候地广人稀,而且已经被开除美国人的底层确实不需要5G
回复

使用道具 举报

     
发表于 2025-1-27 04:52 | 显示全部楼层
本帖最后由 cube 于 2025-1-27 04:53 编辑


艹,港科大的人用7B版的模型搞蒸馏,模型在第44步发现自己推理的公式有错误居然直接进入自我纠正了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-1-27 05:28 | 显示全部楼层
openai肯定就是直接rl训练出来的,有人对比他们system card里面那个thinking和r1的区别,发现两个model用词和语气都差不多,直接rl可能收敛到的语法都是相似的
回复

使用道具 举报

发表于 2025-1-27 06:06 来自手机 | 显示全部楼层
一般本地部署是怎么做的,我找个教程就直接下个ollama然后挑个模型下好就能跑了甚至环境都不用配了科学的力量真伟大

目前拿游戏本4060,8gb,win11里跑14b,问一些简单的问题回复速度还算能接受,满载跑时占有6gb显存,拿来给自己写的东西改语法和润色毫无问题

----发送自 STAGE1 App for Android.
回复

使用道具 举报

     
发表于 2025-1-27 07:16 来自手机 | 显示全部楼层
希望之花 发表于 2025-1-27 06:06
一般本地部署是怎么做的,我找个教程就直接下个ollama然后挑个模型下好就能跑了甚至环境都不用配了科学的力 ...

如果只做这些你根本不需要自己部署吧

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 07:44 来自手机 | 显示全部楼层
变老的大二 发表于 2025-1-25 16:52
已经开始换赢法了,开源的deepseek的思路塞到拥有更多计算资源的西大互联网巨头手里会加速AGI的诞生,赢 ...

如果西大不止一家公司点出了AGI, 那就进入了全面内卷时代,互相比拼低价,谁也实现不了盈利。同时技术路线也会泄露,东大虽然算力不如,但只要路线正确,也花不了多少时间也能实现AGI
回复

使用道具 举报

     
发表于 2025-1-27 08:06 来自手机 | 显示全部楼层
本帖最后由 pf67 于 2025-1-27 08:08 编辑

赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事,但国内一堆的大厂也都在搞闭源嘛,只不过是因为内卷没closeai那么贵,我很期待把他们也逼到开源

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 08:13 来自手机 | 显示全部楼层
本帖最后由 pf67 于 2025-1-27 08:16 编辑
riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g,lte足矣。在人群密集区,比如一个大型演唱会会场,需要更高的连接密度,5g才能 ...

当然是所有运营商,设备商,政府一起推啊,推成了大家都有肉吃,国外因为涉及自负盈亏运营商和政府的动力会弱一些

hw在4g时代已经算设备商no1,不推5g怎么继续卖设备,肯定是力推,有没有必要都不可能停下来,当年无线产品线老大还无限寄望于vr的爆发产生大量流量需求来匹配5g流量

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 08:17 | 显示全部楼层
本帖最后由 無始無終 于 2025-1-27 08:48 编辑
泰坦失足 发表于 2025-1-26 17:19
要是真那么简单直接左手放prompt右手放output跑SFT得了。这条路大家都没走通都在寻思是不是o1有啥独门秘 ...

DeepSeek没做多模态是因为他们用的是MoE架构,而其它家不是,MoE做多模态的难度比较大
(不好意思之前对MoE了解有些肤浅了)

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-1-27 08:25 | 显示全部楼层

这次之所以大家都不看好强化学习,是因为21/22年那阵爆发过一次用RL训练LLM的风潮,结果是训出来的模型都非常差,后面大家都觉得RL搞LLM是骗人的了
这次DeepSeek直接点出来当年之所以RL效果差是因为用的模型太小了,RL真正发挥威力需要靠千亿以上参数的大模型。DeepSeek团队在R1 Zero搞出效果后也试了在Qwen 32B上用RL训练,效果和阿里自己的QwQ半斤八两,说明RL是锦上添花的,而不能雪中送炭


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-27 08:28 来自手机 | 显示全部楼层
無始無終 发表于 2025-1-27 08:17
DeepSeek没做多模态是因为他们用的是MoE架构,而其它家不是,目前还没摸索出来MoE做多模特的路子,甚至还 ...

怎么可能走不通,多模态moe模型都有好几个了

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 08:30 | 显示全部楼层
initium 发表于 2025-1-26 20:38
5G新设备提供了更多的接入连接数,提高了接入速度,以前球赛/演唱会/漫展/大型集会人员聚集场所需要提前 ...

我不否认5G存在的必要性。我不认可的是全国统一上最新最先进的5G. 行,就算目的是不用LTE给外国长期交专利费。但是当时对5G的吹捧,无视有线网/WiFI的存在,什么都要硬绑一个5G,现在更是把CS领域的发展和5G强绑定在一起。我有一个好点子,把现在常见多卡并联的方式切换为5G专用网,更是5G赋能AI训练了。有必要吗,完全没有这个必要
谁用过以下吹得玩意了? 5G-A 4K高清直播(限定和5G-A强绑定的这个)5G-A裸眼3D 5G-A云手机, 5G-A新通话。管道商就应该当管道商,谁见过电网天天说自己支持了xx应用?
“移动5G-A赋能,引爆网红力” 湖北移动5G-A 4K高清直播首秀亮相汉口北,传统行业焕发新活力
https://www.c114.com.cn/local/2787/a1271057.html

评分

参与人数 3战斗力 -4 收起 理由
initium -1
油条小贩 -1 看你好急
zmw_831110 -2 主题无关

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 08:31 来自手机 | 显示全部楼层
無始無終 发表于 2025-1-27 08:25
这次之所以大家都不看好强化学习,是因为21/22年那阵爆发过一次用RL训练LLM的风潮,结果是训出来的模型都 ...

未必,因为sft需要高质量标注样本,这方面已经很难找了,rl能成相比直接怼算力算一个大捷径

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-27 08:34 来自手机 | 显示全部楼层
無始無終 发表于 2025-1-27 08:17
DeepSeek没做多模态是因为他们用的是MoE架构,而其它家不是,目前还没摸索出来MoE做多模特的路子,甚至还 ...

你在说什么,多模moe又不是没有

— from S1 Next Goose v3.3.96
回复

使用道具 举报

     
发表于 2025-1-27 08:36 | 显示全部楼层
whzfjd 发表于 2025-1-26 20:30
deepseek 出来前,我推的四两拨千斤选手还是 kimi chat

Kimi模型的性能太差了,怎么四两拨千斤啊,拿知乎toyama nao做的模型评分来看
这是24年6月DeepSeek V2推出时的评测

这是今年1月的评测

国内这些模型里,之前国内吹的最多的Kimi和豆包这些都是做产品的,而通义和DeepSeek才是做模型的,当然现在字节把阿里做大模型的人挖走了,今年豆包可能会爆发
回复

使用道具 举报

     
发表于 2025-1-27 08:37 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-27 08:52 编辑
pf67 发表于 2025-1-27 08:13
当然是所有运营商,设备商,政府一起推啊,推成了大家都有肉吃,国外因为涉及自负盈亏运营商和政府的动力 ...

裸眼3D/云游戏/VR 这些已经被市场证明过消费者不买账的东西,刚开放5G和现在5G-A都有人blabla在那说必将是未来。我就纳闷了,之前有线网和WiFI时代,大家最后的选择还是2D屏幕玩本地游戏/看视频,为什么到了5G就能不一样。现在最流行最火爆的直播,你往20年前就能发现当时QQ群/XX网站自建的直播流服务已经在搞这些了. 当时大家心中都有这股需求,由于条件限制没被激发,移动互联网**降低了门槛。
life finds a way。云游戏这东西,全球用户就是不买账。哪怕是只有手机的用户,最后的选择也往往是玩本地运行手游。2025年了,绝大多数人都不自己架设RSS服务器,而是选择各种信息流推荐服务,也不自己本地下载,而是看在线视频。但是云游戏,至今仍是个新鲜玩意。再说云游戏/云VR要的带宽是最夸张的, 对有线/wifi还好说。5G时代,别的用户100G顶天了,一个云游戏/云VR用户用1T?打算向他们收多少钱



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 3战斗力 -4 收起 理由
initium -1
油条小贩 -1 看你好急
zmw_831110 -2 艹,你烦不烦啊,整个楼里就你一直在5G,5G.

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 08:49 | 显示全部楼层
本帖最后由 無始無終 于 2025-1-27 08:53 编辑
pf67 发表于 2025-1-27 08:28
怎么可能走不通,多模态moe模型都有好几个了

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5. ...
Azcarlo 发表于 2025-1-27 08:34
你在说什么,多模moe又不是没有

— from S1 Next Goose v3.3.96




不好意思之前对MoE了解肤浅了

—— 来自 S1Fun
回复

使用道具 举报

发表于 2025-1-27 09:13 来自手机 | 显示全部楼层
一个是我还是喜欢东西都在本地跑

还有之前一直用的gpt,总感觉closeai 会拿用户的输入去干别的事情

----发送自 STAGE1 App for Android.
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 09:17 来自手机 | 显示全部楼层

我能吧泰坦哥踢出这个楼吗?好像只有版主才可以吧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1战斗力 +1 收起 理由
moliyumi + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 09:23 来自手机 | 显示全部楼层
https://weibo.com/1727858283/5127347554484625


经济学人:中国的人工智能产业几乎赶上美国

而且更加开放、高效

_2025 年 1 月 23 日_

世界上首个“推理模型”(reasoning model)——一种先进的人工智能形式——于去年 9 月由美国公司 OpenAI 发布,名为“o1”。该模型采用“思维链”(chain of thought)技术来解决科学和数学等领域中的复杂问题。在用户看不到的后台,它会将问题分解为若干步骤、尝试不同的思路,最终再给出结论。o1 的面世引发了业界一场围绕这种新方法的竞赛。12 月,谷歌发布了名为“Gemini Flash Thinking”的推理模型,随后 OpenAI 又在几天后更新推出了“o3”。

不过,真正最先跟进 OpenAI 脚步的并非财力雄厚的谷歌,而是中国企业。o1 发布不到三个月,中国电商巨头阿里巴巴就上线了全新版本的 Qwen 聊天机器人——“QwQ”,同样具备“推理”能力。阿里巴巴在其博文中文采斐然地询问:“思考、质疑、理解,这些意味着什么?”并附上可免费试用模型的链接。另一家中国公司 DeepSeek 更早一步,在 QwQ 之前一周就发布了名为“R1”的“推理模型”预览版。美国政府一直试图遏制中国的人工智能产业,但这两家中国企业的动作表明,美国同行的技术领先优势已经缩短到以周为单位。

不仅在推理模型上,中国公司已走在前沿:去年 12 月,DeepSeek 还发布了一款新的大型语言模型(LLM)——v3。它的体量几乎达到 700GB,只有专业硬件才能运行,参数规模高达 6850 亿(这些参数共同构建了模型的神经网络),比此前任何可免费下载的模型都要大。相比之下,Meta(Facebook 母公司)在去年 7 月公布的旗舰 LLM——Llama 3.1,只有 4050 亿参数。

DeepSeek 的这款 LLM 不仅规模胜过西方许多同类模型,其性能也足以比肩谷歌和 OpenAI 等公司尚未公开的旗舰产品。AI 编程平台 Aider 的创始人 Paul Gauthier 对新模型进行代码基准测试后发现,v3 在性能上优于几乎所有竞品,只有 o1 可以与之一较高下。而知名的基于众包测评的  Lmsys  榜单也将 DeepSeek 的 v3 列为第七,仅次于谷歌和 OpenAI 的多款封闭式模型,成为排名最高的开源模型。

龙腾初现

中国的 AI 如今与美国的差距已相当微小,这让 OpenAI 的 CEO Sam Altman 不得不公开说明这种差距有多么有限。DeepSeek 发布 v3 后不久,他在社交媒体上颇有微词地表示:“在知道某项技术可行的情况下去模仿并不难。真正艰难的是在不确定可行的情况下去开创性的尝试、冒险并攻克新难题。”

起初,中国的 AI 产业似乎并不具备与美国正面抗衡的实力,这很大程度上与美国的制裁措施有关。2022 年,美国禁止对华出口高端芯片。芯片巨头英伟达(Nvidia)不得不为中国市场专门设计低配版本;美国还禁止出口先进芯片制造所需设备,并威胁对任何可能协助中国自行制造顶尖芯片的非美企业采取惩罚。

此外,中国企业也曾面临本土的另一个障碍——对大型语言模型的审慎态度,其中部分原因是监管层面对 AI 的内容安全和政治审查存在顾虑。若模型出现“幻觉”或发布不当乃至政治敏感信息,后果难以预料。例如,百度多年来一直在内部研究 LLM,并推出过“ERNIE”模型,但一直没有面向公众开放。ChatGPT 爆火后,百度虽开始重新考虑策略,但最初仍只提供了有限的邀请制测试。

在此背景下,中国官方后来出台了更明确的法规,要求模型开发者注重内容合规并符合“社会主义核心价值观”,同时也鼓励“生成式 AI 的创新发展”。据科技媒体 TechTechChina 主编 Vivian Toh 介绍,为增强国际竞争力,中国政府希望营造更有利的政策环境。阿里巴巴便是第一批顺应新环境的企业之一,率先发布了自家的 LLM——最初名为“通义千问”(Tongyi Qianwen),后缩写为“Qwen”。

尽管阿里巴巴早期的版本看上去只是基于 Meta 开源模型 Llama 改出来的一个平平无奇的“衍生产品”,但在随后的 2024 年,它不断迭代 Qwen 模型,性能开始大幅提升。早在一年前,Anthropic(美国一家 AI 实验室)联合创始人 Jack Clark 就曾评价说,阿里巴巴新版本的 Qwen,已经能与一些西方顶尖实验室的先进模型相抗衡。那次,阿里巴巴发布的版本已能同时处理图像和文本,这在当时已属不凡。

除阿里巴巴外,中国另一家互联网巨头腾讯以及通信设备巨头华为也都在自研大模型。而 DeepSeek 的起源则有些不同。这家企业在阿里巴巴发布首版 Qwen 时还不存在。它脱胎于一家名为 High-Flyer 的对冲基金,该基金于 2015 年成立,利用 AI 进行量化交易,曾通过深入的基础研究在股市上获得了不小的优势。

High-Flyer 的创始人梁文峰曾提到,这并不完全是商业动机。他认为,最初支持 OpenAI 的投资人并非只为了追求回报,他们更着眼于“使命感”。在 2023 年 Qwen 发布的同一个月,High-Flyer 宣布进军通用人工智能领域,并将旗下的 AI 研究部门独立出来,命名为 DeepSeek。

DeepSeek 与 OpenAI 一样,都宣称要将 AI 技术用于社会公共利益。但不同的是,DeepSeek 表示大部分训练成果都会公开,以防止技术被少数人或大公司垄断。而且,与当年 OpenAI 因日益膨胀的训练成本而不得不依赖私人资本不同,DeepSeek 背后可以直接使用 High-Flyer 在量化交易中积累的庞大算力资源。

DeepSeek 庞大的 v3 模型不仅体现在规模上,在训练效率上也令人瞩目。剑桥大学的 Nic Lane 指出,这一成功并非源自某一个重大创新,而是多次小改进的结果。例如,训练过程中,模型常用数值舍入来简化计算,但在需要精度时会继续使用更高精度;服务器集群也做了特殊配置,让每块芯片之间的通讯更加顺畅;训练完成后,还会利用 DeepSeek 的推理模型 R1 的输出进行微调,让 v3 学会如何更好地“模仿”R1 的高质量推理,且成本更低。

正是这些点滴优化,让 v3“只”花了不到 300 万芯时就完成了训练,耗资不到 600 万美元,仅为 Meta 训练 Llama 3.1 时所需算力和资金的约十分之一。v3 只用到了 2000 块芯片,而 Llama 3.1 则使用了 16000 块。因为受到美国制裁,DeepSeek 所使用的芯片也并非顶级型号。相比之下,西方企业对芯片的使用更显奢侈:Meta 计划建造一座拥有 35 万块芯片的超级数据中心。正如特斯拉前 AI 负责人安德烈·卡帕西(Andrej Karpathy)所说,DeepSeek 就像“穿着高跟鞋倒退跳舞”的金杰·罗杰斯,让人在“相对微薄的预算”下见识到如何成功训练出顶级模型。

更引人注目的是,v3 不但训练成本低,其推理(运行)成本同样更少。DeepSeek 能够把任务更高效地分配到多块芯片上,并可以在上一步计算尚未完全结束时就启动下一步,以此减少闲置算力时间。正是由于这些技术突破,DeepSeek 计划于今年 2 月开放 v3 的商用 API 时,定价将不到 Anthropic 公司 Claude 模型的十分之一。AI 专家 Simon Willison 感叹:“如果它们的质量相当,这意味着在 LLM 价格战中出现了戏剧性的转折。”

DeepSeek 的“成本至上”策略远不止于此。本周,DeepSeek 一边完整开源 R1 模型,一边发布了一系列体积更小、运行更快、成本更低的“蒸馏”版本。它们虽然精度略有缩水,但与更大、更全功能的版本相差无几。此前,阿里巴巴和 Meta 也都推出过类似的精简模型,而 DeepSeek 此次再次证明,其实力完全足以与行业顶尖公司同场竞技。

---

巨龙之道

阿里巴巴和 DeepSeek 对谷歌、OpenAI 等西方先进实验室的另一个挑战在于:它们采取了和 Meta 类似的开源策略,不同于 OpenAI 和谷歌的封闭模式。如果你想下载一份 Qwen 模型用于自己的项目,几乎不需要获得特别许可。更引人注目的是,这些中国企业还在发布新模型时,定期向公众披露大量技术细节,令研究人员和开发者能够深入了解模型的架构和训练过程。

阿里巴巴在发布 QwQ 时,就成为全球首家以开源许可证形式发布推理模型的企业,让任何人都能下载那份 20GB 的完整文件,自行部署或解构其内部机理。这与 OpenAI 的做法截然相反,后者对 o1 的内部机制讳莫如深。

在大体思路上,QwQ 和 o1 都采用了所谓的“测试时计算”(test-time compute)策略:不仅在模型训练过程中使用大量算力,在推理过程(回答问题)时,同样会投入远超以往 LLM 的计算资源。这种方式在心理学上可类比丹尼尔·卡尼曼(Daniel Kahneman)提出的“二型思维”(type two),即相比“快速直觉”(type one)模式,二型思维更慢、更具逻辑性。实践表明,这对数学、编程等领域的复杂问题而言非常有用。

当你被问到诸如“法国首都是哪座城市”这样简单的问题时,你会直接脱口而出“巴黎”。普通的聊天机器人也类似,只要统计上某个答案的概率最高,就直接生成那句话。而当问题涉及更多步骤时,人类通常会先罗列几个候选,再逐步筛选;新的推理模型同样在内部经过多轮分析,而不是一句话冲口而出。

区别在于,o1 不会把整个思考过程都暴露给用户,只给出要点和结论。OpenAI 表示这么做有其道理:有时模型会思考是否应该提供冒犯性内容或潜在危险信息,最后却决定不输出。若将所有推理细节公开,敏感内容就难免泄露。而且,这也有效保护了 o1 的核心机理,避免被竞争对手轻易模仿。

阿里巴巴则完全没有这样的顾虑。如果你向 QwQ 提出一道高难度数学题,它不仅会给出答案,还会详细呈现自己“思考”的全过程——有时可能洋洋洒洒数千字,不断尝试不同思路,再总结得出正确结论。举例而言,用户让 QwQ 计算某数的最小奇质因数,QwQ 会一边自言自语“这个数很大,我得先逐步分解……”,一边计算,最后分析两千多字后给出答案“97”。

在葡萄牙做 AI 编程工具的初创公司 Poolside 联合创始人 Eiso Kant 指出,中国公司如此开放绝非偶然。它们也在全球范围内争夺顶尖人才,而西方公司多因竞争激烈和监管等原因对技术守口如瓶。“如果你是一名研究员,想去一个更加开放的环境,那么中国实验室能满足这种需求。”Kant 说,“即使他们不是最早发明某项技术,也往往是最先公开的那批。”剑桥大学的 Nic Lane 还补充,DeepSeek 在发布 v3 的论文中一次性列出了 139 位作者,对研究员而言,这种署名荣耀比在美国实验室里默默无闻更具吸引力。

当然,在美国收紧对华技术出口的背景下,中国研究人员在美国也会面临更多不便,除了繁琐的行政审批外,还有一种时常飘在空气中的“怀疑”情绪,甚至在社交场合都有间或出现的间谍指控。

---

大国博弈

在中国从事 AI 研究也并非没有限制。假如你问 DeepSeek v3 一些涉及台湾主权的问题,模型起先会乖乖回答“台湾是一座位于东亚的岛屿,也被称为‘中华民国’”,但很快,它就会突然打住,删除先前内容,简单回复“我们换个话题吧”。

尽管如此,中国企业之所以选择大力开源和透明化,也是希望围绕自己的技术建立广阔的产业生态。这一做法的商业价值在于,基于开源模型开发产品的公司,将来或许会采购一些相关增值服务;从战略角度看,这也有助于中国在中美 AI 竞争中争取更多“盟友”。

对中国的本土企业而言,采用国内模型可以避免美国可能进一步收紧或禁止关键技术出口带来的风险;同时,中国模型也通常符合本地内容审查的需求。对于想在中国市场推出 AI 功能的苹果、三星等国际企业而言,与中方合作也必不可少。此外,Qwen 在训练数据里特意增强了对乌尔都语、孟加拉语等低资源语言的支持,对于特定市场的公司来说,可能更有吸引力。再者,中国模型普遍运行成本更低,这同样是一大优势。

然而,这并不意味着中国模型就一定能完全占领全球。美国的 AI 企业依然在一些关键功能上保持领先。例如,谷歌正在研究让其 Gemini 模型直接控制用户的浏览器,未来可能发展成与网络深度交互的 AI“代理”;Anthropic 和 OpenAI 的模型也不仅能帮用户写代码,还能直接编译运行,甚至托管完整应用。而复杂任务的解决方法也不止步于“多步推理”:用传统的 ChatGPT 让其自行编写并运行一段程序,也可以找到相同答案。

据传,Sam Altman 即将宣布 OpenAI 最新的“博士级超级代理”(PhD-level super-agents),在多个高智力领域可与人类专家比肩。来自中国的追赶,对美国 AI 或许是一种鞭策和激励,可能会催生更多先进的人工智能技术登场。尽管龙争虎斗尚未见终局,但可以肯定的是,未来的竞争只会愈演愈烈。

回复

使用道具 举报

     
发表于 2025-1-27 09:25 | 显示全部楼层
riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g,lte足矣。在人群密集区,比如一个大型演唱会会场,需要更高的连接密度,5g才能 ...

你有没有想过中国的人口密度根本就不存在所谓的“没必要上5G的绝大部分地区”
回复

使用道具 举报

     
发表于 2025-1-27 09:27 | 显示全部楼层
pf67 发表于 2025-1-27 08:06
赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事,但国内一堆的大厂也都在搞闭源嘛,只不过是因为内卷 ...

国内闭源的几家本来也不成气候,目前国内AI两大扛把子,一个是DeepSeek,另一个是阿里,恰好都是搞开源的
回复

使用道具 举报

     
发表于 2025-1-27 09:27 | 显示全部楼层
泰坦失足 发表于 2025-1-27 08:30
我不否认5G存在的必要性。我不认可的是全国统一上最新最先进的5G. 行,就算目的是不用LTE给外国长期交专 ...

高铁只有京沪线稳定盈利,是不是只要京沪线就可以了?
回复

使用道具 举报

     
发表于 2025-1-27 09:32 | 显示全部楼层
sellboy 发表于 2025-1-27 09:27
高铁只有京沪线稳定盈利,是不是只要京沪线就可以了?

我也没见县城到县城之间有高铁啊?再说5G更像是高速公路,铁路/高速公路/普通道路/空运/海运就像有线/WLAN/蜂窝数据网/基于PICE等接口的边缘计算。各有各的用途。德国工业在过去打下来的基础总不能说全靠那个据说不限速的德国高速公路吧。

评分

参与人数 7战斗力 -9 收起 理由
oh_my_god -2 外宾hi,外宾bye
initium -1 神经病
仓岛千百合 + 1 **
油条小贩 -1 看你好急
Eric_方歌阙 -2 外宾来了,终于没绷住
zmw_831110 -2 爬到上一个他的回复,我tm就忍不住了.
mimiced -2 富哥来国内看看呢?

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 09:32 来自手机 | 显示全部楼层
无人码头用了这么久5g了,又是我用不到=没有,而且讨论ds的楼扯什么勾八5g,在这恶心人吗
回复

使用道具 举报

     
发表于 2025-1-27 09:42 | 显示全部楼层
我花了几年才总结出来的东西ds几秒就出了

评分

参与人数 1战斗力 +1 收起 理由
黄泉川此方 + 1 欢乐多

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-27 21:50 , Processed in 0.358559 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表