找回密码
 立即注册
搜索
楼主: moekyo

[欢乐] Day 5: 高性能文件系统 开源周结束,DS才是无可争议的OpenAI

[复制链接]
发表于 2025-2-24 13:49 | 显示全部楼层
moekyo 发表于 2025-2-24 12:23
你说卡,这家是有的Sakura Internet,但是我不觉得日本的瓶颈是卡,起码当下这个时间节点,只要给钱,还 ...

搜了一下是个千卡集群

首先日本企业没有意愿投资,原因是日本没有AI人才,而日本没有AI人才的原因是没有投资,这属于是先有蛋还是先有鸡的问题
回复

使用道具 举报

     
发表于 2025-2-24 14:02 来自手机 | 显示全部楼层
ryanghj 发表于 2025-2-24 13:49
搜了一下是个千卡集群

首先日本企业没有意愿投资,原因是日本没有AI人才,而日本没有AI人才的原因是没有 ...

日本现在很多项目都是人种大混杂的,paypay 之类的都是有很多国人,甚至有的还有不少白皮

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-24 14:08 来自手机 | 显示全部楼层
本帖最后由 cube 于 2025-2-24 14:21 编辑
moekyo 发表于 2025-2-24 11:23
唯一不爽的就是有可能被日本人学去,但是感觉日本人就算有了这些也造不出来 ...

日本发展AI也会被他美爹掐死,这点完全不用担心。

发展AI是需要全产业链的生态的,不是说训练出个大模型了就能铺开了。

像美国那样用一系列概念构筑AI霸权,像中国这样DS迅速在全国铺开,日本哪样都做不到,它最多吃吃美国丢下来的边角料。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-24 14:09 | 显示全部楼层
ryanghj 发表于 2025-2-24 13:49
搜了一下是个千卡集群

首先日本企业没有意愿投资,原因是日本没有AI人才,而日本没有AI人才的原因是没有 ...

就单纯说购买算力卡这个,日本比我们简单太多了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-2-24 14:19 | 显示全部楼层
moekyo 发表于 2025-2-24 14:09
就单纯说购买算力卡这个,日本比我们简单太多了

计划,实际上只到了800
回复

使用道具 举报

     
 楼主| 发表于 2025-2-24 14:23 | 显示全部楼层
本帖最后由 moekyo 于 2025-2-24 14:24 编辑
ryanghj 发表于 2025-2-24 14:19
计划,实际上只到了800

确实,我更正一下,但是相对容易买卡这点还是成立的
回复

使用道具 举报

发表于 2025-2-24 14:24 | 显示全部楼层
moekyo 发表于 2025-2-24 14:23
确实,我更正一下

顺带27年估计十万卡集群已经普及了,百万卡集群开始部署,韩国其实也一样,万卡集群都拿不出来
回复

使用道具 举报

     
 楼主| 发表于 2025-2-24 15:22 | 显示全部楼层
千问今晚不知道发啥

而且其实他们也甩了论文出来,只是现在聚光灯都集中在DS这边了,虽然人家是拼实力赢来

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-2-24 15:31 | 显示全部楼层
moekyo 发表于 2025-2-24 15:22
千问今晚不知道发啥

而且其实他们也甩了论文出来,只是现在聚光灯都集中在DS这边了,虽然人家是拼实力赢 ...

qwen因为公司战略绑着,有点藏着掖着,比如他们的qwen2.5 max就是不开源的。
跟DeepSeek这种把最顶级模型直接开了的开源狂徒还是有很大区别的,不知道阿里会不会给他们松绑。
回复

使用道具 举报

     
发表于 2025-2-24 15:33 | 显示全部楼层
cube 发表于 2025-2-24 14:08
日本发展AI也会被他美爹掐死,这点完全不用担心。

发展AI是需要全产业链的生态的,不是说训练出个大模型 ...

反过来想日本可以搞“纯天然无AI绿色内容产业”

“你怎么敢说自己不用?”
“我基建都铺不开根本没法产生规模效应,只能手工酱人啊”
回复

使用道具 举报

     
发表于 2025-2-24 15:36 来自手机 | 显示全部楼层
中国厂商绕过限制去王爷国都比去日本靠谱

小日子还是算了吧

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-24 15:38 | 显示全部楼层
overflowal 发表于 2025-2-24 15:31
qwen因为公司战略绑着,有点藏着掖着,比如他们的qwen2.5 max就是不开源的。
跟DeepSeek这种把最顶级模型 ...

这么大的模型开了也没啥意义,不如把现有的Qwen开源家族维护好,毕竟中小尺寸模型需求量必然是更大的。说不定下一个发布的模型就是QwQ-72B
回复

使用道具 举报

发表于 2025-2-24 15:40 | 显示全部楼层
ryanghj 发表于 2025-2-24 12:01
日本连个万卡集群都拿不出来,还是算了吧

周末看一个蛙的采访,请了搞npu的刘峻诚还说到日本要全力投资AI了,竟然连万卡都没吗?
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-2-24 16:04 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2025-2-24 16:08 | 显示全部楼层
MLA,Dual pipe,专家并行,联网搜索,还有啥
回复

使用道具 举报

     
发表于 2025-2-25 10:16 来自手机 | 显示全部楼层
今天是专家并行
https://github.com/deepseek-ai/DeepEP

— from S1 Next Goose v3.3.96
回复

使用道具 举报

     
发表于 2025-2-25 10:30 来自手机 | 显示全部楼层
昨天已经没有人讨论了今天更加不会有了吧
太难懂了(
回复

使用道具 举报

     
 楼主| 发表于 2025-2-25 10:43 | 显示全部楼层
neptunehs 发表于 2025-2-25 10:30
昨天已经没有人讨论了今天更加不会有了吧
太难懂了(

正常,不过既然开贴了,还是顺带更新一下了,一般人还是关注怎么用就好了
回复

使用道具 举报

发表于 2025-2-25 10:56 | 显示全部楼层
今天教厂商怎么做MoE架构训练推理集群的通信
回复

使用道具 举报

     
 楼主| 发表于 2025-2-25 10:56 | 显示全部楼层

顺带说一下,千问也发了推理模型的预览版,也支持联网,也是业界汪峰了
https://chat.qwen.ai

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-2-25 11:01 | 显示全部楼层
moekyo 发表于 2025-2-25 10:56
顺带说一下,千问也发了推理模型的预览版,也支持联网,也是业界汪峰了
https://chat.qwen.ai

感觉他们本来是想发了,结果一看claude3.7,又打上preview回炉去了
回复

使用道具 举报

     
发表于 2025-2-25 11:20 | 显示全部楼层
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目,彻底改写了我的认知。
当我第一次在 GitHub 上加载这个专为 Hopper GPU 打造的 MLA 解码内核时,64块页式 KV 缓存的设计让我眼前一亮。过去像处理短视频流这种变长序列时,显存碎片化能把算力吃掉近三成,但 FlashMLA 的分块并行计算硬是把H800的峰值算力顶到了580TFLOPS-﹣这相当于给每块 GPU 装上了涡轮增压器。
最让我震撼的是项目文档里的一行小字:「已在生产环境部署」。这意味着我们团队花了半年攻关的显存优化难题, DeepSeek 早已在实战中跑通。开源当天,硅谷的朋友半夜给我发消息:你们中国人开源核武器都不打招呼吗?
开源社区的狂欢来得比想象中更猛烈。
短短6小时, GitHub 星标破5000。有开发者实测用 FlashMLA 处理长文本推理,吞吐量直接翻倍。更可怕的是这个项目的「传染性」某 AI 绘画平台接入后,单卡并发用户数从50飙到120,服务器成本砍掉40%。
但真正让我后背发凉的是 DeepSeek 的布局。从 MoE 架构到 MLA 优化,他们正在用开源拆解大模型的「贵族门槛」。当行业还在争论千卡集群的可行性时,有人已经让单卡算力突破物理极限。
这场开源风暴背后,藏着更深的行业变局。
看看开发者论坛的热帖就知道:「以前觉得买不起H100是原罪,现在发现不会魔改 gpu 才是硬伤。」 FlashMLA 的开源就像打开了潘多拉魔盒﹣当算力利用率不再是秘密,中小团队也能用有限资源训练出顶尖模型。
站在机房的轰鸣声中,我忽然想起三年前导师说的话:「 AI 革命的胜负手,从来不在模型参数量级。此刻监控屏上稳定的显存曲线,或许就是最好的证明。

评分

参与人数 4战斗力 -7 收起 理由
even001 -2 AI生成的垃圾
oswald -1
木水风铃 -2 ai震惊体
当光停止 -2 没干货也别拿ai生成的东西掺和。.

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-2-25 11:20 | 显示全部楼层
overflowal 发表于 2025-2-25 11:01
感觉他们本来是想发了,结果一看claude3.7,又打上preview回炉去了

这个预览还是正式,对一般用户没什么影响吧,就一个免责声明似的东西,能用就好了,而且后面还会开源,可以爽用就行
Very soon, we are about to release the official version of QwQ-Max, and we will open-weight both QwQ-Max and Qwen2.5-Max under the license of Apache 2.0! Furthermore, we will also provide smaller variants, e.g., QwQ-32B, which can be deployed on local devices. Also, since a great number of users are expecting our APP, we are going to release an Android and iOS APP while we release our official QwQ-Max.
回复

使用道具 举报

发表于 2025-2-25 14:17 来自手机 | 显示全部楼层
Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目,彻底改写了我的认知。

成本直接砍4成?
回复

使用道具 举报

     
发表于 2025-2-25 14:24 来自手机 | 显示全部楼层
Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目,彻底改写了我的认知。

可惜相关技术对sd完全没用
回复

使用道具 举报

发表于 2025-2-25 14:25 来自手机 | 显示全部楼层
那看来输入缓存也会开源咯

—— 来自 Xiaomi 2308CPXD0C, Android 15上的 S1Next-鹅版 v2.5.2-play
回复

使用道具 举报

     
发表于 2025-2-25 14:26 | 显示全部楼层
什么时候能更新封装到个人部署里
回复

使用道具 举报

     
发表于 2025-2-25 14:37 | 显示全部楼层
我们公司总部(央企)搞了两年的大模型,DS出来直接被搞蒙了,现在正在研究干脆放弃自家那一套烂玩意,全面用DS代替
回复

使用道具 举报

发表于 2025-2-25 14:54 来自手机 | 显示全部楼层
Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目,彻底改写了我的认知。

这是什么ai生成的震惊体文章吗

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
 楼主| 发表于 2025-2-25 14:54 | 显示全部楼层
一座恐怖屋 发表于 2025-2-25 14:26
什么时候能更新封装到个人部署里

你说的更新封装个人部署是什么意思,如果是指本地跑模型的话,现在买个16G的mac mini下个ollama就行了的,但是这东西对个人用户最大的瓶颈是硬件,就算DS再怎么魔法,也不可能优化到你一般民用硬件能给你跑个671B的全量模型,倒不如期待像是摩尔线程这些能来个大新闻啥的更加实际了
回复

使用道具 举报

     
发表于 2025-2-25 16:04 | 显示全部楼层
这下真是手把手教你做推理了
回复

使用道具 举报

     
发表于 2025-2-25 16:44 来自手机 | 显示全部楼层
这才是真正的开源圣人

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-25 16:56 来自手机 | 显示全部楼层
Holyted 发表于 2025-2-25 14:37
我们公司总部(央企)搞了两年的大模型,DS出来直接被搞蒙了,现在正在研究干脆放弃自家那一套烂玩意,全面 ...

啊,央企?现在这边基层都在来培训怎么用来办公了。
回复

使用道具 举报

     
发表于 2025-2-26 20:10 | 显示全部楼层
deepgemm 也很强,这帮人完全可以 自己做驱动了

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-2-26 20:25 | 显示全部楼层
英伟达股票上周好不容易回到140,真就被连续三天打回126了
回复

使用道具 举报

     
发表于 2025-2-26 20:48 | 显示全部楼层
overflowal 发表于 2025-2-25 14:54
这是什么ai生成的震惊体文章吗

—— 来自 鹅球 v3.3.96

一眼DS
回复

使用道具 举报

     
 楼主| 发表于 2025-2-26 21:13 | 显示全部楼层
cube 发表于 2025-2-26 20:25
英伟达股票上周好不容易回到140,真就被连续三天打回126了。

在国产EUV出来之前,皮衣还能爽,只能说,我国科研人员还是得加油,这个才是绝杀
回复

使用道具 举报

     
 楼主| 发表于 2025-2-26 21:18 | 显示全部楼层
其实今天和昨天的我很好奇,我点进去看代码,虽然看不懂,但是起码可以明确的是,代码行数的是不多的,昨天还看到这个,真的就只有DS这帮人花时间花精力去读文档和验证了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-2-26 21:34 来自手机 | 显示全部楼层
还没时间看代码,如果deepgemm真如他们说的是jit,那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节,ds发现新版本nvcc编出来的fadd指令会有特定的bit被flip,进一步挖出这个bit是控制warp yield的。为了不依赖nvcc来获取这个yield的收益,干脆用脚本搞binary rewrite,手动给二进制里的指令改上这个bit。平地起飞10%的收益。老黄看了想连夜鞭打nvcc团队。
回复

使用道具 举报

发表于 2025-2-26 21:40 来自手机 | 显示全部楼层
燕山雪 发表于 2025-2-26 21:34
还没时间看代码,如果deepgemm真如他们说的是jit,那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节,ds发 ...

这个太底层了,连写cuda都不一定读得懂它说的啥
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 02:57 , Processed in 0.160799 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表