Day 5: 高性能文件系统开源周结束，DS才是无可争议的OpenAI

ryanghj · 发表于 2025-2-24 13:49

moekyo 发表于 2025-2-24 12:23
你说卡，这家是有的Sakura Internet，但是我不觉得日本的瓶颈是卡，起码当下这个时间节点，只要给钱，还 ...

搜了一下是个千卡集群

首先日本企业没有意愿投资，原因是日本没有AI人才，而日本没有AI人才的原因是没有投资，这属于是先有蛋还是先有鸡的问题

御坂MKII · 发表于 2025-2-24 14:02

ryanghj 发表于 2025-2-24 13:49
搜了一下是个千卡集群

首先日本企业没有意愿投资，原因是日本没有AI人才，而日本没有AI人才的原因是没有 ...

日本现在很多项目都是人种大混杂的，paypay 之类的都是有很多国人，甚至有的还有不少白皮

—— 来自鹅球 v3.3.96

cube · 发表于 2025-2-24 14:08

本帖最后由 cube 于 2025-2-24 14:21 编辑

moekyo 发表于 2025-2-24 11:23
唯一不爽的就是有可能被日本人学去，但是感觉日本人就算有了这些也造不出来 ...

日本发展AI也会被他美爹掐死，这点完全不用担心。

发展AI是需要全产业链的生态的，不是说训练出个大模型了就能铺开了。

像美国那样用一系列概念构筑AI霸权，像中国这样DS迅速在全国铺开，日本哪样都做不到，它最多吃吃美国丢下来的边角料。

moekyo · 发表于 2025-2-24 14:09

ryanghj 发表于 2025-2-24 13:49
搜了一下是个千卡集群

首先日本企业没有意愿投资，原因是日本没有AI人才，而日本没有AI人才的原因是没有 ...

就单纯说购买算力卡这个，日本比我们简单太多了

ryanghj · 发表于 2025-2-24 14:19

moekyo 发表于 2025-2-24 14:09
就单纯说购买算力卡这个，日本比我们简单太多了

计划，实际上只到了800

moekyo · 发表于 2025-2-24 14:23

本帖最后由 moekyo 于 2025-2-24 14:24 编辑

ryanghj 发表于 2025-2-24 14:19
计划，实际上只到了800

确实，我更正一下，但是相对容易买卡这点还是成立的

ryanghj · 发表于 2025-2-24 14:24

moekyo 发表于 2025-2-24 14:23
确实，我更正一下

顺带27年估计十万卡集群已经普及了，百万卡集群开始部署，韩国其实也一样，万卡集群都拿不出来

moekyo · 发表于 2025-2-24 15:22

千问今晚不知道发啥

而且其实他们也甩了论文出来，只是现在聚光灯都集中在DS这边了，虽然人家是拼实力赢来

overflowal · 发表于 2025-2-24 15:31

moekyo 发表于 2025-2-24 15:22
千问今晚不知道发啥

而且其实他们也甩了论文出来，只是现在聚光灯都集中在DS这边了，虽然人家是拼实力赢 ...

qwen因为公司战略绑着，有点藏着掖着，比如他们的qwen2.5 max就是不开源的。
跟DeepSeek这种把最顶级模型直接开了的开源狂徒还是有很大区别的，不知道阿里会不会给他们松绑。

jojog · 发表于 2025-2-24 15:33

cube 发表于 2025-2-24 14:08
日本发展AI也会被他美爹掐死，这点完全不用担心。

发展AI是需要全产业链的生态的，不是说训练出个大模型 ...

反过来想日本可以搞“纯天然无AI绿色内容产业”

“你怎么敢说自己不用？”

“我基建都铺不开根本没法产生规模效应，只能手工酱人啊”

d2loader · 发表于 2025-2-24 15:36

中国厂商绕过限制去王爷国都比去日本靠谱

小日子还是算了吧

—— 来自鹅球 v3.3.96

qratosones1337 · 发表于 2025-2-24 15:38

overflowal 发表于 2025-2-24 15:31
qwen因为公司战略绑着，有点藏着掖着，比如他们的qwen2.5 max就是不开源的。
跟DeepSeek这种把最顶级模型 ...

这么大的模型开了也没啥意义，不如把现有的Qwen开源家族维护好，毕竟中小尺寸模型需求量必然是更大的。说不定下一个发布的模型就是QwQ-72B

Shinkirou · 发表于 2025-2-24 15:40

ryanghj 发表于 2025-2-24 12:01
日本连个万卡集群都拿不出来，还是算了吧

周末看一个蛙的采访，请了搞npu的刘峻诚还说到日本要全力投资AI了，竟然连万卡都没吗？

Khellendros · 发表于 2025-2-24 16:04

提示: 作者被禁止或删除内容自动屏蔽

ryanghj · 发表于 2025-2-24 16:08

MLA，Dual pipe，专家并行，联网搜索，还有啥

Azcarlo · 发表于 2025-2-25 10:16

今天是专家并行
https://github.com/deepseek-ai/DeepEP

— from S1 Next Goose v3.3.96

neptunehs · 发表于 2025-2-25 10:30

昨天已经没有人讨论了今天更加不会有了吧
太难懂了（

moekyo · 发表于 2025-2-25 10:43

neptunehs 发表于 2025-2-25 10:30
昨天已经没有人讨论了今天更加不会有了吧
太难懂了（

正常

，不过既然开贴了，还是顺带更新一下了，一般人还是关注怎么用就好了

overflowal · 发表于 2025-2-25 10:56

今天教厂商怎么做MoE架构训练推理集群的通信

moekyo · 发表于 2025-2-25 10:56

顺带说一下，千问也发了推理模型的预览版，也支持联网，也是业界汪峰了

https://chat.qwen.ai

overflowal · 发表于 2025-2-25 11:01

moekyo 发表于 2025-2-25 10:56
顺带说一下，千问也发了推理模型的预览版，也支持联网，也是业界汪峰了
https://chat.qwen.ai

感觉他们本来是想发了，结果一看claude3.7，又打上preview回炉去了

Mac1024 · 发表于 2025-2-25 11:20

zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目，彻底改写了我的认知。
当我第一次在 GitHub 上加载这个专为 Hopper GPU 打造的 MLA 解码内核时，64块页式 KV 缓存的设计让我眼前一亮。过去像处理短视频流这种变长序列时，显存碎片化能把算力吃掉近三成，但 FlashMLA 的分块并行计算硬是把H800的峰值算力顶到了580TFLOPS-﹣这相当于给每块 GPU 装上了涡轮增压器。
最让我震撼的是项目文档里的一行小字：「已在生产环境部署」。这意味着我们团队花了半年攻关的显存优化难题， DeepSeek 早已在实战中跑通。开源当天，硅谷的朋友半夜给我发消息：你们中国人开源核武器都不打招呼吗？
开源社区的狂欢来得比想象中更猛烈。
短短6小时， GitHub 星标破5000。有开发者实测用 FlashMLA 处理长文本推理，吞吐量直接翻倍。更可怕的是这个项目的「传染性」某 AI 绘画平台接入后，单卡并发用户数从50飙到120，服务器成本砍掉40%。
但真正让我后背发凉的是 DeepSeek 的布局。从 MoE 架构到 MLA 优化，他们正在用开源拆解大模型的「贵族门槛」。当行业还在争论千卡集群的可行性时，有人已经让单卡算力突破物理极限。
这场开源风暴背后，藏着更深的行业变局。
看看开发者论坛的热帖就知道：「以前觉得买不起H100是原罪，现在发现不会魔改 gpu 才是硬伤。」 FlashMLA 的开源就像打开了潘多拉魔盒﹣当算力利用率不再是秘密，中小团队也能用有限资源训练出顶尖模型。
站在机房的轰鸣声中，我忽然想起三年前导师说的话：「 AI 革命的胜负手，从来不在模型参数量级。此刻监控屏上稳定的显存曲线，或许就是最好的证明。

moekyo · 发表于 2025-2-25 11:20

overflowal 发表于 2025-2-25 11:01
感觉他们本来是想发了，结果一看claude3.7，又打上preview回炉去了

这个预览还是正式，对一般用户没什么影响吧，就一个免责声明似的东西，能用就好了，而且后面还会开源，可以爽用就行

Very soon, we are about to release the official version of QwQ-Max, and we will open-weight both QwQ-Max and Qwen2.5-Max under the license of Apache 2.0! Furthermore, we will also provide smaller variants, e.g., QwQ-32B, which can be deployed on local devices. Also, since a great number of users are expecting our APP, we are going to release an Android and iOS APP while we release our official QwQ-Max.

蜇灵 · 发表于 2025-2-25 14:17

Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目，彻底改写了我的认知。

成本直接砍4成？

neptunehs · 发表于 2025-2-25 14:24

Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目，彻底改写了我的认知。

可惜相关技术对sd完全没用

ryanghj · 发表于 2025-2-25 14:25

那看来输入缓存也会开源咯

—— 来自 Xiaomi 2308CPXD0C, Android 15上的 S1Next-鹅版 v2.5.2-play

一座恐怖屋 · 发表于 2025-2-25 14:26

什么时候能更新封装到个人部署里

Holyted · 发表于 2025-2-25 14:37

我们公司总部（央企）搞了两年的大模型，DS出来直接被搞蒙了，现在正在研究干脆放弃自家那一套烂玩意，全面用DS代替

overflowal · 发表于 2025-2-25 14:54

Mac1024 发表于 2025-2-25 11:20
zt:DeepSeek首日开源引硅谷深夜炸锅

这个名为 FlashMLA 的开源项目，彻底改写了我的认知。

这是什么ai生成的震惊体文章吗

—— 来自鹅球 v3.3.96

moekyo · 发表于 2025-2-25 14:54

一座恐怖屋发表于 2025-2-25 14:26
什么时候能更新封装到个人部署里

你说的更新封装个人部署是什么意思，如果是指本地跑模型的话，现在买个16G的mac mini下个ollama就行了的，但是这东西对个人用户最大的瓶颈是硬件，就算DS再怎么魔法，也不可能优化到你一般民用硬件能给你跑个671B的全量模型，倒不如期待像是摩尔线程这些能来个大新闻啥的更加实际了

Lewismain · 发表于 2025-2-25 16:04

这下真是手把手教你做推理了

tansapple · 发表于 2025-2-25 16:44

这才是真正的开源圣人

—— 来自鹅球 v3.3.96-alpha

爱吃冻鳗的猫 · 发表于 2025-2-25 16:56

Holyted 发表于 2025-2-25 14:37
我们公司总部（央企）搞了两年的大模型，DS出来直接被搞蒙了，现在正在研究干脆放弃自家那一套烂玩意，全面 ...

啊，央企？现在这边基层都在来培训怎么用来办公了。

lactone · 发表于 2025-2-26 20:10

deepgemm 也很强，这帮人完全可以自己做驱动了

—— 来自 S1Fun

cube · 发表于 2025-2-26 20:25

英伟达股票上周好不容易回到140，真就被连续三天打回126了

。

蓳白 · 发表于 2025-2-26 20:48

overflowal 发表于 2025-2-25 14:54
这是什么ai生成的震惊体文章吗

—— 来自鹅球 v3.3.96

一眼DS

moekyo · 发表于 2025-2-26 21:13

cube 发表于 2025-2-26 20:25
英伟达股票上周好不容易回到140，真就被连续三天打回126了。

在国产EUV出来之前，皮衣还能爽，只能说，我国科研人员还是得加油，这个才是绝杀

moekyo · 发表于 2025-2-26 21:18

其实今天和昨天的我很好奇，我点进去看代码，虽然看不懂，但是起码可以明确的是，代码行数的是不多的，昨天还看到这个，真的就只有DS这帮人花时间花精力去读文档和验证了

燕山雪 · 发表于 2025-2-26 21:34

还没时间看代码，如果deepgemm真如他们说的是jit，那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节，ds发现新版本nvcc编出来的fadd指令会有特定的bit被flip，进一步挖出这个bit是控制warp yield的。为了不依赖nvcc来获取这个yield的收益，干脆用脚本搞binary rewrite，手动给二进制里的指令改上这个bit。平地起飞10%的收益。老黄看了想连夜鞭打nvcc团队。

FeteFete · 发表于 2025-2-26 21:40

燕山雪发表于 2025-2-26 21:34
还没时间看代码，如果deepgemm真如他们说的是jit，那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节，ds发 ...

这个太底层了，连写cuda都不一定读得懂它说的啥

		自动登录	找回密码
密码			立即注册

[欢乐] Day 5: 高性能文件系统开源周结束，DS才是无可争议的OpenAI

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

Khellendros Khellendros 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2022-8-25 头像被屏蔽	发表于 2025-2-24 16:04 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[欢乐] Day 5: 高性能文件系统 开源周结束，DS才是无可争议的OpenAI

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

[欢乐] Day 5: 高性能文件系统开源周结束，DS才是无可争议的OpenAI