找回密码
 立即注册
搜索
楼主: moekyo

[欢乐] Day 5: 高性能文件系统 开源周结束,DS才是无可争议的OpenAI

[复制链接]
     
发表于 2025-2-26 21:42 | 显示全部楼层
燕山雪 发表于 2025-2-26 21:34
还没时间看代码,如果deepgemm真如他们说的是jit,那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节,ds发 ...

其实说白了,DS 团队这三天发布的都是NVIDIA自己团队应该干的活

老黄一边吹嘘AI,他手底下的人一边给他糊弄事。
回复

使用道具 举报

发表于 2025-2-26 21:46 来自手机 | 显示全部楼层
燕山雪 发表于 2025-2-26 21:34
还没时间看代码,如果deepgemm真如他们说的是jit,那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节,ds发 ...

看了源代码有点哈人 上一次看到了类似风格的 是猜测英伟达某代显卡鸡寄存器级别的调度风格 用代码实现寄存器流水
回复

使用道具 举报

     
发表于 2025-2-26 21:48 来自手机 | 显示全部楼层
燕山雪 发表于 2025-2-26 21:34
还没时间看代码,如果deepgemm真如他们说的是jit,那真的牛逼。顺便转个推∶

DeepGEMM里面有个细节,ds发 ...

瞄了一眼,还真是这样干的,我都能想到写这玩意的开发发现这事的时候有多恶心了
不过比起他们咋干的我更好奇他们为啥这样干,是专门有人评估理论性能来定 kpi,奔着极限优化走的嘛

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-2-26 22:00 | 显示全部楼层
JIT compiled FP8 kernels

这个不知道是不是和Hooper架构强绑定

如果不是可以拿来移植很多地方,比如我现在正在写的东西
回复

使用道具 举报

发表于 2025-2-26 22:02 | 显示全部楼层
LyricZhao
7 hours ago
Collaborator
I'm not sure whether it is hard to add other arch-support and maximize the performance. We may release new version if we get some other arch support, also, open-source community PRs are welcomed.

看了一下开发者回复,好吧,没有arch-support
我还想白嫖pr呢
回复

使用道具 举报

     
发表于 2025-2-26 22:22 | 显示全部楼层
梁总是从哪里招到这么一群大神的?不可能是社招吧
回复

使用道具 举报

     
发表于 2025-2-26 22:32 来自手机 | 显示全部楼层
精钢魔像 发表于 2025-2-26 22:22
梁总是从哪里招到这么一群大神的?不可能是社招吧

都是打比赛的竞爷啊,顶级选手有小圈子的
回复

使用道具 举报

     
发表于 2025-2-26 22:37 来自手机 | 显示全部楼层
精钢魔像 发表于 2025-2-26 22:22
梁总是从哪里招到这么一群大神的?不可能是社招吧

不如说国内散户的对手盘太可怕了

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2.1
回复

使用道具 举报

     
发表于 2025-2-26 22:38 | 显示全部楼层
这个轻量级JIT还是要用nvcc编译成动态库的,kernel是从模板实时生成的
回复

使用道具 举报

     
发表于 2025-2-26 22:41 来自手机 | 显示全部楼层
云卷花开 发表于 2025-2-26 21:48
瞄了一眼,还真是这样干的,我都能想到写这玩意的开发发现这事的时候有多恶心了
不过比起他们咋干的我更 ...

infra 扣性能的时候各种路子都会使我们考虑可维护性没搞,但是真有公司给 golang 打动态 patch 来针对性的魔改一些适合自己的 goroutine 调度器和内存 allocator 的

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-2-26 22:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-2-26 22:47 | 显示全部楼层
cube 发表于 2025-2-26 21:42
其实说白了,DS 团队这三天发布的都是NVIDIA自己团队应该干的活。

老黄一边吹嘘AI,他手底下的人一边给 ...

非业内人士的理解:

   等于是DS相当于手机APP,这个APP发现安卓系统的运行问题,就改了安卓系统,让系统性能提升了10%

是不是这样?
回复

使用道具 举报

     
发表于 2025-2-26 22:55 来自手机 | 显示全部楼层
ywj321 发表于 2025-2-26 22:47
非业内人士的理解:

   等于是DS相当于手机APP,这个APP发现安卓系统的运行问题,就改了安卓系统,让系 ...

app 改内核代码这种正常路子没法搞,可以理解为自己魔改了编程语言的系统库或者编译器生成汇编代码的逻辑

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-26 22:58 | 显示全部楼层
moekyo 发表于 2025-2-25 14:54
你说的更新封装个人部署是什么意思,如果是指本地跑模型的话,现在买个16G的mac mini下个ollama就行了的 ...

我的意思是目前我用了一个叫GPT4all的工具,里面可以随时选择下载集成ai模型在本地,所以我想问的是这些新的更新内容是不是也会能这么方便的面对个人用户更新使用,因为我不是很懂技术,只是在等着更方便的ai工具使用来解决问题,后面我觉得是不是会很快有团队来把这些提高生产力的东西包装成明确的工具,比如根据描述写工程代码,做网站,等直接落地的工具
回复

使用道具 举报

     
发表于 2025-2-26 22:58 | 显示全部楼层
ywj321 发表于 2025-2-26 22:47
非业内人士的理解:

   等于是DS相当于手机APP,这个APP发现安卓系统的运行问题,就改了安卓系统,让系 ...

APP是应用层,这事相当于是DS团队挖到了NVCC这套代码的底层逻辑然后发现了一个非常不合理的运作方式,就自己打了个非官方补丁把这个问题修复了。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-27 00:17 | 显示全部楼层
一座恐怖屋 发表于 2025-2-26 22:58
我的意思是目前我用了一个叫GPT4all的工具,里面可以随时选择下载集成ai模型在本地,所以我想问的是这些 ...

本周DS开源的这些东西,压根就不是给一般个人用户准备的,用来尽可能榨取出硬件的潜力,属于最上游的部份了,你说的写代码之类就属于最下游的基于大模型的生产和应用了。如果你想体验最新的模型写代码的话,现在最大路的就是充钱用cursor了,一个月20刀
回复

使用道具 举报

     
发表于 2025-2-27 02:30 | 显示全部楼层
一座恐怖屋 发表于 2025-2-26 22:58
我的意思是目前我用了一个叫GPT4all的工具,里面可以随时选择下载集成ai模型在本地,所以我想问的是这些 ...

现在还不行。比如给ai 下指令写个遍历文件的代码,ai大概率会调os模块(python),你觉得os模块可能会有问题,而且你又知道应该用pathlib,再给ai下指令用path改写,ai也能完成得很好——但这个过程还是建立在使用者是行内人士的前提上,不是有了ai,就有免费的技术人员给你用了。
回复

使用道具 举报

发表于 2025-2-27 09:18 来自手机 | 显示全部楼层
一座恐怖屋 发表于 2025-2-26 22:58
我的意思是目前我用了一个叫GPT4all的工具,里面可以随时选择下载集成ai模型在本地,所以我想问的是这些 ...


不能,上面说的那些内容偏向于底层了,你这个属于应用层,隔得有点远
回复

使用道具 举报

     
发表于 2025-2-27 09:30 | 显示全部楼层
moekyo 发表于 2025-2-27 00:17
本周DS开源的这些东西,压根就不是给一般个人用户准备的,用来尽可能榨取出硬件的潜力,属于最上游的部份 ...

一个月20刀只是cursor的费用, 还要加上所用的大模型费用
回复

使用道具 举报

     
发表于 2025-2-27 09:33 来自手机 | 显示全部楼层
本帖最后由 claymorep 于 2025-2-27 09:34 编辑
ywj321 发表于 2025-2-26 22:47
非业内人士的理解:

   等于是DS相当于手机APP,这个APP发现安卓系统的运行问题,就改了安卓系统,让系 ...

打个比方是deepseek是做windows的应用客户端时,发现win10有个系统bug导致运行效率不高,就做了个非官方系统补丁修复这个问题。不过这个补丁跟应用客户端都是独立的,人都可以用这个补丁

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-27 09:43 | 显示全部楼层
moekyo 发表于 2025-2-25 10:56
顺带说一下,千问也发了推理模型的预览版,也支持联网,也是业界汪峰了
https://chat.qwen.ai

其实我用得最多还是千问,毕竟Deepseek一天只回我两条消息
回复

使用道具 举报

     
发表于 2025-2-27 10:18 | 显示全部楼层
a37356205 发表于 2025-2-27 09:43
其实我用得最多还是千问,毕竟Deepseek一天只回我两条消息

秘塔搜索没什么限制
回复

使用道具 举报

     
发表于 2025-2-27 10:26 | 显示全部楼层
https://github.com/deepseek-ai/DualPipe

DualPipe is an innovative bidirectional pipeline parallism algorithm introduced in the DeepSeek-V3 Technical Report. It achieves full overlap of forward and backward computation-communication phases, also reducing pipeline bubbles. For detailed information on computation-communication overlap, please refer to the profile data.
回复

使用道具 举报

发表于 2025-2-27 10:29 来自手机 | 显示全部楼层
小野賢章 发表于 2025-2-27 10:26
https://github.com/deepseek-ai/DualPipe

DualPipe is an innovative bidirectional pipeline parallism  ...

parallism algorithm

这个算也是惯例了
回复

使用道具 举报

发表于 2025-2-27 10:29 | 显示全部楼层

今天开源的新东西,用来把通信和计算重叠的算法,梁文峰是主要开发者,chad能量太强了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
 楼主| 发表于 2025-2-27 10:32 | 显示全部楼层
mp5 发表于 2025-2-27 09:30
一个月20刀只是cursor的费用, 还要加上所用的大模型费用

哈,我之前充过一个月的,Claude 3.5 Sonnet这些都是随便的用的啊,没有额外付费啊?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-2-27 10:54 来自手机 | 显示全部楼层
精钢魔像 发表于 2025-2-26 22:22
梁总是从哪里招到这么一群大神的?不可能是社招吧

梁总:不知道啊 我找人来炒股票的
回复

使用道具 举报

     
发表于 2025-2-27 12:43 | 显示全部楼层
这帮人最厉害的是,国内大厂很多其实就在搞业务整合,模式创新,有啥用啥,很少有像这帮人真正做深度底层的创新的

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-2-28 09:31 来自手机 | 显示全部楼层
最后一天是文件系统
https://github.com/deepseek-ai/3FS
太哈人了,为了训练大模型写了个文件系统???

— from S1 Next Goose v3.3.96
回复

使用道具 举报

     
发表于 2025-2-28 10:00 | 显示全部楼层
Azcarlo 发表于 2025-2-28 09:31
最后一天是文件系统
https://github.com/deepseek-ai/3FS
太哈人了,为了训练大模型写了个文件系统???

其实早就有了:https://www.high-flyer.cn/blog/3fs/

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-2-28 10:08 | 显示全部楼层
这已经不是Open AI还是Closed AI的区别了,已经完全是降维打击了。

DeepSeek:让我这个做量化的告诉你们应该如何研究AI

预测以后AI研究的重点将不再单独局限于LLM,而是扩展到任何可以促进AI技术发展的领域,包括但不仅限于各种系统。

—— 来自 S1Fun
回复

使用道具 举报

     
 楼主| 发表于 2025-2-28 10:47 | 显示全部楼层
完结散花,可以预见,后面DS会自研算计芯片了
回复

使用道具 举报

     
发表于 2025-2-28 10:53 | 显示全部楼层
overflowal 发表于 2025-2-27 10:29
今天开源的新东西,用来把通信和计算重叠的算法,梁文峰是主要开发者,chad能量太强了 ...

这个是梁文锋本行啊。
回复

使用道具 举报

发表于 2025-2-28 10:57 | 显示全部楼层
Azcarlo 发表于 2025-2-28 09:31
最后一天是文件系统
https://github.com/deepseek-ai/3FS
太哈人了,为了训练大模型写了个文件系统???

这个是幻方时就有的,不过确实是为了训练模型做的。原来市面上有的方案不适合大模型训练的场景。
回复

使用道具 举报

     
发表于 2025-2-28 11:09 | 显示全部楼层
完结撒花
回复

使用道具 举报

     
发表于 2025-2-28 11:11 | 显示全部楼层
moekyo 发表于 2025-2-28 10:47
完结散花,可以预见,后面DS会自研算计芯片了

他从设计托卡马克开始发电顺便用产生的中子轰击汞批量制造黄金我都信
回复

使用道具 举报

     
发表于 2025-2-28 11:22 | 显示全部楼层
做实事的人真的能发光
回复

使用道具 举报

     
发表于 2025-2-28 11:58 来自手机 | 显示全部楼层
对比一下CHATGPT4.5今天公布的这个奇低的效率和司马的价格。

奥特曼你没活可以去咬打火机
回复

使用道具 举报

发表于 2025-2-28 12:07 来自手机 | 显示全部楼层
加油,欧美那几家是不是全面开放搞黄就看DS卷到什么程度了

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-28 12:09 | 显示全部楼层
夺取宣称 重建openai 是吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 02:56 , Processed in 0.172153 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表