找回密码
 立即注册
搜索
查看: 8433|回复: 31

[科技] ds据称没用cuda

[复制链接]
     
发表于 2025-1-30 11:01 来自手机 | 显示全部楼层 |阅读模式
而是用的更接近汇编语言的ptx编程,所以拥有了更高的效率
这年是不想让老黄过了吧


有谭友交叉验证一下的么
回复

使用道具 举报

     
发表于 2025-1-30 11:03 | 显示全部楼层
用的还是老黄的架构,只是更接近底层而已。不影响老黄吃饭。
回复

使用道具 举报

发表于 2025-1-30 11:04 | 显示全部楼层
除非完全没有追求的,大家伙早就不想被绑架到cuda上了,这还是狗家带头的,ds真没用也没啥不可思议的吧
回复

使用道具 举报

发表于 2025-1-30 11:05 | 显示全部楼层
ptx编程本身就是英伟达技术栈

大概率是先写的 cuda 核函数,

然后基于这个核函数进行 ptx 优化
回复

使用道具 举报

     
发表于 2025-1-30 11:05 | 显示全部楼层
CUDA还有移植ROCm和OpenAPI的办法,而底层编程那可移植性会更差,老黄是更不担心的。
回复

使用道具 举报

发表于 2025-1-30 11:11 | 显示全部楼层
PTX(Parallel Thread Execution) 汇编 是 NVIDIA 为其 GPU 提供的一种并行指令集架构(ISA),用于编写 GPU 设备代码。
回复

使用道具 举报

     
发表于 2025-1-30 11:14 | 显示全部楼层
其实量化领域的编程往底层走都是常规操作了,毕竟追求更高的效率和更低的延迟是这一行的不变需求,DS继承了这个特性很符合这家公司的基因

—— 来自 S1Fun

评分

参与人数 1战斗力 +1 收起 理由
wlbthh + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-30 11:15 | 显示全部楼层
幻方作为一个量化交易机构,发布模型后的主要盈利据传来自做空美股,那么....谁会嫌钱多呢?你只能攻击一下,也没其它本事了。
开玩笑,不过去CUDA化其实也是大趋势,业界之前在算力比拼中为了机械效率没有把这个作为首要目的而已。
回复

使用道具 举报

     
发表于 2025-1-30 11:16 来自手机 | 显示全部楼层
这反而是老黄利好啊
回复

使用道具 举报

     
发表于 2025-1-30 11:40 | 显示全部楼层
gammatau 发表于 2025-1-30 11:16
这反而是老黄利好啊

为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
一般来说没必要纯手写,因为你可以通过改llvm来实现需求
但老黄的则是不行
回复

使用道具 举报

     
发表于 2025-1-30 11:42 | 显示全部楼层
SkavenYesYes 发表于 2025-1-30 11:01
而是用的更接近汇编语言的ptx编程,所以拥有了更高的效率
这年是不想让老黄过了吧

cuda就是先编译成ptx汇编的 一回事 全手写ptx大概不太可能 一般都是cuda里面内嵌
回复

使用道具 举报

     
发表于 2025-1-30 11:48 | 显示全部楼层
ptx就是cuda的汇编,哪有不用cuda的,你用cuda c写的也会编译为ptx。。。
回复

使用道具 举报

     
发表于 2025-1-30 11:55 | 显示全部楼层


PTX还不是老黄的汇编, 算是比NVVM转成老黄专用IR之后再下一级的IR接近汇编

实际上最后还要codegen成SASS, 这个是按芯片架构专用的汇编

回复

使用道具 举报

     
发表于 2025-1-30 11:56 来自手机 | 显示全部楼层
yk:“就是cuda翻译出来的东西他认为太啰嗦了,他自己写了一段汇编ptx”
回复

使用道具 举报

     
发表于 2025-1-30 11:57 来自手机 | 显示全部楼层
这不是更绑死了吗?

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-30 11:59 | 显示全部楼层
phorcys02 发表于 2025-1-30 11:40
为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
...

老黄的LLVM支持也没比AMD少, 实际上LLVM后端有nvptx, 但是输出和nvcc的秘制优化比起来可能输出的ptx不一致

另外GPU通用计算你离不开SIMT这种思路, 那你写出来的架构还不是模仿CUDA, 只是各家生态链成熟度不一样
回复

使用道具 举报

     
发表于 2025-1-30 11:59 | 显示全部楼层
deepseek说有点夸张

简单来说:**这新闻有一定道理,但可能有点夸张**。

1. **CUDA和PTX啥关系?**  
   CUDA是英伟达给开发者用的“傻瓜式”编程工具,PTX是更底层的代码(类似组装零件)。平时大家用CUDA写代码,它会自动转成PTX再变成机器能懂的指令。

2. **DeepSeek的“突破”是啥?**  
   大概率是他们在CUDA生成的PTX代码上做了深度手工优化(比如删掉冗余步骤),让AI跑得更快。但完全不用CUDA从头写PTX?可能性极低——这相当于自己造轮子,难度爆炸,还容易搞崩。

3. **值不值得震惊?**  
   如果是手动优化关键代码,这在超算等极端领域确实存在,但普通AI开发根本用不着。大概率是媒体把技术细节简化成了“绕过CUDA”这种抓眼球的标题。

**总结**:技术宅搞了点高级优化,但说“颠覆CUDA”就太夸张了,洗洗睡吧。
回复

使用道具 举报

     
发表于 2025-1-30 12:04 来自手机 | 显示全部楼层
这用更底层的api不是更深度绑定n卡生态了吗。。。
回复

使用道具 举报

     
发表于 2025-1-30 12:55 来自手机 | 显示全部楼层
那个文章并非技术分析,全都是以“内部人士”的姿态在进行消息展示,可信度可疑。
不是deepseek里面的人出来宣布,我不会信的。
回复

使用道具 举报

     
发表于 2025-1-30 13:22 来自手机 | 显示全部楼层
小aa不争气啊
回复

使用道具 举报

     
发表于 2025-1-30 13:27 | 显示全部楼层
大概类似嫌弃C++编译出来的结果效率太低手写了汇编吧
在HPC领域里属于是基操勿6
回复

使用道具 举报

     
发表于 2025-1-30 13:37 | 显示全部楼层
fw3ii9 发表于 2025-1-30 13:27
大概类似嫌弃C++编译出来的结果效率太低手写了汇编吧
在HPC领域里属于是基操勿6 ...

接口操作太繁琐不好用,读了遍代码自己撸了个接口。
这也符合初入职场天不怕地不怕的大学生人设。
回复

使用道具 举报

     
发表于 2025-1-30 14:04 来自手机 | 显示全部楼层
让ds自己给自己写吧

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-30 14:15 | 显示全部楼层
来了来了,你西大能吹得我东大吹不得?第二波做空走起!

回复

使用道具 举报

发表于 2025-1-30 14:16 来自手机 | 显示全部楼层
phorcys02 发表于 2025-1-30 11:40
为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
...

移植的时候都是技术债
回复

使用道具 举报

     
发表于 2025-1-30 14:30 来自手机 | 显示全部楼层
用汇编不代表更绑定n卡技术栈了啊,用汇编代表着n卡的cuda编译器有明显短板,各公司内部发展基于cuda的内部编译器后,实际上是剥离了cuda生态。后续可能的两个方向分别是以后发展出了符合英伟达原厂标准的cuda第三方编译器,或者是更中国标准或者说华为事实标准的第三方通用机器学习编译器。
回复

使用道具 举报

发表于 2025-1-30 15:03 | 显示全部楼层
这个类似汇编

别乱说,人论文里面说了用cuda的
回复

使用道具 举报

     
发表于 2025-1-30 15:15 | 显示全部楼层
mwj 发表于 2025-1-30 12:04
这用更底层的api不是更深度绑定n卡生态了吗。。。

如果是老黄帮忙搞的  那确实是  但这是deepseek自己搞的  那换平台也没啥问题 最多就是效率而已
回复

使用道具 举报

     
发表于 2025-1-30 15:20 | 显示全部楼层
这不就是asm()
评为少见多怪,用得上HPC的人可能没那么多,你写点单片机总该用过吧?
下次是不是python写多了,看到C里直接操作内存就吓尿。。。
回复

使用道具 举报

     
发表于 2025-1-30 15:24 | 显示全部楼层
而且在cuda c的核函数里面,可以直接嵌入ptx代码。实际上就是cuda的特性,老黄帮你准备好的优化手段。
回复

使用道具 举报

     
发表于 2025-1-30 15:28 | 显示全部楼层
用PTX怎么跑在华为昇腾NPU上?
回复

使用道具 举报

发表于 2025-1-31 05:25 | 显示全部楼层
lqf3dnow 发表于 2025-1-30 15:28
用PTX怎么跑在华为昇腾NPU上?

写一套针对npu的code就行了

甚至不需要ds的人,华为的人自己可以去写
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 07:26 , Processed in 0.210537 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表