SkavenYesYes 发表于 2025-1-30 11:01

ds据称没用cuda

而是用的更接近汇编语言的ptx编程,所以拥有了更高的效率
这年是不想让老黄过了吧

https://p.sda1.dev/21/5e76c6a00069a0511d5da41719d90e85/image.jpg
有谭友交叉验证一下的么

AraTurambar 发表于 2025-1-30 11:03

用的还是老黄的架构,只是更接近底层而已。不影响老黄吃饭。

i0ncube_R 发表于 2025-1-30 11:04

除非完全没有追求的,大家伙早就不想被绑架到cuda上了,这还是狗家带头的,ds真没用也没啥不可思议的吧

FeteFete 发表于 2025-1-30 11:05

ptx编程本身就是英伟达技术栈

大概率是先写的 cuda 核函数,

然后基于这个核函数进行 ptx 优化

sellboy 发表于 2025-1-30 11:05

CUDA还有移植ROCm和OpenAPI的办法,而底层编程那可移植性会更差,老黄是更不担心的。

FeteFete 发表于 2025-1-30 11:11

PTX(Parallel Thread Execution) 汇编 是 NVIDIA 为其 GPU 提供的一种并行指令集架构(ISA),用于编写 GPU 设备代码。

枯风瘦雪 发表于 2025-1-30 11:14

其实量化领域的编程往底层走都是常规操作了,毕竟追求更高的效率和更低的延迟是这一行的不变需求,DS继承了这个特性很符合这家公司的基因

—— 来自 S1Fun

Steel.Haze 发表于 2025-1-30 11:15

幻方作为一个量化交易机构,发布模型后的主要盈利据传来自做空美股,那么....谁会嫌钱多呢?你只能攻击一下,也没其它本事了。
开玩笑,不过去CUDA化其实也是大趋势,业界之前在算力比拼中为了机械效率没有把这个作为首要目的而已。

gammatau 发表于 2025-1-30 11:16

这反而是老黄利好啊

phorcys02 发表于 2025-1-30 11:40

gammatau 发表于 2025-1-30 11:16
这反而是老黄利好啊

为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
一般来说没必要纯手写,因为你可以通过改llvm来实现需求
但老黄的则是不行

oldttt 发表于 2025-1-30 11:42

SkavenYesYes 发表于 2025-1-30 11:01
而是用的更接近汇编语言的ptx编程,所以拥有了更高的效率
这年是不想让老黄过了吧


cuda就是先编译成ptx汇编的 一回事 全手写ptx大概不太可能 一般都是cuda里面内嵌

treexper 发表于 2025-1-30 11:48

ptx就是cuda的汇编,哪有不用cuda的,你用cuda c写的也会编译为ptx。。。

d2loader 发表于 2025-1-30 11:55



PTX还不是老黄的汇编, 算是比NVVM转成老黄专用IR之后再下一级的IR接近汇编

实际上最后还要codegen成SASS, 这个是按芯片架构专用的汇编

naigo 发表于 2025-1-30 11:56

yk:“就是cuda翻译出来的东西他认为太啰嗦了,他自己写了一段汇编ptx”

灰流うらら 发表于 2025-1-30 11:57

这不是更绑死了吗?

—— 来自 鹅球 v3.3.96

d2loader 发表于 2025-1-30 11:59

phorcys02 发表于 2025-1-30 11:40
为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
...

老黄的LLVM支持也没比AMD少, 实际上LLVM后端有nvptx, 但是输出和nvcc的秘制优化比起来可能输出的ptx不一致

另外GPU通用计算你离不开SIMT这种思路, 那你写出来的架构还不是模仿CUDA, 只是各家生态链成熟度不一样

cscbzcbz 发表于 2025-1-30 11:59

deepseek说有点夸张

简单来说:**这新闻有一定道理,但可能有点夸张**。

1. **CUDA和PTX啥关系?**
   CUDA是英伟达给开发者用的“傻瓜式”编程工具,PTX是更底层的代码(类似组装零件)。平时大家用CUDA写代码,它会自动转成PTX再变成机器能懂的指令。

2. **DeepSeek的“突破”是啥?**
   大概率是他们在CUDA生成的PTX代码上做了深度手工优化(比如删掉冗余步骤),让AI跑得更快。但完全不用CUDA从头写PTX?可能性极低——这相当于自己造轮子,难度爆炸,还容易搞崩。

3. **值不值得震惊?**
   如果是手动优化关键代码,这在超算等极端领域确实存在,但普通AI开发根本用不着。大概率是媒体把技术细节简化成了“绕过CUDA”这种抓眼球的标题。

**总结**:技术宅搞了点高级优化,但说“颠覆CUDA”就太夸张了,洗洗睡吧。

mwj 发表于 2025-1-30 12:04

这用更底层的api不是更深度绑定n卡生态了吗。。。

Vacuolar 发表于 2025-1-30 12:55

那个文章并非技术分析,全都是以“内部人士”的姿态在进行消息展示,可信度可疑。
不是deepseek里面的人出来宣布,我不会信的。

geeky_kappa 发表于 2025-1-30 13:22

小aa不争气啊

fw3ii9 发表于 2025-1-30 13:27

大概类似嫌弃C++编译出来的结果效率太低手写了汇编吧
在HPC领域里属于是基操勿6

精钢魔像 发表于 2025-1-30 13:37

fw3ii9 发表于 2025-1-30 13:27
大概类似嫌弃C++编译出来的结果效率太低手写了汇编吧
在HPC领域里属于是基操勿6 ...

接口操作太繁琐不好用,读了遍代码自己撸了个接口。
这也符合初入职场天不怕地不怕的大学生人设。

orz100 发表于 2025-1-30 14:04

让ds自己给自己写吧

—— 来自 鹅球 v3.3.96

jojog 发表于 2025-1-30 14:15

来了来了,你西大能吹得我东大吹不得?第二波做空走起!

朋友 发表于 2025-1-30 14:16

phorcys02 发表于 2025-1-30 11:40
为啥,PTX 相比 AMD的GCN/RDNA/CDNA 也没有特别特殊的地方啊
两种汇编而已,只不过amd的 有llvm完整支持
...

移植的时候都是技术债

RJG丶one 发表于 2025-1-30 14:30

用汇编不代表更绑定n卡技术栈了啊,用汇编代表着n卡的cuda编译器有明显短板,各公司内部发展基于cuda的内部编译器后,实际上是剥离了cuda生态。后续可能的两个方向分别是以后发展出了符合英伟达原厂标准的cuda第三方编译器,或者是更中国标准或者说华为事实标准的第三方通用机器学习编译器。

mimighost 发表于 2025-1-30 15:03

这个类似汇编

别乱说,人论文里面说了用cuda的

临界点 发表于 2025-1-30 15:15

mwj 发表于 2025-1-30 12:04
这用更底层的api不是更深度绑定n卡生态了吗。。。

如果是老黄帮忙搞的那确实是但这是deepseek自己搞的那换平台也没啥问题 最多就是效率而已

LeonsCat 发表于 2025-1-30 15:20

这不就是asm()
评为少见多怪,用得上HPC的人可能没那么多,你写点单片机总该用过吧?
下次是不是python写多了,看到C里直接操作内存就吓尿。。。

treexper 发表于 2025-1-30 15:24

而且在cuda c的核函数里面,可以直接嵌入ptx代码。实际上就是cuda的特性,老黄帮你准备好的优化手段。

lqf3dnow 发表于 2025-1-30 15:28

用PTX怎么跑在华为昇腾NPU上?
页: [1]
查看完整版本: ds据称没用cuda