andychen 发表于 2023-11-11 08:24

本帖最后由 andychen 于 2023-11-11 08:28 编辑

DeepFishing 发表于 2023-11-10 18:54
提带宽,斩点算力还不行嘛,跑大规模训练本身瓶颈就不是单卡算力了,楼里吹国产加速器的,有几个真的用过的 ...
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速器,单卡互联目前应该没有能和nvlink竞争的产品,不过这个老早就被限制了。集群间的话我们是有能和infiband竞争的技术,只是那是给军方超算开发的……不知道国家看到目前的情况会不会通过某种方式转移到民用

andychen 发表于 2023-11-11 08:28

Lokad 发表于 2023-11-10 19:08
华为的昇腾主要是产能吃紧,有说订单排到几年后的.求大于供买的肯定是有,不过华为市占率以前也就10%,这 ...

不相信产能会有瓶颈
现在麒麟9000s都放开出货了,升腾出货量和麒麟比就是零头,利润率还高,华为不是傻子

qieqie 发表于 2023-11-11 08:48

老美上一波制裁的指标是显存带宽,新一波(就是涵盖4090的这一波)改成算力/功耗比了。
但对于LLM任务,Transformer是典型的低计算访存比的模型(相对于视觉任务的CNN等模型),吃算力只有占比不多的Matmul,相关的优化方法也基本都是提升访存,比如page attention 和量化。提升core使用率主要靠大batch,但推理任务上不一定可以做到。

shiraikuroko 发表于 2023-11-11 09:17

shiraikuroko 发表于 2023-11-11 09:19

Lokad 发表于 2023-11-11 09:37

shiraikuroko 发表于 2023-11-11 09:17
国内已经快垄断了

急需下一个竞争对手入场,否则华为坐摇拥超额利润,不利于行业竞争

现阶段需要在半导体行业整出一个世界树先,还没脱离制裁呢需要一个巨无霸抗压。

pf67 发表于 2023-11-11 11:39

这贴坛友是怎么想的,推理速度当然也是瓶颈,特别是对于商用场景

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

Slyvan 发表于 2023-11-11 11:41

老黄 : 你觉得我哪里比他好, 我改还不行么   

qratosones1337 发表于 2023-11-11 11:47

琉璃苑軒風 发表于 2023-11-10 17:28
黄世仁是懂,要打压国内,需要的是造不如买

现在断供几次,有不少国内入局了,而且中国市场足够养 ...

不是“足够养出”而是“已经在卖了”,之前华子的人来我司宣讲的时候说1017之前910B的意向订单已经10W卡了,1017之后估计要直接翻倍

qratosones1337 发表于 2023-11-11 11:49

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

同样是华子的人PPT上的指标,目前910B对比A100(充分调优的集群),平均单卡性能比例在0.8以上(取决于不同模型),目前最高的记录是LLama-70B的1.2,即910B平均单卡性能是A100的1.2倍

phorcys02 发表于 2023-11-11 22:02

andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

910b 内就集成 对标 iB 的华子自己的 200Gb/s RoCE啊
还省个pci-e和ib网卡钱,交换机也现成的
华子自称比ib好...

shiraikuroko 发表于 2023-11-12 02:31

苇原雪道 发表于 2023-11-12 02:43

本帖最后由 苇原雪道 于 2023-11-12 09:57 编辑

为啥推理只需要这么低的算力啊。。。

phorcys02 发表于 2023-11-12 04:17

本帖最后由 phorcys02 于 2023-11-12 04:27 编辑

shiraikuroko 发表于 2023-11-12 02:31
h100强在nvlink交换机,910b卡间互联就392g,还不能直接nvlink互联远端

—— 来自 HUAWEI ELE-AL00, And ...
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0x16


22年的新910b已经是 2x 100G RoCE(也有说200G的) + PCI-e 5.0 x 16 +3x 392G HCCS

910系列的HCCS是4卡全相联 + 组间RoCE交换 (单机8卡 两组4卡间也可以pci-e),不像 nvlink是全交换
但 nvlink 3时代堆满switch芯片也最多只有16卡,剩下的也得走IB了
h100 nv搞了nvlink-network,可以消耗nvlink端口转成可以跨机链接的网络
910的优势是每个卡都有 现成100G/200G RoCE,接上RoCE交换机就可以顺利scale up,做交换机是华子擅长的,以后也可以轻松升级到 400G 800G
所以互联带宽有差距,但没有简单对比 392 vs 900那么大



shiraikuroko 发表于 2023-11-12 08:41

春眠不觉晓 发表于 2023-11-12 15:44

春眠不觉晓 发表于 2023-11-12 15:50

qratosones1337 发表于 2023-11-12 16:13

春眠不觉晓 发表于 2023-11-12 15:50
910B大概啥价格啊?

京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

7776169 发表于 2023-11-12 16:36

qratosones1337 发表于 2023-11-12 16:13
京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

随便搜了下
13W7一件
妈妈耶

wewai 发表于 2023-11-12 23:28

Dylan Patel 老熟人了这位老喜欢玩中国**,至于有谁信就不好说了

比如之前9000S的时候吹N+2制程良率非常好,接着搞还可以搞出5nm,两年内追上GPT-4
另一方面是认为美国太拉,STEM 大半靠外国人撑着,国内没有 tinkering 的文化
至于目的是啥,后者它列了十一条促进美国半导体发展的建议,前者更是直接甩出二十条全面加强全产业链制裁的建议

他的东西你看两篇就知道对于每件事情他总是在往他的预设立场上解释,就比如这个定制硬件性能更好在专业领域本来是很正常的事情,他直接整了个 UC 系标题

shiraikuroko 发表于 2023-11-13 07:55

shiraikuroko 发表于 2023-11-14 13:16

stevenzero 发表于 2023-11-14 15:47

H20对比H800算力都被阉成狗了,就加了显存带宽。除非大家默认这卡就是可以有办法开核。

h89346 发表于 2023-11-14 16:44

h89346 发表于 2023-11-14 16:46

h89346 发表于 2023-11-14 16:53

页: 1 [2]
查看完整版本: semianalysis:英伟达为中国市场最新特制的GPU比H100还强