找回密码
 立即注册
搜索
楼主: 春眠不觉晓

[其他] semianalysis:英伟达为中国市场最新特制的GPU比H100还强

[复制链接]
     
发表于 2023-11-11 08:24 | 显示全部楼层
本帖最后由 andychen 于 2023-11-11 08:28 编辑
DeepFishing 发表于 2023-11-10 18:54
提带宽,斩点算力还不行嘛,跑大规模训练本身瓶颈就不是单卡算力了,楼里吹国产加速器的,有几个真的用过的 ...

带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速器,单卡互联目前应该没有能和nvlink竞争的产品,不过这个老早就被限制了。集群间的话我们是有能和infiband竞争的技术,只是那是给军方超算开发的……不知道国家看到目前的情况会不会通过某种方式转移到民用

回复

使用道具 举报

     
发表于 2023-11-11 08:28 | 显示全部楼层
Lokad 发表于 2023-11-10 19:08
华为的昇腾主要是产能吃紧,有说订单排到几年后的.  求大于供买的肯定是有,不过华为市占率以前也就10%,这 ...

不相信产能会有瓶颈
现在麒麟9000s都放开出货了,升腾出货量和麒麟比就是零头,利润率还高,华为不是傻子
回复

使用道具 举报

     
发表于 2023-11-11 08:48 来自手机 | 显示全部楼层
老美上一波制裁的指标是显存带宽,新一波(就是涵盖4090的这一波)改成算力/功耗比了。
但对于LLM任务,Transformer是典型的低计算访存比的模型(相对于视觉任务的CNN等模型),吃算力只有占比不多的Matmul,相关的优化方法也基本都是提升访存,比如page attention 和量化。提升core使用率主要靠大batch,但推理任务上不一定可以做到。来自: iPhone客户端
回复

使用道具 举报

     
发表于 2023-11-11 09:17 来自手机 | 显示全部楼层
Lokad 发表于 2023-11-10 19:08
华为的昇腾主要是产能吃紧,有说订单排到几年后的.  求大于供买的肯定是有,不过华为市占率以前也就10%,这 ...

国内已经快垄断了

急需下一个竞争对手入场,否则华为坐摇拥超额利润,不利于行业竞争

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-11 09:19 来自手机 | 显示全部楼层
andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

910b卡间互联是392gb/s,下一代说要翻倍,对标nvlink

做别的华为不好说,做通信那是肯定不虚任何人

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-11 09:37 | 显示全部楼层
shiraikuroko 发表于 2023-11-11 09:17
国内已经快垄断了

急需下一个竞争对手入场,否则华为坐摇拥超额利润,不利于行业竞争

现阶段需要在半导体行业整出一个世界树先,还没脱离制裁呢需要一个巨无霸抗压。
回复

使用道具 举报

     
发表于 2023-11-11 11:39 来自手机 | 显示全部楼层
这贴坛友是怎么想的,推理速度当然也是瓶颈,特别是对于商用场景

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-11 11:41 | 显示全部楼层
老黄 : 你觉得我哪里比他好, 我改还不行么   

回复

使用道具 举报

     
发表于 2023-11-11 11:47 | 显示全部楼层
琉璃苑軒風 发表于 2023-11-10 17:28
黄世仁是懂,要打压国内,需要的是造不如买

现在断供几次,有不少国内入局了,而且中国市场足够养 ...

不是“足够养出”而是“已经在卖了”,之前华子的人来我司宣讲的时候说1017之前910B的意向订单已经10W卡了,1017之后估计要直接翻倍
回复

使用道具 举报

     
发表于 2023-11-11 11:49 | 显示全部楼层
andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

同样是华子的人PPT上的指标,目前910B对比A100(充分调优的集群),平均单卡性能比例在0.8以上(取决于不同模型),目前最高的记录是LLama-70B的1.2,即910B平均单卡性能是A100的1.2倍
回复

使用道具 举报

     
发表于 2023-11-11 22:02 | 显示全部楼层
andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

910b 内就集成 对标 iB 的华子自己的 200Gb/s RoCE啊
还省个pci-e和ib网卡钱,交换机也现成的
华子自称比ib好...
回复

使用道具 举报

     
发表于 2023-11-12 02:31 来自手机 | 显示全部楼层
phorcys02 发表于 2023-11-11 22:02
910b 内就集成 对标 iB 的华子自己的 200Gb/s RoCE啊
还省个pci-e和ib网卡钱,交换机也现成的
华子自称比 ...

h100强在nvlink交换机,910b卡间互联就392g,还不能直接nvlink互联远端

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

发表于 2023-11-12 02:43 | 显示全部楼层
本帖最后由 苇原雪道 于 2023-11-12 09:57 编辑

为啥推理只需要这么低的算力啊。。。
回复

使用道具 举报

     
发表于 2023-11-12 04:17 | 显示全部楼层
本帖最后由 phorcys02 于 2023-11-12 04:27 编辑
shiraikuroko 发表于 2023-11-12 02:31
h100强在nvlink交换机,910b卡间互联就392g,还不能直接nvlink互联远端

—— 来自 HUAWEI ELE-AL00, And ...

你的理解可能有偏差,被 那个 392G带偏了
v2-c8dc267b26820f28de94231d2de04e73_720w.jpeg
19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0x16


22年的新910b已经是 2x 100G RoCE(也有说200G的) + PCI-e 5.0 x 16 +  3x 392G HCCS

910系列的HCCS是  4卡全相联 + 组间RoCE交换 (单机8卡 两组4卡间也可以pci-e),不像 nvlink是全交换
但 nvlink 3时代堆满switch芯片也最多只有16卡,剩下的也得走IB了
h100 nv搞了nvlink-network,可以消耗nvlink端口转成可以跨机链接的网络
910的优势是每个卡都有 现成100G/200G RoCE,接上RoCE交换机就可以顺利scale up,做交换机是华子擅长的,以后也可以轻松升级到 400G 800G
所以互联带宽有差距,但没有简单对比 392 vs 900那么大



回复

使用道具 举报

     
发表于 2023-11-12 08:41 来自手机 | 显示全部楼层
phorcys02 发表于 2023-11-12 04:17
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0 ...

单机8卡是走两个cpu的,cpu间numa速度撑不起4卡借pcie5.0交换(不跨numa勉强吧)

nvlink switch可以把高速互联的节点扩大到至少256,这以内910b都是明显劣势

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
 楼主| 发表于 2023-11-12 15:44 | 显示全部楼层
andychen 发表于 2023-11-11 08:24
带宽早在上波制裁就被限制了,A800和H800对比原版唯一的阉割就是带宽。现在变成算力也要限制
至于国产加速 ...

美国最近的规则取消带宽限制了
回复

使用道具 举报

     
 楼主| 发表于 2023-11-12 15:50 | 显示全部楼层
qratosones1337 发表于 2023-11-11 11:47
不是“足够养出”而是“已经在卖了”,之前华子的人来我司宣讲的时候说1017之前910B的意向订单已经10W卡 ...

910B大概啥价格啊?
回复

使用道具 举报

     
发表于 2023-11-12 16:13 来自手机 | 显示全部楼层

京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-12 16:36 | 显示全部楼层
qratosones1337 发表于 2023-11-12 16:13
京东搜Atlas300T

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

随便搜了下
13W7一件
妈妈耶
回复

使用道具 举报

     
发表于 2023-11-12 23:28 | 显示全部楼层
Dylan Patel 老熟人了这位老喜欢玩中国**,至于有谁信就不好说了

比如之前9000S的时候吹N+2制程良率非常好,接着搞还可以搞出5nm,两年内追上GPT-4
另一方面是认为美国太拉,STEM 大半靠外国人撑着,国内没有 tinkering 的文化
至于目的是啥,后者它列了十一条促进美国半导体发展的建议,前者更是直接甩出二十条全面加强全产业链制裁的建议

他的东西你看两篇就知道对于每件事情他总是在往他的预设立场上解释,就比如这个定制硬件性能更好在专业领域本来是很正常的事情,他直接整了个 UC 系标题
回复

使用道具 举报

     
发表于 2023-11-13 07:55 来自手机 | 显示全部楼层
7776169 发表于 2023-11-12 16:36
随便搜了下
13W7一件
妈妈耶

64g hbm版本大概10万一张

—— 来自 HUAWEI ELE-AL00, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-14 13:16 | 显示全部楼层
本帖最后由 shiraikuroko 于 2023-11-14 13:43 编辑
phorcys02 发表于 2023-11-12 04:17
你的理解可能有偏差,被 那个 392G带偏了

19年 910的时候 就是 3x 240G HCCS + 2x 100G RoCE + PCI-e 4.0 ...

你不会没分清gbit/s和gByte/s吧?

3*240gpbs HCCS+2* 100gbps,这里只有920gbps=115GB/S,哪怕加上PCI-E 4.0双向带宽64GB/S,也才是179GB/S

910B的3*392gbps+2*200gbps=197GB/S,加上PCI-E 5.0的128GB/S,最大互联带宽也仅有325GB/S,PCI-E带宽还是要打折的
华为写的说明更低:
AI NPU.png
回复

使用道具 举报

     
发表于 2023-11-14 15:47 来自手机 | 显示全部楼层
H20对比H800算力都被阉成狗了,就加了显存带宽。除非大家默认这卡就是可以有办法开核。
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-14 16:44 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-14 16:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-14 16:53 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-5-23 13:36 , Processed in 0.959734 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表