科大讯飞刘庆峰：华为GPU已可对标英伟达A100

LHO · 发表于 2023-8-27 08:29

提示: 作者被禁止或删除内容自动屏蔽

血河之舞 · 发表于 2023-8-27 08:41

提示: 作者被禁止或删除内容自动屏蔽

坑爹虎 · 发表于 2023-8-27 11:06

刘庆峰的自媒体一半都在跑火车瞎几把吹

yuialon · 发表于 2023-8-27 11:21

问题老黄靠的是cuda。硬件好堆，但是配套的库难。

shiraikuroko · 发表于 2023-8-27 11:25

telos 发表于 2023-8-26 11:05
虽然我是不相信什么华为升腾＞a100之类的狗屁沸腾体的，但是有句说句，讯飞的星火挺好用的…比llma和claude ...

这玩意算力差不多，不代表用起来差不多，小规模用户需要生态，NV提供了全套，用华为你就得专门找人写代码，那贵上天了。只有不得不用的，或者说是量大到一定程度，价差请得起团队的才会买这些。典型就是制裁单位、超算

sunbeach · 发表于 2023-8-27 11:26

血河之舞发表于 2023-8-27 08:41
其实做深度学习运算加速器并不是很难，难在有没有人用，而美国政府则把这个最难的部分补上了，这跟服务器CP ...

牙膏厂砍掉计算加速卡业务的一大原因就是米国以东大拿来做雷达车为由禁掉了东大这个占牙膏厂加速卡业务接近一半的市场

shiraikuroko · 发表于 2023-8-27 11:29

本帖最后由 shiraikuroko 于 2023-8-27 11:43 编辑

Redis 发表于 2023-8-26 17:16
算力上匹配a100难度并不大啊，现在transformer本来就是算力过剩，内存带宽瓶颈，这不是废话吗。

羊驼的确 ...

内存带宽瓶颈这个好办啊，华为都是直接堆HBM的，都堆了N年了
910B外连是200GE，接口PCI-E 5.0*16

shiraikuroko · 发表于 2023-8-27 11:42

wfefe 发表于 2023-8-27 01:35
这两年国内不少数据中心和AI模型都用到了昇腾910，如果全是库存货的话，那大家都去松山湖打捞吧。

而且 ...

不用猜啊，就是
https://support.huawei.com/enter ... 2309113%7C254184749

这里面写的很清楚了，新的910B，280T FP16算力，A100是312T，还是差一点

sanchaji · 发表于 2023-8-27 12:13

燕山雪发表于 2023-8-27 00:03
deepmind表示很淦……手持stable diffusion的慕尼黑某校表示很淦……苏黎世理工表示我们神马都不知道…… ...

我好奇的是，按同样的逻辑对于deepmind，swin-transformer这种成果到底算中还是美的，以及之前百度那篇nature成果算谁的?

mikan100 · 发表于 2023-8-27 12:26

燕山雪 · 发表于 2023-8-27 12:30

shiraikuroko 发表于 2023-8-27 11:42
不用猜啊，就是
https://support.huawei.com/enterprise/zh/doc/EDOC1100318278?idPath=23710424%7C25136 ...

910就不是给训练设计的，其fp32能力理论值甚至都比不上单张4090，因为太老了也不支持bf16，至于实际性能，随手搜了个公开链接 https://zhuanlan.zhihu.com/p/371568872 ，反正很沸腾就是了

shiraikuroko · 发表于 2023-8-27 12:33

本帖最后由 shiraikuroko 于 2023-8-27 12:36 编辑

燕山雪发表于 2023-8-27 12:30
910就不是给训练设计的，其fp32能力理论值甚至都比不上单张4090，因为太老了也不支持bf16，至于实际性能 ...

形态双槽位全高全长PCIe卡
AI处理器 1* 昇腾910 AI处理器
集成20个华为达芬奇AI Core
内存规格 ● 32GB HBM
● HBM带宽：800GB/s
AI算力a ● 半精度（FP16）：最大算力为280 TFLOPS
● 单精度（FP32）：最大算力为75 TFLOPS
● 整数精度（INT8）：最大算力为560 TOPSPCIe接口 PCIe x16 Gen5.0
网络 1*200GE QSFP-DD接口，支持RoCE协议

你说的那个是910A，啥年代了还拿出来对比？
你不如查一下，PCI-E 5.0*16接口啥时出的

燕山雪 · 发表于 2023-8-27 12:39

shiraikuroko 发表于 2023-8-27 12:33
你说的那个是910A，啥年代了还拿出来对比？
你不如查一下，PCI-E 5.0*16接口啥时出的
...

然鹅4090的fp32能力是82.58tflops

shiraikuroko · 发表于 2023-8-27 12:47

燕山雪发表于 2023-8-27 12:39
然鹅4090的fp32能力是82.58tflops

你想表达啥？4090FP32有82T，FP16是165T

910B的FP32是75T，FP16是280T

FP32打平接近（误差10%），FP16高70%，你是想说华为设计水平已经超过NV了是么？

shiraikuroko · 发表于 2023-8-27 12:52

本帖最后由 shiraikuroko 于 2023-8-27 13:01 编辑

人家说的很清楚，对标的是A100，A100的FP16算力312T，910B是280T，虽然还是差点，但是低个10%说个对标不过分吧？

不知道哪来的沸腾贵物，就知道个4090，挑个数字大的，秒杀！
这种大规模训练，互联带宽才是最重要的，910B是PCI-E 5.0 *16外加200G网卡，比不上NV独家的NVLINK。可惜4090这种消费级卡连NVLINK都阉了，不配

燕山雪 · 发表于 2023-8-27 12:53

shiraikuroko 发表于 2023-8-27 12:47
你想表达啥？4090FP32有82T，FP16是165T

910B的FP32是75T，FP16是280T

哦，跟分不清消费卡和训练卡的沸腾粉谈技术是我的问题……

omnitoken · 发表于 2023-8-27 13:11

本帖最后由 omnitoken 于 2023-8-27 13:14 编辑

讨论训练和推理卡的区别非常无聊的

训练用cuda的多90%的原因是因为大部分搞ML的只会pytorch

老黄还非常无耻的阉割4090的NVLink

—— 来自 Xiaomi Mi 10, Android 13上的 S1Next-鹅版 v2.5.4

sunbeach · 发表于 2023-8-27 13:18

光堆算力不提编程难度不就跟用4870X2的天河一号一样，理论算力强无敌实际使用只能拉去挖矿

shiraikuroko · 发表于 2023-8-27 13:19

sunbeach 发表于 2023-8-27 13:18
光堆算力不提编程难度不就跟用4870X2的天河一号一样，理论算力强无敌实际使用只能拉去挖矿 ...

那个破玩意，上架几个月，还没怎么用，跑完分就坏了一堆

4870X2上超算哪个牛比想出来的？

		自动登录	找回密码
密码			立即注册

[科技] 科大讯飞刘庆峰：华为GPU已可对标英伟达A100

评分

评分

LHO LHO 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2004-1-27 头像被屏蔽	发表于 2023-8-27 08:29 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

血河之舞血河之舞当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2022-7-14 头像被屏蔽	发表于 2023-8-27 08:41 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报