找回密码
 立即注册
搜索
楼主: lvseqiji

[科技] 科大讯飞刘庆峰:华为GPU已可对标英伟达A100

[复制链接]
头像被屏蔽
     
发表于 2023-8-27 08:29 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-8-27 08:41 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-8-27 11:06 | 显示全部楼层
刘庆峰的自媒体一半都在跑火车瞎几把吹
回复

使用道具 举报

     
发表于 2023-8-27 11:21 来自手机 | 显示全部楼层
问题老黄靠的是cuda。硬件好堆,但是配套的库难。
回复

使用道具 举报

     
发表于 2023-8-27 11:25 | 显示全部楼层
telos 发表于 2023-8-26 11:05
虽然我是不相信什么华为升腾>a100之类的狗屁沸腾体的,但是有句说句,讯飞的星火挺好用的…比llma和claude ...

这玩意算力差不多,不代表用起来差不多,小规模用户需要生态,NV提供了全套,用华为你就得专门找人写代码,那贵上天了。只有不得不用的,或者说是量大到一定程度,价差请得起团队的才会买 这些。典型就是制裁单位、超算
回复

使用道具 举报

     
发表于 2023-8-27 11:26 来自手机 | 显示全部楼层
血河之舞 发表于 2023-8-27 08:41
其实做深度学习运算加速器并不是很难,难在有没有人用,而美国政府则把这个最难的部分补上了,这跟服务器CP ...

牙膏厂砍掉计算加速卡业务的一大原因就是米国以东大拿来做雷达车为由禁掉了东大这个占牙膏厂加速卡业务接近一半的市场
回复

使用道具 举报

     
发表于 2023-8-27 11:29 | 显示全部楼层
本帖最后由 shiraikuroko 于 2023-8-27 11:43 编辑
Redis 发表于 2023-8-26 17:16
算力上匹配a100难度并不大啊,现在transformer本来就是算力过剩,内存带宽瓶颈,这不是废话吗。

羊驼的确 ...

内存带宽 瓶颈这个好办啊,华为都是直接堆HBM的,都堆了N年了
910B外连是200GE,接口PCI-E 5.0*16
回复

使用道具 举报

     
发表于 2023-8-27 11:42 | 显示全部楼层
wfefe 发表于 2023-8-27 01:35
这两年国内不少数据中心和AI模型都用到了昇腾910,如果全是库存货的话,那大家都去松山湖打捞吧。

而且 ...

不用猜啊,就是
https://support.huawei.com/enter ... 2309113%7C254184749

这里面写的很清楚了,新的910B,280T FP16算力,A100是312T,还是差一点
回复

使用道具 举报

     
发表于 2023-8-27 12:13 来自手机 | 显示全部楼层
燕山雪 发表于 2023-8-27 00:03
deepmind表示很淦……手持stable diffusion的慕尼黑某校表示很淦……苏黎世理工表示我们神马都不知道…… ...

我好奇的是,按同样的逻辑对于deepmind,swin-transformer这种成果到底算中还是美的,以及之前百度那篇nature成果算谁的?
回复

使用道具 举报

     
发表于 2023-8-27 12:26 | 显示全部楼层
回复

使用道具 举报

     
发表于 2023-8-27 12:30 | 显示全部楼层
shiraikuroko 发表于 2023-8-27 11:42
不用猜啊,就是
https://support.huawei.com/enterprise/zh/doc/EDOC1100318278?idPath=23710424%7C25136 ...

910就不是给训练设计的,其fp32能力理论值甚至都比不上单张4090,因为太老了也不支持bf16,至于实际性能,随手搜了个公开链接 https://zhuanlan.zhihu.com/p/371568872 ,反正很沸腾就是了

评分

参与人数 1战斗力 -1 收起 理由
shiraikuroko -1 也不看看哪年的玩意还在这里沸腾啊?.

查看全部评分

回复

使用道具 举报

     
发表于 2023-8-27 12:33 | 显示全部楼层
本帖最后由 shiraikuroko 于 2023-8-27 12:36 编辑
燕山雪 发表于 2023-8-27 12:30
910就不是给训练设计的,其fp32能力理论值甚至都比不上单张4090,因为太老了也不支持bf16,至于实际性能 ...
形态 双槽位全高全长PCIe卡
AI处理器 1* 昇腾910 AI处理器
集成20个华为达芬奇AI Core
内存规格 ● 32GB HBM
● HBM带宽:800GB/s
AI算力a ● 半精度(FP16):最大算力为280 TFLOPS
● 单精度(FP32):最大算力为75 TFLOPS
● 整数精度(INT8):最大算力为560 TOPSPCIe接口 PCIe x16 Gen5.0
网络 1*200GE QSFP-DD接口,支持RoCE协议

你说的那个是910A,啥年代了还拿出来对比?
你不如查一下,PCI-E 5.0*16接口啥时出的
回复

使用道具 举报

     
发表于 2023-8-27 12:39 来自手机 | 显示全部楼层
shiraikuroko 发表于 2023-8-27 12:33
你说的那个是910A,啥年代了还拿出来对比?
你不如查一下,PCI-E 5.0*16接口啥时出的
...

然鹅4090的fp32能力是82.58tflops
回复

使用道具 举报

     
发表于 2023-8-27 12:47 | 显示全部楼层
燕山雪 发表于 2023-8-27 12:39
然鹅4090的fp32能力是82.58tflops

你想表达 啥?4090FP32有82T,FP16是165T

910B的FP32是75T,FP16是280T

FP32打平接近(误差10%),FP16高70%,你是想说华为设计水平已经超过NV了是么?
回复

使用道具 举报

     
发表于 2023-8-27 12:52 | 显示全部楼层
本帖最后由 shiraikuroko 于 2023-8-27 13:01 编辑

人家说的很清楚,对标的是A100,A100的FP16算力312T,910B是280T,虽然还是差点,但是低个10%说个对标不过分吧?

不知道哪来的沸腾贵物,就知道个4090,挑个数字大的,秒杀!
这种大规模训练,互联带宽 才是最重要的,910B是PCI-E 5.0 *16外加200G网卡,比不上NV独家的NVLINK。可惜4090这种消费级卡连NVLINK都阉了,不配
回复

使用道具 举报

     
发表于 2023-8-27 12:53 来自手机 | 显示全部楼层
shiraikuroko 发表于 2023-8-27 12:47
你想表达 啥?4090FP32有82T,FP16是165T

910B的FP32是75T,FP16是280T

哦,跟分不清消费卡和训练卡的沸腾粉谈技术是我的问题……

评分

参与人数 1战斗力 -1 收起 理由
shiraikuroko -1 从头到尾人家都是和A100对比,哪来的贵物.

查看全部评分

回复

使用道具 举报

     
发表于 2023-8-27 13:11 来自手机 | 显示全部楼层
本帖最后由 omnitoken 于 2023-8-27 13:14 编辑

讨论训练和推理卡的区别非常无聊的

训练用cuda的多90%的原因是因为大部分搞ML的只会pytorch

老黄还非常无耻的阉割4090的NVLink



—— 来自 Xiaomi Mi 10, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-8-27 13:18 | 显示全部楼层
光堆算力不提编程难度不就跟用4870X2的天河一号一样,理论算力强无敌实际使用只能拉去挖矿
回复

使用道具 举报

     
发表于 2023-8-27 13:19 | 显示全部楼层
sunbeach 发表于 2023-8-27 13:18
光堆算力不提编程难度不就跟用4870X2的天河一号一样,理论算力强无敌实际使用只能拉去挖矿 ...

那个破玩意,上架几个月,还没怎么用,跑完分就坏了一堆

4870X2上超算哪个牛比想出来的?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-2-7 16:13 , Processed in 0.157936 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表