婆罗门
精华
|
战斗力 鹅
|
回帖 0
注册时间 2015-4-28
|
楼主 |
发表于 2025-1-28 14:59
|
显示全部楼层
我搜到了这个,https://uqtg4okxsd.feishu.cn/wiki/HgYJwtW7jiarsfkt9w2cAg9inla
问: 阿里目前AI算力储备情况?
答: 阿里国内AI算力储备最多,然后以次为: 字节、百度、腾讯。
阿里云现在云上至少应该有上万片的A100 了,整体至少能够达到10万片,集团的话应该会是阿里云5倍的这样的一个量级。达摩院、天猫、淘宝的算力资源都是集团内资源使用。阿里云这块今年增速会有30-50%。有个别8-9个客户会有复现GPT的需求,提出了大规模AI算力需求, 我们以云的方式给。百度年初紧急下单3000台8卡的A800服务器,2.4万张卡,我预计全年百度会有A-H800共5万张的需求。阿里云需求不会这么多,去年采购2万多,今年可能采购量会下降。预计云上就1万张左右,其中6000张是H800。此外阿里云也会用到平头哥这种自研的,每年大概3000张去采购。从除此之外,阿里云也会选择国产芯片的一家,看是否在云上商业化。
问: 阿里云采购的哪家国产芯片, 为何选择?
答: 选择的是寒武纪MLU370, 主要是性能基本过关(A100的60-70%), 检测合格, 态度积极,愿意对接, 服务贴身。今年会采购大概2000张的水平,主要用在一些CV等小模型的训练或推理上。寒武纪MLU 370没有供货的风险,后续的MLU590也许就会有了,。对于壁仞等,宣传上不错, 但拿不到实测的卡, 流片大约都是今年4-6月,量产半年后。而且壁仞4月要流片的卡,不能支持FP64,互通带宽不支持8卡,支持最多4卡,采用NV bridge方式, 达到180GB水平。 8卡用PCIe方式只能做到32GB,弱点显著。针对海光,我们技术人员也有看好的, 参数也足够支撑训练,但可能由于海光因产能等因素, 可能更侧重满足国有算力那边的需求。同时,集团层面是否对接,不清楚。
问: 海光为何会不给样片测试? 出于什么考虑? 海光DCU的量应该是够的。
答:海光的话, 我们确实没有拿到他的样卡,就是不知道为什么, 我们也得知很多国产化的订单他们都中标且供货,但我们跟他对接的时候,好像反正是各种各样的问题, 就是没有测起来。我们内部其实也有一些同学是支持海光深算1号的, 但是一方面当时寒武纪还没被拉入黑名单,而海光被拉入了黑名单,然后我们其实也有一定的担心,就是在阿里云上了之后, 可能会给自己引火烧身,所以这方面也是我们考量的一个因素。最后反正就没采海光后期的供货,可能也会成问题,这也是我们考量的原因之一。不知道他们是手头是不是比较重要的这种国产化的项目,或者订单的交付还是没有人力来支持。我们也不是特别知道,可能他们团队也就几百个人吧,就是没有这个时间周期。总体上,在其他国产AI芯片竞争上, 海光好像不是很在意这个云上的这个市场。 |
|