flash999
发表于 2024-12-10 12:39
梦窗 发表于 2024-12-10 10:09
才2.55%,这哪够,加大力度,争取冲到55.2%.
比较难。黄家作坊的大陆业务占比有限。多数集中在玩家了。比如机构预期其今年赚750亿美元。明年1500亿,这轮出拳之后,看看有无影响。估计难。我前几天刚看,马院士宁愿多花上亿美元也要老黄优先供货。类似的沙特和阿联酋也是。所以砍半不现实。
onemoment
发表于 2024-12-10 12:45
老黄确实该敲打,希望国产民用显卡能早日取而代之
蛋疼三四郎
发表于 2024-12-10 13:07
老黄难受我还是开心的
至于国产,熬着呗,天宝送我的3080还能熬十年就算赢
白头盔
发表于 2024-12-10 13:08
喧嚣的风酱
发表于 2024-12-10 13:08
所以,二手3060ti什么时候可以降到千元。
好期待
音無麻理亜
发表于 2024-12-10 13:12
一边看b站和红薯上m4拳打脚踢精准刀法n卡,一边看n卡被三家反垄断,感觉有一点点割裂(
smiths146
发表于 2024-12-10 13:14
中国大陆的营收只占老黄的5%, 所以他的回复也很狂
11116等
发表于 2024-12-10 15:03
feve9999 发表于 2024-12-10 12:06
英伟达是真想往中国卖卡,就是没这胆,全世界唯一能威胁到英伟达未来产品的也就中国了 ...
上次见到这种论点还是asml,不过最后反正都没得卖了
—— 来自 OnePlus PGKM10, Android 14上的 S1Next-鹅版 v2.1.2
变老的大二
发表于 2024-12-10 15:07
机吉斯卡 发表于 2024-12-10 10:09
这些玩意不要问,等官宣
我就在想啥时候国产显卡能爆打黄皮衣……
国产显卡出来后还有一个驱动问题,这个说不定要藤子发力,虚幻5针对性优化
镜湖月影
发表于 2024-12-10 15:07
TNN 发表于 2024-12-9 22:06
骑墙派在矛盾激化时的必然结果
黄仁勋:"我是世界公民。"
各国政府Belike
lactone
发表于 2024-12-10 17:56
老黄回复狂在哪里?感觉他回复欧盟也是差不多语气
对于第二份问卷,英伟达发言人则称:“我们支持客户选择,并在各个领域以实力竞争。我们的产品是顶级的,能够独立运作。我们支持开放的行业标准,使我们的合作伙伴和客户能够在各种配置和系统设计中使用我们的产品。”
—— 来自 vivo V2408A, Android 15上的 S1Next-鹅版 v3.0.0.81-alpha
qratosones1337
发表于 2024-12-10 18:14
本帖最后由 qratosones1337 于 2024-12-10 18:15 编辑
s1234y 发表于 2024-12-10 12:07
预训练现在都在国外做,post-training再回国内做,说实话我越来越不看好910b了,互联网大厂自己的卡都陆 ...
啥叫自己的卡用起来了?现在除了百度阿里之外有谁做了自研芯片?
而且别忘了台积电和三星现在都已经不能代工了,切换到中芯国际产线的话那需要设计层面跟着改动,大概率不是国内互联网大厂自己能搞定的。这还没算生态问题,想往外卖的话你得有torch和其它上层开源框架支持,现在除了华为之外还有谁搞定了?
云卷花开
发表于 2024-12-10 18:33
qratosones1337 发表于 2024-12-10 18:14
啥叫自己的卡用起来了?现在除了百度阿里之外有谁做了自研芯片?
而且别忘了台积电和三星现在都已经不能 ...
字节也在搞,而且要说阿里的卡实际上才刚开始做
小的云端替代厂家还不少,沐曦璧刃这堆(寒武纪太拉胯了),真论生态gpgpu要支持起来比昇腾要容易不少,就我了解璧刃那边直接kernel级替换cuda的实现,除了性能不高兼容性那必然没毛病
至于代工的问题,我这边了解来说台积电那边有中偷产这事还挺常见的,前段时间一波一波的制裁出现过因为供应链风险各家大客户找替代的事情,一年下来之后也看起来没让出太多市场,卡的并不太死
—— 来自 鹅球 v3.3.92-alpha
d2loader
发表于 2024-12-10 19:07
qratosones1337 发表于 2024-12-10 18:14
啥叫自己的卡用起来了?现在除了百度阿里之外有谁做了自研芯片?
而且别忘了台积电和三星现在都已经不能 ...
摩尔线程都说自己有万卡集群了
神秘
—— 来自 Xiaomi Mi 10, Android 13上的 S1Next-鹅版 v3.0.0.81-alpha
qratosones1337
发表于 2024-12-11 09:54
本帖最后由 qratosones1337 于 2024-12-11 10:07 编辑
云卷花开 发表于 2024-12-10 18:33
字节也在搞,而且要说阿里的卡实际上才刚开始做
小的云端替代厂家还不少,沐曦璧刃这堆(寒武纪太拉胯了 ...
替换CUDA就是一条纯粹的死路,一个私有闭源的硬件接口,哪有那么简单就能随随便便兼容?消费市场这边Win32和DirectX也是私有闭源API,然后Linux玩游戏这事Proton迭代了多少年才迭代到今天这样?就算今天Steam Deck依然无法避免兼容性问题。
你如果真能做到所谓的内核级兼容那你把同样的精力投入到直接适配算子上只会更简单——而且如果你真搞所谓的底层适配,那么所有调优工作只能你自己做,然而华为那边作为用户的互联网大厂可以自己写算子,自己做优化,我在职期间JD的算法中台已经在用Ascend C实现了好多算子了,能把910B的LLM训练吞吐优化到跟A100几乎打平的级别。顺带一提我了解的情况是JD这边今年对国产算力卡做了采购评估选型,训练只有910B通过了评估,推理是Atlas300I和寒武纪通过评估,其它花里胡哨的小厂都被淘汰了。
至于代工,卡得再怎么不死,也不可能让你300T+的大芯片随便出货几十万——这还没算白手套出货的额外成本,所以你拿头跟昇腾打。
归根结底,国内大厂自研芯片在自家内部搞搞推理还凑合,搞B端训练那是真自己找死——从代工到软件适配到伺候B端客户的经验再到市场空间(显然腾讯JD都不可能采购阿里的卡)都被华为降维打击,拿头跟910B竞争?
qratosones1337
发表于 2024-12-11 09:54
本帖最后由 qratosones1337 于 2024-12-11 10:00 编辑
d2loader 发表于 2024-12-10 19:07
摩尔线程都说自己有万卡集群了
神秘
万卡算个屁,JD一家采购的昇腾就不止万卡了,腾讯字节采购的数量只会多不会少
213专用
发表于 2024-12-11 10:00
本帖最后由 213专用 于 2024-12-11 10:01 编辑
营收5%纯属英伟达嘴硬,他说5%你们就信啊。
之前对外宣传都是15%以上了
山贼先生
发表于 2024-12-11 10:10
本帖最后由 山贼先生 于 2024-12-11 21:12 编辑
213专用 发表于 2024-12-11 10:00
营收5%纯属英伟达嘴硬,他说5%你们就信啊。
之前对外宣传都是15%以上了
15%都低了 因为很多事实上的国外企业下的订单相当一部分是给某些企业当白手套......卡的最终流向当然还是......
补充一点内幕:问题恰恰就出在了迈络思的网络设备上
0WHan0
发表于 2024-12-11 11:29
s1234y 发表于 2024-12-10 12:07
预训练现在都在国外做,post-training再回国内做,说实话我越来越不看好910b了,互联网大厂自己的卡都陆 ...
找谁代工
—— 来自 鹅球 v3.2.91
qucqee
发表于 2024-12-11 11:37
直接罚100亿不交钱就一刀切全禁了
云卷花开
发表于 2024-12-11 12:15
本帖最后由 云卷花开 于 2024-12-11 12:21 编辑
qratosones1337 发表于 2024-12-11 09:54
替换CUDA就是一条纯粹的死路,一个私有闭源的硬件接口,哪有那么简单就能随随便便兼容?消费市场这边Win32 ...
kernel级替换指的是在torch里面注册一个新的设备,然后逐一用自己的类cuda的语言把kernel给重写了,跟rocm的套路一致
不过我也觉得gpgpu是死路一条,但你没法否认这玩意只是兼容就是比昇腾这类创新架构要容易的多,昇腾、寒武纪这类的架构问题是粒度,基本上你可以认为他们做网络支持只有冻结模型后整体编译全局优化这一种办法
—— 来自 鹅球 v3.3.92-alpha
tylunas
发表于 2024-12-11 12:34
今天刚发现客户这里这台华为800 A2训练服务器上面,所有其他PCIe设备都是华为自己的,唯独有两块迈络思的光纤卡。那反对老黄收购就一点都不奇怪了。
—— 来自 鹅球 v3.0.0.82-alpha
qratosones1337
发表于 2024-12-11 12:52
本帖最后由 qratosones1337 于 2024-12-11 13:14 编辑
云卷花开 发表于 2024-12-11 12:15
kernel级替换指的是在torch里面注册一个新的设备,然后逐一用自己的类cuda的语言把kernel给重写了,跟roc ...
笑死,闹了半天你这所谓的kernel级替换不就是自定义后端么,跟GPGPU有什么关系?如果你要以兼容pytorch为目标,那么只要你能写好算子,硬件架构具体是啥其实根本无足轻重。Google的TPU也可以用作torch后端,那么TPU也是GPGPU了?
我感觉你根本不知道你自己在说什么——“比昇腾这类创新架构要容易的多”,所谓“创新架构”指的是什么?按照你的语境,指的难道是自研框架相对于兼容pytorch?确实兼容pytorch比起推广MindSpore确实是容易多了,但问题是就算比pytorch兼容,华为也一样断崖吊打你说的这些小厂。要知道,你说的自定义后端功能甚至就是华为贡献给pytorch主线的,去年torch2.1的官方blog介绍甚至就是拿torch-npu当成例子演示的,紧接着下一个新闻就是华为成为pytorch基金会高级会员。小厂想凭借兼容pytorch对华为产生优势,那完全就是关公门前耍大刀。
事实上,业界常用的开源库远不止一个pytorch,而大厂天生拥有强大的软件开发能力,现在你看transformers和deepspeed之类的上层库,主线都整合了昇腾的支持,在NPU设备上可以自动完成多卡分配。我之前用昇腾的时候直接pip install一路下去就能直接运行在N卡上能跑的训练代码——如果换成小厂的话那估计就麻烦多了。
tengshuo980
发表于 2024-12-11 13:05
明年显卡会涨价吗
tylunas
发表于 2024-12-11 13:12
我Ascend CL C++开发写过,CUDA也写过,Ascend C还没写过。
小厂gpgpu兼容CUDA,就得按照CUDA的逻辑GPU结构设计硬件,自主架构也是受限制的。为了兼容,一个block放多少thread都得一致,那就难保不侵犯老黄专利,但是天数智芯,摩尔线程还基本能做到。
适配昇腾架构确实不太容易,基本上就是华为自己在做,核心开源是gitee授权访问,网上连个使用Ascend GE的demo都找不着。听闻楼上说JD内部有大牛写Ascend C算子开发还是佩服。
目前写Ascend CL还是初步动手。
https://github.com/TylunasLi/fastllm/blob/ascend_npu/docs/ascend_npu.md
—— 来自 鹅球 v3.0.0.82-alpha
处男老司机
发表于 2024-12-11 13:20
tengshuo980 发表于 2024-12-11 13:05
明年显卡会涨价吗
考虑叠加币圈挖矿效应怕是会上天。不过也是摩尔线程等国产显卡的机会。
云卷花开
发表于 2024-12-11 13:20
qratosones1337 发表于 2024-12-11 12:52
笑死,闹了半天你这所谓的kernel级替换不就是自定义后端么,跟GPGPU有什么关系?如果你要以兼容pytorch为 ...
你才是搞不清楚我在说啥,你猜为啥华为要自己搞一个完整的ai芯片工具链出来,不是说像我说的那样直接写算子
ai加速器的实现方式有商用落地的就两类,一类是gpgpu形式的,单指令多线程,标准的读写计算都通过寄存器来控制,然后将脉动矩阵作为单个核的组成部分的形式,nv、amd以及璧刃都是这类,优点就是粒度小,可以单算子直接替换,对网络结构并不敏感
另一种则是围绕脉动矩阵作为设计核心,没有额外的读写指令的控制,一个计算周期是从dma的读写+计算配置整个提前配好,数据流进去到出来就没有额外的控制操作,除了奔着搞nv替代的厂商走的都是这个路子,包括华为
替换一个后端这事两者的区别是啥:gpgpu的实现不用对网络编译,只用考虑算子编译,而后者必须真正的对网络进行整体的编译优化,不同的网络连接方式对于后者来说区别巨大,它要考虑的不只是算子层级的问题
—— 来自 鹅球 v3.3.92-alpha
qratosones1337
发表于 2024-12-11 13:24
tylunas 发表于 2024-12-11 13:12
我Ascend CL C++开发写过,CUDA也写过,Ascend C还没写过。
小厂gpgpu兼容CUDA,就得按照CUDA的逻辑GPU结构 ...
算法工程师并不关心底层算子怎么实现,只关心出口的上层框架兼容性(尽量能直接pip安装),训练正确性和实际吞吐量。
https://gitee.com/ascend/pytorch
https://github.com/microsoft/DeepSpeed
目前torch_npu的代码是开源的,而transformers和deepspeed主线的代码直接就能看到NPU的支持,这一点是其它小厂拍马都赶不上的——就算你做了自定义后端,官方版Transformers和Deepspeed也不支持,需要你自己手动hack适配。我之前用910B的时候为了方便都是直接用单独的开发机镜像的,没有使用JD算法中台单独适配的组件——直接一路pip install下去就能把所有需要的库装好,使用体验跟N卡几乎没有区别,小规模数据吞吐量差一点也影响不大。
https://github.com/huggingface/transformers/blob/main/src/transformers/utils/import_utils.py
这是Transformers的源码,列出了所有Transformers支持的后端,第626行就是NPU
qratosones1337
发表于 2024-12-11 13:25
本帖最后由 qratosones1337 于 2024-12-11 13:28 编辑
云卷花开 发表于 2024-12-11 13:20
你才是搞不清楚我在说啥,你猜为啥华为要自己搞一个完整的ai芯片工具链出来,不是说像我说的那样直接写算 ...
问题是硬件底层设计的差异,跟你说的kernel替换又有什么关系?也许你想说NPU的硬件架构写torch后端会比GPGPU更困难,但从结果上看,kernel替换这个事情现在华为早就做完了啊?
RStocking
发表于 2024-12-11 13:33
很奇怪,明明是大家一起敲打老黄,老米和欧盟都干了,怎么很多人说得好像是老中要和老黄切割一样
云卷花开
发表于 2024-12-11 13:34
qratosones1337 发表于 2024-12-11 13:25
问题是硬件底层设计的差异,跟你说的kernel替换又有什么关系?也许你想说NPU的硬件架构写torch后端会比GPG ...
注意我说的最后一段,这两者的区别在于:
每个算子提前编译好直接塞到torch里面,完全复用基于torch的上层框架
和将torch的网络结构导出(基本假设网络本身是静态的),给导出后的网络中每个算子都实现一个codegen逻辑,走完编译后给torch的网络执行部分换一个跑他自己模型的runtime接口
后者相对于前者来说假设要大的多
—— 来自 鹅球 v3.3.92-alpha
云卷花开
发表于 2024-12-11 13:40
qratosones1337 发表于 2024-12-11 13:25
问题是硬件底层设计的差异,跟你说的kernel替换又有什么关系?也许你想说NPU的硬件架构写torch后端会比GPG ...
或者我这样给你说你就明白了,华为和寒武纪的工具链在实现的过程中不会用到他们自己做的cuda like dsl,这类dsl都是给ae或者客户在发现他们自身工具链实现不够的情况做拓展的
而你要实现以gpgpu硬件为目标的工具链的时候,你的编译优化都是基于这个cuda like dsl做的,很少会往下降一层
—— 来自 鹅球 v3.3.92-alpha
qratosones1337
发表于 2024-12-11 13:44
本帖最后由 qratosones1337 于 2024-12-12 11:54 编辑
云卷花开 发表于 2024-12-11 13:40
或者我这样给你说你就明白了,华为和寒武纪的工具链在实现的过程中不会用到他们自己做的cuda like dsl, ...
那你想表达的是NPU的硬件架构比GPGPU架构开发难度更大?这个我不了解,姑且不反对。但是至少从外部可以观测到的实际结果上来看,华为目前已有的软件生态对比国内GPGPU系小厂已经实现了断崖式领先。现在的情况是华为实力和先发优势都过于强大,目前做GPGPU的几家想要单纯只靠硬件架构反超极其困难。事实上以我听说的情况,JD这边评估的国产推理卡二供只有寒武纪一家(训练卡910B一统天下),同样也不是做GPGPU的……
魔法师lain
发表于 2024-12-11 13:49
tylunas 发表于 2024-12-11 12:34
今天刚发现客户这里这台华为800 A2训练服务器上面,所有其他PCIe设备都是华为自己的,唯独有两块迈络思的光 ...
光口网卡真这么难吗?看现在闲鱼上的华为网卡都是oem货,用别人的芯片的
—— 来自 鹅球 v3.3.92
云卷花开
发表于 2024-12-11 13:51
qratosones1337 发表于 2024-12-11 13:44
那你想表达的是NPU的硬件架构比GPGPU架构开发难度更大?这个我不了解,姑且不反对。但是至少从外部可以观 ...
那是基本都是ae做的好
我不太清楚当时你们接华为的时候是个啥流程,反正我们这边接客户的时候就是对面给我们这一堆benchmark和拓展接口提要求,然后开发针对这堆要求去做手动优化
各家遇到的问题差不多,厂商见过的网络基本都效果不错,厂商没见过的网络基本都是一坨屎,需要支持的网络本身又在不停的迭代更新,只能靠堆人解决
—— 来自 鹅球 v3.3.92-alpha
cube
发表于 2024-12-11 13:52
RStocking 发表于 2024-12-11 13:33
很奇怪,明明是大家一起敲打老黄,老米和欧盟都干了,怎么很多人说得好像是老中要和老黄切割一样 ...
有些人从贸易战开始第一天就在唱衰,也不差一个英伟达了。
qratosones1337
发表于 2024-12-11 13:59
本帖最后由 qratosones1337 于 2024-12-11 14:18 编辑
云卷花开 发表于 2024-12-11 13:51
那是基本都是ae做的好
我不太清楚当时你们接华为的时候是个啥流程,反正我们这边接客户的时候就是对面给 ...
巧了,现在算力需求的大头都是LLM,顶多加个SD,基本上Transformer一统天下,你把那几个典型的结构(比如LLama,Qwen之类的)适配好了基本上就足够处理大部分负载了。而LLM这边的难点,除了绝对算力之外,一个是框架适配(比如JD的算法中台自己开发了一个框架,底层使用相同的DeepSpeed和torch统一调度GPU和NPU),另一个是卡间通讯,跟硬件结构本身关系不大其实。JD算法中台自己写算子,其实就是把RMSNorm和FlashAttn之类的LLM典型算子做了NPU亲和性优化,装上去之后训练Qwen的吞吐量直接干到等效95%A100。
LLM之外,互联网这边的大头场景是CTR,理论上GPGPU会有优势,但实际结果也是硬着头皮上TensorFlow的NPU Adapter……基于GPGPU的国产竞品暂时没见到过。
今年Q3的时候,本来原定要采购一批H20作为CTR需求和LLM推理的补充(H20在CTR训练上的吞吐量甚至好于A800,大显存执行32B级模型推理的时候正好平替四卡4090),但后来被禁止采购之后就无了。
王苍幻
发表于 2024-12-11 14:01
会降价么?
那等等党又赢了
EP2
发表于 2024-12-11 14:10
RStocking 发表于 2024-12-11 13:33
很奇怪,明明是大家一起敲打老黄,老米和欧盟都干了,怎么很多人说得好像是老中要和老黄切割一样 ...
理那些殖人做甚
tylunas
发表于 2024-12-11 14:14
魔法师lain 发表于 2024-12-11 13:49
光口网卡真这么难吗?看现在闲鱼上的华为网卡都是oem货,用别人的芯片的
—— 来自 鹅球 v3.3.92 ...
迈络思这家就是这次收购案的相关方,华为全国产之后为啥还用,估计是目前还没有能在性能上替代infiniBand的产品,否则多卡互联的集群速度降低太明显。
—— 来自 鹅球 v3.0.0.82-alpha