https://weibo.com/ttarticle/p/show?id=2309404605279491981938
5年前,随便胡诌了关于14nm的文章,之后我始终是14nm至上主义,包括现在都是,理由很简单啊,成年人的世界,不仅关注参数,还要关注更多的东西,到了2021年,连**都只预见到2020年的14nm确实走到了高性能的终局,Rocket Lake终究会成为历史,Power9也是要终结的,之后大概只有AMD还坚持14nm这个节点了吧(EPYC的IOD千秋万代是更经济的选择)。 半导体圈子在迈向物理极限的方向上已经进入深水区: AMD的图,无视良品率的前提下250平方毫米芯片的成本演化,从HKMG时代开始计算(45nm),一直到14nm时代成本翻番,前后经历了8年时间,但是14nm到5nm,仅仅4年时间,成本从2X翻到了5X。胡诌一下就是AMD在2017年的zen1内核同等大小的核心,不考虑良品率的前提下,到了7nm时代成本翻了1.8倍,5nm时代成本翻了2.5倍,那么收益呢? 我们用巨硬的XBOX家族演化来说明下: 7nm时代,集成度提升跑赢了成本提升,所以Project Scarlett仍然可以为巨硬所接受。 性能方面鉴于大家都是买GPU送CPU,直接看GPU部分比较直观。 图形性能2X,这就是答案,仍然勉强跑赢了成本增幅。 但是额外代价呢?15% TDP增幅 为了控制噪音水平不变,温度依然巨高 另一个代价,高性能工艺越来越不容易,设计目标12TF性能,28WGP 只需要跑出 1.675ghz,26WGP 就必须抛出1.825G,代价是20%的功耗增幅,这就是接近n7的拐点的信号,但不得不这么做,因为巨硬考虑到的是良品率,宁可增加点TDP,也要向良品率妥协,否则性能收益恐怕跑不赢成本。 即使是一天到晚发明工艺的TSMC,在此时也承认成本已经成为巨大的问题,需要在硬件设计上就有充分考虑。 这是7nm发生的事,2020年,TSMC 7nm已经属于成熟工艺(至少在TSMC自己的宣传中)。 那么发明的5nm时代的博弈就更为艰难了。
所以,先进封装在成本控制越来越困难的10nm节点上(或者发明的7nm,5nm)会成为成本控制的杀手锏,无他,5nm太贵了,拿来塞IO巨亏无比。 AMD在ROME、ZEN2上就开始实施I/O与计算部分的分离也是出于这一目的,盘子小,能省钱的套路,AMD一般会更早的去尝试,而intel则更喜欢等技术储备完善后再下手,所以zen2连L3都没完全打通,就开启了分离设计,intel则因为DARPA的项目,拿用户做了回EMIB的小白鼠,各有各的玩法,等到今年下半年的产品上给你们看真功夫。
这也带来了一个有意思的话题,就是先进工艺的市场需求也许以后没有想象中那么大,毕竟HPC中I/O以外才需要,桌面处理器以后全面独立I/O的可能也会越来越大。 所以先进工艺节点上,手机SOC相关的比重仍然没有打破原来的格局,HPC在I/O独立后,先进工艺使用的成分反而会有所降低。 今年5nm节点出货预期,该预期基于老黄GH100如期而至,AMD的ZEN4和新一代CDNA RDNA如期而至,挖矿等的份额相当于A/N总和,如果A/N不能如期而至,5nm依旧是面积控的天下,所以少了菊花对TSMC而言是巨大的损失。
今年7nm节点出货的预期,AMD包括了PS5和XBOX SX,intel的7%正好填补菊花的空缺,7nm无疑是今年高性能的重要节点。
成本是一方面,性能需要更多的努力。
性能是如何提升的? IPC是性能的一部分,强调IPC恰恰暴露了工艺的极限已到。 我之前面对那些只听过移动处理器的人,提过一个问题,工艺的性能到底看什么,厂商不公开的,确切的说2006年后就没人公开了,因为再也没法提升了。 跑一个测试就能明白为什么都要吹IPC而不是工艺的性能: L1延迟 1ns,这个数字我在2007年购买的E6850默认就超越了这个boost成绩,因为E6850的L1延迟是3个时钟周期,从nehalem开始变为4个时钟周期,所以如果boost不到4G以上,L1延迟连1ns都无法击穿。酷睿2时代,4G是能达到的超频频率,此时的L1延迟,比10代CML跑在 5.3G的时候更好。
很多事情并不是巧合,从nehalem开始,intel的桌面处理器的L1延迟就一直是4个时钟周期,所以超不到 5G实际对半导体性能的榨取还不如2006年。 更恐怖的是L2延迟,酷睿2的4MB L2延迟为10个时钟周期,跑在4G下的时候L2延迟为2.5ns,何况这货的L2还负责系统互连,有高速交换开关,在2006年堪称奇迹,真正的砸大本钱摁死AMD。而在core时代,整整10代core都是把原来的L2拆成了L2和L3,L3还变成了ring bus或者mesh,怂了就是怂了。 我在底下这篇文章中讲了本钱有多大。
无节操的DrBT
10月28日21:38 来自 微博 weibo.com
发布了头条文章:《从2006谈起--你们知道我要说的是INTC》 O网页链接
由此可见,晶体管性能冲高回落的过程已经整整经历了13年,你不知道不代表这事情没有发生。 到了intel的cove内核时代,L1延迟变为5,所以,5Ghz的cove,L1延迟还不如3Ghz的酷睿2和苹果M1,与4Ghz的skylake等同。
5nm时代,苹果M1处理器被吹上了天,对,吹上天的,理由其实是很简单的,这是一个专用意味很强的处理器,无需考虑任何软件兼容问题和复杂应用问题,苹果可以的话甚至可以做点ASIC带你们飞。L1延迟3个时钟周期,不再跑高,巨大的乱序执行窗口,超宽的前后端,一切为低频工作的高性能设计。 L1延迟和超宽设计的结果就是,低频下无人能敌,这并不是新生事物。
恪守1ns延迟的底线不突破。
事实上移动处理器3个时钟周期延迟是标配,大家都也恪守1ns底线,只不过苹果的超宽设计别家还做不到。
即使是intel,ATOM系列也为低频工作设计,L1延迟尽量做低,值得注意的是tremont开始ATOM也有咬人的趋势,逐渐变宽的设计使得Tremont已经在那些轻量级测试中获得了与同频Haswell一战的资本。Tremont的boost可以到3.3G,全核3G,居然小小的击穿了1ns,10W TDP 4核,intel拉胯的10nm+可能只是相对于自家14nm而言的。 轻量级测试R20的单线成绩,Tremont内核的Jasper Lake Pentium Silver N6005,单线boost频率3.3Ghz,R20单线到294,跟同频HSW有的一打,甚至压倒了R5 4650U,所以并不只有M1在咬桌面处理器,ATOM同样在咬人,今年ATOM内核进化到Gracemont,支持AVX2,单线也继续大幅推进,SKL级别的IPC配合低延迟L1你怕不怕。
所以,性能不再提高(甚至大体是下降的)的前提下,业界转向更复杂的设计是必由之路,累死硬件工程师再说。
新形势 高性能工艺为什么突然吃紧了? 结合成本与性能两点可以得出,高性能工艺对代工厂来说重视程度在下降,反正新工艺只有手机soc厂商用,何必指望高性能呢?又不赚钱对吧,满足苹果的要求就可以活的好好的。 AMD你要早用N7么,现成的只有手机SOC改,凑合着用,要么帮我们调试N7P? 于是很早我就发现zen2用的是低功耗版的库,直到zen3才转为高性能库: 图为AMD发布于ISSCC2020的吹逼文
0.7v 1.8G,0.8V 2.4G,0.9V 3.9G,对比1.1V从1.6G管到3.9G的zen2内核,这就是高性能和低功耗的典型差异。 所以TSMC的N7P,大致可以认为是老黄为了GA100不那么难看,点了一下才变得可用,由于N7P精贵,大家扎堆的2020年Q4,就只能一起缺货了。 这类问题厂商都是为了利润正常的操作,仅此而已,现在显卡已经成为PC中最贵的产品,跟先进工艺的成本有直接关系,所以不要一面吹新工艺的好,一面骂显卡贵,这叫精分。
|