Intel 12代酷睿架构详情预览
这两年,Intel越来越“超前”,以往新一代产品发布才会公布的诸多技术细节,都会提前几个月公诸于世。在今天的年度架构日活动上,Intel就公布了Alder Lake 12代酷睿的架构、技术细节。Intel此前的Lakefield处理器第一次采用了大小核混合架构设计(Intel Hybrid Technology),但只是一次试水之作,12代酷睿才是真正的起点。
其中,大核心叫做“性能核心”(Performance Cores),或者“P核心”(P-Cores),Golden Cove架构,最多8核心16线程,AVX-512指令集、DLBoost深度学习加速也只有大核心才支持。
小核心则叫做“能效核心”(Efficiency Ccores),或者“E核心”(E-Cores),Gracemont架构,最多8核心8线程,不支持超线程。
为了解决大小核调度问题,Intel发明了新的“Thread Director”(线程调度器),并与微软全力合作,搭配Windows 11的任务调度器,将合适的负载分配给不同核心、线程。
12代酷睿都嵌入了一个微控制器,负责监视每个线程的性质和性能需求,衡量其载入、存储、分支、内存访问延迟、指令类型等,然后报告给Windows 11系统调度器,由后者结合运行环境,将此线程分配到最合适的核心。
Intel宣称,该技术可以在最短30微秒的时间里确定一个线程的性质、归属,而传统的系统调度器需要上百甚至几百微秒,还可能分配错误。
另外,Thread Director还会针对性地优化频率,尤其是在移动端,保证效率的同时还能提高能效,而且可以在微秒级别调整频率。
Windows 10呢?自然不会有Thread Director,只有一个基础版的Intel HGS(硬件指引调度),具体细节不详,但效率肯定不会高到哪里去。
Linux呢?Intel说目前的优化重点是Windows 11,也会和业界合作对Linux内核进行优化,但需要时间。
12代酷睿将有三种封装版本:
一是桌面高性能版的LGA1700独立封装,也就是S系列,最多8大8小16核心24线程,核显最对32EU单元,功耗最高125W;
二是移动低功耗版的BGA Type3整合封装,也就是UP3系列,尺寸50×25×1.3毫米,最多6大8小14核心20线程,核显最多96EU单元,功耗12-35W(此前曝料还有45/55W);
三是超低功耗版的BGA Type4整合封装,也就是UP4系列,尺寸28.5×19×1.1毫米,最多2大8小10核心12线程,核显最多96EU单元,功耗可以低至9W。
三种版本除了核心规模不同,本质上相同的,多个IP模块也是通用的,比如都集成新一代GNA 3.0高斯神经加速器,执行AI加速。
不过,IPU(图像处理器单元)、雷电4、Wi-Fi 6E都是移动端才有,其中UP3系列支持四个雷电4端口,UP4系列则是两个。
三级缓存增至最大30MB,而现在的11代移动版最多24MB,桌面版则是只有16MB。
内存方面,桌面版同时支持DDR5-4800、DDR4-3200、LPDDR5-5200、LPDDR4X-4266,而且所有版本都是同时支持四种内存,硬件层面没有区别,因此在一些迷你机平台上,应该会看到直接搭配LPDDR5/4X。
此外,还会支持内存的动态电压频率缩放,并强化超频。
但是,移动端的内存支持规格没有公开,估计和桌面版差不多。
PCIe连接方面,桌面版处理器会支持16条PCIe 5.0、4条PCIe 4.0,配套的芯片组(Z690)则最多支持12条PCIe 4.0、16条PCIe 3.0。
这一次Intel可是极为慷慨了,尤其是在PCIe 4.0上被对手抢先,终于扳回了一局,即便是PCIe 5.0全部给显卡,也可以同时搭配最多四块顶级SSD。
内部互连方面,12代提供了三种高速通道。
一是Compute Fabric,主要连接CPU核心、高速缓存,带宽可达惊人的1TB/s,并支持动态缓存优化。
二是Memory Fabric,连接内存和其他模块,带宽最高204GB/s,支持动态位宽和频率。
三是I/O Fabric,用户输入输出,最高带宽64GB/s,正好对应PCIe 5.0 x16,支持基于需求的实时带宽控制。
不过,内存带宽有点疑问:12代酷睿支持128-bit内存位宽,可以做到四个32-bit DDR5通道,而要想达到204GB/s的带宽,必须支持到DDR5-12750的高频率,但实际只有DDR5-4800,一半都没有。暂时还不知道Intel是如何算出这个带宽数字的。Intel Alder Lake 12代酷睿将采用全新的大小核混合架构设计,其中大核/性能核(P-Core)基于Golden Cove架构,最多8个,小核/能效核(E-Core)基于Gracemont架构,最多也是8个。
两种架构的核心有何差异?一年一度的架构日活动上,Intel终于揭开了它们的神秘面纱。
当然,CPU架构设计是极为高深的,一般人把握不了,也无需研究太多,我们这里大致过一下最关键的一些技术点。
Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移动版Willow Cove、11代酷睿桌面版Cypress Cove的进一步升级版,但变化非常大,大量基础模块都重构或升级,其设计理念也将影响未来多代产品的演化。
负责指令拾取和解码的前端部分,就发生了翻天覆地的变化,号称近十年来的最大变革,堪比当年的Skylake,官方称它旨在提高速度、突破低时延和单线程应用程序性能的限制。
最直接、最明显的就是解码器宽度由4个升级为6个,这可是x86架构的第一次,同时每时钟周期执行uop从6个增至8个,解码长度从16字节翻番至32字节。?op缓存、队列也都**强化,缓存可达4K,队列每线程可处理72条目,单线程达144个。
编码预取**增强,分支目标从5K增至12K,4K iTLB、2K/4M iTLB分别翻番至256、32,同时改进了分支预测精度,编码预取机制更加智能。
乱序引擎部分,同样更宽、更深、更智能,分配由5路增至6路,执行端口由10个增至12个,调度器尺寸增大,重排序缓冲区(ROB)从352条目增至512条目,两倍多于AMD Zen3,仅次于苹果M1(大约630条目),重命名和分配阶段也可以执行更多指令。
整数执行引擎部分,增加了第五个整数执行端口,所有五个端口都可以执行ALU、LEA,理论上就原生ALU吞吐能力而言是最宽的x86内核。
矢量执行引擎部分,增加了新的快速加法器(FADD),比传统FMA单元效率更高、延迟更低,FMA单元则增加支持FP16浮点数据类型,属于AVX-512指令集的一部分。
载入和存储部分,通过载入AGU增加了一个专用的执行端口,这样载入端口从2个增至3个,同时载入缓冲和存储缓冲更深,载入延迟更低,而针对当今负载不断增加的内存级并行需求,数据处理能力也**增加。
二级缓存,桌面和移动端每核心还是1.25MB,服务器端的Sapphire Rapids则增加到2MB,并支持多路径预取、全写入预测带宽优化,可减少内存读取。
Intel宣称,Golden Cove架构相比于现在11代酷睿桌面上的Cypress Cove,实现了平均大约19%的IPC(每时钟周期指令数)提升,可以理解为同频性能的提升幅度。
它还支持AMX高级矩阵扩展指令,内置下一代AI加速技术,用于学习推理和训练,包括专用硬件和新指令集架构,可明显提高矩阵乘法运算。
Gracemont小核心属于Atom凌动家族,是2008年以来的第七代,之前分别是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont。
按照Intel的说法,Gracemont核心非常迷你,一个Golden Cove大核心的空间里,可以放入四个Gracemont小核心,以及它们共享的4MB二级缓存。
别看是小核心,性能其实一点都不弱。Intel声称,单核单线程对比,Gracemont的同频性能相比六代酷睿Skylake提升超过40%,而同等性能下功耗则可降低40%。
四核四线程的Gracemont对比双核四线程的Skylake,峰值性能可提升80%,而同等性能下功耗可降低80%。
Intel表示,这种小核心设计可以在有限的芯片空间内,实现多核任务负载,并具备宽泛的频率范围,降低整体消耗,为更高频率运行提供果功耗和散热空间,满足更多动态任务负载。
它还可以利用各种技术进步,在不额外增加功耗的情况下,对工作负载进行优先级排序,并直接提升性能。
架构方面,小核心就相对简单不少了,但变化也非常大,比如指令缓存增大至64KB,可在不耗费内存子系统功率的情况下保存可用指令,还有Intel的第一个按需指令长度解码器,可生成预解码信息,加速现代工作负载。
同时借助更深的分支历史、更大的指令尺寸,分支预测精度**增加,拥有5000个条目的分支目标缓存区。
后端也更宽了,具备5组宽度分配、8组宽度引退、256个乱序窗口入口、17个执行端口,以及4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3个矢量ALU。
内存部分,使用了双载入、双存储单元的配置,二级缓存增大至4MB,以及深度缓冲、高级预取器,支持Intel Resource Director资源重定向技术,可以让软件在不同核心、不同软件线程之间实现精准的控制。
哦对了,Gracemont是第一个支持AVX2指令集的能效核心,还支持整数AI操作新扩展、Intel控制流强制技术、Intel虚拟化重定向保护技术。大核心一般,小核心有意思,等纯小核心的赛扬和奔腾进入nas和nuc就好玩了 6700K该淘汰了 等12700K上市吧 大核心也不错了,在 x86 里算最宽的之一,比 Cypress Cove 提高 19% IPC 的话比 Zen3 要强 15%-20%,达到了 Apple A11 的水平
—— 来自 S1Fun 这ipc提升19%全靠cinebench跑分拉也是挺乐的 這是大小核心同頻同性能嗎 我感觉8700K还能再战5年 Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的
啊这,牙膏PPT公布了又不是藏着掖着,下面没有CineBench
附下PPT链接:https://download.intel.com/newsroom/2021/client-computing/intel-architecture-day-2021-presentation.pdf
Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的
高肯定是高了的,ROB 这么大(就是不知道 OoO-Window 究竟有多少提升),解码宽度也变 6 wide 了,分支预测命中率也有提升
—— 来自 S1Fun 湿湿碎啦,肯定被amd干烂的 这要看PPT是谁写的,如果是印度佬写的,那还是洗洗睡吧 我记得牙膏上次提前几个月吹性能还是06年Conroe,7月发布,1月就出ppt,4月到处都是es的测试了 kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...
对啊,按这么说大小核根本没什么区别啊…
—— 来自 S1Fun 本帖最后由 BallanceHZ 于 2021-8-20 12:20 编辑
intel ppt压根没对比小核和skylake的ipc啊,还是写这个稿子的人看不懂英文
我猜40%是从这来的
http://ww1.sinaimg.cn/large/ba0a634aly1gtn4w0j338j22m31gthdt.jpg
BallanceHZ 发表于 2021-8-20 12:19
intel ppt压根没对比小核和skylake的ipc啊,还是写这个稿子的人看不懂英文
我猜40%是从这来的
直播视频有说 integer ipc比skylake高,但肯定不是以40%来宣传。 hgfdsa 发表于 2021-8-20 11:44
我记得牙膏上次提前几个月吹性能还是06年Conroe,7月发布,1月就出ppt,4月到处都是es的测试了 ...
某地雷说qs马上拿到了,但是没主板。 kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...
我看到的分析是小核约等于Zen1,除了cb,同频率稍弱于skl。 囧囧囧 发表于 2021-8-20 12:35
直播视频有说 integer ipc比skylake高,但肯定不是以40%来宣传。
高那是肯定的啊,高5%和40%差别就大了去了 囧囧囧 发表于 2021-8-20 12:35
某地雷说qs马上拿到了,但是没主板。
正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意,为什么不直接砍掉,或者桌面搞成半速的也行啊。 hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意, ...
本代和砍了没差啊,大小核同开就是avx512 off,小核全关了才能开avx512 BallanceHZ 发表于 2021-8-20 12:46
本代和砍了没差啊,大小核同开就是avx512 off,小核全关了才能开avx512
牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。 hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。
啥,我还真没注意又改了
没事可以bios关掉 kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...
关闭全部大核,只超频跑小核,散热空间全部留给少得可怜的小核,还是有这个可能的 BallanceHZ 发表于 2021-8-20 12:51
啥,我还真没注意又改了
没事可以bios关掉
求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512? xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512? ...
我现在用的zen3啊,我只听别人说过可以关 xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512? ...
没必要关,桌面上除了少数测试软件专门构建的场景,avx512基本上跑不满,对日常使用的功耗影响非常小。 BallanceHZ 发表于 2021-8-20 12:38
高那是肯定的啊,高5%和40%差别就大了去了
问题是张口就40%,intel又没说过。 hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意, ...
可是为什么你总认为消费级核心带avx512?昨晚很明确说了不支持啊。 xxad 发表于 2021-8-20 12:57
关闭全部大核,只超频跑小核,散热空间全部留给少得可怜的小核,还是有这个可能的 ...
问题小核也是8核啊........ hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。
不对啊,anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of the features of its P-core, and improve some features on the E-core. The biggest thing that gets the cut is that Intel is losing AVX-512 support inside Alder Lake. When we say losing support, we mean that the AVX-512 is going to be physically fused off, so even if you ran the processor with the E-cores disabled at boot time, AVX-512 is still disabled. 别ppt了 赶紧上市
5950x用的我吐血了
zen123用下来只有2xxx和3xxx体验可以 别的都是他妈什么玩意
—— 来自 samsung SM-N9600, Android 10上的 S1Next-鹅版 v2.4.4.1 BallanceHZ 发表于 2021-8-20 14:52
不对啊,anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of ...
可能是搞错了adl和spr,spr一个tile16个gdc core,支持avx512的。 我记得sunnycove不就是5解码了吗,为啥新闻都说goldcove是从4解码升级到6解码?
话说这次小核挺有趣的,D-cache比大核大,执行端口更宽。 kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...
这稿子写错了,PPT 上是同性能功耗和同功耗性能。IPC 的话,大核基本上 140% Skylake,小核心和 Skylake IPC 差不多
—— 来自 S1Fun 御坂14084 发表于 2021-8-21 08:17
额 我桌面用YES用牙膏
12代得等D5内存吧,不过无论yes还是11代,D4都是末代会换接口,所以确实直接上D5会更合适。接下去就看12代大小核调度了
—— 来自 Xiaomi Redmi K20 Pro, Android 10上的 S1Next-鹅版 v2.4.4.1 Cairetina 发表于 2021-8-21 08:15
这稿子写错了,PPT 上是同性能功耗和同功耗性能。IPC 的话,大核基本上 140% Skylake,小核心和 Skylake...
忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。 囧囧囧 发表于 2021-8-21 10:06
忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。 ...
只论ipc的话,现在所有主流大核心里面skl垫底,7年前的架构都是上个时代的东西了。 hgfdsa 发表于 2021-8-21 13:36
只论ipc的话,现在所有主流大核心里面skl垫底,7年前的架构都是上个时代的东西了。 ...
所以E-core比SKL强有啥问题?只是不少人提起atom就想象成J字辈的玩意撒
页:
[1]
2