Intel 12代酷睿架构详情预览

navarra 发表于 2021-8-20 08:47

这两年，Intel越来越“超前”，以往新一代产品发布才会公布的诸多技术细节，都会提前几个月公诸于世。在今天的年度架构日活动上，Intel就公布了Alder Lake 12代酷睿的架构、技术细节。

Intel此前的Lakefield处理器第一次采用了大小核混合架构设计(Intel Hybrid Technology)，但只是一次试水之作，12代酷睿才是真正的起点。

其中，大核心叫做“性能核心”(Performance Cores)，或者“P核心”(P-Cores)，Golden Cove架构，最多8核心16线程，AVX-512指令集、DLBoost深度学习加速也只有大核心才支持。

小核心则叫做“能效核心”(Efficiency Ccores)，或者“E核心”(E-Cores)，Gracemont架构，最多8核心8线程，不支持超线程。

为了解决大小核调度问题，Intel发明了新的“Thread Director”(线程调度器)，并与微软全力合作，搭配Windows 11的任务调度器，将合适的负载分配给不同核心、线程。

12代酷睿都嵌入了一个微控制器，负责监视每个线程的性质和性能需求，衡量其载入、存储、分支、内存访问延迟、指令类型等，然后报告给Windows 11系统调度器，由后者结合运行环境，将此线程分配到最合适的核心。

Intel宣称，该技术可以在最短30微秒的时间里确定一个线程的性质、归属，而传统的系统调度器需要上百甚至几百微秒，还可能分配错误。

另外，Thread Director还会针对性地优化频率，尤其是在移动端，保证效率的同时还能提高能效，而且可以在微秒级别调整频率。

Windows 10呢？自然不会有Thread Director，只有一个基础版的Intel HGS(硬件指引调度)，具体细节不详，但效率肯定不会高到哪里去。

Linux呢？Intel说目前的优化重点是Windows 11，也会和业界合作对Linux内核进行优化，但需要时间。

12代酷睿将有三种封装版本：

一是桌面高性能版的LGA1700独立封装，也就是S系列，最多8大8小16核心24线程，核显最对32EU单元，功耗最高125W；

二是移动低功耗版的BGA Type3整合封装，也就是UP3系列，尺寸50×25×1.3毫米，最多6大8小14核心20线程，核显最多96EU单元，功耗12-35W(此前曝料还有45/55W)；

三是超低功耗版的BGA Type4整合封装，也就是UP4系列，尺寸28.5×19×1.1毫米，最多2大8小10核心12线程，核显最多96EU单元，功耗可以低至9W。

三种版本除了核心规模不同，本质上相同的，多个IP模块也是通用的，比如都集成新一代GNA 3.0高斯神经加速器，执行AI加速。

不过，IPU(图像处理器单元)、雷电4、Wi-Fi 6E都是移动端才有，其中UP3系列支持四个雷电4端口，UP4系列则是两个。

三级缓存增至最大30MB，而现在的11代移动版最多24MB，桌面版则是只有16MB。

内存方面，桌面版同时支持DDR5-4800、DDR4-3200、LPDDR5-5200、LPDDR4X-4266，而且所有版本都是同时支持四种内存，硬件层面没有区别，因此在一些迷你机平台上，应该会看到直接搭配LPDDR5/4X。

此外，还会支持内存的动态电压频率缩放，并强化超频。

但是，移动端的内存支持规格没有公开，估计和桌面版差不多。

PCIe连接方面，桌面版处理器会支持16条PCIe 5.0、4条PCIe 4.0，配套的芯片组(Z690)则最多支持12条PCIe 4.0、16条PCIe 3.0。

这一次Intel可是极为慷慨了，尤其是在PCIe 4.0上被对手抢先，终于扳回了一局，即便是PCIe 5.0全部给显卡，也可以同时搭配最多四块顶级SSD。

内部互连方面，12代提供了三种高速通道。

一是Compute Fabric，主要连接CPU核心、高速缓存，带宽可达惊人的1TB/s，并支持动态缓存优化。

二是Memory Fabric，连接内存和其他模块，带宽最高204GB/s，支持动态位宽和频率。

三是I/O Fabric，用户输入输出，最高带宽64GB/s，正好对应PCIe 5.0 x16，支持基于需求的实时带宽控制。

不过，内存带宽有点疑问：12代酷睿支持128-bit内存位宽，可以做到四个32-bit DDR5通道，而要想达到204GB/s的带宽，必须支持到DDR5-12750的高频率，但实际只有DDR5-4800，一半都没有。暂时还不知道Intel是如何算出这个带宽数字的。Intel Alder Lake 12代酷睿将采用全新的大小核混合架构设计，其中大核/性能核(P-Core)基于Golden Cove架构，最多8个，小核/能效核(E-Core)基于Gracemont架构，最多也是8个。

两种架构的核心有何差异？一年一度的架构日活动上，Intel终于揭开了它们的神秘面纱。

当然，CPU架构设计是极为高深的，一般人把握不了，也无需研究太多，我们这里大致过一下最关键的一些技术点。

Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移动版Willow Cove、11代酷睿桌面版Cypress Cove的进一步升级版，但变化非常大，大量基础模块都重构或升级，其设计理念也将影响未来多代产品的演化。

负责指令拾取和解码的前端部分，就发生了翻天覆地的变化，号称近十年来的最大变革，堪比当年的Skylake，官方称它旨在提高速度、突破低时延和单线程应用程序性能的限制。

最直接、最明显的就是解码器宽度由4个升级为6个，这可是x86架构的第一次，同时每时钟周期执行uop从6个增至8个，解码长度从16字节翻番至32字节。?op缓存、队列也都**强化，缓存可达4K，队列每线程可处理72条目，单线程达144个。

编码预取**增强，分支目标从5K增至12K，4K iTLB、2K/4M iTLB分别翻番至256、32，同时改进了分支预测精度，编码预取机制更加智能。

乱序引擎部分，同样更宽、更深、更智能，分配由5路增至6路，执行端口由10个增至12个，调度器尺寸增大，重排序缓冲区(ROB)从352条目增至512条目，两倍多于AMD Zen3，仅次于苹果M1(大约630条目)，重命名和分配阶段也可以执行更多指令。

整数执行引擎部分，增加了第五个整数执行端口，所有五个端口都可以执行ALU、LEA，理论上就原生ALU吞吐能力而言是最宽的x86内核。

矢量执行引擎部分，增加了新的快速加法器(FADD)，比传统FMA单元效率更高、延迟更低，FMA单元则增加支持FP16浮点数据类型，属于AVX-512指令集的一部分。

载入和存储部分，通过载入AGU增加了一个专用的执行端口，这样载入端口从2个增至3个，同时载入缓冲和存储缓冲更深，载入延迟更低，而针对当今负载不断增加的内存级并行需求，数据处理能力也**增加。

二级缓存，桌面和移动端每核心还是1.25MB，服务器端的Sapphire Rapids则增加到2MB，并支持多路径预取、全写入预测带宽优化，可减少内存读取。

Intel宣称，Golden Cove架构相比于现在11代酷睿桌面上的Cypress Cove，实现了平均大约19％的IPC(每时钟周期指令数)提升，可以理解为同频性能的提升幅度。

它还支持AMX高级矩阵扩展指令，内置下一代AI加速技术，用于学习推理和训练，包括专用硬件和新指令集架构，可明显提高矩阵乘法运算。

Gracemont小核心属于Atom凌动家族，是2008年以来的第七代，之前分别是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont。

按照Intel的说法，Gracemont核心非常迷你，一个Golden Cove大核心的空间里，可以放入四个Gracemont小核心，以及它们共享的4MB二级缓存。

别看是小核心，性能其实一点都不弱。Intel声称，单核单线程对比，Gracemont的同频性能相比六代酷睿Skylake提升超过40％，而同等性能下功耗则可降低40％。

四核四线程的Gracemont对比双核四线程的Skylake，峰值性能可提升80％，而同等性能下功耗可降低80％。

Intel表示，这种小核心设计可以在有限的芯片空间内，实现多核任务负载，并具备宽泛的频率范围，降低整体消耗，为更高频率运行提供果功耗和散热空间，满足更多动态任务负载。

它还可以利用各种技术进步，在不额外增加功耗的情况下，对工作负载进行优先级排序，并直接提升性能。

架构方面，小核心就相对简单不少了，但变化也非常大，比如指令缓存增大至64KB，可在不耗费内存子系统功率的情况下保存可用指令，还有Intel的第一个按需指令长度解码器，可生成预解码信息，加速现代工作负载。

同时借助更深的分支历史、更大的指令尺寸，分支预测精度**增加，拥有5000个条目的分支目标缓存区。

后端也更宽了，具备5组宽度分配、8组宽度引退、256个乱序窗口入口、17个执行端口，以及4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3个矢量ALU。

内存部分，使用了双载入、双存储单元的配置，二级缓存增大至4MB，以及深度缓冲、高级预取器，支持Intel Resource Director资源重定向技术，可以让软件在不同核心、不同软件线程之间实现精准的控制。

哦对了，Gracemont是第一个支持AVX2指令集的能效核心，还支持整数AI操作新扩展、Intel控制流强制技术、Intel虚拟化重定向保护技术。大核心一般，小核心有意思，等纯小核心的赛扬和奔腾进入nas和nuc就好玩了

帝蓝发表于 2021-8-20 08:51

6700K该淘汰了等12700K上市吧

Cairetina 发表于 2021-8-20 09:11

大核心也不错了，在 x86 里算最宽的之一，比 Cypress Cove 提高 19% IPC 的话比 Zen3 要强 15%-20%，达到了 Apple A11 的水平

—— 来自 S1Fun

Rarity5 发表于 2021-8-20 09:17

这ipc提升19%全靠cinebench跑分拉也是挺乐的

gofbayrf 发表于 2021-8-20 09:18

這是大小核心同頻同性能嗎

str007 发表于 2021-8-20 09:19

kros 发表于 2021-8-20 09:22

我感觉8700K还能再战5年

CyanCloverFern 发表于 2021-8-20 09:29

Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的
啊这，牙膏PPT公布了又不是藏着掖着，下面没有CineBench

附下PPT链接：https://download.intel.com/newsroom/2021/client-computing/intel-architecture-day-2021-presentation.pdf

Cairetina 发表于 2021-8-20 09:30

Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的

高肯定是高了的，ROB 这么大（就是不知道 OoO-Window 究竟有多少提升），解码宽度也变 6 wide 了，分支预测命中率也有提升

—— 来自 S1Fun

囧囧囧 发表于 2021-8-20 10:47

湿湿碎啦，肯定被amd干烂的

yuxiao 发表于 2021-8-20 11:41

这要看PPT是谁写的，如果是印度佬写的，那还是洗洗睡吧

hgfdsa 发表于 2021-8-20 11:44

我记得牙膏上次提前几个月吹性能还是06年Conroe，7月发布，1月就出ppt，4月到处都是es的测试了

kyouko 发表于 2021-8-20 12:09

Unlight 发表于 2021-8-20 12:15

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%，大约是zen3的110－115%，这个比较可信。小核是skylake的140%，那就是zen3的110%，你信 ...

对啊，按这么说大小核根本没什么区别啊…

—— 来自 S1Fun

BallanceHZ 发表于 2021-8-20 12:19

本帖最后由 BallanceHZ 于 2021-8-20 12:20 编辑

intel ppt压根没对比小核和skylake的ipc啊，还是写这个稿子的人看不懂英文
我猜40%是从这来的
http://ww1.sinaimg.cn/large/ba0a634aly1gtn4w0j338j22m31gthdt.jpg

囧囧囧 发表于 2021-8-20 12:35

BallanceHZ 发表于 2021-8-20 12:19
intel ppt压根没对比小核和skylake的ipc啊，还是写这个稿子的人看不懂英文
我猜40%是从这来的

直播视频有说 integer ipc比skylake高，但肯定不是以40%来宣传。

囧囧囧 发表于 2021-8-20 12:35

hgfdsa 发表于 2021-8-20 11:44
我记得牙膏上次提前几个月吹性能还是06年Conroe，7月发布，1月就出ppt，4月到处都是es的测试了 ...

某地雷说qs马上拿到了，但是没主板。

hgfdsa 发表于 2021-8-20 12:36

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%，大约是zen3的110－115%，这个比较可信。小核是skylake的140%，那就是zen3的110%，你信 ...

我看到的分析是小核约等于Zen1，除了cb，同频率稍弱于skl。

BallanceHZ 发表于 2021-8-20 12:38

囧囧囧发表于 2021-8-20 12:35
直播视频有说 integer ipc比skylake高，但肯定不是以40%来宣传。

高那是肯定的啊，高5%和40%差别就大了去了

hgfdsa 发表于 2021-8-20 12:44

囧囧囧发表于 2021-8-20 12:35
某地雷说qs马上拿到了，但是没主板。

正常要到10月才有大规模测试吧，我猜性能有优势，但是功耗差很多。avx512这种只在烤机时发挥作用的玩意，为什么不直接砍掉，或者桌面搞成半速的也行啊。

BallanceHZ 发表于 2021-8-20 12:46

hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧，我猜性能有优势，但是功耗差很多。avx512这种只在烤机时发挥作用的玩意， ...

本代和砍了没差啊，大小核同开就是avx512 off，小核全关了才能开avx512

hgfdsa 发表于 2021-8-20 12:48

BallanceHZ 发表于 2021-8-20 12:46
本代和砍了没差啊，大小核同开就是avx512 off，小核全关了才能开avx512

牙膏的ppt写同开也支持avx512，但是用到avx512的任务会调度分配到大核上。

BallanceHZ 发表于 2021-8-20 12:51

hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512，但是用到avx512的任务会调度分配到大核上。

啥，我还真没注意又改了
没事可以bios关掉

xxad 发表于 2021-8-20 12:57

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%，大约是zen3的110－115%，这个比较可信。小核是skylake的140%，那就是zen3的110%，你信 ...

关闭全部大核，只超频跑小核，散热空间全部留给少得可怜的小核，还是有这个可能的

xxad 发表于 2021-8-20 12:58

BallanceHZ 发表于 2021-8-20 12:51
啥，我还真没注意又改了
没事可以bios关掉

求问bios里怎么标avx512的？就叫avx512嘛？用photoshop最新版干活的机器该打开还是关闭avx512？

BallanceHZ 发表于 2021-8-20 13:00

xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的？就叫avx512嘛？用photoshop最新版干活的机器该打开还是关闭avx512？ ...

我现在用的zen3啊，我只听别人说过可以关

hgfdsa 发表于 2021-8-20 13:10

xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的？就叫avx512嘛？用photoshop最新版干活的机器该打开还是关闭avx512？ ...

没必要关，桌面上除了少数测试软件专门构建的场景，avx512基本上跑不满，对日常使用的功耗影响非常小。

囧囧囧 发表于 2021-8-20 13:19

BallanceHZ 发表于 2021-8-20 12:38
高那是肯定的啊，高5%和40%差别就大了去了

问题是张口就40%，intel又没说过。

囧囧囧 发表于 2021-8-20 13:21

hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧，我猜性能有优势，但是功耗差很多。avx512这种只在烤机时发挥作用的玩意， ...

可是为什么你总认为消费级核心带avx512？昨晚很明确说了不支持啊。

navarra 发表于 2021-8-20 14:12

xxad 发表于 2021-8-20 12:57
关闭全部大核，只超频跑小核，散热空间全部留给少得可怜的小核，还是有这个可能的 ...

问题小核也是8核啊........

BallanceHZ 发表于 2021-8-20 14:52

hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512，但是用到avx512的任务会调度分配到大核上。

不对啊，anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of the features of its P-core, and improve some features on the E-core. The biggest thing that gets the cut is that Intel is losing AVX-512 support inside Alder Lake. When we say losing support, we mean that the AVX-512 is going to be physically fused off, so even if you ran the processor with the E-cores disabled at boot time, AVX-512 is still disabled.

尔乃美家累 发表于 2021-8-20 15:28

别ppt了赶紧上市
5950x用的我吐血了

zen123用下来只有2xxx和3xxx体验可以别的都是他妈什么玩意

—— 来自 samsung SM-N9600, Android 10上的 S1Next-鹅版 v2.4.4.1

囧囧囧 发表于 2021-8-20 15:35

BallanceHZ 发表于 2021-8-20 14:52
不对啊，anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of ...

可能是搞错了adl和spr，spr一个tile16个gdc core，支持avx512的。

stevenzero 发表于 2021-8-20 18:45

我记得sunnycove不就是5解码了吗，为啥新闻都说goldcove是从4解码升级到6解码？

话说这次小核挺有趣的，D-cache比大核大，执行端口更宽。

Cairetina 发表于 2021-8-21 08:15

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%，大约是zen3的110－115%，这个比较可信。小核是skylake的140%，那就是zen3的110%，你信 ...

这稿子写错了，PPT 上是同性能功耗和同功耗性能。IPC 的话，大核基本上 140% Skylake，小核心和 Skylake IPC 差不多

—— 来自 S1Fun

御坂14084 发表于 2021-8-21 08:17

雪影发表于 2021-8-21 09:47

御坂14084 发表于 2021-8-21 08:17
额我桌面用YES用牙膏

12代得等D5内存吧，不过无论yes还是11代，D4都是末代会换接口，所以确实直接上D5会更合适。接下去就看12代大小核调度了

—— 来自 Xiaomi Redmi K20 Pro, Android 10上的 S1Next-鹅版 v2.4.4.1

囧囧囧 发表于 2021-8-21 10:06

Cairetina 发表于 2021-8-21 08:15
这稿子写错了，PPT 上是同性能功耗和同功耗性能。IPC 的话，大核基本上 140% Skylake，小核心和 Skylake...

忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。

hgfdsa 发表于 2021-8-21 13:36

囧囧囧发表于 2021-8-21 10:06
忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。 ...

只论ipc的话，现在所有主流大核心里面skl垫底，7年前的架构都是上个时代的东西了。

囧囧囧 发表于 2021-8-21 16:15

hgfdsa 发表于 2021-8-21 13:36
只论ipc的话，现在所有主流大核心里面skl垫底，7年前的架构都是上个时代的东西了。 ...

所以E-core比SKL强有啥问题？只是不少人提起atom就想象成J字辈的玩意撒

页: [1] 2

Stage1st's Archiver

Intel 12代酷睿架构详情预览