navarra 发表于 2021-8-20 08:47

Intel 12代酷睿架构详情预览

这两年,Intel越来越“超前”,以往新一代产品发布才会公布的诸多技术细节,都会提前几个月公诸于世。在今天的年度架构日活动上,Intel就公布了Alder Lake 12代酷睿的架构、技术细节。

Intel此前的Lakefield处理器第一次采用了大小核混合架构设计(Intel Hybrid Technology),但只是一次试水之作,12代酷睿才是真正的起点。

其中,大核心叫做“性能核心”(Performance Cores),或者“P核心”(P-Cores),Golden Cove架构,最多8核心16线程,AVX-512指令集、DLBoost深度学习加速也只有大核心才支持。

小核心则叫做“能效核心”(Efficiency Ccores),或者“E核心”(E-Cores),Gracemont架构,最多8核心8线程,不支持超线程。

为了解决大小核调度问题,Intel发明了新的“Thread Director”(线程调度器),并与微软全力合作,搭配Windows 11的任务调度器,将合适的负载分配给不同核心、线程。

12代酷睿都嵌入了一个微控制器,负责监视每个线程的性质和性能需求,衡量其载入、存储、分支、内存访问延迟、指令类型等,然后报告给Windows 11系统调度器,由后者结合运行环境,将此线程分配到最合适的核心。

Intel宣称,该技术可以在最短30微秒的时间里确定一个线程的性质、归属,而传统的系统调度器需要上百甚至几百微秒,还可能分配错误。

另外,Thread Director还会针对性地优化频率,尤其是在移动端,保证效率的同时还能提高能效,而且可以在微秒级别调整频率。

Windows 10呢?自然不会有Thread Director,只有一个基础版的Intel HGS(硬件指引调度),具体细节不详,但效率肯定不会高到哪里去。

Linux呢?Intel说目前的优化重点是Windows 11,也会和业界合作对Linux内核进行优化,但需要时间。

12代酷睿将有三种封装版本:

一是桌面高性能版的LGA1700独立封装,也就是S系列,最多8大8小16核心24线程,核显最对32EU单元,功耗最高125W;

二是移动低功耗版的BGA Type3整合封装,也就是UP3系列,尺寸50×25×1.3毫米,最多6大8小14核心20线程,核显最多96EU单元,功耗12-35W(此前曝料还有45/55W);

三是超低功耗版的BGA Type4整合封装,也就是UP4系列,尺寸28.5×19×1.1毫米,最多2大8小10核心12线程,核显最多96EU单元,功耗可以低至9W。

三种版本除了核心规模不同,本质上相同的,多个IP模块也是通用的,比如都集成新一代GNA 3.0高斯神经加速器,执行AI加速。

不过,IPU(图像处理器单元)、雷电4、Wi-Fi 6E都是移动端才有,其中UP3系列支持四个雷电4端口,UP4系列则是两个。

三级缓存增至最大30MB,而现在的11代移动版最多24MB,桌面版则是只有16MB。

内存方面,桌面版同时支持DDR5-4800、DDR4-3200、LPDDR5-5200、LPDDR4X-4266,而且所有版本都是同时支持四种内存,硬件层面没有区别,因此在一些迷你机平台上,应该会看到直接搭配LPDDR5/4X。

此外,还会支持内存的动态电压频率缩放,并强化超频。

但是,移动端的内存支持规格没有公开,估计和桌面版差不多。

PCIe连接方面,桌面版处理器会支持16条PCIe 5.0、4条PCIe 4.0,配套的芯片组(Z690)则最多支持12条PCIe 4.0、16条PCIe 3.0。

这一次Intel可是极为慷慨了,尤其是在PCIe 4.0上被对手抢先,终于扳回了一局,即便是PCIe 5.0全部给显卡,也可以同时搭配最多四块顶级SSD。

内部互连方面,12代提供了三种高速通道。

一是Compute Fabric,主要连接CPU核心、高速缓存,带宽可达惊人的1TB/s,并支持动态缓存优化。

二是Memory Fabric,连接内存和其他模块,带宽最高204GB/s,支持动态位宽和频率。

三是I/O Fabric,用户输入输出,最高带宽64GB/s,正好对应PCIe 5.0 x16,支持基于需求的实时带宽控制。

不过,内存带宽有点疑问:12代酷睿支持128-bit内存位宽,可以做到四个32-bit DDR5通道,而要想达到204GB/s的带宽,必须支持到DDR5-12750的高频率,但实际只有DDR5-4800,一半都没有。暂时还不知道Intel是如何算出这个带宽数字的。Intel Alder Lake 12代酷睿将采用全新的大小核混合架构设计,其中大核/性能核(P-Core)基于Golden Cove架构,最多8个,小核/能效核(E-Core)基于Gracemont架构,最多也是8个。

两种架构的核心有何差异?一年一度的架构日活动上,Intel终于揭开了它们的神秘面纱。

当然,CPU架构设计是极为高深的,一般人把握不了,也无需研究太多,我们这里大致过一下最关键的一些技术点。

Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移动版Willow Cove、11代酷睿桌面版Cypress Cove的进一步升级版,但变化非常大,大量基础模块都重构或升级,其设计理念也将影响未来多代产品的演化。

负责指令拾取和解码的前端部分,就发生了翻天覆地的变化,号称近十年来的最大变革,堪比当年的Skylake,官方称它旨在提高速度、突破低时延和单线程应用程序性能的限制。

最直接、最明显的就是解码器宽度由4个升级为6个,这可是x86架构的第一次,同时每时钟周期执行uop从6个增至8个,解码长度从16字节翻番至32字节。?op缓存、队列也都**强化,缓存可达4K,队列每线程可处理72条目,单线程达144个。

编码预取**增强,分支目标从5K增至12K,4K iTLB、2K/4M iTLB分别翻番至256、32,同时改进了分支预测精度,编码预取机制更加智能。

乱序引擎部分,同样更宽、更深、更智能,分配由5路增至6路,执行端口由10个增至12个,调度器尺寸增大,重排序缓冲区(ROB)从352条目增至512条目,两倍多于AMD Zen3,仅次于苹果M1(大约630条目),重命名和分配阶段也可以执行更多指令。

整数执行引擎部分,增加了第五个整数执行端口,所有五个端口都可以执行ALU、LEA,理论上就原生ALU吞吐能力而言是最宽的x86内核。

矢量执行引擎部分,增加了新的快速加法器(FADD),比传统FMA单元效率更高、延迟更低,FMA单元则增加支持FP16浮点数据类型,属于AVX-512指令集的一部分。

载入和存储部分,通过载入AGU增加了一个专用的执行端口,这样载入端口从2个增至3个,同时载入缓冲和存储缓冲更深,载入延迟更低,而针对当今负载不断增加的内存级并行需求,数据处理能力也**增加。

二级缓存,桌面和移动端每核心还是1.25MB,服务器端的Sapphire Rapids则增加到2MB,并支持多路径预取、全写入预测带宽优化,可减少内存读取。

Intel宣称,Golden Cove架构相比于现在11代酷睿桌面上的Cypress Cove,实现了平均大约19%的IPC(每时钟周期指令数)提升,可以理解为同频性能的提升幅度。

它还支持AMX高级矩阵扩展指令,内置下一代AI加速技术,用于学习推理和训练,包括专用硬件和新指令集架构,可明显提高矩阵乘法运算。

Gracemont小核心属于Atom凌动家族,是2008年以来的第七代,之前分别是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont。

按照Intel的说法,Gracemont核心非常迷你,一个Golden Cove大核心的空间里,可以放入四个Gracemont小核心,以及它们共享的4MB二级缓存。

别看是小核心,性能其实一点都不弱。Intel声称,单核单线程对比,Gracemont的同频性能相比六代酷睿Skylake提升超过40%,而同等性能下功耗则可降低40%。

四核四线程的Gracemont对比双核四线程的Skylake,峰值性能可提升80%,而同等性能下功耗可降低80%。

Intel表示,这种小核心设计可以在有限的芯片空间内,实现多核任务负载,并具备宽泛的频率范围,降低整体消耗,为更高频率运行提供果功耗和散热空间,满足更多动态任务负载。

它还可以利用各种技术进步,在不额外增加功耗的情况下,对工作负载进行优先级排序,并直接提升性能。

架构方面,小核心就相对简单不少了,但变化也非常大,比如指令缓存增大至64KB,可在不耗费内存子系统功率的情况下保存可用指令,还有Intel的第一个按需指令长度解码器,可生成预解码信息,加速现代工作负载。

同时借助更深的分支历史、更大的指令尺寸,分支预测精度**增加,拥有5000个条目的分支目标缓存区。

后端也更宽了,具备5组宽度分配、8组宽度引退、256个乱序窗口入口、17个执行端口,以及4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3个矢量ALU。

内存部分,使用了双载入、双存储单元的配置,二级缓存增大至4MB,以及深度缓冲、高级预取器,支持Intel Resource Director资源重定向技术,可以让软件在不同核心、不同软件线程之间实现精准的控制。

哦对了,Gracemont是第一个支持AVX2指令集的能效核心,还支持整数AI操作新扩展、Intel控制流强制技术、Intel虚拟化重定向保护技术。大核心一般,小核心有意思,等纯小核心的赛扬和奔腾进入nas和nuc就好玩了

帝蓝 发表于 2021-8-20 08:51

6700K该淘汰了 等12700K上市吧

Cairetina 发表于 2021-8-20 09:11

大核心也不错了,在 x86 里算最宽的之一,比 Cypress Cove 提高 19% IPC 的话比 Zen3 要强 15%-20%,达到了 Apple A11 的水平

—— 来自 S1Fun

Rarity5 发表于 2021-8-20 09:17

这ipc提升19%全靠cinebench跑分拉也是挺乐的

gofbayrf 发表于 2021-8-20 09:18

這是大小核心同頻同性能嗎   

str007 发表于 2021-8-20 09:19

kros 发表于 2021-8-20 09:22

我感觉8700K还能再战5年

CyanCloverFern 发表于 2021-8-20 09:29

Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的
啊这,牙膏PPT公布了又不是藏着掖着,下面没有CineBench



附下PPT链接:https://download.intel.com/newsroom/2021/client-computing/intel-architecture-day-2021-presentation.pdf

Cairetina 发表于 2021-8-20 09:30

Rarity5 发表于 2021-8-20 09:17
这ipc提升19%全靠cinebench跑分拉也是挺乐的

高肯定是高了的,ROB 这么大(就是不知道 OoO-Window 究竟有多少提升),解码宽度也变 6 wide 了,分支预测命中率也有提升

—— 来自 S1Fun

囧囧囧 发表于 2021-8-20 10:47

湿湿碎啦,肯定被amd干烂的

yuxiao 发表于 2021-8-20 11:41

这要看PPT是谁写的,如果是印度佬写的,那还是洗洗睡吧

hgfdsa 发表于 2021-8-20 11:44

我记得牙膏上次提前几个月吹性能还是06年Conroe,7月发布,1月就出ppt,4月到处都是es的测试了

kyouko 发表于 2021-8-20 12:09

Unlight 发表于 2021-8-20 12:15

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...

对啊,按这么说大小核根本没什么区别啊…

—— 来自 S1Fun

BallanceHZ 发表于 2021-8-20 12:19

本帖最后由 BallanceHZ 于 2021-8-20 12:20 编辑

intel ppt压根没对比小核和skylake的ipc啊,还是写这个稿子的人看不懂英文
我猜40%是从这来的
http://ww1.sinaimg.cn/large/ba0a634aly1gtn4w0j338j22m31gthdt.jpg

囧囧囧 发表于 2021-8-20 12:35

BallanceHZ 发表于 2021-8-20 12:19
intel ppt压根没对比小核和skylake的ipc啊,还是写这个稿子的人看不懂英文
我猜40%是从这来的



直播视频有说 integer ipc比skylake高,但肯定不是以40%来宣传。

囧囧囧 发表于 2021-8-20 12:35

hgfdsa 发表于 2021-8-20 11:44
我记得牙膏上次提前几个月吹性能还是06年Conroe,7月发布,1月就出ppt,4月到处都是es的测试了 ...

某地雷说qs马上拿到了,但是没主板。

hgfdsa 发表于 2021-8-20 12:36

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...

我看到的分析是小核约等于Zen1,除了cb,同频率稍弱于skl。

BallanceHZ 发表于 2021-8-20 12:38

囧囧囧 发表于 2021-8-20 12:35
直播视频有说 integer ipc比skylake高,但肯定不是以40%来宣传。

高那是肯定的啊,高5%和40%差别就大了去了

hgfdsa 发表于 2021-8-20 12:44

囧囧囧 发表于 2021-8-20 12:35
某地雷说qs马上拿到了,但是没主板。

正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意,为什么不直接砍掉,或者桌面搞成半速的也行啊。

BallanceHZ 发表于 2021-8-20 12:46

hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意, ...

本代和砍了没差啊,大小核同开就是avx512 off,小核全关了才能开avx512

hgfdsa 发表于 2021-8-20 12:48

BallanceHZ 发表于 2021-8-20 12:46
本代和砍了没差啊,大小核同开就是avx512 off,小核全关了才能开avx512

牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。

BallanceHZ 发表于 2021-8-20 12:51

hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。

啥,我还真没注意又改了
没事可以bios关掉

xxad 发表于 2021-8-20 12:57

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...

关闭全部大核,只超频跑小核,散热空间全部留给少得可怜的小核,还是有这个可能的

xxad 发表于 2021-8-20 12:58

BallanceHZ 发表于 2021-8-20 12:51
啥,我还真没注意又改了
没事可以bios关掉

求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512?

BallanceHZ 发表于 2021-8-20 13:00

xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512? ...

我现在用的zen3啊,我只听别人说过可以关

hgfdsa 发表于 2021-8-20 13:10

xxad 发表于 2021-8-20 12:58
求问bios里怎么标avx512的?就叫avx512嘛?用photoshop最新版干活的机器该打开还是关闭avx512? ...

没必要关,桌面上除了少数测试软件专门构建的场景,avx512基本上跑不满,对日常使用的功耗影响非常小。

囧囧囧 发表于 2021-8-20 13:19

BallanceHZ 发表于 2021-8-20 12:38
高那是肯定的啊,高5%和40%差别就大了去了

问题是张口就40%,intel又没说过。

囧囧囧 发表于 2021-8-20 13:21

hgfdsa 发表于 2021-8-20 12:44
正常要到10月才有大规模测试吧,我猜性能有优势,但是功耗差很多。avx512这种只在烤机时发挥作用的玩意, ...

可是为什么你总认为消费级核心带avx512?昨晚很明确说了不支持啊。

navarra 发表于 2021-8-20 14:12

xxad 发表于 2021-8-20 12:57
关闭全部大核,只超频跑小核,散热空间全部留给少得可怜的小核,还是有这个可能的 ...

问题小核也是8核啊........

BallanceHZ 发表于 2021-8-20 14:52

hgfdsa 发表于 2021-8-20 12:48
牙膏的ppt写同开也支持avx512,但是用到avx512的任务会调度分配到大核上。

不对啊,anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of the features of its P-core, and improve some features on the E-core. The biggest thing that gets the cut is that Intel is losing AVX-512 support inside Alder Lake. When we say losing support, we mean that the AVX-512 is going to be physically fused off, so even if you ran the processor with the E-cores disabled at boot time, AVX-512 is still disabled.

尔乃美家累 发表于 2021-8-20 15:28

别ppt了 赶紧上市
5950x用的我吐血了

zen123用下来只有2xxx和3xxx体验可以 别的都是他妈什么玩意

—— 来自 samsung SM-N9600, Android 10上的 S1Next-鹅版 v2.4.4.1

囧囧囧 发表于 2021-8-20 15:35

BallanceHZ 发表于 2021-8-20 14:52
不对啊,anadtech这边问intel是这么说的
In order to get to this point, Intel had to cut down some of ...

可能是搞错了adl和spr,spr一个tile16个gdc core,支持avx512的。

stevenzero 发表于 2021-8-20 18:45

我记得sunnycove不就是5解码了吗,为啥新闻都说goldcove是从4解码升级到6解码?

话说这次小核挺有趣的,D-cache比大核大,执行端口更宽。

Cairetina 发表于 2021-8-21 08:15

kyouko 发表于 2021-8-20 12:09
大核是火箭湖的119%,大约是zen3的110-115%,这个比较可信。小核是skylake的140%,那就是zen3的110%,你信 ...

这稿子写错了,PPT 上是同性能功耗和同功耗性能。IPC 的话,大核基本上 140% Skylake,小核心和 Skylake IPC 差不多

—— 来自 S1Fun

御坂14084 发表于 2021-8-21 08:17

雪影 发表于 2021-8-21 09:47

御坂14084 发表于 2021-8-21 08:17
额 我桌面用YES用牙膏

12代得等D5内存吧,不过无论yes还是11代,D4都是末代会换接口,所以确实直接上D5会更合适。接下去就看12代大小核调度了

—— 来自 Xiaomi Redmi K20 Pro, Android 10上的 S1Next-鹅版 v2.4.4.1

囧囧囧 发表于 2021-8-21 10:06

Cairetina 发表于 2021-8-21 08:15
这稿子写错了,PPT 上是同性能功耗和同功耗性能。IPC 的话,大核基本上 140% Skylake,小核心和 Skylake...

忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。

hgfdsa 发表于 2021-8-21 13:36

囧囧囧 发表于 2021-8-21 10:06
忘了在哪里看到ecore比skl提升5%。可能很多人看到gracemont是atom系的下意识觉得是性能垃圾。 ...

只论ipc的话,现在所有主流大核心里面skl垫底,7年前的架构都是上个时代的东西了。

囧囧囧 发表于 2021-8-21 16:15

hgfdsa 发表于 2021-8-21 13:36
只论ipc的话,现在所有主流大核心里面skl垫底,7年前的架构都是上个时代的东西了。 ...

所以E-core比SKL强有啥问题?只是不少人提起atom就想象成J字辈的玩意撒
页: [1] 2
查看完整版本: Intel 12代酷睿架构详情预览