deviljz 发表于 2019-12-8 01:45

AMD Ryzen Threadripper 2990wx问题求助

本帖最后由 deviljz 于 2019-12-8 12:47 编辑

前一段时间公司配了台2990wx的电脑,用来跑一些需要多进程长时间计算的事情

配这台电脑之前经验不足,对于水冷、超频、发热等完全没有概念,现在想仔细咨询一下。

配置:
cpu AMD Ryzen Threadripper 2990wx
内存 16G*4 3000 Mhz的
风扇 利民(Thermalright )Silver Arrow TR4 CPU散热器

遇到的情况:我把内存开到2900多Mhz,然后开64个进程cpu跑满,cpu温度飙升到87度,然后我怂了把内存降到2400Mhz,现在70度左右。看官网写的最佳工作温度68度以下。
我用i7-7700开8个进程和这台2900wx跑同样的事情,算了下时间发现i7 1个进程跑一个周期要4秒,这台2900wx 1个进程跑1个周期要12秒,这差距有点大

现在我想问的是:怎么调整才能尽可能更高效的让这个cpu运行
1、要不要上水冷,上什么样的水冷,大概会比现在降几度
2、机箱风扇要不要,对散热有多大帮助。
3、要不要超频,超频的话大概超到多少合适,超频都会带来哪些影响
4、在AMD RYZEN MASTER里面要不要调整一些设置,比如关闭同步多线程,32个核只开32个线程然后超频会不会效果更好?
5、还有没有其他建议,能够尽可能充分发挥出cpu性能的
6、补充个之前忘记说的事情,BIOS里我看到有风扇策略,之前70度好像是8x%功率,我给改成68度就100%功率了,这个调整是对的吧?




发表于 2019-12-8 01:52

deviljz 发表于 2019-12-8 01:58

对了,还有个问题忘记说

AMD RYZEN MASTER的控制模式里有3种:自动、精准频率提升、手动
PBO是第二个?

我发现如果这里开自动,超过68度就会降频,有时候甚至会降到原本的一半,所以我现在调成手动让它不降频

deviljz 发表于 2019-12-8 02:03

宏 发表于 2019-12-8 01:52
别上水,工作机上水就是作死,换猫头鹰U14S-TR4,这是各种测试下对线程撕裂者效果最好的风冷。也不用超频, ...

内存插对的,8个内存位置插的1368,插的不对开机主板会有提示

404489039 发表于 2019-12-8 02:42

请丢空调房,上水冷是自找麻烦

albertfu 发表于 2019-12-8 04:06

温度问题不要怂
zen+ TR不清楚,zen TR的话写着68度以下,实际90度都屁事没有的。此时算上amd智障给的27C软件温差,某些软件会报告110多度(90C+27C),建议用hwinfo看一下实际温度多少

风冷的话不要折腾换noctua的,银箭TR4就是最强之一,再换别的风冷也没意义,3风扇+银箭双塔算是风冷顶级了,硅脂涂抹和散热器压力带来的影响更大。工作机也不建议上水,就靠改善风道吧,比如机箱侧板打开最省事了
不过说实在的32C用风冷压确实勉强,超频也别折腾了,嫌PBO自动降频可以考虑换个68C不降频的模式,比如定压定频锁个3.6GHz之类的,太高风冷也压不住,到95C不管什么模式都会降频的

内存zen+ TR应该和zen TR没啥区别,插四根双面条的极限就是3000左右了,你开2933能稳定跑那是最好,别折腾再高了

至于和7700的效能差异,你要看跑的时候7700和2990wx具体频率多少,应该就是频率差异,zen/zen+的ipc和xxlake一个水平的。频率同样建议用hwinfo看

citrus 发表于 2019-12-8 10:11

本帖最后由 citrus 于 2019-12-8 10:12 编辑

既然是做计算,首先要保证结果是正确的,否则再快也没用。首先把内存换成带ECC的吧。2666就行了。

怎么会不要机箱风扇?没了合适的机箱气流,就是用散热器出来的热风再吹回去。

以及你这个东西是不是有GPU版?可能效率比CPU版快很多。不过GPU最好也买显存带ECC的,TitanV,P100,V100之流,价格爆炸。

deviljz 发表于 2019-12-8 11:41

albertfu 发表于 2019-12-8 04:06
温度问题不要怂
zen+ TR不清楚,zen TR的话写着68度以下,实际90度都屁事没有的。此时算上amd智障给的27C软 ...

因为之前对这方面了解不多,有些地方希望能说详细一点


“比0如定压定频锁个3.6GHz之类的”


现在默认是3.0GHz,这个是指我去调高cpu电压,然后设置所有cpu3.6GHz?


“至于和7700的效能差异,你要看跑的时候7700和2990wx具体频率多少”


从资源管理器看,i7-7700当时速度是4GHz,2900wx是2.97GHz,明天我去找个hwinfo仔细看看

deviljz 发表于 2019-12-8 11:44

citrus 发表于 2019-12-8 10:11
既然是做计算,首先要保证结果是正确的,否则再快也没用。首先把内存换成带ECC的吧。2666就行了。

怎么会 ...

没有GPU版,程序基本上是自己写的,需要在python里调lua运行,只能cpu跑。显卡配了个2060S,不过基本没用上。

DeepFishing 发表于 2019-12-8 11:54

工作机不要水冷,不要超频,机箱风扇是一定要的。
CPU温度不超过95度都不要怕。
内存插的对不对,4通道有没有跑起来。
2990有两个die没有内存控制器,要走其他的die取内存数据,速度会受到很大影响,也就是瓶颈不一定在CPU这边

—— 来自 Sony H8296, Android 9上的 S1Next-鹅版 v2.1.2

deviljz 发表于 2019-12-8 11:58

DeepFishing 发表于 2019-12-8 11:54
工作机不要水冷,不要超频,机箱风扇是一定要的。
CPU温度不超过95度都不要怕。
内存插的对不对,4通道有没 ...

内存是对的,8个位置插的1368,之前插错过一次,开机主板给我个提示要按照这样插

霖曦 发表于 2019-12-8 12:33

是不是你的程序用了avx,那个zen是只有二分一速度

deviljz 发表于 2019-12-8 12:42

本帖最后由 deviljz 于 2019-12-8 12:44 编辑

霖曦 发表于 2019-12-8 12:33
是不是你的程序用了avx,那个zen是只有二分一速度
没用到,tensorflow用的GPU版本

我这里分成客户端和服务端,只有1个服务端用到tensorflow,客户端就是python+lua跑一些计算。

为了尽量排除服务端导致的影响,服务端现在是开在i7-7700的电脑上的,2990wx用来跑64个客户端。

deviljz 发表于 2019-12-8 12:46

还想起个忘记说的事情,BIOS里我看到有风扇策略,之前70度好像是8x%功率,我给改成68度就100%功率了,这个调整是对的吧?

发表于 2019-12-8 12:52

albertfu 发表于 2019-12-8 15:45

deviljz 发表于 2019-12-8 11:41
因为之前对这方面了解不多,有些地方希望能说详细一点




搜了一下2990wx的全核工况,你可以试试锁1.15V 3.4GHz,这样CPU功耗应该很低,而且不会68C就降频了

不过这样就牺牲单核性能了(4.2ghz降到3.4ghz)
最好还是找个boost能起作用,但又不会68C就降频的模式

deviljz 发表于 2019-12-8 16:08

albertfu 发表于 2019-12-8 15:45
搜了一下2990wx的全核工况,你可以试试锁1.15V 3.4GHz,这样CPU功耗应该很低,而且不会68C就降频了

不过 ...

我明天试试,感觉这样会上90度……

现在我电压设置1v没动,频率3GHz没动,开64个进程温度最高能到85度以上

albertfu 发表于 2019-12-8 16:11

deviljz 发表于 2019-12-8 16:08
我明天试试,感觉这样会上90度……

现在我电压设置1v没动,频率3GHz没动,开64个进程温度最高能到85度以 ...

是Tdie 85C而不是Tctl吗

锁1V就温度这么高真是。。。

deviljz 发表于 2019-12-8 16:30

albertfu 发表于 2019-12-8 16:11
是Tdie 85C而不是Tctl吗

锁1V就温度这么高真是。。。

AMD RYZEN MASTER里显示的温度,我不确定这个显示的是哪里的温度

albertfu 发表于 2019-12-8 16:34

deviljz 发表于 2019-12-8 16:30
AMD RYZEN MASTER里显示的温度,我不确定这个显示的是哪里的温度

ryzen master显示的应该是Tctl,实际的Tdie要85C-27C只有58C

deviljz 发表于 2019-12-8 17:03

albertfu 发表于 2019-12-8 16:34
ryzen master显示的应该是Tctl,实际的Tdie要85C-27C只有58C

顺便问下安全的温度范围大概是多少,64个进程的程序要长时间跑,可以认为每次都在10小时以上

albertfu 发表于 2019-12-8 17:16

deviljz 发表于 2019-12-8 17:03
顺便问下安全的温度范围大概是多少,64个进程的程序要长时间跑,可以认为每次都在10小时以上 ...

7*24的话一般建议不要超过Tjmax-15,也就是Tdie不要超过80C,Tctl不要超过107C

deviljz 发表于 2019-12-8 17:37

albertfu 发表于 2019-12-8 17:16
7*24的话一般建议不要超过Tjmax-15,也就是Tdie不要超过80C,Tctl不要超过107C

https://www.amd.com/zh-hans/products/cpu/amd-ryzen-threadripper-2990wx
官网写的最高温度68,这个是指适合工作的温度吧,这个是Tdie温度还是Tctl温度?

我看ryzen master如果开成自动,显示温度到68度就开始降频

madbird302 发表于 2019-12-8 17:46

albertfu 发表于 2019-12-8 17:58

deviljz 发表于 2019-12-8 17:37
https://www.amd.com/zh-hans/products/cpu/amd-ryzen-threadripper-2990wx
官网写的最高温度68,这个是 ...

ryzen master讲真建议卸载,它能改的设置BIOS都能改,而且它改设置也要重启才能生效

官网那个68C很令人迷惑,我查到68C指的是Tdie达到68C之后所有boost机制都失效

降频的话,Tdie超过85C的话我这里直接降到0.55GHz的
而68C的降频只是boost失效,降到具体多少没试过,应该不会低于base clock。而手动设定电压和频率的话就不受68C的限制了

发表于 2019-12-8 18:00

albertfu 发表于 2019-12-8 21:13

deviljz 发表于 2019-12-8 17:37
https://www.amd.com/zh-hans/products/cpu/amd-ryzen-threadripper-2990wx
官网写的最高温度68,这个是 ...

我装了个ryzen master看了下,显示的是Tdie而不是Tctl

lz还是考虑一下怎么加强散热吧,Tdie超过85C降频可狠了。。。
银箭TR4搜了下标320W,2990WX默认250W,照理说不至于这样

deviljz 发表于 2019-12-8 21:28

albertfu 发表于 2019-12-8 21:13
我装了个ryzen master看了下,显示的是Tdie而不是Tctl

lz还是考虑一下怎么加强散热吧,Tdie超过 ...

温度这事是有点怪

我把内存开到29xxMhz,温度85+
内存降到2400Mhz,温度70左右

为什么能差这么多我没想明白,感觉还要排除其他干扰多做一些测试看看

albertfu 发表于 2019-12-8 21:32

deviljz 发表于 2019-12-8 21:28
温度这事是有点怪

我把内存开到29xxMhz,温度85+


2990WX这么多核对内存带宽非常饥渴,降到2400可能是因为喂不饱,所以CPU占用不充分,虽然表面上看都是100%占用

deviljz 发表于 2019-12-8 22:08

albertfu 发表于 2019-12-8 21:32
2990WX这么多核对内存带宽非常饥渴,降到2400可能是因为喂不饱,所以CPU占用不充分,虽然表面上看都是100 ...

内存带宽压力大不大应该怎么看,我感觉我这里应该压力不大

albertfu 发表于 2019-12-8 22:28

deviljz 发表于 2019-12-8 22:08
内存带宽压力大不大应该怎么看,我感觉我这里应该压力不大

不知道什么专门的软件可以看

你可以试试hwinfo记录一下,跑同样测试,只有内存频率不同,CPU的SoC、CPU Core、CPU Package功耗差多少。温度差这么多,估计这几个功耗也有差

sblnrrk 发表于 2019-12-8 23:38

deviljz 发表于 2019-12-8 23:50

sblnrrk 发表于 2019-12-8 23:38
ryzen的内存频率绑定总线频率,本来大运算就超吃总线,你砍总线速度所有核心都变慢

—— 来自 HUAWEI CO ...

这个不是很懂,我有什么办法确认是不是带宽压力大吗?

real_zyf 发表于 2019-12-9 01:04

考虑之前matlab的那个帖提到的情况,会不会也是对zen架构负优化了

albertfu 发表于 2019-12-9 01:14

deviljz 发表于 2019-12-8 23:50
这个不是很懂,我有什么办法确认是不是带宽压力大吗?

没啥好办法,只有控制变量法:CPU频率固定,看提高内存频率会不会带来性能提高

zen/zen+的弱智设计是CPU IF总线频率和IMC频率绑定,调高内存频率时,IF总线频率也提高了(类似于牙膏平台的超mesh)
zen2才把IF总线和IMC解绑(默认还是绑定,但可以选择解绑,谢天谢地

你的全家 发表于 2019-12-9 01:52

我用i7-7700开8个进程和这台2900wx跑同样的事情,算了下时间发现i7 1个进程跑一个周期要4秒,这台2900wx 1个进程跑1个周期要12秒,这差距有点大

============

用matlab或者anaconda或者其他线性代数玩意的话要开个mkl变量

—— 来自 vivo NEX S, Android 9上的 S1Next-鹅版 v2.1.0-play

你的全家 发表于 2019-12-9 01:53

然后2990wx和zen2不一样,这玩意应当视作双路系统看待

如果有跨numa节点就会有传统艺能发生

—— 来自 vivo NEX S, Android 9上的 S1Next-鹅版 v2.1.0-play

albertfu 发表于 2019-12-9 03:07

你的全家 发表于 2019-12-9 01:53
然后2990wx和zen2不一样,这玩意应当视作双路系统看待

如果有跨numa节点就会有传统艺能发生

2950X已经是双路了,2990WX其实是四路,而且两个NUMA节点没法直接访问内存

deviljz 发表于 2019-12-9 11:04

albertfu 发表于 2019-12-9 01:14
没啥好办法,只有控制变量法:CPU频率固定,看提高内存频率会不会带来性能提高

zen/zen+的弱智设计是CPU ...

提高内存频率性能会提高,但是发热太厉害,我又给降回来了

deviljz 发表于 2019-12-9 11:04

real_zyf 发表于 2019-12-9 01:04
考虑之前matlab的那个帖提到的情况,会不会也是对zen架构负优化了

有帖子地址吗,我去仔细看看
页: [1] 2
查看完整版本: AMD Ryzen Threadripper 2990wx问题求助