高卢鸡 发表于 2019-11-2 12:42

esxi直通扩展卡测试(更新完成,11楼神展开)

本帖最后由 高卢鸡 于 2019-11-10 15:01 编辑

前情提要
[软件] 生命在于折腾(误),家用娱乐中心(误)esxi折腾记 一更
[硬件] 求推主板,要求内附

起因就是这两个帖子,第一个帖子是折腾esxi搭建homelab,但是还是有遗留问题,比如无法hba卡和多口网卡都直通,显卡无法直通的问题。所以后来又问了第二个帖子,求推主板可以满足多pcie卡直通,但是最终各种原因没有换主板。
本贴就是我尝试解决多pcie卡直通的记录。

round1,时间2019.11.01
根据第一个帖子里有网友提出的cpu里出来的pci槽可以直通,pch出来的pcie槽不能直通。
目前我手里可以使用的资源是:
大奶: 1700x    c6h   r9 380
homelab: 2200g   b350m mortar

在b350m的pcie1上插hba卡和网卡均可以直通,pcie4上插两卡均无法直通。
https://s2.ax1x.com/2019/11/02/KqeaQK.png
可以看出pci1是来自cpu,pcie4是来自pch

这是c6h的规格表
https://s2.ax1x.com/2019/11/02/Kqu5wD.png
两个pcie槽式从u出来的,剩下的是pch出来的。

上网搜到一个x370的图,这个应该是接ryzen 1代cpu的
https://www.techpowerup.com/forums/proxy.php?image=https%3A%2F%2Fimages.bit-tech.net%2Fcontent_images%2F2017%2F03%2Famd-ryzen-1800x-and-am4-platform-review%2Fcrosshair-diagram-1280x1024.jpg&hash=c4375017c7e3273064c03aaeb2dcb8c3这张图丢了,换一张
https://s2.ax1x.com/2019/11/10/MnrDu4.jpg
根据wikichip的数据,2200g有12条pcie lanes,8条给显卡,4条给nvme;1700x是20条pcie lanes,16条给显卡,4条给nvme。这里wikichip是没有计算给芯片组的4条pcie lanes。

这是c6h的主板布置图。
https://s2.ax1x.com/2019/11/02/KqVX90.png
因为是测试,所以没有制作任何虚拟系统,只在esxi里查看直通是否成功。
第一次测试,显卡在pcie2,网卡在pcie4,hba卡在pcie6。显卡、网卡直通显示active,hba卡显示需要重新引导启动(即使在重新引导之后)。可以判断hba卡直通失败。只直通pcie4的网卡和pcie6的hba卡,不直通pcie1的显卡,依然是hba卡无法直通。
第二次测试,拔下显卡,网卡在pcie2,hba卡在pcie4。主板未报错,可以正常启动进入esxi。网卡和显卡均显示active。判断直通成功。
结论,pcie2、pcie4是可以直通,pcie6无法直通。
若按照上面提到的网友的想法,cpu出来的可以直通,pch的无法直通。

在anandtech上找到一张图
https://images.anandtech.com/doci/10705/APU%20TB3%20PLX%20Option.png
判断如果使用plx可以将apu出来的8条lanes拆分,是否就可以达成两个槽同时直通呢?
下面将测试2200g搭配c6h的情况,待更新。

--------------------------------------------更新分割线---------------------------------

round2,时间2019.11.10
这次把cpu对调一下。
1700x+b350m
pcie1、pcie4都可以识别,但是依然只有pcie1可以直通。

2200g+c6h
插pcie4上的卡在esxi里不显示,完全找不到。看来apu只有一个x8出来,然后c6h无法拆分,所以pcie4失效。看网上说c7h增加了qs芯片,可以把cpu出来的pcie通道拆分,不知道可不可以像上面anandtech上画的那样。
把卡插在pcie3,也就是pch出来的x1槽,可以识别了,但是无法直通。

------------------------分割线-----------------------

昨晚太晚了就简单写了结果,其实还有很多情况。
主测试以外的东西记录如下:
round1的时候,用homelab的esxi系统盘,无法在1700x+c6h上正常启动,卡在nfs4client loaded successfully,放狗搜只找到一个说卡没插紧的,试了一下也不行,然后就用新u盘做了个新的esxi系统盘。
round2的时候,1700x+b350m用homelab的esxi盘(悲剧的开始),sb.v00 error 33,之后我用上次做的新u盘启动正常。
2200g+c6h,用老esxi盘启动还是sb.v00错误,用新esxi盘sb.v00错误,之后我在老盘启动时shift+r用备份的版本启动,错误。新esxi盘没有自动备份的版本。所以之后重新做esxi系统盘。
但是因为老的esxi盘坏掉了,在2200g+b350m的配置下也无法使用了,只好重新做这个正常环境下用的esxi盘,然后重新注册虚拟机,重新配置网络。下次再也不敢用准生产环境的系统盘瞎操作了。
刚才上网搜了一下,文件坏掉可以用安装盘里的原文件替换,下次可以试一下。主要测试只花了不到1小时,恢复原状用了3个小时。

测试结果就是esxi直通pcie卡应该是需要cpu直连的pcie插槽才可以,pch出来的是不可以的。昨天找到一个dq77kb直通sata控制器的,原来安装时也看到教程写的不要轻易直通sata控制器(如果esxi系统盘挂在这个sata控制器下就只好重来了),找到dq77kb的说明书中的架构图,sata控制器是从pch出来的,为啥就能直通成功呢?
所以多lanes还是有用的,大船真香(主板太贵)。zen系列都有一个直连cpu的m2槽,不知道有没有可以m2转pcie槽的东东呢。

11楼神展开

refo2613 发表于 2019-11-2 13:42

高卢鸡 发表于 2019-11-2 14:27

明白你的意思了。
我原来是想到黑裙里组raid,所以要直通整个卡。只是后来没有建raid,也就是可以直接裸盘映射了。

macos 发表于 2019-11-2 14:48

网卡直通好像是很有意义,其他设备直通好像意义不大,虚拟机大多跑服务,有半虚拟化后虚拟机性能已经基本等同宿主没啥必要专门独占设备了

oskneo 发表于 2019-11-4 14:22

refo2613 发表于 2019-11-2 13:42
hba卡为啥要直通?lun可以直接给vm用就可以了呀

—— 来自 vivo NEX A, Android 9上的 S1Next-鹅版 v2.1.2 ...

这样无法直接看smart表,组的raid不能直接报问题,不太安全

—— 来自 HUAWEI HDL-W09, Android 8.0.0上的 S1Next-鹅版 v2.1.0-play

refo2613 发表于 2019-11-4 14:51

高卢鸡 发表于 2019-11-10 01:07

oskneo 发表于 2019-11-4 14:22
这样无法直接看smart表,组的raid不能直接报问题,不太安全

—— 来自 HUAWEI HDL-W09, Android 8.0.0上 ...

我现在直通了hba卡,黑裙里还是无法看smart。

dafangwoo 发表于 2019-11-10 02:07

多谢
这帖子先收藏了

yuuu 发表于 2019-11-10 02:32

今天买了个7500u工控机,还在路上,先学习一下。成品工控机应该比lz这种拼搭的硬件简单些吧?

—— 来自 Hisense HLTE700T, Android 8.1.0上的 S1Next-鹅版 v2.1.2

高卢鸡 发表于 2019-11-10 10:24

yuuu 发表于 2019-11-10 02:32
今天买了个7500u工控机,还在路上,先学习一下。成品工控机应该比lz这种拼搭的硬件简单些吧?

—— 来自 H ...

我认为,工控机的问题是专门的工作目标,所以有可能定制,可能无法用通用驱动,尤其是esxi这种linux系统。另外工控机的质量也是问题,如何确定用的都是大厂/质量优良的配件。我用的都是大厂产品,甚至配了完全超过这套配置等级的电源。

高卢鸡 发表于 2019-11-10 14:33

本帖最后由 高卢鸡 于 2019-11-10 15:02 编辑

杯具了,注册的黑裙无法启动。

    模块“DevicePowerOn”打开电源失败。
    配置文件中缺少 pciPassthru0.id 条目。
    无法启动虚拟机。

然后我删除了原有的引导盘,重新添加,之后可以启动,但是web页面打不开,助手找不到,通过http://find.synology.com/#进入,显示dsm未安装。
------------------------------
网上搜了一圈,安装黑裙、推荐套件和玩法的帖子一堆,然而如何修复的很少。尝试了黑群晖修复、黑群晖导入旧数据等关键字,搜到的白裙修复or导入旧数据方法都是用一个新的迁移,不愧是资本家出的东西。
我在上面删除原引导盘的时候断开了直通的hba卡,所以当时不怕东西丢。助手找不到,find页面提示没有系统。
简单翻了nasyun也没找到,搜到下面两个帖子
黑群晖(XPEnology)无法启动&重建系统并保留数据经验总结
新司机的黑裙战斗机 篇三:群晖【番外篇】群晖系统崩溃后的数据抢救
发现都挺麻烦,而且启动群晖看不到XPEnology这个界面,用的jun大神的固件,不知道这俩啥关系,这时候我想起来前段时间导出了ovf文件,想试试能不能导入esxi,然后又是一通放狗搜。这时候一通神操作,删除注册原有黑裙,重新注册,这时候其实就是刚才没有系统,没直通hba卡的黑裙,然后直通hba卡,启动,find页面找不到,打开助手竟然找到黑裙了,神马破玩意。
搞了半天对修复重建dsm系统还是一头雾水,看来还是要有备无患的先研究一下了。


yuuu 发表于 2019-11-10 17:43

高卢鸡 发表于 2019-11-10 10:24
我认为,工控机的问题是专门的工作目标,所以有可能定制,可能无法用通用驱动,尤其是esxi这种linux系统 ...

我买的那种淘宝批量用来刷软路由的六口工控机,兼容性应该没大问题吧?再说整块主板都是Intel公模,能偷工减料的也只有外壳和电源了吧?内存和ssd走jd了。

—— 来自 Hisense HLTE700T, Android 8.1.0上的 S1Next-鹅版 v2.1.2

高卢鸡 发表于 2019-11-10 19:21

yuuu 发表于 2019-11-10 17:43
我买的那种淘宝批量用来刷软路由的六口工控机,兼容性应该没大问题吧?再说整块主板都是Intel公模,能偷 ...

那应该没问题,买之前问好卖家各种配置就可以。

yuuu 发表于 2019-11-14 13:08

高卢鸡 发表于 2019-11-10 19:21
那应该没问题,买之前问好卖家各种配置就可以。

软路由太难了,我就装最常见的esxi+ikuai+lede,折腾两天才把ikuai和lede互通,有线插lede能上网。现在准备虚拟一个win10,请问一下大佬,7500u的核显能显卡直通吗?显卡直通有什么好处和坏处吗?

—— 来自 Hisense HLTE700T, Android 8.1.0上的 S1Next-鹅版 v2.2.0

Realplayer 发表于 2019-11-14 13:12

yuuu 发表于 2019-11-14 13:08
软路由太难了,我就装最常见的esxi+ikuai+lede,折腾两天才把ikuai和lede互通,有线插lede能上网。现在准 ...

核显什么时候能直通了?

yuuu 发表于 2019-11-14 14:08

Realplayer 发表于 2019-11-14 13:12
核显什么时候能直通了?

不知道,esxi里显示支持直通

—— 来自 Hisense HLTE700T, Android 8.1.0上的 S1Next-鹅版 v2.2.0

macos 发表于 2019-11-14 14:16

Realplayer 发表于 2019-11-14 13:12
核显什么时候能直通了?

核显不能支持吗,hyperv里核显是默认remotefx设备啊

Realplayer 发表于 2019-11-14 14:20

macos 发表于 2019-11-14 14:16
核显不能支持吗,hyperv里核显是默认remotefx设备啊

海破威不清楚,Esxi要做显卡直通需要两张独立显卡(https://blog.csdn.net/zhanxix/article/details/71516316/)直通卡配置时集显需要禁用
我在接核显准备直通独显的时候看不到PCI设备里有显卡

EraserKing 发表于 2019-11-14 14:30

高卢鸡 发表于 2019-11-10 14:33
杯具了,注册的黑裙无法启动。

然后我删除了原有的引导盘,重新添加,之后可以启动,但是web页面打不开, ...
没毛病,黑群挂就迁移,我搞挂过好几回了
黑群是用一个U盘或者小的硬盘作引导,这个是永远不用动的,除非升级了系统需要升引导
系统本身是在每个盘上(是的,每一块硬盘上,除了那个引导用的)都有一个分区存放系统,硬盘上存储的数据是另外的分区,和这个系统分区是独立的,所以群晖搞挂了也不用担心数据没了,直接把系统重装下就行了,重装完了会自动认出你原来的存储空间
重装系统也很简单,用DG把每个盘上的第一个分区(很小,几G来着的我忘了)清空(引导不需要重写,完全不要动它),然后启动时在引导菜单那选第二项,好像是写了Reinstall还是Recovery啥的,然后就可以去用Synology Assistant或者网页界面重装系统了。重装时上面的提示说什么清除数据之类的都没关系,清掉的是系统和设置(反正本来也没有了)。
装完重启就进系统了,存储空间直接就挂上了,好像都不用手动做什么。

高卢鸡 发表于 2019-11-14 15:23

Realplayer 发表于 2019-11-14 13:12
核显什么时候能直通了?

当初配homelab时看网上说apu核显直通是特点,所以选的农企平台。i家无法直通。但是我一直没直通成功,后来就不折腾了。
我家有一台a8-7600,其实可以尝试一下。

—— 来自 Sony G8441, Android 9上的 S1Next-鹅版 v2.1.0-play

高卢鸡 发表于 2019-11-14 15:26

Realplayer 发表于 2019-11-14 14:20
海破威不清楚,Esxi要做显卡直通需要两张独立显卡(https://blog.csdn.net/zhanxix/article/details/71516 ...

一张卡也行,就是直通之后就无法本地端操作了,只能远程操作。所以需要本地端网络设置好然后再直通。
c6h没有视频输出口,无法测试。b350这块板子的直通测试我在前情提要第一个帖子写了辛酸历程。

—— 来自 Sony G8441, Android 9上的 S1Next-鹅版 v2.1.0-play

Realplayer 发表于 2019-11-14 15:28

高卢鸡 发表于 2019-11-14 15:23
当初配homelab时看网上说apu核显直通是特点,所以选的农企平台。i家无法直通。但是我一直没直通成功,后 ...

我装esxi一直用的牙膏U,也许apu真的行?

高卢鸡 发表于 2019-11-14 20:06

yuuu 发表于 2019-11-14 14:08
不知道,esxi里显示支持直通

—— 来自 Hisense HLTE700T, Android 8.1.0上的 S1Next-鹅版 v2.2.0 ...

我也是直通成功,但是到windows下安装了驱动,提示错误42,没有资源,详见原帖。

高卢鸡 发表于 2019-11-14 20:06

EraserKing 发表于 2019-11-14 14:30
没毛病,黑群挂就迁移,我搞挂过好几回了
黑群是用一个U盘或者小的硬盘作引导,这个是永远不用动的,除非 ...

主要是怕,毕竟好多东西,丢了太惨了。搞明白并且自己尝试一次就不会怕了。

高卢鸡 发表于 2019-11-14 20:07

Realplayer 发表于 2019-11-14 15:28
我装esxi一直用的牙膏U,也许apu真的行?

你试过在esxi里直通牙膏的核显么?先不管虚拟系统里能不能用。

EraserKing 发表于 2019-11-14 21:23

高卢鸡 发表于 2019-11-14 20:06
主要是怕,毕竟好多东西,丢了太惨了。搞明白并且自己尝试一次就不会怕了。 ...

建议你可以再建个虚拟机练练手,看看群晖是怎么重装的,其实很容易

Realplayer 发表于 2019-11-15 10:49

高卢鸡 发表于 2019-11-14 20:07
你试过在esxi里直通牙膏的核显么?先不管虚拟系统里能不能用。

添加设备里看不到的

高卢鸡 发表于 2019-11-15 11:54

Realplayer 发表于 2019-11-15 10:49
添加设备里看不到的

那就是彻底没戏了,esxi找不到这个设备,要不你进ssh用命令列一下设备。
我是可以在esxi系统里直通的,就是虚拟系统用不了。

—— 来自 Sony G8441, Android 9上的 S1Next-鹅版 v2.1.0-play
页: [1]
查看完整版本: esxi直通扩展卡测试(更新完成,11楼神展开)