oskneo 发表于 2023-2-16 09:54

all in one的esxi长死掉造成数据破损怎么破

先说一下硬件,epyc 7282加h12ssl,96g的reg,一块2t nvme做主储存,1t的做缓存。
装上了esxi7u3。
然后这esxi有个严重问题,我在里面有两个主要的虚拟机,一个是直通显卡的娱乐用虚拟机win10jap,由于只有这个能连显示器,工作时也是拿这个连另一个工作用虚拟机。另一个重要虚拟机就是做nas的win server 2022,连直通了raid卡和下面的8x8t,另一块做缓存的1t也直通了给它。装了primocache做缓存。
这系统有严重问题,直通显卡的虚拟机如果有啥问题,包括关机,都很大机会使得整个esxi重启。另一个问题就是这win10如果万一显示没了或是关机,就会丧失对显卡的控制,即使虚拟机重新开机也无法再次显示,必须esxi重启,不知道这是esxi本来就是如此还是怎样的。

最近拿这win 10玩些轻量游戏,其中某些游戏只要全屏造成屏幕全黑再刷新,就有机率造成画面显示死掉,必须完全重启,极端情况下回自动引发esxi重启。


大致背景就是如此,那么如果做nas的虚拟机开了primocache,不止拿ssd做缓存,还拿10g内存做缓存,此时正在下载。
另一边却在win10不断开游戏关游戏,就会出现我现在的情况。整个refs 3.7的30多t的分区全部死掉,而refsutil直到今天还不支持3.7.
其实之前就出现过丢失数据,那时具体丢失多少数据不知道,最起码最大的那个2t的用来做iscsi的vhdx是救回来了。那时候是因为停电,现在买了ups本来以为没问题的。
看来用内存做缓存想代替raid卡级的缓存还是太危险了,虽然性能是好很多。本来是打算多数据移动时才开L1缓存,但很多时候忘了关。
现在用rstudio死扫也扫不到不知道怎么办。
所以想问问
1.究竟如何解决直通显卡的虚拟机使得esxi崩掉的问题,是因为硬件不兼容还是软件的问题?我现在用的是1650.
2.怎样救refs 3.7,怎样把2t级别的vhdx捞出来。


satan023 发表于 2023-2-16 10:55

看日志 去google搜

Realplayer 发表于 2023-2-16 11:01

好奇,7.0u1甚至6.7不够你用的么?

oskneo 发表于 2023-2-16 11:13

Realplayer 发表于 2023-2-16 11:01
好奇,7.0u1甚至6.7不够你用的么?

那时甚至想用6.5,能嵌套虚拟化和直通硬件同时用,新的不行。不过那时候用稳定性的确差。还以为新的稳定性好

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

litel 发表于 2023-2-16 11:19

primocache卸了试试啊...

litel 发表于 2023-2-16 11:20

说说你还装了什么驱动级,系统级的东西...

oskneo 发表于 2023-2-16 11:25

satan023 发表于 2023-2-16 10:55
看日志 去google搜

是monitor下面的log吗,貌似没看到死机时的记录。不是开机后的就是那天的两天前的。

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-16 11:26

本帖最后由 oskneo 于 2023-2-16 11:28 编辑

litel 发表于 2023-2-16 11:20
说说你还装了什么驱动级,系统级的东西...

esxi上装的驱动就一个网卡驱动,cx4421的,应该是mlx5,开了rdma,sriov

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

phorcys02 发表于 2023-2-16 11:32

挺正常的,和我2015年用esxi一个效果

自那以后,我就不考虑这种all in one拉

oskneo 发表于 2023-2-17 09:23

phorcys02 发表于 2023-2-16 11:32
挺正常的,和我2015年用esxi一个效果

自那以后,我就不考虑这种all in one拉

看来这是esxi的问题,换显卡也解决不了吗。
不过这是全屏才会发生的事,看来以后开游戏不能再用默认的全屏,而用win7时代用的那个用aero全屏,那个不会重启显卡。不然就要换那个支持igpu的esxi显卡,好像全是专业卡,不过不知道那些igpu是否支持樱编码,串流出来的时候画质会是什么水平。那种应该是不用显卡直通,稳定性会上升不少?

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

macos 发表于 2023-2-17 09:51

1t缓存比例是否有点过分,本来nvme之间就没差别,又不是配机械

cybernetics31 发表于 2023-2-17 09:52

不是正儿八经服务器的硬件虚拟化还是用pve吧

newshadow 发表于 2023-2-17 09:54

esxi真的很多很多无法解析问题,我以前一直都说是自己的硬件不在兼容表的问题,后来公司给甲方也上了esxi后,我就释然了。

也是用了esxi了解了vmware之后,我在认真佩服微软是伟大的公司。

oskneo 发表于 2023-2-17 10:35

cybernetics31 发表于 2023-2-17 09:52
不是正儿八经服务器的硬件虚拟化还是用pve吧

epyc加超微主板还不算吗?
在这主板主页看不到支持6.5,才装比较新的esxi,按足推荐来装的

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-17 10:37

macos 发表于 2023-2-17 09:51
1t缓存比例是否有点过分,本来nvme之间就没差别,又不是配机械

是配hdd,给8x8t做缓存的

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

cybernetics31 发表于 2023-2-17 10:54

………………正儿八经的服务器指的是hpe dell等一众服务器,你看看你的硬盘 显卡是消费级的还是怎样?只要是硬件杂七杂八的就pve走起吧

qieyifonger 发表于 2023-2-17 11:03

primocache以前在笔记本上装过,很容易蓝屏

—— 来自 Xiaomi Redmi K20 Pro Premium Edition, Android 11上的 S1Next-鹅版 v2.5.4

satan023 发表于 2023-2-17 11:29

估计就是兼容性导致的 自组就容易出这种摸不着找头脑的奇葩问题
我的esxi装在dell r630服务器里面 esix6.7u3 100%兼容 没出过任何问题

oskneo 发表于 2023-2-17 12:12

cybernetics31 发表于 2023-2-17 10:54
………………正儿八经的服务器指的是hpe dell等一众服务器,你看看你的硬盘 显卡是消费级的还是怎样?只要 ...

不过那时选择esxi是因为网卡驱动装不上pve,
研究了一下需要先在debian上装再装pve框架,而且我原先的虚拟机是vmware,方便移动过去。

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-17 12:14

qieyifonger 发表于 2023-2-17 11:03
primocache以前在笔记本上装过,很容易蓝屏

—— 来自 Xiaomi Redmi K20 Pro Premium Edition, Android 11 ...

我这个primocache装在win server上,以这一年多来看,没试过win server自己死,不过经常忘了关内存缓存导致处于高风险状态。

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

mickoo 发表于 2023-2-17 12:37

不能用esxi,说过很多次,要用就用PVE

宵十一狼 发表于 2023-2-17 13:46

感觉都是非正常用途,这么容易出问题还是日常做好数据备份吧

ltycomputer 发表于 2023-2-17 16:28

ESXi all in one 三年经验了,感觉问题出在显卡上

我手上的amd x570芯片组平台,搭RTX3090,ESXi最高能上到6.7u3,更新的版本直通显卡会遇到电源管理bug。

6.7u3时直通显卡可以正常重启虚拟机,更高版本的ESXi只有宿主机开机第一次上电才能直通不报错,重启虚机以后显卡歇菜。

首先消费级显卡不在VMWare硬件兼容性列表里,其次虚拟机重启成功取决于hypervisor对PCIe设备的电源管理策略,ESXi很有可能在6.7u3以后改了这个策略。

正常PCIe设备上电以后会先重置再进入正常工作状态,我自己实验结果是7.0以后的ESXi重置方法改了,9300-8I这样的HBA卡能重启而显卡不能。所以我就一直待在6.7u3没升级

oskneo 发表于 2023-2-18 12:46

ltycomputer 发表于 2023-2-17 16:28
ESXi all in one 三年经验了,感觉问题出在显卡上

我手上的amd x570芯片组平台,搭RTX3090,ESXi最高能上 ...

感谢分享经验,原来7.0以上有pcie电源问题啊,之前没看到。不过这主板写的兼容性只写到从7开始,不知道装之前的版本如何。
还想问问对6.5了解吗?既然要装以前的,6.5的嵌套虚拟加直通还是很想要的,毕竟这样会连个安卓模拟器都开不了,想要除直通虚拟机外有3d能力也难。
不过以前用家用硬件试过的经验就是很不稳定,很容易死机,不知道是否因为这样才阉割掉这功能。


—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

ltycomputer 发表于 2023-2-18 13:46

本帖最后由 ltycomputer 于 2023-2-18 13:47 编辑

oskneo 发表于 2023-2-18 12:46
感谢分享经验,原来7.0以上有pcie电源问题啊,之前没看到。不过这主板写的兼容性只写到从7开始,不知道装 ...

玩虚拟化很久,我自己的感觉就是能esxi解决的话最好,esxi解决不了的直通交给pve和unraid。esxi跑起来和主板IPMI一样稳,是折腾虚拟机的有利后盾。pve和unraid都是基于linux内核+kvm虚拟化,用的人比较多,很容易找到教程。

有心折腾敲命令就去esxi 6.x版本碰碰运气,没空折腾花钱买unraid,不想花钱轻微折腾抄pve的作业。

ESXi老版本有些硬件就是直通不了,比如amd芯片组的usb控制器,而unraid/pve都能搜到成功的案例,或许后两个算是“紧跟时事”的选择。

露露缇耶 发表于 2023-2-18 18:23

我之前用esxi也是差不多的问题,也是1650,结果换了pve啥问题都没有,甚至可以把独显核显分别直通给两个虚拟机接显示器

oskneo 发表于 2023-2-18 19:12

露露缇耶 发表于 2023-2-18 18:23
我之前用esxi也是差不多的问题,也是1650,结果换了pve啥问题都没有,甚至可以把独显核显分别直通给两个虚 ...

之前pve在nuc和zen2 4000上研究了很久直通核显都没成功,不是有跟网上教程完全一样的硬件都不敢再试了,而且还有要sriov的要求

—— 来自 Sony XQ-AT52, Android 10上的 S1Next-鹅版 v2.5.2-play

lhw369 发表于 2023-2-18 23:52

oskneo 发表于 2023-2-18 19:12
之前pve在nuc和zen2 4000上研究了很久直通核显都没成功,不是有跟网上教程完全一样的硬件都不敢再试了, ...

你啥东西要sriov?网卡?还是你有专业vgpu卡?

—— 来自 HONOR HPB-AN00, Android 12上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-19 00:47

本帖最后由 oskneo 于 2023-2-19 00:49 编辑

lhw369 发表于 2023-2-18 23:52
你啥东西要sriov?网卡?还是你有专业vgpu卡?

—— 来自 HONOR HPB-AN00, Android 12上的 S1Next-鹅版...

网卡啊,虚拟机之间开rdma厅舒服的,用的cx4421。
之前曾经在win server做主os时也试过行,不过无法根vgpu同时

—— 来自 Sony XQ-AT52, Android 10上的 S1Next-鹅版 v2.5.2-play

露露缇耶 发表于 2023-2-19 01:07

oskneo 发表于 2023-2-19 00:47
网卡啊,虚拟机之间开rdma厅舒服的,用的cx4421。
之前曾经在win server做主os时也试过行,不过无法根vgp ...

网卡sriov那还是pve好折腾,看我这个帖子,https://bbs.saraba1st.com/2b/thread-2113604-0-1.html,这个问题esxi就解决不了

oskneo 发表于 2023-2-19 01:12

露露缇耶 发表于 2023-2-19 01:07
网卡sriov那还是pve好折腾,看我这个帖子,https://bbs.saraba1st.com/2b/thread-2113604-0-1.html,这个 ...

那可能每个品牌不一样吧,之前cx311的时候在pve试过,vf乱七八糟的。
cx4421的mlx5驱动直接装不了,看人说是要装原版debian上,再装pve框架才行

—— 来自 Sony XQ-AT52, Android 10上的 S1Next-鹅版 v2.5.2-play

露露缇耶 发表于 2023-2-19 01:53

oskneo 发表于 2023-2-19 01:12
那可能每个品牌不一样吧,之前cx311的时候在pve试过,vf乱七八糟的。
cx4421的mlx5驱动直接装不了,看人 ...

esxi配置sriov的界面确实挺直观的,pve开出来一大堆都不知道哪些对应哪个网口

lhw369 发表于 2023-2-20 17:37

oskneo 发表于 2023-2-19 00:47
网卡啊,虚拟机之间开rdma厅舒服的,用的cx4421。
之前曾经在win server做主os时也试过行,不过无法根vgp ...

esxi8下我的x550 sriov后vf网卡不能被Linux bridge。你不bridge就能用,桥了就提示啥啥VLAN啥啥。

—— 来自 HONOR HPB-AN00, Android 12上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-20 19:34

暂时不bridge,路由功能没塞里面。
唉,用r studio扫了十多天,始终没那些vhdx的踪影,还以为会被作为分区扫出来。

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4

露露缇耶 发表于 2023-2-21 10:02

lhw369 发表于 2023-2-20 17:37
esxi8下我的x550 sriov后vf网卡不能被Linux bridge。你不bridge就能用,桥了就提示啥啥VLAN啥啥。

——...

vf不支持桥接,只能桥接pf,然后把vf的mac添加进bridge

lhw369 发表于 2023-2-21 11:56

露露缇耶 发表于 2023-2-21 10:02
vf不支持桥接,只能桥接pf,然后把vf的mac添加进bridge

擦,无视了

—— 来自 HONOR HPB-AN00, Android 12上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-2-21 13:21

lhw369 发表于 2023-2-20 17:37
esxi8下我的x550 sriov后vf网卡不能被Linux bridge。你不bridge就能用,桥了就提示啥啥VLAN啥啥。

——...

原来esxi8 出了啊,那想问一下有直通pcie电源问题吗,就是重启虚拟机显卡无法亮的问题。总体稳定性如何

—— 来自 Sony XQ-AT52, Android 10上的 S1Next-鹅版 v2.5.2-play

lhw369 发表于 2023-2-22 03:43

oskneo 发表于 2023-2-21 13:21
原来esxi8 出了啊,那想问一下有直通pcie电源问题吗,就是重启虚拟机显卡无法亮的问题。总体稳定性如何

...

换pve了。没有直通核显的需求。

—— 来自 HONOR HPB-AN00, Android 12上的 S1Next-鹅版 v2.5.4

oskneo 发表于 2023-3-19 00:44

ltycomputer 发表于 2023-2-17 16:28
ESXi all in one 三年经验了,感觉问题出在显卡上

我手上的amd x570芯片组平台,搭RTX3090,ESXi最高能上 ...

修复数据试了6.7,还是不行,最后升级回7.0。
后来将直通的usb控制器减为一个,再在passthru.map将这usb控制器做直通才终于成功。原来造成死机的不是显卡,是usb。
不过修复的数据还是无法修复那3t的东西,看来以后还是要将下载和平时用的数据分区处理,以免万一。
还有iscsi也分开来。
话说b站看到有人评价说esxi8将嵌套虚拟和直通同时干复活了,这个有实证吗,貌似别处找不到

—— 来自 Sony XQ-AT52, Android 10上的 S1Next-鹅版 v2.5.2-play

oskneo 发表于 2023-3-19 10:57

另外想问一下,那些操作系统本来在scsi控制器的虚拟机,怎样无痛转去nvme控制器?

—— 来自 HUAWEI LYA-AL00, Android 10上的 S1Next-鹅版 v2.5.4
页: [1]
查看完整版本: all in one的esxi长死掉造成数据破损怎么破