SD跑图时不时会蓝屏,有什么排查思路吗?
频率:大概一个月1到数次。蓝屏错误大多报告为:HYPERVISOR_ERROR (20001)
The hypervisor has encountered a fatal error.
偶尔也报告为其它错误,例如:
PAGE_FAULT_IN_NONPAGED_AREA (50)
Invalid system memory was referenced.This cannot be protected by try-except.
Typically the address is just plain bad or it is pointing at freed memory.
发生条件:主要发生在SD跑图时(A1111的webui版本),GPU为4080。游戏玩得相对较少,但目前还是玩了几十个小时博得之门3,均没有出现蓝屏。
主要猜测和排查:
1. 怀疑是内存问题:运行了memtest86,默认测试跑完,未发现问题。
2. 怀疑是显卡或显存问题:一般的压力测试或者跑分并不能导致蓝屏复现,不确定是否需要更长时间运行。
3. 怀疑是hyper-v虚拟机造成的问题:我日常都会运行1到2个虚拟机,但是不跑SD没有出现过蓝屏,所以暂时认为不是hyper-v导致。
请各位有思路的提供一些排查思路,谢谢!
付一个minidump的debug内容:
HYPERVISOR_ERROR (20001)
The hypervisor has encountered a fatal error.
Arguments:
Arg1: 0000000000000011
Arg2: 0000000000225576
Arg3: 0000000000001004
Arg4: 0000010000005980
Debugging Details:
------------------
*** WARNING: Check Image - Checksum mismatch - Dump: 0x1848f8, File: 0x18495c - C:\ProgramData\Dbg\sym\BTHport.sys\FCDE5FB0187000\BTHport.sys
KEY_VALUES_STRING: 1
Key: Analysis.CPU.mSec
Value: 2046
Key: Analysis.Elapsed.mSec
Value: 3548
Key: Analysis.IO.Other.Mb
Value: 0
Key: Analysis.IO.Read.Mb
Value: 0
Key: Analysis.IO.Write.Mb
Value: 0
Key: Analysis.Init.CPU.mSec
Value: 311
Key: Analysis.Init.Elapsed.mSec
Value: 4457
Key: Analysis.Memory.CommitPeak.Mb
Value: 91
Key: Bugcheck.Code.LegacyAPI
Value: 0x20001
Key: Failure.Bucket
Value: 0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine
Key: Failure.Hash
Value: {afbc77bd-8b76-1eba-fb34-b58e622f5ef9}
Key: Hypervisor.Enlightenments.Value
Value: 77057948
Key: Hypervisor.Enlightenments.ValueHex
Value: 497cf9c
Key: Hypervisor.Flags.AnyHypervisorPresent
Value: 1
Key: Hypervisor.Flags.ApicEnlightened
Value: 1
Key: Hypervisor.Flags.ApicVirtualizationAvailable
Value: 0
Key: Hypervisor.Flags.AsyncMemoryHint
Value: 0
Key: Hypervisor.Flags.CoreSchedulerRequested
Value: 0
Key: Hypervisor.Flags.CpuManager
Value: 1
Key: Hypervisor.Flags.DeprecateAutoEoi
Value: 0
Key: Hypervisor.Flags.DynamicCpuDisabled
Value: 1
Key: Hypervisor.Flags.Epf
Value: 0
Key: Hypervisor.Flags.ExtendedProcessorMasks
Value: 1
Key: Hypervisor.Flags.HardwareMbecAvailable
Value: 1
Key: Hypervisor.Flags.MaxBankNumber
Value: 0
Key: Hypervisor.Flags.MemoryZeroingControl
Value: 0
Key: Hypervisor.Flags.NoExtendedRangeFlush
Value: 0
Key: Hypervisor.Flags.NoNonArchCoreSharing
Value: 1
Key: Hypervisor.Flags.Phase0InitDone
Value: 1
Key: Hypervisor.Flags.PowerSchedulerQos
Value: 0
Key: Hypervisor.Flags.RootScheduler
Value: 0
Key: Hypervisor.Flags.SynicAvailable
Value: 1
Key: Hypervisor.Flags.UseQpcBias
Value: 0
Key: Hypervisor.Flags.Value
Value: 4853999
Key: Hypervisor.Flags.ValueHex
Value: 4a10ef
Key: Hypervisor.Flags.VpAssistPage
Value: 1
Key: Hypervisor.Flags.VsmAvailable
Value: 1
Key: Hypervisor.RootFlags.AccessStats
Value: 1
Key: Hypervisor.RootFlags.CrashdumpEnlightened
Value: 1
Key: Hypervisor.RootFlags.CreateVirtualProcessor
Value: 1
Key: Hypervisor.RootFlags.DisableHyperthreading
Value: 0
Key: Hypervisor.RootFlags.HostTimelineSync
Value: 1
Key: Hypervisor.RootFlags.HypervisorDebuggingEnabled
Value: 0
Key: Hypervisor.RootFlags.IsHyperV
Value: 1
Key: Hypervisor.RootFlags.LivedumpEnlightened
Value: 1
Key: Hypervisor.RootFlags.MapDeviceInterrupt
Value: 1
Key: Hypervisor.RootFlags.MceEnlightened
Value: 1
Key: Hypervisor.RootFlags.Nested
Value: 0
Key: Hypervisor.RootFlags.StartLogicalProcessor
Value: 1
Key: Hypervisor.RootFlags.Value
Value: 1015
Key: Hypervisor.RootFlags.ValueHex
Value: 3f7
Key: WER.OS.Branch
Value: vb_release
Key: WER.OS.Version
Value: 10.0.19041.1
BUGCHECK_CODE:20001
BUGCHECK_P1: 11
BUGCHECK_P2: 225576
BUGCHECK_P3: 1004
BUGCHECK_P4: 10000005980
FILE_IN_CAB:010224-8734-01.dmp
BLACKBOXBSD: 1 (!blackboxbsd)
BLACKBOXNTFS: 1 (!blackboxntfs)
BLACKBOXPNP: 1 (!blackboxpnp)
BLACKBOXWINLOGON: 1
CUSTOMER_CRASH_COUNT:1
PROCESS_NAME:python.exe
STACK_TEXT:
ffffe481`73954c98 fffff801`204f946b : 00000000`00020001 00000000`00000011 00000000`00225576 00000000`00001004 : nt!KeBugCheckEx
ffffe481`73954ca0 fffff801`2051301a : 00000000`00000001 00000000`00384000 ffffe481`7389e180 fffff801`205259e0 : nt!HvlSkCrashdumpCallbackRoutine+0x6b
ffffe481`73954ce0 fffff801`2040a742 : 00000000`00000000 ffffe481`73954ef0 00000000`00000000 00000000`00000000 : nt!KiProcessNMI+0xea
ffffe481`73954d30 fffff801`2040a512 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxNmiInterrupt+0x82
ffffe481`73954e70 00007ffb`85dd255a : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiNmiInterrupt+0x212
000000e7`1520ef80 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ffb`85dd255a
SYMBOL_NAME:nt!HvlSkCrashdumpCallbackRoutine+6b
MODULE_NAME: nt
IMAGE_NAME:ntkrnlmp.exe
IMAGE_VERSION:10.0.19041.3803
STACK_COMMAND:.cxr; .ecxr ; kb
BUCKET_ID_FUNC_OFFSET:6b
FAILURE_BUCKET_ID:0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine
OS_VERSION:10.0.19041.1
BUILDLAB_STR:vb_release
OSPLATFORM_TYPE:x64
OSNAME:Windows 10
FAILURE_ID_HASH:{afbc77bd-8b76-1eba-fb34-b58e622f5ef9}
Followup: MachineOwner
--------- 看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动? 超频恢复默认。短接主板复位 pin 。
cpu 核心电压 offset 模式+0.05v 。
CPU 温度设置最高 95 度。
内存电压 1.4v 电它。
PROCESS_NAME:python.exe 君往何处 发表于 2024-1-3 11:22
看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动?
确实可以考虑重装驱动,我找个时间DDU一下吧。 litel 发表于 2024-1-3 13:57
超频恢复默认。短接主板复位 pin 。
cpu 核心电压 offset 模式+0.05v 。
GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。 Midnight.Coup 发表于 2024-1-3 14:02
PROCESS_NAME:python.exe
PROCESS_NAME我也看到了,跑SD那后台可不就是python吗。另外有时候它也不是python,没有一个固定的。 看着像cpu问题,跑的时候监控下温度啥的 tsubasa9 发表于 2024-1-3 14:28
看着像cpu问题,跑的时候监控下温度啥的
我的CPU是4750G运行在4.4G(全核同步),配猫头鹰顶级风冷,据我观察基本上它的温度都很稳定,特别是下载是冬天。不过确实,根据上面老哥的建议,我觉得有必要去掉超频看看。 zen2 apu带4080建议还是至少换个5800 memory integrity 关了试试。
只有一个软件出问题,可能是软件bug。 sunbeach 发表于 2024-1-3 14:59
zen2 apu带4080建议还是至少换个5800
反正现在CPU性能没啥用啊,凑合着过了,有个集显庭好。有时候我跑图GPU内存爆了,还能把显示器插主板上,又扣出来1、2G VRAM,多好。 Jet.Black 发表于 2024-1-3 15:06
memory integrity 关了试试。
只有一个软件出问题,可能是软件bug。
我会试试。实话说我一直觉得(直觉)这个问题和内存有关。 cxf5102 发表于 2024-1-3 15:17
我会试试。实话说我一直觉得(直觉)这个问题和内存有关。
sfc /scannow
先看看是不是系统文件坏了 Jet.Black 发表于 2024-1-3 15:20
sfc /scannow
先看看是不是系统文件坏了
1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几行:
2024-01-03 14:33:24, Info CSI 000002af Repairing file \??\C:\Users\Default\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\\OneDrive.lnk from store
2024-01-03 14:33:24, Info CSI 000002b0 Repair complete
2024-01-03 14:33:24, Info CSI 000002b1 Committing transaction
2024-01-03 14:33:24, Info CSI 000002b8 Verify and Repair Transaction completed. All files and registry keys listed in this transactionhave been successfully repaired cxf5102 发表于 2024-1-3 15:35
1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几 ...
findstr /c:"" %windir%\Logs\CBS\CBS.log >"%userprofile%\Desktop\sfcdetails.txt"
看看sfcdetails.txt都报哪些文件出错了
既然超频了,蓝屏了,99.9999%和超频有关,别以为跑烤鸡稳定就叫稳定了,待机,低占用下未必稳定,不要超频 page fault那个是纯纯的内存问题哦 xmp先关了 cpu auto cxf5102 发表于 2024-1-3 14:25
GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。 ...
显卡热起来了后, 你cpu和内存的超频就不稳定了
单测cpu或者单测内存测不出来的
xmp也是超频 我把PBO关了之后好了一点。要不加点压?
—— 来自 vivo NEX S, Android 10上的 S1Next-鹅版 v2.5.2-play memtest86 我没跑过,不过我超内存用的都是 TestMem5,y-cruncher 和 P95
一个软件能测出来的,另一个不一定行 感谢各位的建议,我已经把CPU超频关了。今天和昨天晚上小跑了一些图还没蓝,但考虑到蓝屏本来就不稳定出现,我多过几天再报告情况…… 我以前webui也有过,但是fooocus和comfyUI就没出现过
—— 来自 Xiaomi 22041216C, Android 12上的 S1Next-鹅版 v2.5.4
页:
[1]