cxf5102 发表于 2024-1-3 10:29

SD跑图时不时会蓝屏,有什么排查思路吗?

频率:大概一个月1到数次。蓝屏错误大多报告为:

HYPERVISOR_ERROR (20001)
The hypervisor has encountered a fatal error.

偶尔也报告为其它错误,例如:

PAGE_FAULT_IN_NONPAGED_AREA (50)
Invalid system memory was referenced.This cannot be protected by try-except.
Typically the address is just plain bad or it is pointing at freed memory.

发生条件:主要发生在SD跑图时(A1111的webui版本),GPU为4080。游戏玩得相对较少,但目前还是玩了几十个小时博得之门3,均没有出现蓝屏。


主要猜测和排查:
1. 怀疑是内存问题:运行了memtest86,默认测试跑完,未发现问题。
2. 怀疑是显卡或显存问题:一般的压力测试或者跑分并不能导致蓝屏复现,不确定是否需要更长时间运行。
3. 怀疑是hyper-v虚拟机造成的问题:我日常都会运行1到2个虚拟机,但是不跑SD没有出现过蓝屏,所以暂时认为不是hyper-v导致。

请各位有思路的提供一些排查思路,谢谢!

付一个minidump的debug内容:


HYPERVISOR_ERROR (20001)
The hypervisor has encountered a fatal error.
Arguments:
Arg1: 0000000000000011
Arg2: 0000000000225576
Arg3: 0000000000001004
Arg4: 0000010000005980

Debugging Details:
------------------

*** WARNING: Check Image - Checksum mismatch - Dump: 0x1848f8, File: 0x18495c - C:\ProgramData\Dbg\sym\BTHport.sys\FCDE5FB0187000\BTHport.sys

KEY_VALUES_STRING: 1

    Key: Analysis.CPU.mSec
    Value: 2046

    Key: Analysis.Elapsed.mSec
    Value: 3548

    Key: Analysis.IO.Other.Mb
    Value: 0

    Key: Analysis.IO.Read.Mb
    Value: 0

    Key: Analysis.IO.Write.Mb
    Value: 0

    Key: Analysis.Init.CPU.mSec
    Value: 311

    Key: Analysis.Init.Elapsed.mSec
    Value: 4457

    Key: Analysis.Memory.CommitPeak.Mb
    Value: 91

    Key: Bugcheck.Code.LegacyAPI
    Value: 0x20001

    Key: Failure.Bucket
    Value: 0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine

    Key: Failure.Hash
    Value: {afbc77bd-8b76-1eba-fb34-b58e622f5ef9}

    Key: Hypervisor.Enlightenments.Value
    Value: 77057948

    Key: Hypervisor.Enlightenments.ValueHex
    Value: 497cf9c

    Key: Hypervisor.Flags.AnyHypervisorPresent
    Value: 1

    Key: Hypervisor.Flags.ApicEnlightened
    Value: 1

    Key: Hypervisor.Flags.ApicVirtualizationAvailable
    Value: 0

    Key: Hypervisor.Flags.AsyncMemoryHint
    Value: 0

    Key: Hypervisor.Flags.CoreSchedulerRequested
    Value: 0

    Key: Hypervisor.Flags.CpuManager
    Value: 1

    Key: Hypervisor.Flags.DeprecateAutoEoi
    Value: 0

    Key: Hypervisor.Flags.DynamicCpuDisabled
    Value: 1

    Key: Hypervisor.Flags.Epf
    Value: 0

    Key: Hypervisor.Flags.ExtendedProcessorMasks
    Value: 1

    Key: Hypervisor.Flags.HardwareMbecAvailable
    Value: 1

    Key: Hypervisor.Flags.MaxBankNumber
    Value: 0

    Key: Hypervisor.Flags.MemoryZeroingControl
    Value: 0

    Key: Hypervisor.Flags.NoExtendedRangeFlush
    Value: 0

    Key: Hypervisor.Flags.NoNonArchCoreSharing
    Value: 1

    Key: Hypervisor.Flags.Phase0InitDone
    Value: 1

    Key: Hypervisor.Flags.PowerSchedulerQos
    Value: 0

    Key: Hypervisor.Flags.RootScheduler
    Value: 0

    Key: Hypervisor.Flags.SynicAvailable
    Value: 1

    Key: Hypervisor.Flags.UseQpcBias
    Value: 0

    Key: Hypervisor.Flags.Value
    Value: 4853999

    Key: Hypervisor.Flags.ValueHex
    Value: 4a10ef

    Key: Hypervisor.Flags.VpAssistPage
    Value: 1

    Key: Hypervisor.Flags.VsmAvailable
    Value: 1

    Key: Hypervisor.RootFlags.AccessStats
    Value: 1

    Key: Hypervisor.RootFlags.CrashdumpEnlightened
    Value: 1

    Key: Hypervisor.RootFlags.CreateVirtualProcessor
    Value: 1

    Key: Hypervisor.RootFlags.DisableHyperthreading
    Value: 0

    Key: Hypervisor.RootFlags.HostTimelineSync
    Value: 1

    Key: Hypervisor.RootFlags.HypervisorDebuggingEnabled
    Value: 0

    Key: Hypervisor.RootFlags.IsHyperV
    Value: 1

    Key: Hypervisor.RootFlags.LivedumpEnlightened
    Value: 1

    Key: Hypervisor.RootFlags.MapDeviceInterrupt
    Value: 1

    Key: Hypervisor.RootFlags.MceEnlightened
    Value: 1

    Key: Hypervisor.RootFlags.Nested
    Value: 0

    Key: Hypervisor.RootFlags.StartLogicalProcessor
    Value: 1

    Key: Hypervisor.RootFlags.Value
    Value: 1015

    Key: Hypervisor.RootFlags.ValueHex
    Value: 3f7

    Key: WER.OS.Branch
    Value: vb_release

    Key: WER.OS.Version
    Value: 10.0.19041.1


BUGCHECK_CODE:20001

BUGCHECK_P1: 11

BUGCHECK_P2: 225576

BUGCHECK_P3: 1004

BUGCHECK_P4: 10000005980

FILE_IN_CAB:010224-8734-01.dmp

BLACKBOXBSD: 1 (!blackboxbsd)


BLACKBOXNTFS: 1 (!blackboxntfs)


BLACKBOXPNP: 1 (!blackboxpnp)


BLACKBOXWINLOGON: 1

CUSTOMER_CRASH_COUNT:1

PROCESS_NAME:python.exe

STACK_TEXT:
ffffe481`73954c98 fffff801`204f946b   : 00000000`00020001 00000000`00000011 00000000`00225576 00000000`00001004 : nt!KeBugCheckEx
ffffe481`73954ca0 fffff801`2051301a   : 00000000`00000001 00000000`00384000 ffffe481`7389e180 fffff801`205259e0 : nt!HvlSkCrashdumpCallbackRoutine+0x6b
ffffe481`73954ce0 fffff801`2040a742   : 00000000`00000000 ffffe481`73954ef0 00000000`00000000 00000000`00000000 : nt!KiProcessNMI+0xea
ffffe481`73954d30 fffff801`2040a512   : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxNmiInterrupt+0x82
ffffe481`73954e70 00007ffb`85dd255a   : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiNmiInterrupt+0x212
000000e7`1520ef80 00000000`00000000   : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ffb`85dd255a


SYMBOL_NAME:nt!HvlSkCrashdumpCallbackRoutine+6b

MODULE_NAME: nt

IMAGE_NAME:ntkrnlmp.exe

IMAGE_VERSION:10.0.19041.3803

STACK_COMMAND:.cxr; .ecxr ; kb

BUCKET_ID_FUNC_OFFSET:6b

FAILURE_BUCKET_ID:0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine

OS_VERSION:10.0.19041.1

BUILDLAB_STR:vb_release

OSPLATFORM_TYPE:x64

OSNAME:Windows 10

FAILURE_ID_HASH:{afbc77bd-8b76-1eba-fb34-b58e622f5ef9}

Followup:   MachineOwner
---------

君往何处 发表于 2024-1-3 11:22

看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动?

litel 发表于 2024-1-3 13:57

超频恢复默认。短接主板复位 pin 。

cpu 核心电压 offset 模式+0.05v 。
CPU 温度设置最高 95 度。

内存电压 1.4v 电它。

Midnight.Coup 发表于 2024-1-3 14:02

PROCESS_NAME:python.exe

cxf5102 发表于 2024-1-3 14:24

君往何处 发表于 2024-1-3 11:22
看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动?

确实可以考虑重装驱动,我找个时间DDU一下吧。

cxf5102 发表于 2024-1-3 14:25

litel 发表于 2024-1-3 13:57
超频恢复默认。短接主板复位 pin 。

cpu 核心电压 offset 模式+0.05v 。


GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。

cxf5102 发表于 2024-1-3 14:26

Midnight.Coup 发表于 2024-1-3 14:02
PROCESS_NAME:python.exe

PROCESS_NAME我也看到了,跑SD那后台可不就是python吗。另外有时候它也不是python,没有一个固定的。

tsubasa9 发表于 2024-1-3 14:28

看着像cpu问题,跑的时候监控下温度啥的

cxf5102 发表于 2024-1-3 14:37

tsubasa9 发表于 2024-1-3 14:28
看着像cpu问题,跑的时候监控下温度啥的

我的CPU是4750G运行在4.4G(全核同步),配猫头鹰顶级风冷,据我观察基本上它的温度都很稳定,特别是下载是冬天。不过确实,根据上面老哥的建议,我觉得有必要去掉超频看看。

sunbeach 发表于 2024-1-3 14:59

zen2 apu带4080建议还是至少换个5800

Jet.Black 发表于 2024-1-3 15:06

memory integrity 关了试试。

只有一个软件出问题,可能是软件bug。

cxf5102 发表于 2024-1-3 15:16

sunbeach 发表于 2024-1-3 14:59
zen2 apu带4080建议还是至少换个5800

反正现在CPU性能没啥用啊,凑合着过了,有个集显庭好。有时候我跑图GPU内存爆了,还能把显示器插主板上,又扣出来1、2G VRAM,多好。

cxf5102 发表于 2024-1-3 15:17

Jet.Black 发表于 2024-1-3 15:06
memory integrity 关了试试。

只有一个软件出问题,可能是软件bug。

我会试试。实话说我一直觉得(直觉)这个问题和内存有关。

Jet.Black 发表于 2024-1-3 15:20

cxf5102 发表于 2024-1-3 15:17
我会试试。实话说我一直觉得(直觉)这个问题和内存有关。

sfc /scannow

先看看是不是系统文件坏了

cxf5102 发表于 2024-1-3 15:35

Jet.Black 发表于 2024-1-3 15:20
sfc /scannow

先看看是不是系统文件坏了

1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几行:

2024-01-03 14:33:24, Info                  CSI    000002af Repairing file \??\C:\Users\Default\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\\OneDrive.lnk from store
2024-01-03 14:33:24, Info                  CSI    000002b0 Repair complete
2024-01-03 14:33:24, Info                  CSI    000002b1 Committing transaction
2024-01-03 14:33:24, Info                  CSI    000002b8 Verify and Repair Transaction completed. All files and registry keys listed in this transactionhave been successfully repaired

albertfu 发表于 2024-1-3 16:00

cxf5102 发表于 2024-1-3 15:35
1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几 ...

findstr /c:"" %windir%\Logs\CBS\CBS.log >"%userprofile%\Desktop\sfcdetails.txt"

看看sfcdetails.txt都报哪些文件出错了

sirlion 发表于 2024-1-3 16:03

既然超频了,蓝屏了,99.9999%和超频有关,别以为跑烤鸡稳定就叫稳定了,待机,低占用下未必稳定,不要超频

囧囧囧 发表于 2024-1-3 16:05

page fault那个是纯纯的内存问题哦

孤狼arcueid 发表于 2024-1-3 16:13

xmp先关了 cpu auto

litel 发表于 2024-1-3 17:22

cxf5102 发表于 2024-1-3 14:25
GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。 ...

显卡热起来了后, 你cpu和内存的超频就不稳定了
单测cpu或者单测内存测不出来的

xmp也是超频

处男鉴黄师 发表于 2024-1-4 12:31

rrpw777 发表于 2024-1-4 12:33

我把PBO关了之后好了一点。要不加点压?

—— 来自 vivo NEX S, Android 10上的 S1Next-鹅版 v2.5.2-play

johnie 发表于 2024-1-4 12:48

wewai 发表于 2024-1-4 23:17

memtest86 我没跑过,不过我超内存用的都是 TestMem5,y-cruncher 和 P95
一个软件能测出来的,另一个不一定行

cxf5102 发表于 2024-1-4 23:20

感谢各位的建议,我已经把CPU超频关了。今天和昨天晚上小跑了一些图还没蓝,但考虑到蓝屏本来就不稳定出现,我多过几天再报告情况……

唯登诗树 发表于 2024-1-5 12:20

我以前webui也有过,但是fooocus和comfyUI就没出现过

—— 来自 Xiaomi 22041216C, Android 12上的 S1Next-鹅版 v2.5.4
页: [1]
查看完整版本: SD跑图时不时会蓝屏,有什么排查思路吗?