找回密码
 立即注册
搜索
查看: 3736|回复: 25

[软件] SD跑图时不时会蓝屏,有什么排查思路吗?

[复制链接]
     
发表于 2024-1-3 10:29 | 显示全部楼层 |阅读模式
频率:大概一个月1到数次。蓝屏错误大多报告为:

HYPERVISOR_ERROR (20001)
The hypervisor has encountered a fatal error.

偶尔也报告为其它错误,例如:

PAGE_FAULT_IN_NONPAGED_AREA (50)
Invalid system memory was referenced.  This cannot be protected by try-except.
Typically the address is just plain bad or it is pointing at freed memory.

发生条件:主要发生在SD跑图时(A1111的webui版本),GPU为4080。游戏玩得相对较少,但目前还是玩了几十个小时博得之门3,均没有出现蓝屏。


主要猜测和排查:
1. 怀疑是内存问题:运行了memtest86,默认测试跑完,未发现问题。
2. 怀疑是显卡或显存问题:一般的压力测试或者跑分并不能导致蓝屏复现,不确定是否需要更长时间运行。
3. 怀疑是hyper-v虚拟机造成的问题:我日常都会运行1到2个虚拟机,但是不跑SD没有出现过蓝屏,所以暂时认为不是hyper-v导致。

请各位有思路的提供一些排查思路,谢谢!

付一个minidump的debug内容:


  1. HYPERVISOR_ERROR (20001)
  2. The hypervisor has encountered a fatal error.
  3. Arguments:
  4. Arg1: 0000000000000011
  5. Arg2: 0000000000225576
  6. Arg3: 0000000000001004
  7. Arg4: 0000010000005980

  8. Debugging Details:
  9. ------------------

  10. *** WARNING: Check Image - Checksum mismatch - Dump: 0x1848f8, File: 0x18495c - C:\ProgramData\Dbg\sym\BTHport.sys\FCDE5FB0187000\BTHport.sys

  11. KEY_VALUES_STRING: 1

  12.     Key  : Analysis.CPU.mSec
  13.     Value: 2046

  14.     Key  : Analysis.Elapsed.mSec
  15.     Value: 3548

  16.     Key  : Analysis.IO.Other.Mb
  17.     Value: 0

  18.     Key  : Analysis.IO.Read.Mb
  19.     Value: 0

  20.     Key  : Analysis.IO.Write.Mb
  21.     Value: 0

  22.     Key  : Analysis.Init.CPU.mSec
  23.     Value: 311

  24.     Key  : Analysis.Init.Elapsed.mSec
  25.     Value: 4457

  26.     Key  : Analysis.Memory.CommitPeak.Mb
  27.     Value: 91

  28.     Key  : Bugcheck.Code.LegacyAPI
  29.     Value: 0x20001

  30.     Key  : Failure.Bucket
  31.     Value: 0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine

  32.     Key  : Failure.Hash
  33.     Value: {afbc77bd-8b76-1eba-fb34-b58e622f5ef9}

  34.     Key  : Hypervisor.Enlightenments.Value
  35.     Value: 77057948

  36.     Key  : Hypervisor.Enlightenments.ValueHex
  37.     Value: 497cf9c

  38.     Key  : Hypervisor.Flags.AnyHypervisorPresent
  39.     Value: 1

  40.     Key  : Hypervisor.Flags.ApicEnlightened
  41.     Value: 1

  42.     Key  : Hypervisor.Flags.ApicVirtualizationAvailable
  43.     Value: 0

  44.     Key  : Hypervisor.Flags.AsyncMemoryHint
  45.     Value: 0

  46.     Key  : Hypervisor.Flags.CoreSchedulerRequested
  47.     Value: 0

  48.     Key  : Hypervisor.Flags.CpuManager
  49.     Value: 1

  50.     Key  : Hypervisor.Flags.DeprecateAutoEoi
  51.     Value: 0

  52.     Key  : Hypervisor.Flags.DynamicCpuDisabled
  53.     Value: 1

  54.     Key  : Hypervisor.Flags.Epf
  55.     Value: 0

  56.     Key  : Hypervisor.Flags.ExtendedProcessorMasks
  57.     Value: 1

  58.     Key  : Hypervisor.Flags.HardwareMbecAvailable
  59.     Value: 1

  60.     Key  : Hypervisor.Flags.MaxBankNumber
  61.     Value: 0

  62.     Key  : Hypervisor.Flags.MemoryZeroingControl
  63.     Value: 0

  64.     Key  : Hypervisor.Flags.NoExtendedRangeFlush
  65.     Value: 0

  66.     Key  : Hypervisor.Flags.NoNonArchCoreSharing
  67.     Value: 1

  68.     Key  : Hypervisor.Flags.Phase0InitDone
  69.     Value: 1

  70.     Key  : Hypervisor.Flags.PowerSchedulerQos
  71.     Value: 0

  72.     Key  : Hypervisor.Flags.RootScheduler
  73.     Value: 0

  74.     Key  : Hypervisor.Flags.SynicAvailable
  75.     Value: 1

  76.     Key  : Hypervisor.Flags.UseQpcBias
  77.     Value: 0

  78.     Key  : Hypervisor.Flags.Value
  79.     Value: 4853999

  80.     Key  : Hypervisor.Flags.ValueHex
  81.     Value: 4a10ef

  82.     Key  : Hypervisor.Flags.VpAssistPage
  83.     Value: 1

  84.     Key  : Hypervisor.Flags.VsmAvailable
  85.     Value: 1

  86.     Key  : Hypervisor.RootFlags.AccessStats
  87.     Value: 1

  88.     Key  : Hypervisor.RootFlags.CrashdumpEnlightened
  89.     Value: 1

  90.     Key  : Hypervisor.RootFlags.CreateVirtualProcessor
  91.     Value: 1

  92.     Key  : Hypervisor.RootFlags.DisableHyperthreading
  93.     Value: 0

  94.     Key  : Hypervisor.RootFlags.HostTimelineSync
  95.     Value: 1

  96.     Key  : Hypervisor.RootFlags.HypervisorDebuggingEnabled
  97.     Value: 0

  98.     Key  : Hypervisor.RootFlags.IsHyperV
  99.     Value: 1

  100.     Key  : Hypervisor.RootFlags.LivedumpEnlightened
  101.     Value: 1

  102.     Key  : Hypervisor.RootFlags.MapDeviceInterrupt
  103.     Value: 1

  104.     Key  : Hypervisor.RootFlags.MceEnlightened
  105.     Value: 1

  106.     Key  : Hypervisor.RootFlags.Nested
  107.     Value: 0

  108.     Key  : Hypervisor.RootFlags.StartLogicalProcessor
  109.     Value: 1

  110.     Key  : Hypervisor.RootFlags.Value
  111.     Value: 1015

  112.     Key  : Hypervisor.RootFlags.ValueHex
  113.     Value: 3f7

  114.     Key  : WER.OS.Branch
  115.     Value: vb_release

  116.     Key  : WER.OS.Version
  117.     Value: 10.0.19041.1


  118. BUGCHECK_CODE:  20001

  119. BUGCHECK_P1: 11

  120. BUGCHECK_P2: 225576

  121. BUGCHECK_P3: 1004

  122. BUGCHECK_P4: 10000005980

  123. FILE_IN_CAB:  010224-8734-01.dmp

  124. BLACKBOXBSD: 1 (!blackboxbsd)


  125. BLACKBOXNTFS: 1 (!blackboxntfs)


  126. BLACKBOXPNP: 1 (!blackboxpnp)


  127. BLACKBOXWINLOGON: 1

  128. CUSTOMER_CRASH_COUNT:  1

  129. PROCESS_NAME:  python.exe

  130. STACK_TEXT:  
  131. ffffe481`73954c98 fffff801`204f946b     : 00000000`00020001 00000000`00000011 00000000`00225576 00000000`00001004 : nt!KeBugCheckEx
  132. ffffe481`73954ca0 fffff801`2051301a     : 00000000`00000001 00000000`00384000 ffffe481`7389e180 fffff801`205259e0 : nt!HvlSkCrashdumpCallbackRoutine+0x6b
  133. ffffe481`73954ce0 fffff801`2040a742     : 00000000`00000000 ffffe481`73954ef0 00000000`00000000 00000000`00000000 : nt!KiProcessNMI+0xea
  134. ffffe481`73954d30 fffff801`2040a512     : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxNmiInterrupt+0x82
  135. ffffe481`73954e70 00007ffb`85dd255a     : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiNmiInterrupt+0x212
  136. 000000e7`1520ef80 00000000`00000000     : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ffb`85dd255a


  137. SYMBOL_NAME:  nt!HvlSkCrashdumpCallbackRoutine+6b

  138. MODULE_NAME: nt

  139. IMAGE_NAME:  ntkrnlmp.exe

  140. IMAGE_VERSION:  10.0.19041.3803

  141. STACK_COMMAND:  .cxr; .ecxr ; kb

  142. BUCKET_ID_FUNC_OFFSET:  6b

  143. FAILURE_BUCKET_ID:  0x20001_11_225576_nt!HvlSkCrashdumpCallbackRoutine

  144. OS_VERSION:  10.0.19041.1

  145. BUILDLAB_STR:  vb_release

  146. OSPLATFORM_TYPE:  x64

  147. OSNAME:  Windows 10

  148. FAILURE_ID_HASH:  {afbc77bd-8b76-1eba-fb34-b58e622f5ef9}

  149. Followup:     MachineOwner
  150. ---------
复制代码
回复

使用道具 举报

     
发表于 2024-1-3 11:22 | 显示全部楼层
看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动?
回复

使用道具 举报

     
发表于 2024-1-3 13:57 | 显示全部楼层
超频恢复默认。短接主板复位 pin 。

cpu 核心电压 offset 模式+0.05v 。
CPU 温度设置最高 95 度。

内存电压 1.4v 电它。
回复

使用道具 举报

     
发表于 2024-1-3 14:02 | 显示全部楼层
PROCESS_NAME:  python.exe
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 14:24 | 显示全部楼层
君往何处 发表于 2024-1-3 11:22
看着像驱动问题,先跑个 sfc, 然后重装下显卡驱动?

确实可以考虑重装驱动,我找个时间DDU一下吧。
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 14:25 | 显示全部楼层
litel 发表于 2024-1-3 13:57
超频恢复默认。短接主板复位 pin 。

cpu 核心电压 offset 模式+0.05v 。

GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 14:26 | 显示全部楼层
Midnight.Coup 发表于 2024-1-3 14:02
PROCESS_NAME:  python.exe

PROCESS_NAME我也看到了,跑SD那后台可不就是python吗。另外有时候它也不是python,没有一个固定的。
回复

使用道具 举报

发表于 2024-1-3 14:28 | 显示全部楼层
看着像cpu问题,跑的时候监控下温度啥的
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 14:37 | 显示全部楼层
tsubasa9 发表于 2024-1-3 14:28
看着像cpu问题,跑的时候监控下温度啥的

我的CPU是4750G运行在4.4G(全核同步),配猫头鹰顶级风冷,据我观察基本上它的温度都很稳定,特别是下载是冬天。不过确实,根据上面老哥的建议,我觉得有必要去掉超频看看。
回复

使用道具 举报

     
发表于 2024-1-3 14:59 来自手机 | 显示全部楼层
zen2 apu带4080建议还是至少换个5800
回复

使用道具 举报

发表于 2024-1-3 15:06 | 显示全部楼层
memory integrity 关了试试。

只有一个软件出问题,可能是软件bug。
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 15:16 | 显示全部楼层
sunbeach 发表于 2024-1-3 14:59
zen2 apu带4080建议还是至少换个5800

反正现在CPU性能没啥用啊,凑合着过了,有个集显庭好。有时候我跑图GPU内存爆了,还能把显示器插主板上,又扣出来1、2G VRAM,多好。
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 15:17 | 显示全部楼层
Jet.Black 发表于 2024-1-3 15:06
memory integrity 关了试试。

只有一个软件出问题,可能是软件bug。

我会试试。实话说我一直觉得(直觉)这个问题和内存有关。
回复

使用道具 举报

发表于 2024-1-3 15:20 | 显示全部楼层
cxf5102 发表于 2024-1-3 15:17
我会试试。实话说我一直觉得(直觉)这个问题和内存有关。

sfc /scannow

先看看是不是系统文件坏了
回复

使用道具 举报

     
 楼主| 发表于 2024-1-3 15:35 | 显示全部楼层
Jet.Black 发表于 2024-1-3 15:20
sfc /scannow

先看看是不是系统文件坏了

1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几行:

  1. 2024-01-03 14:33:24, Info                  CSI    000002af [SR] Repairing file \??\C:\Users\Default\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\\OneDrive.lnk from store
  2. 2024-01-03 14:33:24, Info                  CSI    000002b0 [SR] Repair complete
  3. 2024-01-03 14:33:24, Info                  CSI    000002b1 [SR] Committing transaction
  4. 2024-01-03 14:33:24, Info                  CSI    000002b8 [SR] Verify and Repair Transaction completed. All files and registry keys listed in this transaction  have been successfully repaired
复制代码
回复

使用道具 举报

发表于 2024-1-3 16:00 | 显示全部楼层
cxf5102 发表于 2024-1-3 15:35
1楼回复以后我跑了,虽然确实提示修复了一些内容,但是我扫了一下似乎没看到像是相关的。这是日志最后几 ...

findstr /c:"[SR]" %windir%\Logs\CBS\CBS.log >"%userprofile%\Desktop\sfcdetails.txt"

看看sfcdetails.txt都报哪些文件出错了
回复

使用道具 举报

     
发表于 2024-1-3 16:03 来自手机 | 显示全部楼层
既然超频了,蓝屏了,99.9999%和超频有关,别以为跑烤鸡稳定就叫稳定了,待机,低占用下未必稳定,不要超频
回复

使用道具 举报

     
发表于 2024-1-3 16:05 来自手机 | 显示全部楼层
page fault那个是纯纯的内存问题哦
回复

使用道具 举报

     
发表于 2024-1-3 16:13 来自手机 | 显示全部楼层
xmp先关了 cpu auto
回复

使用道具 举报

     
发表于 2024-1-3 17:22 | 显示全部楼层
cxf5102 发表于 2024-1-3 14:25
GPU没超频。CPU倒是超了点,但是也不多,内存也就3000(XMP预设),我都再降降吧。 ...

显卡热起来了后, 你cpu和内存的超频就不稳定了
单测cpu或者单测内存测不出来的

xmp也是超频
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-1-4 12:31 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-1-4 12:33 来自手机 | 显示全部楼层
我把PBO关了之后好了一点。要不加点压?

—— 来自 vivo NEX S, Android 10上的 S1Next-鹅版 v2.5.2-play
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-1-4 12:48 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-1-4 23:17 | 显示全部楼层
memtest86 我没跑过,不过我超内存用的都是 TestMem5,y-cruncher 和 P95
一个软件能测出来的,另一个不一定行
回复

使用道具 举报

     
 楼主| 发表于 2024-1-4 23:20 | 显示全部楼层
感谢各位的建议,我已经把CPU超频关了。今天和昨天晚上小跑了一些图还没蓝,但考虑到蓝屏本来就不稳定出现,我多过几天再报告情况……
回复

使用道具 举报

     
发表于 2024-1-5 12:20 来自手机 | 显示全部楼层
我以前webui也有过,但是fooocus和comfyUI就没出现过

—— 来自 Xiaomi 22041216C, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-13 11:14 , Processed in 0.182531 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表