本帖最后由 zhangqq_008 于 2022-9-6 00:44 编辑
一开始几乎所有人都认为是GPU过热、无铅焊锡工艺不成熟导致GPU底下虚焊,并且以此为基础研发了各种土法或者很高大上的维修、改装、预防等等措施,包括毛巾捂热机器、电吹风热风枪吹、拆X架或者压显存、改水冷、重新给GPU植球等等
水冷能在一定程度上降低温度,延缓故障发生,但都持续不了太久,最后还是会彻底坏掉
甚至在微软内部,一开始都以为是焊接的问题,尝试在产线上边生产边改良,给GPU四角打胶固定避免移动、升级GPU散热器加强散热等等
只是修好了这些那些杂项,故障率大头仍然下不来,真正的RCA很长时间内一直没有破案,导致微软其实宣布花十亿美元吃进三红故障机后很长一段时间,返修率也没有下来,很多机器二进宫三进宫
发现真正的故障原因是很后面的事情,而最终官宣承认,也就在去年的Xbox系列专题纪录片里
问题的确和热循环有关,但并不是芯片底下的焊接失效,而是在芯片封装内部故障,等于不是主机代工厂本身的问题,而是芯片代工厂那边的生产或者设计就出现了问题,微软这里因为超规格过热运行,进一步放大了故障率
GPU这类大芯片早已普及FCBGA。硅片上有金属焊盘,封装厂用专门工艺植上高温焊料,面朝下贴在封装基片上高温焊接,然后往芯片和基片的间隙填充封胶固化,之后才是在基片底部植低温锡球出厂发货,送到富士康伟创力这种总装厂把低温锡球融化焊接到主机电路板上制造成品游戏机
问题出在基片、封胶这几个地方的膨胀系数都不一样,封胶在高温下还有软化的趋势
封装生产的时候需要高温焊接,基板一般比硅片膨胀更多,然后焊接在这个几何状态固化,冷却下来后,基板大量收缩,就成了双金属片那样的弯曲,内部产生应力
360时代推广无铅焊料,温度更高,导致硅片和封装的膨胀差距更大(事实上这个问题使得同时期8系列的nv笔记本gpu也大量中招)
基片和硅片的膨胀系数不同,热胀冷缩的时候就会产生横向应力撕扯硅片上的焊盘
封胶和焊料的膨胀系数不同,热胀冷缩的时候视情况可能导致焊盘被垂直方向拉扯或挤压
基片和封胶根本不适合无铅焊接封装的生产工艺/360散热不良共同导致的极大温差循环,使得大量应力最终聚集在封装内部焊点上,同时开关机状态下极端温度的反复循环,封胶偏软的时候热胀冷缩最终对焊点以及硅片产生无法复原的破坏(焊料和焊盘脱离)
这个问题之所以一开始没有发现,一是因为真的挺难想到的,二则是早期调查的证据有挺大误导性
绝大多数机器第一次三红,报错都是E18(0102),显存读取测试失败,修好后第二次爆灯,可能出个0020(GPU RST失败)、0021(PCIE无响应)、0022(SMC握手失败),或者经典的E74(eDRAM链路故障)
毛巾捂的或者三方乱修的不提,原厂修的时候是有完整图纸和诊断工具的,报错既然报显存坏,那修机佬全球通用思路,换显存,还不好就换GPU
结果多数机器换显存之后马上就测好发回了,回去玩几个礼拜又爆灯返修
回来之后错误代码变,那么换GPU。和新机器一样能续几个月到一年,之后照样坏
二修三修还不好的机器干脆换新主板吧,还是和新机器差不多的寿命,接着坏
这时候研发部门做了几轮RCA、产线几轮revision之后也回过味来了,还有个隐藏大boss没找到
产线仍然在全力产出废品主机,开开心心买回去玩然后边骂街边返修甚至写歌嘲讽或者直播砸机的用户越来越多,产线、返修中心、RCA实验室仓库堆的物料越来越多,Xbox的市场份额甚至微软牌子都快被骂臭了,眼看蚌埠住了,这才下令彻底停产调研整改
收集了大量RCA物料,并尝试用各种高科技探伤仪器对BGA焊点研究,几乎都一无所获,直到有人灵光乍现
捂毛巾或者电吹风土法维修,其实并没有产生足够动到BGA焊点的温度,而是产生了80-120度左右的次高温
维修中心返修焊台换显存的时候,显存这里200多度,热量散发到GPU附近,也是80-120度左右
并且一修机都是爆显存,二修机都是爆GPU,会不会是GPU本身的问题?
GPU底下的BGA焊点没毛病,那么说明GPU内部就是坏的
当时对GPU基片和封装内部连接探伤的超声、x光等检测方法,还不是很先进,如果拆GPU的时候高温化开,等于又销毁了证据
于是只能土方法,磨掉上电镜看,终于看到封装内部的焊料失效
这才反应过来,之前换显存折腾散热都是白整,这GPU本身内部就不行
次高温土法可以让GPU封胶软化或者基片膨胀,释放了应力,热胀冷缩下之前被撕烂的内部焊料重新聚合于是导致机器受热后能回光返照,但继续使用一段时间后焊料彻底被干烂,此时封装基片、硅芯片本身的损坏无法避免,GPU会报更多错误,只能换掉。但换新的也是治标不治本,几个月后接着又得坏
到了这个时候,微软终于发现自己这十亿刀乐是不得不花了
https://www.zhihu.com/question/340045804/answer/2638540514 |