随机性死机故障分析与排除

Author: 左巍 Date: 2000年 第31期

  随机性故障是计算机使用过程中经常遇到的一种常见故障,由于出现死机的故障不确定,所做操作性质不固定,而且死机发生时,显示的现象也不统一,所以故障发生的范围不易确定,给维修工作带来了一定的难度。
  根据大量的维修实例分析总结,随机性死机故障产生的原因主要是以下三个方面:
#1    一、环境因素
  环境因素对于机器的正常运行有着很大的影响。计算机对环境的要求主要包括:温度、湿度、电网干扰、电磁冲击、外界振动冲击、静电、接地系统、供电系统等方面内容。其中尤以温度、湿度、静电、接地系统、供电系统对机器的正常运行影响最大。由于机器工作环境,如灰尘、潮湿引起芯片间线路短路或插拔件接触不良,都有可能引起系统死机。根据实际维修统计,环境因素造成的随机性故障占故障总数的10%左右。
#1    二、软件原因
  软件系统引起的随机性死机包括两种情况。一是病毒破坏,虽然有时可以通过冷、热启动再次启动机器,但运行不久又会死机。二是应用软件与操作系统不完全兼容,它们之间有冲突或者与硬件固有特性发生冲突,这种死机大多没有键盘响应,只能通过冷启动再次启动机器。
  对于软件原因造成的随机性故障的检查方法是,可以使用干净的引导盘重新引导机器后,再运行杀毒软件清除病毒。对于应用软件与操作系统有冲突,建议采用修改程序配置与改变机器硬件配置相结合的方法解决。根据实际维修统计,软件原因造成的随机性故障占故障总数的20%左右。
#1    三、硬件原因
  硬件系统引起死机,主要是由于机器内部元件质量、兼容性或匹配不当引起的。通常包括:
  1.可插拔芯片接触性故障。主板上有一些可插拔芯片接触不良,这类故障极易发生在CPU芯片、内存芯片以及各种扩展槽上,另外,AGP扩展槽普遍存在插不紧的问题。
  2.芯片工作时序不匹配。在一个电路中如果几个芯片共同完成一个功能,而几个芯片之间的执行速度不匹配,当一个信号在芯片内部通过逻辑变换,传输所需的延时时间比较长,就容易产生时序故障。或时序电路的控制时间关系要求比较严格,偶尔发生时序信号漂移,这种情况最常见于组装的兼容机。此外,由于采用了不同厂家的板卡或芯片也存在不完全兼容的现象,时钟频率过高,也是造成死机的原因。
  3.热稳定性差。所谓的热稳定性差是指机器在开始时运行正常,运行一段时间后,随着芯片温度的上升,开始出现死机。关机后,冷却休息一段时间后开机又可以正常工作,之后又出现死机。其主要原因还是在于元器件本身质量不过关。
  4.芯片驱动能力差。因为每个芯片的扇出值是固定的,在电路设计中要求芯片的输出信号驱动的芯片数必须小于允许的扇出值。如果芯片的扇出值不满足其额定指标,当系统或某个电路连接较多设备时,就会造成芯片工作死机。这种故障经常出现在主板上的I/O接口、内存的地址或数据驱动芯片。
  5.抗干扰能力差。芯片的电源线和地线在印刷电路板上的布线宽度过小,线与线之间距离过近或芯片之间的电平匹配不好,使传输信号有“振荡”或“反射”造成信号干扰,使芯片具有抗干扰能力而引起系统死机。根据实际维修统计,硬件原因造成的随机性故障占故障总数的70%左右,是造成随机性故障的主要原因,也是本文重点介绍的部分。
#1    四、随机性故障分析与维修方法
  该类故障的检查原则是,首先根据故障现象,推断出故障的性质,然后根据这种推断,利用万用表、逻辑笔、示波器等工具,检查硬件线路上的相应信号是否有随机的干扰或时序漂移等现象,如果有则找到相应的硬件进行维修和更换。
  首先检查是否有接触性故障。在关机状态下取下各种扩展卡,用手指卡住板卡边缘轻轻弯折、敲打,然后在开机通电状态下,用手指按压板卡边缘、主板上的CPU插座、内存条以及各种插头或插座,如果在某个情况下机器可以启动,则说明发生了接触性不良故障。
  如果经反复试验证明不是接触性故障,就要检查是否控制电路的时序故障。重点检查:
  1.系统控制电路芯片。主要是地址总线和数据总线芯片,ALE的地址锁存信号,以及主板上的南、北桥芯片等其它门阵芯片。
  2.系统内存控制电路、驱动电路。主要是RAM的行选通信号RAS、列选通信号CAS、行列地址转换控制信号和内存数据读出驱动、内存芯片速度匹配关系。
  3.系统各种时钟信号电路,主要是SYSCLK、PROCCLK、PCLK、DMACLK。
  通过使用100MHz以上的高频示波器检查上述信号,希望发现某个信号在某一瞬间出现不正常状态,如时序漂移或毛刺等干扰信号,发现后找到相应的芯片进行更换。
  三是热稳定性差是随时性故障的另一种主要的表现形式,随着夏季的到来或超频使用CPU等,这类故障变得越来越频繁。检查时可以使用电吹风距离打开的机箱20厘米~30厘米处进行加热,当机箱内温度上升到60℃~70℃左右时,故障可能开始频繁出现。当机器置于18℃~25℃的空调房间内,如果故障发生率大大降低,则确定是热稳定性差故障。再使用示波器主板上的数据总线、地址总线、控制芯片的进行输出波形的检查,如果发现有明显的干扰信号,则找到对应的芯片进行更换。
  四是信号之间的相互干扰和芯片驱动能力差问题也是造成随机性故障的常见原因之一。在维修中发现,此类故障多产生在74FXX芯片与74LSXX、ALSXX芯片之间。