询问法

2018-10-1611:06:04 发表评论 632 浏览

定义:

“询问法”就是对问题反馈相关人员通过询问或者自问自答的方式以达到准确了解有效信息,层层深入对问题以数据进行验证,直接定位或为分析故障提供关键信息,最终排出故障的方法。

【适用场合】

故障现象不够清晰,故障点不够明确,需要给故障分析明确数据的环境;适用于所有的故障处理的前期阶段,

1.   为了更快更准确的了解故障,确定故障的性质,询问是首要的任务;

2.   主要注意询问的信息作为重要参考必须要有证据印证;

3.   询问要提出一些正确的问题;

4.   对于问题现象准确的描述,是问题处理的关键,大部分的故障解决后,都可以用一句话说明因果关系,因此对问题的准确表述可以加快处理效率。

【举例说明】

案例层层深入

故障描述:客户在网管监控平台上增加了一项监控交换机接口错误包的统计信息,最近经常会出现网管监控平台提示告警超时。

思路:故障---〉 报错  --〉 报什么错--〉读取一个端口的一个oid失败--〉怎么判定他失败了?--〉针对失败的点是否属正常?如果正常如何处理,如果异常如何处理?

分析过程:

故障的第一情况是SNMP软件报错告警---》

1.问:报错告警的内容是什么,报什么错?-----答:新增的一列接口错包统计的OID,读取这些接口的OID失败。

2.问:读取接口OID失败的判断标准是什么?------答:当linux下的SNMPbulkget软件获取OID节点,默认重试次数为6次,每次的超时时间为1s,即6S收不到响应即超时。

3.问:超时的原因是SNMP服务器未发出,还是被监控设备未响应?-----答:通过抓包确认,是由于被监控设备未应答导致。

4.问:能否排除SNMP服务器的检测方法标准以及设备自身的问题?-----答:通过采用一台PC进行SNMP监控和服务器对比测试,同时调整超时时间为5s,减少服务器压力,初步确认问题解决;再服务器端同时调整超时时间为5s,问题解决。

5.问:在原有方案中SNMP服务器对其他型号被监控设备是否也会有报错现象?------答:现场多款型号的被监控设备,环境大体相似的情况下,只有该款型号的设备发生问题。

6.问:是否该款型号的被监控设备在处理性能或者处理方式上有异常的情况?--------答:对产品层面进行深入分析,发现为在大流量协议报文处理情况下,CPU硬件队列带宽过小导致的,软件调整该队列带宽可以解决。调整CPU硬件队列需要开发软件版本。

7.问:是否只有软件开发才能解决该问题?-------答:问题的原因在于大流量的协议报文在处理时SNMP报文优先级在同一默认队列,该队列比较小的情况下,随机丢弃SNMP报文,这样也可以通过实施QOS将snmp报文放入优先队列中处理,可以缓解SNMP丢包。

8.问:最终解决方案是什么?-------答:SNMP网管协议报文对处理优先级以及实时性要求不是很严格,只需要能够在周期内监控准确即可,现场通过修改加长snmp服务器的监控超时时间可以解决,至于软件CPU队列加大可以考虑在后续版本上解决,目前可不考虑升级。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: