思考:有哪些原因导致出现网络故障?
网络故障是指由于某种原因而是网络丧失规定功能并影响业务的现象;从用户的角度出发,凡是影响业务的现象都可以定义为故障。
常见的故障现象和分类如下:
在进行故障排除时,我们应按照结构化的方式来排除网络故障,而不是凭直觉在某些步骤之间重复执行,应为那样解决故障没有办法保证其效率。
结构化的网络故障排除流程如下图所示:
首先要了解故障报告者的职位级别、工作内容等信息,因为在企业环境中不同级别用户可能会有不同的网络访问权限。其次询问故障发生的频率。最后看用户在故障出现之前和之后是否自己对终端做了一些操作,eg:是否更改了IP地址和DNS,是否安装了桌面防火墙软件、安全控制软件等。
确认故障的四个要素:故障的主体(那个网络业务出现了故障)、故障的表现(故障的现象是怎样的)、故障的时间(用户是什么时间发现的故障)、故障的位置(哪个网络组件出现了故障)。
思考:为什么要确认故障?
使用设备自身的操作命令或使用信息收集工具(抓包工具、网管软件等)来收集与故障相关的信息,如文档、网络变更情况等。
注意:在信息安全要求较高的网络环境中,对信息的收集是需要得到授权的。另外,有些收集信息的操作,如对路由器或交换机执行”debug”命令,会导致设备的CPU占用率过高,严重的情况下甚至会 使设备停止响应用户的操作指令,从而引入额外的故障现象。所以在收集信息的时候应评估这些风险,平衡引入新故 障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息 收集工作。
通过对故障信息、维护信息、变更信息的汇总,结合团队或自身经验进行综合的判断和分析,得到可能导致网络故障的原因列表。
首先先列出所有可能的故障原因,然后通过信息过滤,列出最可能的待排查故障原因,同时排除当前最不可能的故障原因,从而缩小故障的排除范围。
在故障评估阶段可能需要搭建临时的网络环境。对复杂的网络故障,如果经过评估认为短时间内无法排除故障,而用户又需要马上恢复网络的可用性,这时可能需要临时跳过故障节点,搭建替代的网络环境。搭建临时网络环境的时候,应充分考虑到解决问题的迫切性与绕过某些安全限制措施的危险性,应与用户进行充分的沟通,并在得到许可的情况下才能执行。
在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作。
有些情况下,通过逐一排查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备。
如果通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。
复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障。
收尾工作包括相关文档的整理、信息的通告等。需要对之前网络故障排除流程中所有进行了变更的配置或软 件进行备份,并做好故障排除文档的整理和移交工作。为了避免同样的故障再次发生,在此阶段应该向用户 提出改进建议。
通常情况下,网络中业务流量的路径是在网络规划阶段就已经设计好的,只需要知道受到网络故障影响的业 务的流量往返路径,跟踪此路径,逐步排除即可。网络层(在数据包转发过程中可能存在多条路径,因此需要根据报文转发过程,确认业务流量的传输路径)→数据链路层(确认业务流量对应的数据帧在二层网络环境中是如何被交换机转发的)
以OSI七层模型为参考,自底向上进行故障排查。
物理层:接口的物理状态是否up,线缆及接头是否正常等
数据链路层:链路层封装是否正确,接口协议是否up,二层寻址是否正常等。
网络层:有没有路由,路由协议工作是否正常等
传输层:TCP连接是否正确建立,TCP、UDP端口是否打开等
对比配置法是指对比正常状态与故障状态下的配置、软件版本、硬件型号等内容,检查两者之间的差异。 经验较少的网络故障排除人员在实践中会更多的使用到这种方法。
当出现一个故障案例现象时,我们可以把它归入以下某一类或某几类中,从而有助于缩减故障定位范围:
(1)管理部分(路由器名称、口令、服务、日志等)
(2)端口部分(地址、封装、cost、认证等)
(3)路由协议部分(静态路由、OSPF、BGP、路由引入等)
(4)策略部分(路由策略、策略路由、安全配置等)
(5)接入部分(Console登录、Telnet登录、拨号等)
(6)其他应用部分(DNS、DHCP、VPN配置等)
示例:当使用display ip routing-table命令,结果只显示出了直连路由,可能是什么原因呢?
该故障可能由以下三部分导致:路由协议、策略、端口。如果没有配置路由协议或配置不当,路由表就 可能为空;如果访问列表配置错误,就可能妨碍路由的更新;如果端口的地址、掩码或认证配置错误,也可能导致路由表 错误。
数据包转发过程中可能经过多台路由器和物理链路,每段物理连接都有可能发生故障,因此分段处理的方法是有效的。
替换法是检查硬件问题最常用的方法之一。当怀疑是网线问题时,更换一根确定是好的网线试一试;当怀疑是接口模块有问题时,更换一个其它接口模块试一试。
作为网络维护和管理人员我们应具备哪些技能?
(1)对协议要求要有精深的理解
(2)能够引导客户详细描述出故障现象和相关信息
(3)充分了解自己所管理和维护的网络
(4)及时进行故障处理的文档记录和经验总结
(5)熟悉网络故障排除的方法,将多种方法结合使用
设备无法远程登录;
CPU占用率超过70%;
使用串口登陆设备进行操作时,操作比较慢;
通过ping命令进行网络测试时丢包严重;
设备上发生环路的VLAN的接口指示灯频繁闪烁;
PC机上能收到大量的广播报文;
设备部署环路检测后,设备出现环路告警;
在设备上使用display interface命令查看接口统计信息时发现接口收到大量广播报文。
路由不可达,客户端与服务器无法建立TCP连接;
服务器端未开启telnet功能;
登录设备的用户达到了上限;
VTY用户界面下绑定了ACL;
VTY用户界面下允许接入的协议不正确,如:配置了protocol inbound ssh时,使用telnet将无法登录;
router id 冲突;
区域id不匹配;
网络掩码不匹配;
MTU不一致;
MA网络中,所有设备的DR优先级设置为0;
认证密码不匹配;
接口被设置为silent-interface;
时间参数不匹配;
区域ID不一致(只会影响level-1);
运行级别不一致;(注意:在华为中如果系统级别和接口电路级别不同,以系统级别为准)
接口认证不一致;
system-id长度不一致或者system-id冲突;
IP地址不在同一个网段;
远端设备的loopback0接口不可达;
本设备或远端设备AS号配置错误;
非直连EBGP邻居关系未设置多跳;
Router ID冲突;
第一种情况:客户端与服务器在同一个网段
客户端与服务器之间的链路有故障;
设备未使能DHCP功能;
设备VLANIF接口下没有选择DHCP分配地址的方式;
地址池中没有可用的IP地址可分配;
第二种情况:客户端与服务器不在同一个网段内,即两者之间存在中继设备时
DHCP中继与DHCP服务器之间的链路有故障;
设备未全局使能DHCP功能,导致DHCP功能没有生效;
DHCP中继没有配置所代理的DHCP服务器;
DHCP中继和DHCP服务器不可达;
版权说明:如非注明,本站文章均为 扬州驻场服务-网络设备调试-监控维修-南京泽同信息科技有限公司 原创,转载请注明出处和附带本文链接。
请在这里放置你的在线分享代码