单位局域网,3台服务器群集管理,安装有趋势科技的防毒服务器版,每日自动更新病毒库和扫描引擎。1台锐捷S4909三层交换机,下接14台SMC二层交换机,其中网络中心的交换机通过ADSL+宽带路由器的方式和外网相连。局域网中有180多个工作站,使用固定IP地址,工作站安装有还原卡,在每次启动时自动还原到系统初始设定值,并从服务器上下载更新工作软件,以确保操作系统的安全、软件运行环境的正确及使用最新版本的软件。
网速好慢
有十多个用户报告工作站启动时无法从服务器上更新工作软件,流量高峰期所有用户均报告响应速度慢,极易提示没有响应。该现象持续了一周左右,一直没找到原因。
IP分配有问题
首先可以排除工作站网卡的问题,因为十多台工作站的网卡同时出现故障的可能性几乎不存在。其次,工作站软件问题因为系统还原的原因也可以排除。
关闭宽带路由器以断开外网的连接,故障依旧。检查服务器防毒软件的日志,没有发现异常报告。检查其中一台出错工作站( 192.168.1.103,下称103#工作站),在该工作站上ping群集IP地址(192.168.1.1)时,提示超时,而此时从中心工作站(192.168.1.19,下称19#工作站)也无法ping到103#工作站,好像问题在网络上。
奇怪的是,在103#工作站上ping服务器实际IP地址(192.168.1.2)时,都很正常,而且此后进行的网络动作都有正常的响应,只是速度还是偏慢,停止响应的频率较其他工作站高,但是只要同时在DOS窗口下保持连续ping服务器的IP地址,则该工作站可正常运行!
同时在网络中心工作站上使用多种单机版杀毒软件对103#工作站进行远程查杀病毒,均无功而返!
为避免在工作站和网络中心间来回奔走,遂将103#工作站带回网络中心进行分析研究。无意中发现一个奇怪的现象:19#工作站正在ping 103#工作站,而且每一个发出的数据包都有正常的响应。大为不解,103#工作站明明已经下网了,怎么可能有响应呢?再说根据网络规则即使有相同IP地址的工作站,也应该会在登录网络时提示,同时禁用后来的工作站,可是现在却没有提示。
将103#工作站接入网络,ping服务器IP地址(192.168.1.2),仔细观察返回的数据包,发现每7~10个中就有1个的time超过150ms,综合上述现象,初步可以断定这个异常数据包来自一个未知信息点。
断开103号工作站,在19号工作站上用Telnet访问该未知信息点,居然有登录界面出现,要求输入Username和Password,胡乱试了几次都没有成功,尝试着转到IE上用192.168.1.103进行访问,出现了友好的访问界面。仔细观察发现,竟然是楼层交换机的管理界面。看来该IP地址是分配给这台交换机了。
关闭IP自动获取
逐一登录交换机,停用其IP地址,关闭其IP地址自动获取功能,很快网络就恢复正常了。
关闭DHCP功能
原来网络中的楼层交换机是没有分配IP地址的,服务器也关闭了DHCP功能,工作站使用固定IP,楼层交换机的IP地址来源应该另有一个DHCP服务器。再三询问中心工作人员近期是否进行了网络软件或硬件的调整,终于他们回忆起大概在一周前因为宽带路由器死机,用Reset键复位后,只重新进行了少量的配置,似乎没有关闭DHCP功能。从那以后就陆续出现这种现象。
将宽带路由器接到单机上重新配置,果然其DHCP功能是开启的,于是赶紧关闭。
至此,故障的根源很清楚了,当宽带路由器的DHCP开启后,将IP池中的IP地址向网络中的机器发送,而二层交换机正处于自动获取IP地址的状态,两者一拍即合,二层交换机立即租用了IP地址。同时,服务器对出错工作站的响应却被具有相同IP地址的交换机截取,而交换机在识别到不是自己需要的数据包后做了抛弃处理,如此循环往复,工作站就接收不到应有的数据了。
这次故障很大程度上是人为失误造成的,但是如果事先给每一台交换机配置一个固定的IP地址,不仅可以避免这次故障,而且可以更方便地对这些交换机进行远程管理。