服务器 频道

负载均衡实战之五:集群运行维护攻略

  三、故障处理

  在对lvs运行环境进行有效的监控后,一旦有故障或异常发生,系统管理人员将会得到及时的通知。并且这些报警信息往往包含故障的基本情况,如负载过高、主机down了、服务严重不可用(critical)、磁盘空间快满了等等,这些信息非常有利于系统管理员定位故障点。如果没有一个有效的监控系统,故障的报告往往来自用户的报告。这些报告笼统而模糊,可能包含"你们的网站不能访问了"之类的字眼,要定位故障点,可能会花费更多的时间。

  在知晓和定位故障以后,结下来就是分析和处理故障。Lvs负载均衡的故障点可分为:负载均衡器故障、真实服务器故障、vip故障、服务故障这几个部分。这些故障出现后,怎么着手处理?下面分别论述之。

  ● 负载均衡器发生故障的检查点

  1、 查看系统日志 /var/log/messages ,了解内核是否有报错信息。因为keepalived的日志也被追加到系统日子,因此通过系统日志,也能了解keepalived的运行情况。

  2、 检查负载均衡器的网络连通状况。这包括ip地址的设置是否正确,是否能远程访问(如ping 、tracert等)。

  3、 检查keepalived的运行情况。这包括进程是否处于运行中,ipvs模块是否被加载到系统的内核,vip是否被绑定到网络接口,ipvsadm是否有输出。

  4、 检查负载均衡器的系统负载。

  5、 检查keepalived的配置文件书写是否正确。因为keepalived启动过程不对配置文件做语法检查,因此在运行前,必须按需求表逐项检查配置文件keepalived.conf 的内容。有时,就可能就是因为漏写了一个"}"符号而导致意外的结果。配置文件的内容检查还包括主从优先级priority、虚拟路由标识virtual_router_id、路由标识router_id等几个部分,这些值有些是必须相同的、有些则必须不同。

  6、 检查负载均衡器是否启用防火墙规则。

  ● 真实服务器发生故障的检查点

  1、 查看系统日志 /var/log/messages ,了解内核是否有报错信息。

  2、 检查服务器的网络连通状况。

  3、 检查服务是否正常运行。可以结合察看进程、模拟用户访问来确定。

  4、 检查服务器的负载情况,看哪些进程占用较高的资源。如果暂停占资源高的进程,情况会怎么样?

  5、 检查vip是否被绑定。Linux只能通过ip add 指令察看,freebsd 用ifconfig就可以了。

  6、 检查主机防火墙是否被启用。如果需要启用主机防火墙,则应设置好过滤规则。

  7、 从客户端直接访问服务器的服务,看是否能正常访问。这是dr模式的一个优点。

  ● vip发生故障的检查点

  1、 检查负载均衡器的vip是否被绑定。

  2、 检查负载均衡器ipvsadm的输出,察看输出的vip项是否与我们的设定相一致。

  3、 检查各真实服务器的vip是否被绑定。

  4、 从客户端测试一下vip的连通情况,如ping vip。

  5、 检查vip地址是否与其它服务器的地址相冲突。

  ● 服务发生故障检查点

  1、 检查服务是否正常运行。如查进程、模拟用户访问等。

  2、 检查系统的负载情况。

  3、 检查是否启用主机防火墙。

  一旦知道问题的所在,解决问题本身就不再是什么困难的事情了,因此这里不再一一列举对应的解决方法。

 

0
相关文章