服务器 频道

负载均衡实战之二:故障隔离攻略

  【IT168 服务器频道】前篇文章中(点击),介绍了IP Virtual Server的基本概念和安装部署,本文阐述故障隔离、失败切换框架keepalived。 Keepalived是运行在lvs之上,它的主要功能是实现真实机的故障隔离及负载均衡器间的失败切换FailOver.lvs结合keepalived,就实现了3层、4层、5/7层交换的功能,下面摘录来自官方网站www.keepalived.org的一段描述:

  The main goal of the keepalived project is to add a strong & robust keepalive facility to the Linux Virtual Server project. This project is written in C with multilayer TCP/IP stack checks. Keepalived implements a framework based on three family checks : Layer3, Layer4 & Layer5/7. This framework gives the daemon the ability of checking a LVS server pool states. When one of the server of the LVS server pool is down, keepalived informs the linux kernel via a setsockopt call to remove this server entrie from the LVS topology. In addition keepalived implements an independent VRRPv2 stack to handle director failover. So in short keepalived is a userspace daemon for LVS cluster nodes healthchecks and LVS directors failover.

  从这段描述中,我们可以得到几个有用的信息:

  1、 keepalived是lvs的扩展项目,因此它们之间具备良好的兼容性。这点应该是keepalived部署比其他类似工具能更简洁的原因吧!

  2、 通过对服务器池对象的健康检查,实现对失效机器/服务的故障隔离。

  3、 负载均衡器之间的失败切换failover,是通过VRRPv2(Virtual Router Redundancy Protocol) stack实现的。

  一、 keepalived 体系结构

  Keepalived 大致分两层结构:用户空间 user space和内核空间 kernel space.图1是来自官方站点(http://www.keepalived.org/software_design.html)关于其结构的展示。
 


图1keepalived 内部结构图

  在这个结构图里,处于下端的是内核空间,它包括ipvs和NETLINK两个部分。Ipvs的作用在前面的章节已经做过描述,不再重复叙述;netlink提供高级路由及其他相关的网络功能,如果我们在负载均衡器上启用netfilter/iptable,将会直接影响它的性能。出于图形上方的组件为用户空间,由它来实现具体的功能,下面选取几个重要的来做说明:

  1、 WatchDog 负责监控checkers和VRRP进程的状况。

  2、 Checkers 负责真实服务器的健康检查healthchecking,是keepalived最主要的功能。换句话说-可以没有VRRP Stack,但健康检查healthchecking是一定要有的。

  3、 VRRP Stack负责负载均衡器之间的失败切换FailOver.如果只用一个负载均衡器,则VRRP不是必须的。

  4、 IPVS wrapper 用来发送设定的规则到内核ipvs代码。

  5、 Netlink Reflector 用来设定 vrrp 的vip地址等。

  Keepalived各种功能的实现是通过设置其配置文件 keepalived.conf来完成的,关于配置文件各项的用途,将在后面进行描述。

 

  二、安装keepalived

  安装keepalived非常的简单和容易,这跟安装其他GNU源码软件步骤是以模一样的。下面给出其安装过程。

  1、 下载最新稳定版 wget http://www.keepalived.org/software/keepalived-1.1.17.tar.gz

  2、 解包  tar zxvf keepalived-1.1.17.tar.gz

  3、 切换目录 cd keepalived-1.1.17

  4、 配置 ./configure -prefix=/usr/local/keepalive 因为keepalived 运行在ipvs之上,因此这两个软件一定要安装在一个系统里面。如果configure操作能正常进行,运行完毕后将有如下的汇总输出:

  Keepalived configuration

  ------------------------

  Keepalived version       : 1.1.17

  Compiler                 : gcc

  Compiler flags           : -g -O2

  Extra Lib                : -lpopt -lssl -lcrypto

  Use IPVS Framework       : Yes

  IPVS sync daemon support : Yes

  Use VRRP Framework       : Yes

  Use LinkWatch            : No

  Use Debug flags          : No

  5、 编译和安装 make ; make install

 

  三、keepalived 安装验证

  Keepalived安装完成后,会在安装目录/usr/local/keepalived生成 bin,etc,man,sbin这4个目录。其中etc为配置文件所在的目录,进入这个目录,看看里面都有些什么?

  [root@ChinaTelecom-1 etc]# pwd

  /usr/local/keepalived/etc

  [root@ChinaTelecom-1 etc]# ll

  total 12

  drwxr-xr-x 3 root root 4096 Apr 23 10:23 keepalived

  drwxr-xr-x 3 root root 4096 Apr 23 10:23 rc.d

  drwxr-xr-x 2 root root 4096 Apr 23 10:23 sysconfig

  还有子目录,这里着重关注一下keepalived目录,它的下面包含一个完整的配置文件keepalived.conf(实际上是一个样例)以及一些单独的配置样例文件。

  [root@ChinaTelecom-1 keepalived]# tree -l

  .

  |-- keepalived.conf

  `-- samples

  |-- client.pem

  |-- dh1024.pem

  |-- keepalived.conf.HTTP_GET.port

  |-- keepalived.conf.SMTP_CHECK

  |-- keepalived.conf.SSL_GET

  |-- keepalived.conf.fwmark

  |-- keepalived.conf.inhibit

  |-- keepalived.conf.misc_check

  |-- keepalived.conf.misc_check_arg

  |-- keepalived.conf.sample

  |-- keepalived.conf.status_code

  |-- keepalived.conf.track_interface

  |-- keepalived.conf.virtual_server_group

  |-- keepalived.conf.virtualhost

  |-- keepalived.conf.vrrp

  |-- keepalived.conf.vrrp.localcheck

  |-- keepalived.conf.vrrp.lvs_syncd

  |-- keepalived.conf.vrrp.routes

  |-- keepalived.conf.vrrp.scripts

  |-- keepalived.conf.vrrp.static_ipaddress

  |-- keepalived.conf.vrrp.sync

  |-- root.pem

  `-- sample.misccheck.smbcheck.sh

  值得注意的是,keepalived的启动过程并不会对配置文件进行语法检查,就算没有配置文件,keepalived的守护进程照样能够被运行起来。在默认状态下--即不指定配置文件的位置-keepalived先查找文件 /etc/keepalived/keepalived.conf ,如果为了省事,可以手动创建这个文件,然后在这个文件里书写规则,来达到控制keepalived运行的目的。

  这里我们先来试试默认情况,即没有配置文件下运行keepalived.运行前先了解一下其语法:

  [root@lvs-m keepalived]# keepalived --help

  Keepalived v1.1.17 (06/23,2009)

  Usage:

  keepalived

  keepalived -n

  keepalived -f keepalived.conf

  keepalived -d

  keepalived -h

  keepalived -v

  Commands:

  Either long or short options are allowed.

  keepalived --vrrp               -P    Only run with VRRP subsystem.

  keepalived --check              -C    Only run with Health-checker subsystem.

  keepalived --dont-release-vrrp  -V    Dont remove VRRP VIPs & VROUTEs on daemon stop.

  keepalived --dont-release-ipvs  -I    Dont remove IPVS topology on daemon stop.

  keepalived --dont-fork          -n    Dont fork the daemon process.

  keepalived --use-file           -f    Use the specified configuration file.

  Default is /etc/keepalived/keepalived.conf.

  keepalived --dump-conf          -d    Dump the configuration data.

  keepalived --log-console        -l    Log message to local console.

  keepalived --log-detail         -D    Detailed log messages.

  keepalived --log-facility       -S    0-7 Set syslog facility to LOG_LOCAL[0-7]. (default=LOG_DAEMON)

  keepalived --help               -h    Display this short inlined help screen.

  keepalived --version            -v    Display the version number

  keepalived --pid                -p    pidfile

  keepalived --checkers_pid       -c    checkers pidfile

  keepalived --vrrp_pid           -r    vrrp pidfile

  接下来我们参照这个帮助语法,执行命令 /usr/local/keepalived/sbin/keepalive -D ,然后来检查keepalived运行后的状况。

  1、 查看进程 ps aux | grep keepalived ,其输出为:

  [root@lvs-m ~]# ps aux| grep keepalived |grep -v grep

  root     21786  0.0  0.0   4840   564 ?        Ss   15:39   0:00 keepalived -D

  root     21787  4.8  0.0   4884  1336 ?        S    15:39  23:47 keepalived -D

  root     21788  4.9  0.0   4884   904 ?        S    15:39  24:15 keepalived -D

  Keepalived正常运行时,共启动3个进程,其中一个进程是父进程,负责监控其子进程;一个是vrrp子进程;另外一个是checkers子进程。图2 为keepalived 3个进程之间的关系。
 

  图2keepalived进程相关性

  2、 查看内核模块,ip_vs 模块应该被加载到内核空间。 Lsmod | grep ip_vs .

  3、 查看系统日志。因为我在启动keepalived是使用了选项 -D ,这将详细的打印日志消息。

  [root@lvs-m ~]# tail -f /var/log/messages

  Jun 27 00:58:05 lvs-m Keepalived: Starting VRRP child process, pid=22017

  Jun 27 00:58:05 lvs-m Keepalived_healthcheckers: Netlink reflector reports IP 61.135.20.137 added

  Jun 27 00:58:05 lvs-m Keepalived_healthcheckers: Registering Kernel netlink reflector

  Jun 27 00:58:05 lvs-m Keepalived_vrrp: Netlink reflector reports IP 61.135.20.137 added

  Jun 27 00:58:05 lvs-m Keepalived_healthcheckers: Registering Kernel netlink command channel

  Jun 27 00:58:05 lvs-m Keepalived_vrrp: Registering Kernel netlink reflector

  Jun 27 00:58:05 lvs-m Keepalived_vrrp: Registering Kernel netlink command channel

  Jun 27 00:58:05 lvs-m Keepalived_vrrp: Registering gratutious ARP shared channel

  Jun 27 00:58:05 lvs-m Keepalived_healthcheckers: Configuration is using : 2285 Bytes

  Jun 27 00:58:05 lvs-m Keepalived_vrrp: Configuration is using : 28803 Bytes

  逐项检查这个输出,可知图1所示的组件都可以在这里找到对应的纪录。从而进一步证实keepalived安装的正确性。

 

  四、配置文件keepalived.conf

  一个功能比较完整的keepalived的配置文件,其配置文件keepalived.conf可以包含三个文本块:全局定义块、VRRP实例定义块及虚拟服务器定义块。全局定义块和虚拟服务器定义块是必须的,如果在只有一个负载均衡器的场合,就不须VRRP实例定义块。

  接下来,我们以一个配置文件模版为例,有选择的说明其中一些重要项的功能或作用。

  #全局定义块

  global_defs {

  notification_email {

  email

  email

  }

  notification_email_from email

  smtp_server host

  smtp_connect_timeout num

  lvs_id string

  }

  #VRRP实例定义块

  vrrp_sync_group string {

  group {

  string

  string

  }

  vrrp_instance string {

  state MASTER|BACKUP

  interface string

  mcast_src_ip @IP

  lvs_sync_daemon_interface string

  virtual_router_id num

  priority num

  advert_int num

  smtp_alert

  authentication {

  auth_type PASS|AH

  auth_pass string

  }

  virtual_ipaddress { # Block limited to 20 IP addresses

  @IP

  @IP

  @IP

  }

  virtual_ipaddress_excluded { # Unlimited IP addresses number

  @IP

  @IP

  @IP

  }

  #虚拟服务器定义块

  virtual_server (@IP PORT)|(fwmark num) {

  delay_loop num

  lb_algo rr|wrr|lc|wlc|sh|dh|lblc

  lb_kind NAT|DR|TUN

  (nat_mask @IP)

  persistence_timeout num

  persistence_granularity @IP

  virtualhost string

  protocol TCP|UDP

  sorry_server @IP PORT

  real_server @IP PORT {

  weight num

  TCP_CHECK {

  connect_port num

  connect_timeout num

  }

  }

  real_server @IP PORT {

  weight num

  MISC_CHECK {

  misc_path /path_to_script/script.sh

  (or misc_path "/path_to_script/script.sh <arg_list>")

  }

  }

  real_server @IP PORT {

  weight num

  HTTP_GET|SSL_GET {

  url { # You can add multiple url block

  path alphanum

  digest alphanum

  }

  connect_port num

  connect_timeout num

  nb_get_retry num

  delay_before_retry num

  }

  }

  }

  ● 全局定义块

  1、 email通知。作用:有故障,发邮件报警。这是可选项目,建议不用,用nagios全面监控代替之。

  2、 Lvs负载均衡器标识(lvs_id)。在一个网络内,它应该是唯一的。

  3、 花括号"{}"。用来分隔定义块,因此必须成对出现。如果写漏了,keepalived运行时,不会得到预期的结果。由于定义块内存在嵌套关系,因此很容易遗漏结尾处的花括号,这点要特别注意。

  ● VRRP定义块

  1、 同步vrrp组vrrp_sync_group。作用:确定失败切换(FailOver)包含的路由实例个数。即在有2个负载均衡器的场景,一旦某个负载均衡器失效,需要自动切换到另外一个负载均衡器的实例是哪些?

  2、 实例组group.至少包含一个vrrp实例。

  3、 Vrrp实例vrrp_instance.实例名出自实例组group所包含的那些名字。

  (1) 实例状态state.只有MASTER和BACKUP两种状态,并且需要大写这些单词。其中MASTER为工作状态,BACKUP为备用状态。当MASTER所在的服务器失效时,BACKUP所在的系统会自动把它的状态有BACKUP变换成MASTER;当失效的MASTER所在的系统恢复时,BACKUP从MASTER恢复到BACKUP状态。

  (2) 通信接口interface。对外提供服务的网络接口,如eth0,eth1.当前主流的服务器都有2个或2个以上的接口,在选择服务接口时,一定要核实清楚。

  (3) lvs_sync_daemon_inteface。负载均衡器之间的监控接口,类似于HA HeartBeat的心跳线。但它的机制优于Heartbeat,因为它没有"裂脑"这个问题,它是以优先级这个机制来规避这个麻烦的。在DR模式中,lvs_sync_daemon_inteface 与服务接口interface 使用同一个网络接口。

  (4) 虚拟路由标识virtual_router_id.这个标识是一个数字,并且同一个vrrp实例使用唯一的标识。即同一个vrrp_stance,MASTER和BACKUP的virtual_router_id是一致的,同时在整个vrrp内是唯一的。

  (5) 优先级priority.这是一个数字,数值愈大,优先级越高。在同一个vrrp_instance里,MASTER 的优先级高于BACKUP。若MASTER的priority值为150,那么BACKUP的priority只能是140或更小的数值。

  (6) 同步通知间隔 advert_int .MASTER与BACKUP负载均衡器之间同步检查的时间间隔,单位为秒。

  (7) 验证authentication。包含验证类型和验证密码。类型主要有PASS、AH两种,通常使用的类型为PASS,据说AH使用时有问题。验证密码为明文,同一vrrp实例MASTER与BACKUP 使用相同的密码才能正常通信。

  4、 虚拟ip地址virtual_ipaddress . 可以有多个地址,每个地址占一行,不需要指定子网掩码。注意:这个ip必须与我们在lvs客户端设定的vip相一致!

  ● 虚拟服务器virtual_server定义块

  虚拟服务器定义是keepalived框架最重要的项目了,是keepalived.conf必不可少的部分。

  1、 虚拟服务器virtual_server. 这个ip来自于vrrp定义块的第"4"步,后面一个空格,然后加上端口号。定义一个vip,可以实现多个tcp端口的负载均衡功能。

  (1) delay_loop。健康检查时间间隔,单位是秒。

  (2) lb_algo. 负载均衡调度算法,互联网应用常使用wlc或rr。

  (3) lb_kind. 负载均衡转发规则。一般包括DR,NAT,TUN3种,在我的方案中,都使用DR的方式。

  (4) persistence_timeout.会话保持时间,单位是秒。这个选项对动态网站很有用处:当用户从远程用帐号进行登陆网站时,有了这个会话保持功能,就能把用户的请求转发给同一个应用服务器。在这里,我们来做一个假设,假定现在有一个lvs 环境,使用DR转发模式,真实服务器有3个,负载均衡器不启用会话保持功能。当用户第一次访问的时候,他的访问请求被负载均衡器转给某个真实服务器,这样他看到一个登陆页面,第一次访问完毕;接着他在登陆框填写用户名和密码,然后提交;这时候,问题就可能出现了-登陆不能成功。因为没有会话保持,负载均衡器可能会把第2次的请求转发到其他的服务器。

  (5) 转发协议protocol.一般有tcp和udp两种。实话说,我还没尝试过udp协议类的转发。

  2、 真实服务器real_server.也即服务器池。Real_server的值包括ip地址和端口号。多个连续的真实ip,转发的端口相同,是不是可以以范围表示?需要进一步实验。如写成real_server 61.135.20.1-10 80 .

  (1) 权重weight.权重值是一个数字,数值越大,权重越高。使用不同的权重值的目的在于为不同性能的机器分配不同的负载,性能较好的机器,负载分担大些;反之,性能差的机器,则分担较少的负载,这样就可以合理的利用不同性能的机器资源。

  (2) Tcp检查 tcp_check.

  关于配置文件的理论我们就先讲到这里。由于应用场景的不同,配置文件也会有很大的差异,在接下来的文章里,我将以两个具体的应用来展示keepalived神奇功效,敬请关注。

 

0
相关文章