解决keepalived脑裂问题

keepalived

Linux

发布日期: 2020-12-27

一.介绍

脑裂（split-brain）：指在一个高可用（HA）系统中，当联系着的两个节点断开联系时，本来为一个整体的系统，分裂为两个独立节点，这时两个节点开始争抢共享资源，例如都去用同一个ip提供网页服务，结果会导致系统混乱，数据损坏。

对于无状态服务的HA，无所谓脑裂不脑裂；但对有状态服务(比如MySQL)的HA，必须要严格防止脑裂。

二.产生的原因

高可用服务器对之间心跳线链路发生故障，导致无法正常通信。
因心跳线坏了（包括断了，老化）。
因网卡及相关驱动坏了，ip配置及冲突问题（网卡直连）。
因心跳线间连接的设备故障（网卡及交换机）。
因仲裁的机器出问题（采用仲裁的方案）。
高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输。
高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败。
其他服务配置不当等原因，如心跳方式不同，心跳广插冲突、软件Bug等。

提示： Keepalived配置里同一 VRRP实例如果 virtual_router_id两端参数配置不一致也会导致裂脑问题发生。

三.解决方案

检测网关

由于keepalived体系中主备两台机器所处的状态与对方有关。如果主备机器之间的通信出了网题，那就ping网关，如果失败则证明网络有问题，将当前节点关闭，如果成功再开启。

问题是，当内部mysql所在机器出现网络问题，但是他是给内网提供服务的，这会导致2台mysql都关闭虚拟ip。

所以可以改改，将两台机器互相ping，防止网络问题。

vim check_keepalived.sh

#!/bin/bash
#检测keepalived脑裂脚本
#ping网关失败2次则关闭keepalived服务，成功2次则启动
#[使用设置]
#网关地址或者对方keepalived节点地址，互ping
getway_ip=192.168.1.1
#[自带变量]
check_ok=0
check_no=0
while [ 1 ]
do
    ping -c 1 $getway_ip
    if [[ $? -eq 0 ]];then
        let check_ok++
    else
        let check_ok++
    fi
    if [[ $check_ok -eq 2 ]];then
        systemctl start keepalived
        check_ok=0
    elif [[ $check_no -eq 2 ]];then
        systemctl stop keepalived
        check_no=0
    fi
    sleep 1
done

更改为单播

将方式改为单播，这样检测更加完善

vrrp_instance VI_1 {
    state MASTER
    interface enp0s8
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
#增加部分
unicast_src_ip 192.168.2.41 #本机ip
unicast_peer {
        192.168.2.150 #其他机器ip，可多个
}
    virtual_ipaddress {
        192.168.2.99
    }
}

keepalived