解决keepalived脑裂问题


一.介绍

脑裂(split-brain):指在一个高可用(HA)系统中,当联系着的两个节点断开联系时,本来为一个整体的系统,分裂为两个独立节点,这时两个节点开始争抢共享资源,例如都去用同一个ip提供网页服务,结果会导致系统混乱,数据损坏。

对于无状态服务的HA,无所谓脑裂不脑裂;但对有状态服务(比如MySQL)的HA,必须要严格防止脑裂。

二.产生的原因

  • 高可用服务器对之间心跳线链路发生故障,导致无法正常通信。
  • 因心跳线坏了(包括断了,老化)。
  • 因网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)。
  • 因心跳线间连接的设备故障(网卡及交换机)。
  • 因仲裁的机器出问题(采用仲裁的方案)。
  • 高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输。
  • 高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败。
  • 其他服务配置不当等原因,如心跳方式不同,心跳广插冲突、软件Bug等。

提示: Keepalived配置里同一 VRRP实例如果 virtual_router_id两端参数配置不一致也会导致裂脑问题发生。

三.解决方案

检测网关

由于keepalived体系中主备两台机器所处的状态与对方有关。如果主备机器之间的通信出了网题,那就ping网关,如果失败则证明网络有问题,将当前节点关闭,如果成功再开启。

问题是,当内部mysql所在机器出现网络问题,但是他是给内网提供服务的,这会导致2台mysql都关闭虚拟ip。

所以可以改改,将两台机器互相ping,防止网络问题。

vim check_keepalived.sh

#!/bin/bash
#检测keepalived脑裂脚本
#ping网关失败2次则关闭keepalived服务,成功2次则启动
#[使用设置]
#网关地址或者对方keepalived节点地址,互ping
getway_ip=192.168.1.1
#[自带变量]
check_ok=0
check_no=0
while [ 1 ]
do
    ping -c 1 $getway_ip
    if [[ $? -eq 0 ]];then
        let check_ok++
    else
        let check_ok++
    fi
    if [[ $check_ok -eq 2 ]];then
        systemctl start keepalived
        check_ok=0
    elif [[ $check_no -eq 2 ]];then
        systemctl stop keepalived
        check_no=0
    fi
    sleep 1
done

更改为单播

将方式改为单播,这样检测更加完善

vrrp_instance VI_1 {
    state MASTER
    interface enp0s8
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
#增加部分
unicast_src_ip 192.168.2.41 #本机ip
unicast_peer {
        192.168.2.150 #其他机器ip,可多个
}
    virtual_ipaddress {
        192.168.2.99
    }
}

 上一篇
kubectl 命令自动补全 kubectl 命令自动补全
kubectl 命令自动补全 一.简介在k8s 1.3版本之前,设置kubectl命令自动补全是通过以下的方式:source ./contrib/completions/bash/kubectl 但是在k8s 1.3版本,源码contrib
2021-01-01
下一篇 
Nil in Go Nil in Go
Nil in GoGo中 的 nil 是什么 Go中的nil具有以下含义: 它代表Go中的“ null”。这意味着两件事:1.它没有类型。 2.其值为“ null”。 它是Go中预先声明的标识符,这意味着您可以使用它而不必声明它。 它表示
2020-12-16
  目录