AIX下解决POWERHA的脑裂问题

一、安装创建并发vg时必需的软件包clvm包,该包安装、升级、后必须重启os

clvm包的描述:Enhanced Concurrent Logical Volume Manager

软件包在aix6100-dvd1.iso中:安装时进入到installp/ppc目录下执行安装

软件包升级在6106中:升级时使用指令smitty update_all 直接选择全部升级到最新版    本,不支持选择部分软件包升级,系统只支持相关软件包全部升级

二、确定共享存储

确定共享存储的方法有三种:

方法一:

在共享存储的服务器上lspv,如果对应hdiskn的PVID是相同的就可以确定为    是              共享存储

另外执行指令:bootinfo -s hdiskn,查看下对应存储的大小,共享存储的大小必定                       是相同的

方法二:

只针对IBM的存储才能生效,只对IBM的DS系统存储才能生效

执行指令:mpio_get_config -Av

显示结果中的 User Label列值是唯一的,在211和212机器上同时执行该指令,

如果对应hdiskn的 User Lablel列值相同,就说明是共享存储

方法三:

使用dbh_read指令,使用该指令前要确保共享存储上没有做心跳磁盘,否则就将                      测试信息写入共享存储的磁盘头了

在211端:     /usr/sbin/rsct/bin/dhb_read -p hdisk8 -r 进入信息receive状态

在212端:  /usr/sbin/rsct/bin/dhb_read -p hdisk8 -t  进入信息transate状态

如果在211端能成功接收到212端发送的测试信息,就说明hdisk8盘是共享                                 存储

漫兮网(http://www.manxinet.com)】

三、创建并发VG,做磁盘心跳

1、在211下创建hboravg 类型为enhanced concurrent 增加型并发vg,同时选择不自                        动active,并发vg做磁盘心跳只是使用了并发vg的vgda区,只使用磁盘头,不用               设置系统重启时自动激活,

2、在211下:在并发vg下创建测试lv,目的是测试是否成功创建了并发vg,即该vg                        是否可用做                       为并发vg来用, lv名称: sychlv

在创建lv前需要先activevg : varyonvg hboravg

然后创建lv                                 :  smitty mklv

3、211下:

deactive vg            :  varyoffvg hboravg

4、在212下导入:

导入vg               : Importvg -V mainNum -y hboravg

在212下能够正常显示vg中的lv,通常是lv的type显示不是??就可以判定为正            常

5、211和212端全部deactive vg

执行指令                            :varyoffvg hboravg

漫兮网(http://www.manxinet.com)】

四、启动集群,激活gsclvmd进程,通过该进程来active并发vg,测试vg是否可以同步

1、启动集群,因为varyonvg -c hboravg激活到enhanced concurrent模式时必须有gsclvmd       进程,但是gsclvmd进程是由ha启动的,所以在激活前必须有gsclvmd进程存在

查看进程指令:ps  -ef | grep gsclvmd

2、激活vg到enhanced concurrent模式

211和212端全部执行指令:varyonvg -c hboravg

vg激活后显示的状态不是active而是concurrent

3、测试是否是并发vg

在211端创建testlv,正常情况应该是自动同步到212端

在212端显示vg的情况:lsvg -l  hboravg

应该可以显示出在211端创建的lv,正常情况自动推送到212端

在212下:

cd  /dev

ls  -l *test*

可以正常显示vg和lv对应的设备文件

五、添加并发vg到ha中,测试心跳是否成功

1、直接添加Configure HACMP Communication Interfaces/Devices

选择:  Devices

选择: aix211 hdisk8 和aix212 hdisk8

2、同步集群

3、测试

(i)资源组目前运行在211上,

ifconfig en0 down :资源切到了211的en1网卡上

ifconfig en1 down :资源应该切换到212的en0上,同时seviceIP在211上消                       失

(ii)在212下,查看并确认资源切换是否成功,心跳是否成功

在212端: ifconfig -a  |service IP资源应该可以成功切换到212上

重启211的两个网卡en0和en1,资源仍然正常运行在212节点上,并且212节点            不会死机,应该可以正常接管资源组。

漫兮网(http://www.manxinet.com)】

六、HA脑裂问题解决

总结:

整个过程操作顺序:

创建hboravg---->创建cluster--->add node--->descover---->add network-->add interface--

-->config resource --->add resource group --->资源装车show/change---->同步集群到                各个节点---->启动集群---->varyonvg -c hboravg启动到Enhanced Concurrent模式---

---->创建测试lv验证并发vg----add device hdisk8(心跳磁盘)---->同步集群到各个节点

--->down网卡测试心跳盘是否生效

本文由漫兮 首发于【漫兮网(http://www.manxinet.com)】--转载请注明【漫兮网

时间: 10-27

AIX下解决POWERHA的脑裂问题的相关文章

AIX下的ha高可用集群cluster

安装ha软件 一.安装软件 最稳定的版本是5.4.0,优先安装稳定版本5.4 安装依赖于包base.data, cluster的man包安装失败原因是缺少base.data包 安装所有cluster.开头的包,可以不安装cluster.man 包 二.打ha补丁 打补丁之前先执行指令:inutoc生成  .toc文件,然后smitty  update_all升级cluster      到5.4.1.0版本 ha环境的搭建注意事项 一.ha配置为主备模式或者互备模式应该根据应用系统的要求选择,在

iptables导致防火墙脑裂

在将heartbeat应用到生产环境中,还是有许多要注意的地方,一不小心就可能导致heartbeat无法切换或脑裂的情况,下面来介绍下由于iptables导致脑裂的现象. 主:192.168.3.218 192.168.4.218 心跳ip usvr-218 主机名 备:192.168.3.128 192.168.4.128 心跳ip usvr-128 主机名 现象:当启动heartbeat主后,VIP在218上生效:然后再启动heartbeat备,VIP在128上也生效:此时脑裂产生,导致访问

脑裂是什么?Zookeeper是如何解决的?

什么是脑裂 脑裂(split-brain)就是"大脑分裂",也就是本来一个"大脑"被拆分了两个或多个"大脑",我们都知道,如果一个人有多个大脑,并且相互独立的话,那么会导致人体"手舞足蹈","不听使唤". 脑裂通常会出现在集群环境中,比如ElasticSearch.Zookeeper集群,而这些集群环境有一个统一的特点,就是它们有一个大脑,比如ElasticSearch集群中有Master节点,Zookee

让我们聊聊脑裂这事情

万事皆有因 最近IM云平台也好,社交应用也好,大量的使用ejabberd的厂商涌现出来了.不过所有使用ejabberd厂商可能都会遇到Mnesia脑裂的问题.在这里打算简单的谈谈脑裂这个事情. 什么是脑裂 我在这里面给个非官方的定义吧.当一个集群的不同部分在同一时间都认为自己是活动的时候,我们就可以将这个现象称为脑裂症状.我们当如何理解这句话呢? 首先我们需要是个集群. 其次当中有业务是Master-Backup模式或双星模式.也就是说当主节点挂掉了,备用节点需要接管业务或者是两个节点直接有数据

数据库脑裂

Oracle RAC CSS提供2种后台服务包括群组管理(Group Managment简称GM)和节点监控(Node Monitor简称NM),其中GM管理组(group)和锁(lock)服务.在集群中任意时刻总有一个节点会充当GM主控节点(master node).集群中的其他节点串行地将GM请求发送到主控节点(master node),而master node将集群成员变更信息广播给集群中的其他节点.组成员关系(group membership)在每次发生集群重置(cluster reco

Zookeeper和分布式环境中的假死脑裂问题(转)

Zookeeper和分布式环境中的假死脑裂问题 最近和同事聊天无意间发现他们的系统也存在脑裂的问题.想想当初在我们的系统中为了解决脑裂花了非常大的功夫,现在和大家一起讨论下脑裂,假死等等这些问题和解决的方法. 在一个大集群中往往会有一个master存在,在长期运行过程中不可避免的会出现宕机等问题导致master不可用,在出现这样的情况以后往往会对系统产生很大的影响,所以一般的分布式集群中的master都采用了高可用的解决方案来避免这样的情况发生. master-slaver方式,存在一个mast

如何防止ElasticSearch集群出现脑裂现象(转)

原文:http://xingxiudong.com/2015/01/05/resolve-elasticsearch-split-brain/ 什么是“脑裂”现象? 由于某些节点的失效,部分节点的网络连接会断开,并形成一个与原集群一样名字的集群,这种情况称为集群脑裂(split-brain)现象.这个问题非常危险,因为两个新形成的集群会同时索引和修改集群的数据. 如何避免脑裂问题? 避免脑裂现象,用到的一个参数是:discovery.zen.minimum_master_nodes.这个参数决定

corosync+pacemaker 双节点脑裂问题

0.引入 corosync作为HA方案中成员管理层(membership layer),负责集群成员管理.通信方式(单播.广播.组播)等功能,pacemaker作为CRM层.在利用corosync+pacemaker 主备模式实践中,遇到一个问题,即脑裂问题.何谓脑裂: 在HA集群中,节点间通过心跳线进行网络通信,一旦心跳网络异常.导致成员互不相认,各自作为集群中的DC,这样资源同时会在主.备两节点启动.脑裂是corosync还是pacemaker导致的呢?一开始我认为是corosync,原因在

如何防止ElasticSearch集群出现脑裂现象

什么是“脑裂”现象? 由于某些节点的失效,部分节点的网络连接会断开,并形成一个与原集群一样名字的集群,这种情况称为集群脑裂(split-brain)现象.这个问题非常危险,因为两个新形成的集群会同时索引和修改集群的数据. 如何避免脑裂问题? 避免脑裂现象,用到的一个参数是:discovery.zen.minimum_master_nodes.这个参数决定了要选举一个Master需要多少个节点(最少候选节点数).默认值是1.根据一般经验这个一般设置成 N/2 + 1,N是集群中节点的数量,例如一个