RAC OCR盘故障导致的集群重启恢复

一、事故说明

最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故,后以独占模式启动集群,并使用ocr备份恢复了OCR文件以及重新设置了vote disk,然后关闭集群,重启成功。

因此在此处进行事故重现以吸取教训。

二、重现步骤

测试RAC环境中只有+OCR和+DATA两个ASM磁盘组。

1.做好ocr的手工备份

[[email protected] ~]# ocrconfig -export /home/oracle/ocr.bak

紧急情况下没有ocr的备份也不要紧,在$CRS_HOME的cdata目录下有ocr的自动备份,默认每天和每周都会保存的,只要没做过架构变更,都一直可用。

2.如果asm实例的参数文件也在OCR盘中,则做一次ASM参数文件的备份。(不做也没事,$crs_home/dbs下有init.ora文件,事实上默认配置下这一步可以忽略)

su - grid
sqlplus / as sysasm
create pfile=‘/home/grid/initasm.ora‘ from memory;

3.dd清除OCR的磁盘头信息。

[[email protected] ~]# dd if=/dev/zero of=/dev/raw/raw1 bs=1024 count=1000

4.强制关闭集群。

crsctl stop crs -f --两节点都做

5.以独占模式启动节点1GRID组件

crsctl start crs -excl -nocrs --只在节点1执行

6.观察启动过程中的集群日志以及集群资源状态。

tail -f /u01/11.2.0/grid/log/node1/alertnode1.log
crsctl stat res -t -init

日志里可以看到ora.asm资源在不能识别到OCR盘的情况下启动了,即ASM实例启动了,因此接下来可以进行其他操作。

7.创建+OCR盘以取代之前的+OCR盘。

su - grid
sqlplus / as sysasm
create diskgroup OCR external redundancy disk ‘/dev/raw/raw1‘ attribute ‘compatible.asm‘=‘11.2.0.0.0‘, ‘compatible.rdbms‘=‘11.2.0.0.0‘;

此时asmcmd中只能看到OCR盘:

8.恢复OCR文件并设置votedisk

su - root
ocrconfig -import /home/oracle/ocr.bak --如果使用的是自动备份,则这里需要使用-restore来替换-import
ocrcheck

[[email protected] oracle]# crsctl replace votedisk +OCR

9.关闭集群并重启

su root
crsctl stop crs -f
crsctl start crs --节点1、2都执行

三、总结

经过以上步骤就可以实现votedisk和OCR的重新配置了,注意到为了实现快速故障恢复,我这里新建的ASM磁盘组名字依然是OCR。

时间: 03-20

RAC OCR盘故障导致的集群重启恢复的相关文章

ntp 服务导致kudu集群不可用

1. ntp虽然设置了开机启动,但是不起作用,从而导致kudu集群不可用.一般引起ntp开机不启动是linux系统安装了与ntp相冲突的服务如:chrony,使用systemctl is-enabled chronyd命令查看一下,往往会发现chrony服务为enabled,解决问题的方法是使用systemctl disable chronyd 命令禁用chrony. 2.ntp服务没有同步,使用ntptime命令,出现 status 0x40 (UNSYNC)未同步的状态.解决问题的方法:使用

redis cluster 集群重启关闭

找遍了redis cluster官方文档,没发现有关集群重启和关闭的方法.为啥会没有呢,猜测redis cluster至少要三个节点才能运行,三台同时挂掉的可能性比较小,只要不同时挂掉,挂掉的机器修复后在加入集群,集群都能良好的运作,万一同时挂掉,数据又没有备份的话,就有大麻烦了. redis cluster集群中的节点基本上都对等的,没有管理节点.如果要让所有节点都关闭,只能关闭进程了# pkill -9 redis 把所有集群都关闭,然后在重新启动,会报以下错误 # redis-trib.r

【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)

集群概念介绍(一) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理.由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC.始于唐博士指导,对数据库集群进行配置安装,前后经历2,3个

联想企业网盘:SaaS服务集群化持续交付实践

1      前言 当代信息技术飞速发展,软件和系统的代码规模都变得越来越大,而且组件众多,依赖繁复,每次新版本的发布都仿佛是乘坐一次无座的绿皮车长途夜行,疲惫不堪.软件交付是一个复杂的工程,涉及到软件开发的各个细节,其中任何一环出现问题,都会导致软件不能及时交付,或者交付的质量堪忧. 从企业的角度来讲,如何利用更科学的工具.更科学的流程来提高产品质量,提升客户满意度,是刚需.从员工角度来讲,生命里值得追求的事情很多,不能把宝贵的时间浪费在一些机械的.重复的事情上面. 联想企业网盘从2007开始

U盘故障导致资料丢失如何恢复

U盘是工作学习中最常用的存储设备了,通过USB接口与电脑连接即可实现即插即用.小巧便于携带.存储容量大.价格便宜.性能可靠是大家选择U盘的最重要的几个因素. 不过在鱼龙混珠的U盘市场上有很多水货的存在,其中一部分还是扩容盘,这类U盘的使用寿命是很短的,而且对数据的存储安全性很差,所以大家在购买U盘的时候务必擦亮眼睛去一些正规的商场购买才能保证日后数据的安全. U盘资料丢失是U盘各种故障中最频繁出现的一种情况.一般U盘故障分为软故障和硬故障,其中以软故障最为常见.软故障主要是指U盘有坏块,从而导致

【troubleshooting】记一次Kafka集群重启导致消息重复消费问题处理记录

因需要重启了Kafka集群,重启后发现部分topic出现大量消息积压,检查consumer日志,发现消费的数据竟然是几天前的.由于平时topic消息基本上无积压,consumer消费的数据都是最新的,明显是consumer在重新消费之前已经消费过的数据. 处理方法:将Kafka topic中consumer已经消费的offset值设置为最大值步骤如下:1.从Kafka查询出目前堵塞的topic消息队列中,最大的offset值(其实从Kafka的管理页面上也可以看到这值):命令:./kafka-r

防火墙导致zookeeper集群异常,kafka起不来

问题描述: 主机信息: IP hostname 10.0.0.10 host10 10.0.0.12 host12 10.0.0.13 host13 在这三台主机上部署一套zookeeper&kafka集群环境的时候,zk集群进程和端口都起来了.然后在启动kafka的时候,报错了,提示连不上zk.因为该环境要求必须开启防火墙,所以想到应该是因为2181端口没有开放,所以kafka去连zk,提示连不上.于是在修改了防火墙,打开了2181端口和kafka的9092端口: [[email protec

spark基于Zookeeper的HA集群重启

1.首先应该了解,spark集群基于Zookeeper的HA实现 当master挂了之后,会重新ElectLeader,不会影响Application的运行.默认的Zookeeper"/spark"目录下,会持久化driver,worker,master等信息. 2.Application需要重新submit的情况是在重启Driver所在的机器的时候,也就是说Driver一旦挂了,那么只有重新去提交Application这一途径. 3.重启步骤: 01,02,03三台master机器.

RAC在OCR磁盘故障且有备份时的恢复操作

问题描述: CRS启动失败,并且RAC进程全部退出. 查看messages日志: ... ... Apr 10 15:58:31 node74 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.7510. Apr 10 15:58:31 node74 logger: Cluster Ready Services waiting on dependencies. Diagnostic