hadr+hacmp 連携構成ガイド運用手順書...9...

®

© Copyright IBM Japan Systems Engineering Co., Ltd. 2007

HADR+HACMP 連携構成ガイド運用手順書

2

目次

3.1. 全体起動・停止手順

3.1.1 全体起動手順

3.1.2 全体停止手順

3.2. 計画停止・再開手順

3.2.1. 待機系OSの計画停止と再統合手順

3.2.2. 稼動系OSの計画停止と再統合手順

3.3. 非計画停止(障害)からの復旧手順

3.3.1. 稼動系OS障害からの再統合手順

3.3.2. 稼動系インスタンス障害からの再統合手順

3.3.3. 待機系OS障害からの再統合手順

3.3.4. 待機系インスタンス障害からの再統合手順

3

3.1. 全体起動・停止手順

4

3.1.1. 全体起動手順

5


1号機・2号機でOSを起動する。

1号機・2号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。

1号機・2号機でdb2diag.logのtailスクリプトの起動を確認する。

1号機・2号機でDB2を起動する。（インスタンス･オーナーで実行）

DB2の起動を確認する。

#nohup /home/hadrinst/scripts/tail_hadr_status.ksh &

# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log

# su – hadrinst –c db2start

# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc

6


1号機・2号機で構成ファイル上のHADR ROLEを確認する。（インスタンス･オーナーで

実行）

確認例

1号機

2号機

# su – hadrinst –c db2 get db cfg for sample | grep HADR

# db2 get db cfg for sample | grep HADRHADR database role = PRIMARYHADR local host name (HADR_LOCAL_HOST) = node1HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2PHADR remote host name (HADR_REMOTE_HOST) = node2HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2SHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC

# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node2HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2SHADR remote host name (HADR_REMOTE_HOST) = node1HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2PHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC

1号機のHADR ROLEがPRIMARY2号機のHADR ROLEがSTANDBYであることを確認

7


スタンバイDB→プライマリDBの順でHADRを起動（インスタンス･オーナーで実行）

2号機（スタンバイDB）でHADRを起動・確認

確認例(db2pd)Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08

HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Remote Catchup Pending Nearsync 0 4095996

ConnectStatus ConnectTime Timeout Disonnected Mon Nov 26 13:36:27 2007 (1196051787) 60

LocalHost LocalServicenode2 DB2_HADR2S

RemoteHost RemoteService RemoteInstancenode1 DB2_HADR2P hadrinst

PrimaryFile PrimaryPg PrimaryLSNS0000074.LOG 0 0x00000000130B0000

StandByFile StandByPg StandByLSNS0000073.LOG 0 0x0000000012CC8000

#db2 activate db sample#db2pd –hadr –db sample（又は）#db2 get snapshot for db on sample | more

(HADR statusの節を確認)

Role: StandbyState: Remote Cathup PendingConnectionStatus: Disconnectedになっていることを確認

8


スタンバイDB→プライマリDBの順でHADRを起動（インスタンス･オーナーで実行）

1号機（プライマリDB）でHADRを起動・確認

確認例(db2pd)Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08

HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Peer Nearsync 0 4095996

ConnectStatus ConnectTime Timeout Connected Mon Nov 26 13:36:27 2007 (1196051787) 60

LocalHost LocalServicenode1 DB2_HADR2P

RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst



Role: PrimaryState: PeerConnectionStatus: Connectedになっていることを確認



9

HADRプライマリ→HADRスタンバイの順でHACMPを起動する。

1号機でHACMPを起動する。（rootユーザーで実行）

1号機でHACMPの起動を確認する。


# smitty clstart「即時」で開始。

# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE

# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。ONLINE

# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node1 0

※ HACMP V5.4.1以降でのcluster.logのデフォルト・ディレクトリーは、/var/hacmp/adm です。

10

HADRプライマリ→HADRスタンバイの順でHACMPを起動する。






# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。OFFLINE


11

3.1.2 全体停止手順

12

（計画停止手順）

1号機・2号機でHACMPを停止する。（rootユーザーで実行）

1号機・2号機でHACMPの停止を確認する。

3.1.2. 全体停止手順

# smitty clstop「即時」で停止。（両ノード指定の停止、片ノードずつの停止のどちらも可）

# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT

# tail /usr/es/adm/cluster.log以下が表示されることを確認。(1号機) EVENT COMPLETED: node_down_complete node1 0(2号機) EVENT COMPLETED: node_down_complete node2 0

13

3.1.2. 全体停止手順

プライマリDB→スタンバイDBの順でHADRを停止

プライマリDB側でHADRを停止する。

スタンバイDB側でHADRを停止する。

1号機・2号機でDB2を停止する。

1号機・2号機でDB2の停止を確認する。

1号機・2号機でOSを停止する。

# db2 deactivate db sample

deactivateされているかの確認は、deactivateコマンド実行時にエラー

メッセージが帰らないことをもってそれと見なす。


# db2stop

# ps –ef | grep db2sysc以下のプロセスが表示されないことを確認。db2sysc

14

3.2. 計画停止・再開手順

15

3.2.1. 稼働系OSの計画停止と再統合手順

16



1号機で、1号機から2号機へリソースグループを引き継ぐ。

1号機で、DB2 TAKEOVER HADRが実行されたことを確認する。

確認例（db2pd）

# smitty clstop「リソースグループに対するアクションの選択」で「リソースグループの移動」を選択。

#db2pd –hadr –db sample（又は）#db2 get snapshot for db on sample | more (HADR statusの節を確認)

Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:09:02

HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Peer Nearsync 0 0




PrimaryFile PrimaryPg PrimaryLSNS0000075.LOG 0 0x0000000013498000

StandByFile StandByPg StandByLSNS0000075.LOG 0 0x0000000013498000

Role: StandbyState: PeerConnectionStatus: Connectedになっていることを確認

17


1号機から2号機へリソースグループを引き継ぐ。（続き）

1号機で、HACMPの停止を確認する。

1号機で、HADRを停止する。


# lssrc –ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT

18


1号機で、HADRを停止する。（続き）

2号機で、1号機のHADRの停止を確認する。

#db2pd –hadr –db sample（又は）#db2 get snapshot for db on sample | more



HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Disconnected Nearsync 0 0

ConnectStatus ConnectTime Timeout Disconnected Mon Nov 26 16:25:11 2007 (1196061911) 60

LocalHost LocalServicenode2 DB2_HADR2S

RemoteHost RemoteService RemoteInstancenode1 DB2_HADR2P hadrinst



Role: PrimaryState: DisconnectedConnectionStatus: Disconnectedになっていることを確認

19

1号機でDB2を停止する。

1号機でDB2の停止を確認する。

1号機でOSを停止する。


# db2stop


20


（再統合手順）

1号機でOSを起動する。

1号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。

1号機でdb2diag.logのtailスクリプトの起動を確認する。

1号機でDB2を起動する。（インスタンス･オーナーで実行）

1号機でDB2の起動を確認する。





21


1号機で構成ファイル上のHADR ROLEを確認する。（インスタンス･オーナーで実行）

確認例

# db2 get db cfg for sample | grep HADR

# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node1HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2PHADR remote host name (HADR_REMOTE_HOST) = node2HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2SHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC

1号機のHADR ROLEがSTANDBYであることを確認

22


1号機でHADRを起動する。

確認例（db2pd）











23


1号機で、HACMPを起動する。

1号機で、HACMPの起動を確認する。





24


2号機⇒1号機に切り戻しを行う。2号機で以下のコマンドを実行。

1号機にリソースが引き継がれたことを確認する。 2号機で以下のコマンドを実行。

# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。

-------------------------------------------------------------------------------グループ名状態ノード-------------------------------------------------------------------------------hadr_rg ONLINE node1

OFFLINE node2

# smitty hacmp⇒ システム管理 (C-SPOC)

⇒ HACMP リソース・グループおよびアプリケーション管理⇒ リソース・グループの別のノード/サイトへの移動

⇒ リソース・グループの別のノードへの移動⇒ リソース・グループ「hadr_rg」を選択。

⇒宛先ノード「node1」を選択。

25


1号機でHADRの状態を確認する。（インスタンス･オーナーで実行）


# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : PrimaryState : PeerConnectStatus : Connected

# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected

26


27



2号機でHACMPを停止する。（rootユーザーで実行）

2号機でHACMPの停止を確認する。

# smitty clstop「即時」で停止。

# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT

# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_down_complete node2 0

28


2号機でHADRを停止する。

1号機でHADRの状態を確認する。

確認例


# db2pd –hadr –db sample


HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Disconnected Nearsync 0 4095996

ConnectStatus ConnectTime Timeout Disconnected Mon Nov 26 13:36:27 2007 (1196051787) 60





Role: PrimaryState: DisconnectedConnectionStatus: Disconnectedになっていることを確認

29

2号機でDB2を停止する。

2号機でDB2の停止を確認する。

2号機でOSを停止する。


# db2stop


30


（再統合手順）

2号機でOSを起動する。




2号機でDB2の起動を確認する





31

2号機で構成ファイル上のHADR ROLEを確認する。（インスタンス･オーナーで実行）

確認例


# db2 get db cfg for sample | grep HADR

# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node2HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2SHADR remote host name (HADR_REMOTE_HOST) = node1HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2PHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC

2号機のHADR ROLEがSTANDBYであることを確認

32

2号機でHADRを起動する。

確認例












33








34

3.3. 非計画停止(障害)からの復旧手順

35

3.3.1. 稼働系OS障害からの再統合手順

36

3.3.1. 稼働系(1号機) OS障害からの再統合手順

1号機のOSを起動する。



1号機でstatus.flagファイルが存在する場合は、削除する。


# nohup /home/hadrinst/scripts/tail_hadr_status.ksh &

※1号機が稼働系の状況から、1号機のOS全面障害発生後、2号機に引継

ぎが完了し、正常にサービスが提供されている状態を前提とします。

# rm /home/hadrinst/scripts/status.flag

37




1号機でHADRを起動する。（インスタンス･オーナーで実行）

1号機でHADRの起動を確認する。（インスタンス･オーナーで実行） (Peerになるまでに時間がかかることもあります)



# su – hadrinst –c “db2 start hadr on db sample as standby”


38


1号機でHACMPを起動する。





この状態で通常通りサービスを提供することが可能となり、

2号機の障害発生時に再度引き継ぎを行う準備が出来ている状態となります。

切り戻し可能な時間帯を見つけて、次ページのきり戻し手順を実行します。

39



1号機にリソースが引き継がれたことを確認する。2号機で以下のコマンドを実行。



OFFLINE node2





40






41

3.3.2. 稼働系インスタンス障害からの再統合手順

42

3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順


1号機でdb2diag.logのtailスクリプトが起動していない場合、スクリプトを起動する。



※1号機が稼動系の状況から、1号機でインスタンス障害が発生し、2号機に引継ぎが完了し、サービスは提供中。当該ノードではHACMPを停止している状態を前提とします。

43




1号機でHADRを起動する。（インスタンス･オーナーで実行）

1号機でHADRの起動を確認する。（インスタンス･オーナーで実行） (Peerになるまでに時間がかかることもあります)



# su – hadrinst –c “db2 start hadr on db sample as standby”


44







この状態で通常通りサービスを提供することが可能となり、

2号機の障害発生時に再度引き継ぎを行う準備が出来ている状態となります。

切り戻し可能な時間帯を見つけて、次ページのきり戻し手順を実行します。

45



1号機にリソースが引き継がれたことを確認する。 2号機で以下のコマンドを実行。



OFFLINE node2





46






47

3.3.3. 待機系OS障害からの再統合手順

48

3.3.3. 待機系(2号機) OS障害からの再統合手順

2号機のOSを起動する。



2号機でstatus.flagファイルが存在する場合は、削除する。



※1号機が稼働系の状況から、2号機でOS全面障害が発生し、当該ノードでHACMPを停止している状態を前提とします。

# rm /home/hadrinst/scripts/status.flag

49

3.3.3. 待機系(2号機) OS障害からの再統合手順



2号機で構成ファイル上のHADRのROLEを確認する。（インスタンス･オーナーで実行）

2号機でHADRを起動をする。（インスタンス･オーナーで実行）



# su – hadrinst –c “db2 activate db sample”

# su – hadrinst –c “db2 get db cfg for sample | grep HADR”以下が表示されることを確認。HADR database role = STANDBY

50

3.3.3. 待機系(2号機) OS障害からの再統合手順2号機でHADRの起動を確認する。

稼動系（1号機）で実行された差分のログをキャッチアップして適用する（ローカル･キャッチアップからリモートキャッチアップを経てPeerになる）ため、時間を要することがあります。







51

3.4. 待機系インスタンス障害からの再統合手順

52

3.4. 待機系(2号機) インスタンス障害からの再統合手順


2号機でdb2diag.logのtailスクリプトが起動していない場合、スクリプトを起動する。



※1号機が稼働系の状況から、2号機のインスタンス障害が発生した後の状態を前提

とします。（＊2号機のインスタンス障害発生については、自動対応は行われません）

53


2号機でDB2を起動する。


2号機で構成ファイル上のHADRのROLEを確認する。

2号機でHADRを起動をする。



# su – hadrinst –c “db2 activate db sample”

# su – hadrinst –c “db2 get db cfg for sample | grep HADR”以下が表示されることを確認。HADR database role = STANDBY

54


2号機でHADRの状況を確認する。

稼動系（1号機）で実行された差分のログをキャッチアップして適用する（ローカル･キャッチアップからリモートキャッチアップを経てPeerになる）ため、時間を要することがあります。







hadr+hacmp 連携構成ガイド運用手順書...9...

Documents