Trying Database: HAIP(Highly Available virtual IP)その5

HAIP(Highly Available virtual IP)その4のつづき

HAIPの話も最後、追記とその他よもや話

=================================
・oifcfg setifコマンドを使用して、インタフェースをプライベートで設定した
　インタフェースに対して、1から4つの高可用性IP（HAIP）アドレスが作成される。
　データベースやASMは「高可用性」かつ「ロード・バランスされたハートビートや
　キャッシュフュージョンなどの通信を実現する。
=================================

実はさっきの検証でIPが一個しかないのはおかしいと思ってました(苦笑)
なのでcrsを再起動したところ、、、、

eth1 Link encap:Ethernet HWaddr 00:0C:29:EC:22:AE
inet addr:10.0.0.136 Bcast:255.255.255.255 Mask:254.0.0.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:445151 errors:0 dropped:0 overruns:0 frame:0
TX packets:522844 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:233173632 (222.3 MiB) TX bytes:345513311 (329.5 MiB)

eth1:1 Link encap:Ethernet HWaddr 00:0C:29:EC:22:AE
inet addr:169.254.2.227 Bcast:169.254.127.255 Mask:255.255.128.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

eth2 Link encap:Ethernet HWaddr 00:0C:29:EC:22:B8
inet addr:192.168.102.136 Bcast:192.168.102.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:86100 errors:0 dropped:0 overruns:0 frame:0
TX packets:84814 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:41051983 (39.1 MiB) TX bytes:37303876 (35.5 MiB)

eth2:1 Link encap:Ethernet HWaddr 00:0C:29:EC:22:B8
inet addr:169.254.252.248 Bcast:169.254.255.255 Mask:255.255.128.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

ですよね(笑)

ということで、設定後はcrsの再起動もお忘れなく。

その他　インターコネクト障害からの自動復旧時のおまじないな話

通常、インターコネクト障害発生後にNICやらケーブルやらの問題を解決すると、
障害時に落とされたノード(ノード番号が大きい方)は、
自動的にClusterに復帰しようとします。
この時、インターコネクト障害がノード2の際に発生するバグが。。。

Bug 11894981

1. IPC Send timeoutがASM、DBで発生。
2. ORA-29740を受けて、ノード2のASMが異常終了
　つられて、ノード2のインスタンスがORA-15064でダウン
3. DBは再起動されるも、他ノードのインスタンスと通信できず、
　 lmonの異常終了により起動せず。
4. ノード2のASMも自動起動しようとするが、ノード1のASMからkillされてしまう。

この動作が繰り返し発生

IPC Sendタイムアウトによるものだが、ハートビートエラーが
ocssd.logに出てこない。。

うぅ。。カオス・・・

では、どうればいいか。

インターコネクトの障害復旧時にはノード2を止めておく。

0.ノード1 or ノード2のインターコネクト障害により、
　ノード2のCRSリソースが停止される
1.ノード2の停止
2.インターコネクト障害の解消
3.ノード2を起動

おまじないかもしれないが、
インターコネクトの自動復旧は、HAIPが新しく追加されたこともあるので、
個人的にはおススメしない。

ちなみにひどいケースだと、
ノード2がclusterに復帰しようとして、
ノード1のCRSが異常終了したり、ASMが落ちたりというケースも・・・。
DB全停止の悪夢・・・

ちなみにBug 11894981、現時点ではバッチも修正バージョンも出てないようです。。

Trying Database

2011年7月15日金曜日

HAIP(Highly Available virtual IP)その5

0 件のコメント:

コメントを投稿