2011年9月24日土曜日

[GI]2ノード目以降のノードでroot.shが失敗する

root.shネタをもう一つ。

問題:
Grid Infrastructureのインストール時に、
2ノード目以降のノードでroot.shが失敗する

発生環境(実際はOSの種類より、OS/ネットワーク周りの設定に依存):
OS:SUSE Linux Enterprise Server 11 SP1 (11.1.1-1.152) 64bit
Oracle: 11.2.0.2.0 64bit
構成:2ノードRAC

エラー:
Failed to start Oracle Clusterware stack
Failed to start Cluster Synchorinisation Service in clustered mode at /opt/app/11.2.0/grid/crs/install/crsconfig_lib.pm line 1016.
/opt/app/11.2.0/grid/perl/bin/perl -I/opt/app/11.2.0/grid/perl/lib -I/opt/app/11.2.0/grid/crs/install /opt/app/11.2.0/grid/crs/install/rootcrs.pl execution failed


root.sh実行時のログ(どちらのノードでも発生):
----------------------------------------
geeko2:/opt/app/11.2.0/grid # ./root.sh
Running Oracle 11g root script...

The following environment variables are set as:
ORACLE_OWNER= grid
ORACLE_HOME= /opt/app/11.2.0/grid

Enter the full pathname of the local bin directory: [/usr/local/bin]:
The contents of "dbhome" have not changed. No need to overwrite.
The contents of "oraenv" have not changed. No need to overwrite.
The contents of "coraenv" have not changed. No need to overwrite.


Creating /etc/oratab file...
Entries will be added to the /etc/oratab file as needed by
Database Configuration Assistant when a database is created
Finished running generic part of root script.
Now product-specific root actions will be performed.
Using configuration parameter file: /opt/app/11.2.0/grid/crs/install/crsconfig_params
Creating trace directory
LOCAL ADD MODE
Creating OCR keys for user 'root', privgrp 'root'..
Operation successful.
OLR initialization - successful
Adding daemon to inittab
ACFS-9459: ADVM/ACFS is not supported on this OS version: 'sles-release-11.1-1.152
'
ACFS-9201: Not Supported
ACFS-9459: ADVM/ACFS is not supported on this OS version: 'sles-release-11.1-1.152
'
CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node geeko1, number 1, and is terminating
An active cluster was found during exclusive startup, restarting to join the cluster
Failed to start Oracle Clusterware stack
Failed to start Cluster Synchorinisation Service in clustered mode at /opt/app/11.2.0/grid/crs/install/crsconfig_lib.pm line 1016.
/opt/app/11.2.0/grid/perl/bin/perl -I/opt/app/11.2.0/grid/perl/lib -I/opt/app/11.2.0/grid/crs/install /opt/app/11.2.0/grid/crs/install/rootcrs.pl execution failed

----------------------------------------

原因:
(1)インターコネクトに使用しているネットワークにおいてマルチキャスト通信が有効になっていない
   or
(2)製品の不具合
   11.2.0.2.0のインターコネクト内で使用するチェック対象のポートが
   アドレス 230.0.1.0(ポート 42424)※ の 1つのみとなっていることが不具合。
   アドレス 230.0.1.0(ポート 42424) を既に使用してる、またはどこかで閉じられているため
   チェック時にポートの競合が発生している、
   またはそれ以外の理由で230.0.1.0(ポート 42424)で通信ができない
   ※HAIPとはまた別で使っている。


対応策:
(1)インターコネクトに使用してるネットワーク(ネットワークデバイスや通信)において、
  マルチキャスト通信を有効化する。
   or
(2)Patch 9974223 を適用する
   Patch 9974223は、11.2.0.2.3 Grid Infrastructure Patch Set Update(GI PSU)
   であるp12419353_112020_Linux-x86-64.zipに入っているのだが、
   いかんせん適用前のインストール段階でこのエラーが発生してしまう。。。
   対応手順としては、oraInstroot.shを両ノード実行後に、両ノードにPatch 9974223を適用
   root.shを両ノードで実行。
   ※1.なお、11.2.0.2.3適用時にもちろんコンフリクトするので、rollbackしてから11.2.0.2.3を
     当てる必要がある。
   ※2.11.2.0.3.0でFIXされているかは現時点で不明
     (List of Bugs Fixedがまだ公開されてない)


問題切り分け方法:
Doc:1212703.1に記載があるがocssdのログに同じメッセージがループするのでチェック
Doc:1212703.1KROWN#152943どちらにも記載があるが、
ポートチェックモジュールが用意されており、事象に合致しているかの確認が可能


モジュールインストール後、root.sh前にパッチ当てたり、
なんかリンク張ったりとか昔もあったような?
root.shこけると精神的ダメージでかいですよね・・・

2 件のコメント:

  1. 12c RACをRedhat7に入れているのですが同じところでハマりました。
    大変助かりましたー ありがとうございます @ThieleDatabase

    返信削除
    返信
    1. お役に立てたようで良かったです!!
      コメントありがとうございます!

      削除