某案件は、自社の担当がアプリケーション部分のみで、
運用は別会社がしているのだが、お客様からの要望で
無停止があったため、Webサーバはロードバランサで3台をバランシング。
DBサーバはクラスタソフトで1台待機。DBのファイル郡はSANで管理。


異常時には携帯にメールが飛ぶ仕組みになっているのだが、
この環境で運用開始1、2ヶ月は1週間に2回位
正常系DBサーバが停止のエラーメールが飛んできていた。
しかも、内容はクラスタの監視誤動作による切り替え。
さらに、NFSハードマウントの関係で自動では切り替わらない。
(このことは既に運用会社に連絡済)


つまり、クラスタが切り替わるとアプリが停止する仕組みになっていて
頻繁にクラスタが誤動作するので、頻繁にアプリが停止して
エラーメールがバンバン流れてくる状態。


最近、エラーメールが飛んでこないと思ったら運用会社が
勝手に待機系を停止させていたため、クラスタが無効化されていた。
電話で確認したところ、運用会社のマネージャはこの事実を知らなかった。
(ということは、お客様も知らない可能性大)


すげー対応でびっくり。どうせクラスタの誤動作も設定ミスだろうし。