Nutanixクラスターで仮想化環境を作る場合、高可用性という観点でHA機能については、誰しもが利用する機能であると思います。
このHA機能は、各ハイパーバイザーソフトウェアによって異なります。NutanixにおけるHAの構成について簡単に紹介します。
HAの検出とその方法
3Tierの場合、
- 特定のハイパーバイザーホストの障害
- ストレージパスの障害
- ネットワークパスの障害
AHVにおけるHAのトリガー
- ノード間の通信断
- AHVホストの「ルート」ファイルシステムの破損問題や「ルート」ファイルシステムが読み取り専用状態になった場合
- Libvirtデーモン(libvirtd)のダウン
- AHV ホストエージェント (ahv-host-agent)のダウン
libvirtdは、KVMを利用する際には、監視が必要なプロセスであると思いますが、それ以外にNutanixは、AHVとして独自の監視エージェントがHAの挙動を左右していることがわかります。
Acropolisリーダーが孤立や障害が発生した場合、クラスタ内の正常なホストから新しいAcropolisリーダーが選出されます。クラスタが分断された場合(例:Xノードが他のYノードと通信できない場合)、稼働状態を維持しクォーラムを維持しているクラスタのホスト分でVMが再起動されます。
HAが発動するタイミング
- Libvirtd から切断された場合、そこから 40 秒でHA発動。
- それ以外の場合は、60秒でHA発動。
(キープアライブタイムアウト期間20秒(4 * 5)とHAタイムアウト40秒を合計すると、最初のキープアライブの失敗から60秒になります。)
HAが発動した場合、AcropolisリーダーCVMの以下のログに記載されますので、障害調査の場合このログを参考にすると良いと考えられます。
AHV側のログは、以下の場所に保存されています。
Nutanixにおいて、HAが発動したりクラスターの動作の挙動がおかしくなる場合、大半ネットワーク周りの障害に起因していることが多いように感じています。
Nutanix CVM内では、定期的に他のホストやCVMに定期的にPINGを投げた結果をログとして保存しています。
/home/nutanix/data/logs/sysstats/ping_hosts.INFO
/home/nutanix/data/logs/sysstats/ping_gateway.INFO
のファイルで、ノードや各コンポーネントのログを確認すると、何らかの障害解消のヒントになる可能性があります。
(参考)KB-4636 VM High Availability (HA) on AHV
0 件のコメント:
コメントを投稿