2025年12月20日土曜日

Nutanix AHVクラスターにおけるHAの挙動について

Nutanixクラスターで仮想化環境を作る場合、高可用性という観点でHA機能については、誰しもが利用する機能であると思います。

このHA機能は、各ハイパーバイザーソフトウェアによって異なります。NutanixにおけるHAの構成について簡単に紹介します。


HAの検出とその方法

3Tierの場合、

  • 特定のハイパーバイザーホストの障害
  • ストレージパスの障害
  • ネットワークパスの障害
という3つの観点で、HAの発動トリガーがあるかと思います。

Nutanixの場合、ストレージパスと仮想マシンのサービスネットワークも同じイーサネットを利用する観点から、ネットワークの障害がノード間通信を妨げる障害となるため、HA発動のトリガーの1つとなる点をまず押えておく必要があります。

AHVにおけるHAのトリガー

  • ノード間の通信断
  • AHVホストの「ルート」ファイルシステムの破損問題や「ルート」ファイルシステムが読み取り専用状態になった場合
  • Libvirtデーモン(libvirtd)のダウン
  • AHV ホストエージェント (ahv-host-agent)のダウン
がHAの対象となります。

libvirtdは、KVMを利用する際には、監視が必要なプロセスであると思いますが、それ以外にNutanixは、AHVとして独自の監視エージェントがHAの挙動を左右していることがわかります。

Acropolisリーダーが孤立や障害が発生した場合、クラスタ内の正常なホストから新しいAcropolisリーダーが選出されます。クラスタが分断された場合(例:Xノードが他のYノードと通信できない場合)、稼働状態を維持しクォーラムを維持しているクラスタのホスト分でVMが再起動されます。


HAが発動するタイミング

  • Libvirtd から切断された場合、そこから 40 秒でHA発動
  • それ以外の場合は、60秒でHA発動
    (キープアライブタイムアウト期間20秒(4 * 5)とHAタイムアウト40秒を合計すると、最初のキープアライブの失敗から60秒になります。)

HAが、発動するとアラート「A1137」が発行されます。
こちらは、KB-10612を参考にすると良いと思います。


HA発動時の確認すべくログの場所

HAが発動した場合、AcropolisリーダーCVMの以下のログに記載されますので、障害調査の場合このログを参考にすると良いと考えられます。

/home/nutanix/data/logs/acropolis.out

AHV側のログは、以下の場所に保存されています。

/var/log/libvirt/libvirtd.log


Nutanixにおいて、HAが発動したりクラスターの動作の挙動がおかしくなる場合、大半ネットワーク周りの障害に起因していることが多いように感じています。

Nutanix CVM内では、定期的に他のホストやCVMに定期的にPINGを投げた結果をログとして保存しています。

/home/nutanix/data/logs/sysstats/ping_hosts.INFO

/home/nutanix/data/logs/sysstats/ping_gateway.INFO

のファイルで、ノードや各コンポーネントのログを確認すると、何らかの障害解消のヒントになる可能性があります。


(参考)KB-4636 VM High Availability (HA) on AHV














 

0 件のコメント:

コメントを投稿