インフラ屋とアプリ屋のあいだ: Nutanix AHVクラスターにおけるHAの挙動について

2025年12月20日土曜日

Nutanixクラスターで仮想化環境を作る場合、高可用性という観点でHA機能については、誰しもが利用する機能であると思います。

このHA機能は、各ハイパーバイザーソフトウェアによって異なります。NutanixにおけるHAの構成について簡単に紹介します。

HAの検出とその方法

3Tierの場合、

という3つの観点で、HAの発動トリガーがあるかと思います。

Nutanixの場合、ストレージパスと仮想マシンのサービスネットワークも同じイーサネットを利用する観点から、ネットワークの障害がノード間通信を妨げる障害となるため、HA発動のトリガーの1つとなる点をまず押えておく必要があります。

AHVにおけるHAのトリガー

がHAの対象となります。

libvirtdは、KVMを利用する際には、監視が必要なプロセスであると思いますが、それ以外にNutanixは、AHVとして独自の監視エージェントがHAの挙動を左右していることがわかります。

Acropolisリーダーが孤立や障害が発生した場合、クラスタ内の正常なホストから新しいAcropolisリーダーが選出されます。クラスタが分断された場合（例：Xノードが他のYノードと通信できない場合）、稼働状態を維持しクォーラムを維持しているクラスタのホスト分でVMが再起動されます。

HAが発動するタイミング

Libvirtd から切断された場合、そこから 40 秒でHA発動。
それ以外の場合は、60秒でHA発動。
（キープアライブタイムアウト期間20秒（4 * 5）とHAタイムアウト40秒を合計すると、最初のキープアライブの失敗から60秒になります。）

HAが、発動するとアラート「A1137」が発行されます。

こちらは、KB-10612を参考にすると良いと思います。

HA発動時の確認すべくログの場所

HAが発動した場合、AcropolisリーダーCVMの以下のログに記載されますので、障害調査の場合このログを参考にすると良いと考えられます。

/home/nutanix/data/logs/acropolis.out

AHV側のログは、以下の場所に保存されています。

/var/log/libvirt/libvirtd.log

Nutanixにおいて、HAが発動したりクラスターの動作の挙動がおかしくなる場合、大半ネットワーク周りの障害に起因していることが多いように感じています。

Nutanix CVM内では、定期的に他のホストやCVMに定期的にPINGを投げた結果をログとして保存しています。

/home/nutanix/data/logs/sysstats/ping_hosts.INFO

/home/nutanix/data/logs/sysstats/ping_gateway.INFO

のファイルで、ノードや各コンポーネントのログを確認すると、何らかの障害解消のヒントになる可能性があります。