2020年9月1日火曜日

AOS5.18の新機能(その2):ストレージ容量の表示改善

AOS5.18からストレージの空き容量や表示方法の変更が行われました。
今日は、新しく改善されたストレージサマリーの改善について紹介致します。


Prismのダッシュボード画面にあるストレージサマリー画面が、よりわかりやすくなりました。最も大きい点は、N+1やN+2の耐障害性を意識した際に、ダウンして良いノードの分のストレージの空き容量を保持しておく必要があります。
今までのPrismでの空き容量表示では、全体のキャパシティに対して80%や90%といった閾値をもとに黄色や赤色で表示されていましたが、実際のNutanixクラスターの構成台数によって、1ノード落ちた際にも問題なく稼動できるパーセンテージは変わってきます。

以下を例にして考えてみましょう。例えば3ノードで構成されたNutanixクラスターがあります。1ノード当たりRF2で20TBの容量を提供できるように構成されています。
この場合、Nutanixクラスターとして利用できるストレージ容量は60TBですが、1ノードの耐障害性に絶えられるためには、1ノード分を差し引く必要がありますので、以下の計算式の通り、40TBまでが利用できる容量となります。

全体ノード(3ノード:20TB×3) ー 耐障害性(1ノード:20TB×1) = 利用できる容量(40TB)

となります。この場合、ストレージ容量を割合で考えると、3ノードのクラスターなので1ノード当たりのストレージ提供容量は33.3333・・・%となります。1ノードの耐障害性に絶えるためには、3ノード中2ノードで稼動できる必要があるため、以下の計算式の通り、「100%ー(100%/3)=66.6666・・・%」となります。
すなわち、2台分まで利用可能なので66.6666・・・%までが利用が可能となります。
全体ノード数(3ノード:100%)ー耐障害性ノード(100%/全体ノード:3)=利用できるストレージ容量パーセント
つまり3ノードの場合における、ストレージの利用上限値は、この構成の場合、66%までが利用可能であり、67%を超える利用量の場合、1ノードの障害に耐えられないことになります。

▼3ノード時における1ノード障害について


一方で、これが4ノードになった場合は、上記の式に当てはめると1ノード当たり25%の割合になるため、1ノード障害時には、75%までストレージを利用することができます。

▼4ノードにおける1ノード障害について



つまり、従来までのストレージですと、90%までストレージを利用していると容量枯渇とか、80%超えたら追加を考えないとといった運用を行うことが出来ましたが、NutanixをはじめとするHCI製品は、ノード障害=ストレージの部分障害と考える必要があるため、ノード数に応じて、ストレージの何%までを使って良いかが変わってきます。
Nutanixにおいては、ストレージの空き容量がN+1に耐えられなくなった場合、Data Resiliency Statusが、Criticalに変わるため耐障害性がなくなったことを知ることが出来ますが、事前にどの容量まで使って良いかは把握しておく必要があります。
今回AOS5.18から、耐障害性を考慮した際にどこまでのストレージ容量を利用して良いかが閾値の表示が出るように改善されました。

▼Storage Summaryに閾値が表示されている


実際にPrismの画面では、StorageSummaryで、このクラスターで耐障害性(N+1)を保つために利用して良いストレージの容量はどこまでかと、閾値を基準にグラフの色が変わるように変更されました。
小さな変更点かも知れませんが、ストレージの使いすぎてしまい、ノードに障害が発生してしまった際にクラスターが一時的に停止してしまうような事故を、この機能により防ぐことが可能です。(もちろん利用者側の意識がないといけませんが)

このスクリーンショットの環境では、3ノードでN+1の構成で、ストレージの使用率は閾値に近い黄色で表示されています。この環境で1ノードを追加を行うと、両々の表示がグリーンに変わったことが分ります。4ノードにおいて1ノード障害が起きてもこの使用量であれば、問題が無いことがわかります。今までの全体容量に対する使用率%ではなく、ノード数に応じて、耐障害性を考慮した使用率表示に変わっていることがこのことから分ります。

▼同じストレージ利用率で4ノード時の表示

なおこのワーニングの設定値は、Storage Summaryのギアマークから変更することも出来ます。(これは、冗長化を加味した上での利用できる容量の75%となります)


また、View Detailsをクリックすると、実際にトータルのストレージ容量、現在利用している容量、耐障害性を考慮した際に利用できる容量をそれぞれ確認することが出来ます。



HCIにおいては従来のストレージと空き容量の考え方が考え方がすこし違うところがあります。この違いに気づきやすいようにAOS5.18のPrism空はこのように、ストレージの利用率についてわかりやすい表示で、運用におけるトラブルが発生しないように工夫がなされています。