インフラ屋とアプリ屋のあいだ: 2018

2018年12月25日火曜日

AHVのメンテナンスモードの紹介

この記事はNutanix Advent Calendar(1枚目) 2018/12/25の記事です

vSphere ESXiには、クラスターが組まれているホストのうち、メンテナンスを行いたいホストに対してメンテナンスモードというモードを設定することで、DRSによる仮想マシンのマイグレーションの抑制や、稼働中の仮想マシンを他のホストにマイグレーションする機能が存在ます。
AHVにおいても同様に、ホストのメンテナンスのためのメンテナンスモードが存在します。
今日はこのメンテナンスモードについて紹介いたします。

まず、メンテナンスモードの設定は、acliを利用します。
まず、メンテナンスをしたいホストの上にあるCVMにSSHでログインします。

まずは、メンテナンスモードにしたいホストが、メンテナンスモードに移行できる状況かを確認します。

host.enter_maintenance_mode_check 192.168.XX.XXX

コマンドの後ろには、メンテナンスモードにしたいホストのIPを入力します。

以下の結果が出てくれば、問題なくメンテナンスモードに移行できます。

"Ok to enter maintenance mode."

では、実際にメンテナンスモードにしてみましょう。

host.enter_maintenance_mode 192.168.XX.XXX mode=live

このコマンドの実行後、「EnterMaintenanceMode: pending」が表示されますが、これは仮想マシンをライブマイグレーションして他のホストに移行中です。
Prismでタスクを確認すると、メンテナンスモードに移行中であることがわかります。

最終的にCompleteの結果が表示されます。

EnterMaintenanceMode: complete

試しに、メンテナンスモードにしたAHVにSSHでログインし、稼働している仮想マシンの状況を確認してみます。

[root@NX-AHV-1 ~]# virsh list
Id Name State
----------------------------------------------------
28 NTNX-NX-AHV-1-CVM running

CVM以外の仮想マシンが、いないことがわかります。

では、ホストがメンテナンスモードになっているかどうかを確認するコマンドも紹介しておきます。

host.list

以下のような一覧が表示されます。

Hypervisor address Host UUID Schedulable Hypervisor Type Hypervisor Name
192.168.XX.XXX 003dc913-XXX.. False kKvm AHV
192.168.XX.YYY 349bfb31-YYY.. True kKvm AHV
192.168.XX.ZZZ 2e5422d5-ZZZ.. True kKvm AHV

メンテナンスモードにしたホストは、SchedulableがFalseになっていることがわかります。

では、このメンテナンスモードにするコマンドのパラメーターを紹介します。

mode

メンテナンスモードにするホスト上にいる仮想マシンのマイグレーション方法について指定します。'live', 'cold', 'power_off'から選択できます。デフォルトはliveです。

non_migratable_vm_action

マイグレーションができない仮想マシンが存在した場合にどのようなアクションをするかの指定を行います。'block', 'acpi_shutdown'から選択し、デフォルトはblockです、

wait

メンテナンスモードに設定した際に、ライブマイグレーションを行うまで、待つかどうかを指定します。trueかfalseで指定し、デフォルトはtrueです。

ここまでくれば、あとは、CVMをシャットダウンし、AHVホストをシャットダウンすれば終わりです。

まずはCVMのシャットダウンは、メンテナンスを行いたいホストの上に存在するCVMにSSHでログインし、以下のコマンドを実行します。

cvm_shutdown -P now

CVMがシャットダウンしたかどうかは、メンテナンスしたいホストのAHVにSSHでログインし、以下のコマンドを実行し確認します。

virsh list --all

仮想マシンのリストが表示され、CVMの仮想マシンが「shut off」になっていれば、CVMはシャットダウンされています。

Id Name State
----------------------------------------------------
- NTNX-NX-AHV-1-CVM shut off

なお、メンテナンスモードになった子を確認するには、acliから以下のコマンドを実行します。

これで、CVMのシャットダウンは終わりました。
では、次にAHVホストをシャットダウンします。
ホストのシャットダウンは、メンテナンスしたいホストのAHVにSSHで接続し、以下のコマンドを実行します。

shutdown -h now

これで、ホストもシャットダウンされます。

では、メンテナンス完了後の作業についても紹介しておきます。
AHVホストを起動すると、自動的にCVMも起動します。
CVMが起動し、クラスターメンバーに復帰するまで、待ちます。
なお、クラスターに復帰したかどうかを確認するには、クラスターの任意のCVMにログインし、以下のコマンドを実行します。

cluster status

以下のような形で、CVMが起動していない場合、Downと表示されます。
正しく起動している場合、Upと表示され、起動しているプロセスが表示されます。

2018-12-24 09:04:55 INFO zookeeper_session.py:113 cluster is attempting to connect to Zookeeper
2018-12-24 09:04:55 INFO cluster:2634 Executing action status on SVMs 192.168.XX.XXX,192.168.XX.YYY,192.168.XX.ZZZ
The state of the cluster: start
Lockdown mode: Disabled

CVM: 192.168.XX.XXX Down

CVM: 192.168.XX.YYY Up, ZeusLeader
Zeus UP [6572, 6602, 6603, 6604, 6652, 6670]
Scavenger UP [7504, 7533, 7534, 7535]
SSLTerminator UP [9725, 9766, 9767, 9768]
SecureFileSync UP [9729, 9785, 9786, 9787]
Medusa UP [9958, 9996, 9997, 10002, 10558]
DynamicRingChanger UP [10816, 10867, 10868, 10953]
Pithos UP [10820, 10883, 10884, 10935]
Mantle UP [10824, 10932, 10933, 10971]
Hera UP [10844, 10929, 10930, 12192]
Stargate UP [11115, 11144, 11145, 11146, 11147]
InsightsDB UP [11382, 11416, 11417, 11488]
InsightsDataTransfer UP [11386, 11477, 11478, 11518, 11520, 11522, 11523]
Ergon UP [11397, 11457, 11458, 11459]
Cerebro UP [11425, 11524, 11525, 11650]
・・・

メンテナンスしたホストのCVMがDownからUpに変わるまで、待ちましょう。

では、最後にメンテナンスモードになっていたホストに、メンテナンスモード解除のコマンドを実行します。こちらは、任意のCVMから、acliで以下のように実行します。

host.exit_maiuntenance_mode 192.168.XX.XXX

最後にきちんとメンテナンスモードから抜け出せたかを確認しておきましょう。

host.list

Schedulableが、Trueになっていることを確認します。

Hypervisor address Host UUID Schedulable Hypervisor Type Hypervisor Name
192.168.XX.XXX 003dc913-XXX.. True kKvm AHV
192.168.XX.YYY 349bfb31-YYY.. True kKvm AHV
192.168.XX.ZZZ 2e5422d5-ZZZ.. True kKvm AHV

きちんとTrueになっているので、メンテナンスモードは解除されています。

以上で、ホストメンテナンス時のメンテナンスモード設定と解除方法になります。

なお、AOS5.10.0.1+AHV20170830.184の環境においては、ホストの再起動はPrism画面から行うことができます。

しかし、クラスターを停止せずに一部のホストをメンテナンスする場合（例えばメモリー増設）は、今回ご紹介したようにメンテナンスしたいホストをメンテナンスモードに移行してシャットダウン後に作業を行うことで、クラスターは活性のままででのメンテナンス作業を行うことができます。

なお、この記事を書いた後に、@gowatanaさんの記事と一部内容が重複していたことに気づきましたが、ここまで書いたので予定通り公開いたします。
※私の検証している環境は、純正のNX環境（商用版）で行っておりますが、AHVの手順等はCEでも商用版でもオペレーションに基本的に違いはありません。
なお、@gowatanaさんの記事はこちらですので、あわせてご覧ください。
Nutanix AHV のメンテナンスモード。

さて、今年も無事にクリスマスを迎えることができました。
来年はもっとAdvent Calendarに参加する人が増えると嬉しいなと思っています。
（でないと、負担が...）

では、皆様よい年末をお過ごしください。

2018年12月24日月曜日

Nutanixの様々な自動通知機能を紹介

この記事はNutanix Advent Calendar(1枚目) 2018/12/24の記事です

Nutanixには、障害通知などを通知する機能を標準で搭載しています。
また、リモートサポートを迅速に行う機能も搭載されています。
今まで各機能紹介や名称は、時折簡単に紹介をしておりましたが、今一歩深くご紹介をしたことがありませんでしたので、今回はこれら機能について紹介いたします。

まず、Nutanixには２つの通知機能があります。

Pulse

パルスと読みます。Nutanix Pulseは、診断システム（NCC）のデータをNutanixサポートチームに提供します。Pulseは、システムのパフォーマンスに影響を与えることないように設計されており、自動的にこの情報を収集します。（オフにすることもできます）
Pulseは、Nutanixクラスタの正常性と状態を監視するために必要な基本的なシステムレベルの情報のみを共有します。IPアドレスや各種アカウント情報は、送信されません。
送られた情報をもとに、サポートが対応するため、サポート連絡時にAOSのバージョンやハイパーバイザーのバージョンなどを毎回ヒアリングされることなく、そのままサポート業務に入ることができるため、迅速なサポートを受けるためにも一役を買っています。

Pulseの設定画面
（Pulse自信をオフにすることも可能ですし、送信する情報を制限することも可能）

Alert

アラートはNutanixにイベントの種類、問題イベントの説明（たとえば、電源切断）を識別するいくつかの変数を含むアラートイベントの基本情報を送信します。アラートには、クラスターID、NOS / AOSのバージョン、およびコントローラーVMのIPアドレスも送信されます。
なお、AlertをNutanixサポートに送信する設定をした際、重要なエラーに関してはNutanixから自動的にCase（サポートインシデント）が発行され、サポートから連絡が来る仕組みになっております。

Alertの設定画面
（アラート情報をNutanixサポートには送らず、自社のみにメールで通知させることも可能）

ドキュメントによっては、Pulseが障害情報を通知するものと記載されているものがありますが、実際には、Pulseは統計・環境情報しか送信されず、実際の障害等が発生した際の通知は、Alertの設定をしておかなければなりません。

また、Nutanixの障害時に迅速な対応をするために、Nutanixサポートが遠隔操作をするための機能があります。

RemoteSupport

Nutanixのサポートが直接CVMにアクセスできるようにするための機能です。
通常は無効になっており、ユーザー側で有効にしない限り自動的に有効になることはない。なお、有効にした場合、有効期限時間を設定する必要があり、その期限を過ぎると自動的にRemoteSupport機能はオフとなります。

RemoteSupportにおいては、日本ではWebEXを利用したメンテナンスを行う方法が多くこのRemoteSupport機能は利用されている話をあまり聞きませんが、機能としては実装済みであり、日本国内であってももちろん利用可能です。
また、セキュリティに配慮し、ユーザー側でオンにしないと有効にならず、自動的にオフになるというところは、ユーザーのセキュリティ意識に配慮された設計と考えられます。

では、これらの通信環境について見ていきましょう。
まず、PulseもAlertも原則CVMがインターネットに接続されている必要があります。

では、各機能におけるNutanixへの通信を見ていきます。

この図を見るとわかる通り、まずCVMがインターネットに接続されていることが前提となります。インターネットに接続できない場合は、AlertとPulse機能は、SMTPサーバーを指定することにより、サポート情報を送付することができます。

SMTPサーバーの設定
（SMTPの通信モードはPlainのほかにSTARTTLSとSSLに対応）

ここで1つ注意事項があります。
insightsは、HTTPSの通信のため、UTMやFirewallからは、443/TCPの解放だけで構いませんが、nsc01とnsc02の通信は、80/TCPと記載がありますが、これはHTTP通信ではなく、SSH通信となります。
そのため、UTMやFirewallで、80/TCPや8443/TCPを開放することが必要ですが、WebフィルターやIPS機能などが有効になっていると、SSH通信をブロックされる可能性があります。そのため、UTM装置がインターネット接続の間に設置されている場合は、このnsc01とnsc02の通信に関しては、WebフィルターやIPS機能をオフにしておくことが重要です。

接続される先はわずか3サイトだけで完了しますので、Firewall等のゲートウェイ装置の設定変更箇所はわずかではありますが、Nutanix設置後は忘れずに、PulseやAlertの設定と通信確立ができているかを確認しましょう。

PulseやAlertの詳細は以下の情報が参考になるかと思います。
（Support Portalにアクセスできる環境が必要です）

Nutanix Support Services: Pulse and Alerts
https://portal.nutanix.com/kb/2595

Information collected by Pulse.
https://portal.nutanix.com/kb/2232

Which Alerts Automatically Generate a Support Case with Nutanix Support?
https://portal.nutanix.com/kb/1959

クリスマスまであと1日、明日も私が担当です...。

2018年12月17日月曜日

PrismCentalの使いどころ（その12）ダッシュボードを自分で作成する

この記事はNutanix Advent Calendar(1枚目) 2018 12/17の記事です

PrismCentralを一番最初に開くと表示されるダッシュボード。
このダッシュボードは、PrismProライセンスを保有している場合、自分流のダッシュボードを複数作成したり、既存ダッシュボードにウィジェットを追加することができます。

では、実際に自分流のダッシュボードを作成してみましょう。
まずは、「Manage Dashboards」をクリックします。

現在はDash Boardsがデフォルトしかありませんので、「New Dashboard」で追加します。

そのまま、ダッシュボードに名前を入れてSaveをクリックします。

新規で作成されたダッシュボードは何もウィジェットが入っておりませんので、「Add Widgets」をクリックし、ウィジェットを追加します。

画面左側に、登録できるウィジェットが表示されます。
真ん中にはウィジェットのプレビュー、右側には、CUSTOME WIDGETを選択した場合、表示をフィルターしたい内容をフィルター可能です。

ウィジェットで登録できる内容は以下の通りです。

CUSTOM WIDGETS

Custom Alerts Widget

Top Lists Widget

Custom Chart Widget

Cluster Info Widget

CLUSTER WIDGETS

Cluster CPU Usage

Cluster Latency

Cluster Memory Usage

Cluster Quick Access

Cluster Runway

Cluster Storage

Controller IOPS

Impacted Cluster

VM Efficiency

Performance

Tasks

reports

APP WIDGETS

Deployed Applications

ウィジェットを登録して、右上の×もしくは、右下の「Or, Add & Return to Dashboard」をクリックすることで、作成したダッシュボードが表示されます。

作成したダッシュボードに配置されているウィジェットは、マウスのドラック＆ドロップで自由に位置を変更できます。

仮想マシン個別のパフォーマンスなどチャートの情報を出すことはできませんので、あくまでもダッシュボードレベルとはなりますが、ウィジェットのリンクからダイレクトにそのオブジェクトにアクセスできますので、上手に活用するとメニュー操作なしに簡単に欲しい情報までアクセスができるようになります。

明日は、NutanixのOEMであるDell XCの情報をたくさんお持ち（私も色々教えてもらっています）の@makotoさんです！

2018年12月11日火曜日

Nutanixの新しい試験体系2018年版をあらためて確認

この記事はNutanix Advent Calendar(2枚目) 2018 12/11の記事です

※この記事は2018年現在の資格制度情報です。2020年～2021年の資格制度は、「2020年（2021年度版）Nutanix資格試験制度について」を御確認ください。

Nutanixの試験制度は、昔からあったのですがこの２０１８年に試験内容や試験名称などが大きく変わりました。
今回は、この試験の名称やそのカバレッジ範囲、受験対象者などの情報をみていきたいと思います。

まずは、エンジニア向けにオープンな資格です。

NCP(Nutanix Certified Professional)
Nutanixのコアコンポーネントの理解を問われる内容が中心に出てくるNutanixの登竜門的な資格です。VMware Certified Professional（VCP）のように、Nutanixを使うにあったってい理解しておくべきことを問われる問題が多数出ます。
試験は全てオンラインで行われます。（全て英語）
２０１９年１月末までは、１回まで無償で受験することができます。

NCAP(Nutanix Advanced Certified Profesional)
NCPのさらに上の問題。メトロアベイラビリティなど、高度な機能が多く問題に出題される傾向です。また、実際の運用をベースにして、最適解を求められるような問題も出題されるため、ただの技術というよりかは、実践のスキルが必要となります。
試験は全てオンラインで行われます。（全て英語）
NCAPは、まだ正式リリースされていないため現在は受験することはできません。

NPX(Nutanix Platform Expert)
エンジニア系における最高峰の試験。
NPXトレーニングは全て英語で、かつ、試験官からのお題に対してプレゼンをする必要があるなどかなりハードルが高い試験内容です。試験官の当たり外れもあるように思いますが、英語でのプレゼントなるため日本人にとってハードルは高いものになります。

NCP→NCAP→NPXは、Nutanixのパートナーの有無に関係なく受験ができる試験となります。

これ以下は、Nutanixのパートナー向けつまり、Nutanix Partner Network（NPN）に提供される試験体系です。
まずは、エンジニア向けからです。

NCSE(Nutanix Certified Systems Engineer) Level.1
Nutanixを販売するSE、つまり、セールスエンジニアやプリセースルエンジニア向けに提供される試験です。オンラインのビデオとそれに付随した内容が約６０問の試験になって出てきます、昔はNSESと呼ばれていたレンジにものになるが、問題はセールスにおけるテクノロジーの紹介が中心となっています。

NCSE(Nutanix Certified Systems Engineer) Level.2
まだリリースされていないため、全容は不明ですが、おそらくNCSE Level.1の次のステップに当たると思います。

NPNパートナーSE向けの試験は現在、NCSE Level.1しか提供されていません。

次に、コンサルティングパートナー向けのものを紹介します。

NCPI
こちらは、試験というよりもトレーニングを受講することで取得できる資格です。
Foundationの実施による初期キッティングから、vCenter ServerやSCVMMの基本的な設定のお作法を中心に学習するコースです。

CCIC (Core Competency Install & Config)
CCICは、Nutanixパートナーがオンラインで学習できるトレーニングになります。
ラッキングや初期の設定方法などNCPIの内容と合わせて学習することで導入に関する内容が主となります。トレーニングは２日間です。

NCS(Nutanix Consulting Specialist )
Nutanixコンサルティングスペシャリストとしてのデプロイメントやマイグレーションなどを学習するトレーニングです。トレーニングは４日間で、このトレーニングとテストを受けることで、NCSの認定を受けることができます。

では次にパートナー向けの営業向けトレーニングをご紹介します。

NCSR(Nutanix Certified Sales Representative) Level.1〜3
Nutanixの営業向けのトレーニングです。販売の仕方（構成）や事例などを学び、Nutanixの基本を語ることができるスキルを身につけることができます。

NCSX(Nutanix Certified Sales Expert)
営業のスペシャリスト向けの問題です。現在受験できるかは不明...

業種別に簡単にまとめると以下のようになります。

エンジニアリングが伴うものは、どの業種であっても、NCPが必要になります。
最後にNPXが関わってくるもつらいのですが、そういう流れのようです。
コンサルタントをやりながら、エンジニアリングをするのであれば、NCAPも状況によって必要になってくるでしょう。
こう考えると、トレーニングや試験制度は充実していますが、上を極めるにはかなりハードルが高くなっていることも事実です。
Nutanixの販売パートナーであるNPNは、このルールに準じて、パートナーレベルに応じた必要なトレーニングや資格を取得する必要があります。

明日は、私の指導者でもある@gowatanaさんです。

2018年12月10日月曜日

PrismCentalの使いどころ（その12） PrismCentral 5.10のメニューを確認する

この記事はNutanix Advent Calendar(1枚目) 2018 12/10の記事です

PrismCentralを紹介して数ヶ月がたちましたが、11月末にPrismCentral 5.10がリリースされました。
このPrismCentral 5.10は、画面が大幅に変わっています。

新しくなった画面をご紹介します。

まず、いままでは、「ホーム」「探索」「計画」「分析」「Calm」「アラート」という項目でいました。
仮想マシンのオペレーションやクラスターの情報、レポート作成など大半のオペレーションは「探索」（Explore）から行っていましたが、この探索メニューがそもそもなくなりました。

では、新しいメニューを見てみましょう。

まず大きな変更としてメニュー画面が、横から縦に変わりました。
ここから大きな変更なのですが、カテゴリも大きく変わっています。

探索メニューにあった物は、かなり細かく分散されて、再カテゴリ化されています。
では、まず仮想インフラから見てみましょう。

■仮想インフラメニュー

ここでは、仮想マシンを始め、ストレージコンテナやイメージサービスの設定が可能です。回復可能なエンティティは、どうやらXi Leapもしくは、PlayBook機能と連携して使うようです。
カテゴリは、Flowで利用していたカテゴリがこちらに動いています。今後はFlow以外でもこのカテゴリは利用される可能性が高いです。

■ポリシー

ポリシーは様々なポリシー周りが全部まとまっています。
セキュリティーポリシーはFlowで利用、保護ポリシーとリカバリープランは新たに機能追加されたXi LeapとNutanixでのRunBookによるDR構築時に利用するようです。
NGTポリシーはPrismCentral 5.9であたらに追加されたNGTのオートインストールと再起動のスケジュール設定ポリシーが作成できます。

■ハードウェア

ハードウェアの項目は今までの探索にあったハードウェアの項目が集まっているだけです。クラスターやホスト、ディスクにvGPUも見ることができます。

■アクティビティ

アクティビティは、アラートやタスクなど、障害発生時やそのほかクラスターの挙動を見る際に利用する物が集まったメニューとなっています。

■オペレーション

オペレーションは、分析（チャート画面）、計画は、今までの計画タブのシナリオ、計画はランウェイの画面に行くことができます。レポートは今まで、探索のレポートメニューがこちらに動いています。

■管理

こちらは、主にSelfServicePortalで利用する、プロジェクトやロール、ユーザーの設定ができます。アベイラビリティゾーンは、SelfServicePortalと異なり、Xi LeapなどでDRを設定する際にゾーン設定を行う画面です。

■サービス

サービスが、Nutanixの機能であるCalmとKarbonのメニューがこちらにまとめられました。Karbonは、PrismCentralの別ポートで別画面が稼働しており、実質的にはこのPrismCentralの画面に完全にインプリメントされているわけではありません。

今日は、PrismCentral 5.10の画面についてみていきました。
画面が変わって、あれっと思ってもメニューの構造だけをもう一度把握すれば、今までのスキルはそのまま活用可能ですから、恐れることなく、使っていきましょう。

明日は、Nutanix Technology Championで、私もお世話になっている@hiroito1118さんです！

2018年12月8日土曜日

Nutanixの製品群をおさらい

この記事はNutanix Advent Calendar(2枚目) 2018 12/8の記事です

Nutanixといえば、HCIの会社というイメージが強いかもしれません。Nutanixは、たしかにHCIを作った会社ではありますが、HCIはNutanixのコンセプトであるインビジブルインフラストラクチャーを実現する一つの手段に過ぎません。

エンドユーザーが欲しいものは、高速なストレージでも、ハイパフォーマンスなサーバーでもない。アプリケーションを満足に使える環境がほしいだけ。Nutanixは、そんなエンドユーザーの本来の目的のために、インフラを気にせず、アプリケーションに集中できる環境を提供したいというコンセプトからできています。これをインビジブルインフラストラクチャーという言葉で表現しています。

Nutanixは、オンプレミスを中心に今までは展開してきましたが、昨今様々な製品が増えており、あまりなじみのない名前の製品も耳にすることが増えてきました。

今日は最近お目見えした製品の名称とどんな製品なのかを簡単にまとめてみましょう。

Acropolis HCI Plarform

皆さんご存じのHCIのNutanixです。
Nutanixと表現する場合これを指すことが多い。

AHV

Nutanixが提供するKVMをベースとしたハイパーバイザー。
このハイパーバイザーは原則Nutanix HCI Platformの上のみで動作します。（AHV単体での利用はできません）
なお、昔はAcropolis Hypervisorとよばれていましたが、2017年よりAHVが正しい読み方となる。

Nutanix Files

Nutanixが提供する無停止拡張に対応したファイルサーバー。
CIFS3.0の他にNFSにも対応しする。Nutanix HCI Platform上でのみ動作する。
なおハイパーバイザーは、AHVとvSphere ESXiに対応。

Nutanix Volumes

昔は、Acropolis Block Servicesと呼ばれていた機能。
Nutanix HCI Platform上で提供される、Nutanixのストレージの一部をNutanixの外部にあるサーバーにiSCSIでディスクボリュームを提供する機能。

Nutanix Buckets

Nutanix HCI Platform上で提供される、S3互換のオブジェクトストレージ機能。
今日現在まだリリースされていないがまもなくリリース開始の見込み

Flow

Nutanix HCI PlatformとAHV上で動作する、仮想マシン単位でのファイアーウォール機能を提供する。Flowライセンスを別途手配する必要がある。なお、画面オペレーションはPrism Centralを利用する。

Calm

仮想マシンのデプロイメントを自動化するオートメーションツール。
PrismCentralでオペレーション画面が提供される。Calmのラインセンスは展開される仮想マシン台数によってきます。25VMまで無償で利用できる。

Era

Databaseのコピーマネージメントツール。
初期バージョンはOracleとPostgreSQLの自動展開、自動バックアップの取得、スナップショットによるクローンDB作成など、DBにおける構築と運用作業をGUIで大幅に楽にすることができるDB管理ソフトウェア。AWSでいう、RDSに近い機能を提供。

Karbon

kubernetesの自動展開や運用機能をサポートする。
PrismCentralからUIが提供される。

Nutanix Xi

Nutanixが提供するクラウドサービスの総称。

Xi Beam

マルチクラウドの管理、セキュリティポリシーの監査、コスト試算などを行う、クラウドマネージメントツール

Xi Epoch

マルチクラウドにおけるネットワーク通信を可視化するツール。
マイクロサービスの通信やL7レベルのエラーを可視化することで、ネットワークトラブル時の解決を早めることが可能になる。

Xi Frame

Nutanixが提供するDaaSサービス。
クライアントは、WebブラウザでH264エンコードで画面転送される。
なお、VDIインスタンスは、GCPかAzureが選択可能。

Xi IoT

昔はProject Sherlockといわれていた。IoTセンサーデバイスからの送られてくる情報を、処理・精査し適切なところにデーターを保存させるセンサーゲートウェイの機能をもつ。
IoTセンサーから送られたデーターにAIの処理を挟ませたり、顔識別をさせたりなどの、各種処理をプログラムベースで埋め込むことが可能。

Xi Leap

Nutanix HCI Platformで稼働している仮想マシンを、クラウド上でDRできるサービス。

なんだか、覚えにくかったり製品名からイメージしづらい物もありますが、あれなんだっけ？と思ったら是非このページをもう一度見直してみてください。

明日は、私がいつもお世話になっている@hanakara_milkさんの投稿です！

2018年12月3日月曜日

Nutanixにかんするウワサを検証その５

この記事はNutanix Advent Calendar(1枚目) 2018/12/1の記事です

今回はNutanixに関する、ちまたで流れているウワサとその答えを紹介していきたいとおもいます。

ウワサ１

Nutanixは、RF3（データー三重書き込み）でないと、データーロストする可能性が高い

真相

ウソ

はっきりいって、全くのデタラメです。
Nutanixは、データーを二重書きするRF2が標準で、５ノード以上ある場合はRF3で構成することができます。
Nutanixは、ストレージの機能がかなり強いことで有名です。Nutanixのコア機能はストレージ機能と言ってもよいかもしれません。
スケジュール設定ができるストレージスナップショットの機能やレプリケーションは、高度なストレージ機能であることを象徴しています。
Nutanixは、パフォーマンスよりもデーターの保全性を大事にする作りになっており、データーロストはそう簡単に起きるような物ではありません。

ウワサ２

Nutanixは、AHV以外のハイパーバイザーは動作しない

真相

ウソ

これもウソでしかない話ですね。
Nutanixは、AHVはもちろんですが、vSphereやHyper-V、Citrix Hypervisorに対応しています。これはユーザーさんに使い慣れたハイパーバイザーをそのまま使っていただき、Nutanixの良さに触れていただくという、選択の自由というコンセプトから来ています。
好きなハイパーバイザーを選べるのがNutanixのメリットであり、これを制限するとNutanixのコンセプトから外れてしまいます。

ウワサ３

Nutanixは、ソフトウェアなのでストレージの信頼性が低い

真相

ウソ

これは、もはや昨今のストレージ事情を知らないとしか言えないウワサです。
昨今はネットワークなどを含めSDx（ソフトウェア定義）が非常に流行っています。
そもそもストレージ専業メーカーのストレージコントローラーも、IntelCPUが搭載されており、Linuxの上で動いている物も多くあります。
つまり、最近のストレージはソフトウェアで動いています。
コントローラーが別のハードウェア筐体になっているか、仮想アプライアンスで動いているかの違い程度でしかないでしょう。
信頼性は、ソフトウェアだから低いというのは、昨今のストレージの構造を考えると理屈的に間違っていることがわかります。

ウワサ４

Nutanixのワンクリックアップグレードは高い確率で失敗する

真相

ウソ

アップグレードに対するプロセスは、確実に失敗しませんとは言えませんが、失敗はかなり少ないです。それには理由があります。
アップグレード前に、アップグレードができる状態かを確認するPreUpgrade処理が行われ、アップグレード処理ができるかを確認しています。
このプロセスが通過できない場合そもそもアップグレードはできません。
そのため、アップグレードに失敗してクラスターが停止するといったことは起きません。

ウワサ５

AHVは、信頼性が低く本番用途では、使い物にならない

真相

ウソ

AHVは、KVMをベースにしていますが、ライブマイグレーションはもちろん、HAの機能や仮想マシンのリソースを平準化するADSという機能を搭載しており、エンタープライズな環境でも十分に利用できるハイパーバイザーです。
AHVについては、こちらを見ていただくと参考になるとおもいます。
なおAHVは、公共や医療、製造業など様々な業種で利用されており、その信頼性の高さはこの実績からもわかるかとおもいます。

今回も５つのウワサを解説しました。
新しい製品となるとどうしても根も葉もないウワサが飛び交う物ですが、正しい情報を入れることが大切ですね。

2018年12月1日土曜日

AOSアップグレード前に/home/nutanixをチェックする

この記事はNutanix Advent Calendar(1枚目) 2018/12/1の記事です

AOS5.10がLTSバージョンとして、11月末にリリースされました。
年末が近いこともあり、年末年始でインフラ周りのメンテナンスの際に、AOSアップグレード行う方も多くいるかと思います。
まあ、そもそもAOSはシステム稼働中であったとしても安全にシステムを止めることなくアップグレードすることができます（業務がフル稼働中にあまりやる作業ではありませんが）ので、そんなにかしこまってやる作業ではないのですが、従来のシステムメンテナンス形態を取られているデーターセンター等では、今までのルールに則り、業務外の時間にメンテナンス時間を作成し作業をされる方が多いと思います。

さて、AOSのアップグレード時に注意する事項が一つあります。
それは、「/home/nutanix」の容量枯渇です

Nutanixを長く利用していますと、いろいろな物がたまってくることと、AOSバイナリは今は4GBを超える大きな容量であるため、AOSアップグレード前チェックで/home/nutanixの容量不足でアップデートが失敗することがあります。

（参考）/home/nutanixの容量が枯渇すると、OneClickUpgradeに失敗します

この際にお掃除するべきは、/home/nutanixです。

まずは、消費しているディレクトリを確認します。
SSHでCVMにログインします。

まずは、使用容量を確認します。

nutanix@NTNX-1-B-CVM:X.X.X.X:~$ df -h
Filesystem      Size Used Avail Use% Mounted on
/dev/md0        9.8G 6.0G 3.3G 65% /
devtmpfs         16G     0   16G   0% /dev
tmpfs           512M 4.0K 512M   1% /dev/shm
tmpfs            16G 640K   16G   1% /run
tmpfs            16G     0   16G   0% /sys/fs/cgroup
/dev/loop0      240M 3.1M 221M   2% /tmp
/dev/md2         40G   24G   15G 62% /home
/dev/sdb4       600G   82G 513G 14% /home/nutanix/data/stargate-storage/disks/BTHC6490032S800NGN
/dev/sda4       600G   82G 513G 14% /home/nutanix/data/stargate-storage/disks/BTHC648105XJ800NGN
/dev/sdc1       660G   85G 568G 13% /home/nutanix/data/stargate-storage/disks/BTHC64810ABU800NGN
tmpfs           3.2G     0 3.2G   0% /run/user/1000

この環境では、/home/nutanixが、62%の使用率ということでまだ余裕ですが、実際の環境では長く使っていると90%を超えていることもよくあります。

この際のお掃除をすべきディレクトリは以下のディレクトリ配下です

/home/nutanix/data/cores/
/home/nutanix/data/binary_logs/
/home/nutanix/data/installer/
/home/nutanix/data/ncc/installer/
/home/nutanix/data/log_collector/
/home/nutanix/foundation/isos/
/home/nutanix/foundation/tmp/

ここで、注意が必要です。
まず、これらはこのディレクトリ配下のファイルやディレクトリを消す必要があります。
このディレクトリを直接消してはいけません。

「/home/nutanix/data/installer」は、現在インストール使用としているAOS5.6バージョンのバイナリ以外を消す必要があります。

「/home/nutanix/foundation/isos/」は、使っていないハイパーバイザーのバイナリだけを消してください。

なお、「df -h」で見ていると「/home/nutanix/software_downloads/」も容量
を多く使ってくる一覧で上がってきますが、こちらは、OneClickUpgradeの画面で管理されている関係から、直接ファイルを消すことは禁止されています。

またこのディレクトリ配下のファイルもお掃除対象です

/home/nutanix/data/binary_logs/*
/home/nutanix/data/cores/*

こちらは、このディレクトリ配下のディレクトリは削除せず（当然このディレクトリも削除してはいけません）にファイルだけを消す形になります。

なお、CVMはノードの数だけありますが「allssh」でrmコマンドを実行すると、がっさりきえてしまいますので、面倒かもしれませんが、1台ずつ確認しながらファイルを消すことをおすすめします。

詳細は以下のKBを参考にしてください。
http://portal.nutanix.com/kb/1540

2018年9月27日木曜日

PrismCentalの使いどころ（その11）無駄なリソース足りないリソースの仮想マシンを見つける

※この機能はPrismProのライセンスが必要な機能の紹介です。
（PrismCentralは展開後60日間PrismProの機能を体験利用できます）

前回は、リソースの枯渇がいつおきるかをX-Fitによる機械学習のデーターをもとに表示されるグラフの見方を確認しました。
枯渇するリソースに対するアプローチはノードを足すことによるリソース追加が最も簡単ですがコストもかかる話になりますので、今使っている無駄なリソースを回収することによって既存リソースをうまく使いまわすこともアプローチの1つです。
今回は、リソース回収に当たって、度の仮想マシンからリソース回収を行えばよいかを確認する方法を紹介します。

まずは、PrismCentralで「Paln（計画）」から「容量のランウェイ」を選択し、表示したいNutanixクラスターを選択します。
ランウェイグラフが表示されたら、画面左中央にある「リソースの最適化」をクリックします。

そうすると、リソースの無駄遣いもしくはリソース不足な仮想マシンのサマリーが表示されます。

この表示では、

左上・13の仮想マシンがリソースを割り当てすぎ
左下・5台の仮想マシンがリソース不足
右上・1台の仮想マシンは利用されていない
右下・0台のノイジーネーバー（ホストリソースの独り占め）

が存在していることを表しています。

ここで各数量が書かれているところをクリックすると、探索（Explore）画面で、対象の仮想マシンだけがフィルターされ、仮想マシンのリソースに対するアドバイスが表示されます。

ただしすべてのアドバイスコメントが表示されておらず、マウスポインターをあてると表示されるのですが、この状態でアドバイスコメントをすべて読むのはあまり効率が良いとはいえません。

そのため、「レポートを取得」リンクをクリックし、対象の仮想マシン情報がまとまったレポートをもとに確認をしていきましょう。

リソース最適化の画面から「レポートを取得」をクリックします。
するとレポートインスタンス作成画面が出てきます。
レポートインスタンス名はこの帳票の名称を自分でつける場合に入力します。
わかりやすく管理する場合は日付と時間を記入するなどして管理してもよいかと思います。レポートをメールで送る場合は、メールアドレスを記載します。

実行を押すと以下のようなレポートの画面が表示されます。
メールで送信をしない場合このレポート画面からレポートを取得することができます。

レポート一覧から出力したレポートを取得します。

レポートは、PrismCentralに登録されているクラスター全部の内容がレポートで出力されます。各Nutanixクラスターごとにグルーピングされていますので、リソースの整理をした目的のクラスターのページに行きます。

レポートはサマリー情報はキャパシティランウェイのグラフも表示されています。

レポートはこの先にある各リストの項目がリソースの調整事項となります。

List of Inactive VMs
利用されていないと思われる仮想マシン一覧が表示されます。
これらの仮想マシンを削除することで回収できるストレージ容量が表示されてます。

この例では、21日間「Win10 1803 Template」はリソースをほぼ使っていなかったという記載があります。まあテンプレートと書いているので当たり前ではありますが...。

List of Overprovisioned VMs
必要なリソースに対して過剰なリソースを与えている仮想マシンの一覧が表示されます。
MEMORY GAINやSTORAGE GAINで回収できるリソースの具体的数値が表示されます。

こちらの例では「AFS-CLIENT01」は、21日の間、CPU平均利用率が2.36%で、メモリー平均利用率が30.69%だった。と記載があります。この仮想マシンは4vCPU、4GB RAMで構成しているのですが、そのうち3vCPU、2.47GB RAMを回収可能と言っています。

List of Constrained VMs
割り当てられたリソースが少ない、動作に制限が出ている仮想マシン一覧

こちらの例では「NTNX-afs01-1」が21日間にわたって平均メモリー使用率が100%であったと記載があります。つまり割り当てメモリーが不足しているということを表しています。

List of Bully VMs
他の仮想マシンに影響を及ぼしたりホストのリソースを占有するいわゆるノイジーネイバーな仮想マシンが表示されます。

このように見てると、無駄なリソースも回収できますし、仮想マシンに対してリソース割り当て不足なものに関しても発見することができますので、システムのスローダウンなどを引き起こす前に事前に対策を行うことも可能です。

今回の例では稼働時間が短いため、X-Fitによる学習時間がまだ短い状態ではありましたが、きちんと無駄と不足を提示してくれていました。

リソースの的確な利用においては、PrismCentralのX-Fitを使った各種機能を活用するのが最も効率的だと思います。

2018年9月26日水曜日

PrismCentalの使いどころ（その10）いつまで利用できるかのリソースを確認する

※この機能はPrismProのライセンスが必要な機能の紹介です。
（PrismCentralは展開後60日間PrismProの機能を体験利用できます）

Nutanixクラスターを使っていると、定期的に増えるファイルサーバーの容量や、業務システム追加による仮想マシンの追加など、一度動き出した仮想化基盤が、ずっと同じままのCPUやRAM,ストレージに容量が高知当時そのままの容量ということはまずありえません。
仮にAPサーバーだけでの運用であってもAPサーバーのログがたまって正しくrotateされていなければ、やはりストレージを消費することになります。

この調子で使い続けたら、いつCPUが枯渇するかやいつストレージの容量が足りなくなるかなどを推測するのがランウェイ機能です。
これを見ていくと、計画的にリソースの追加時期がわかりますので、あらかじめ予算申請などを行うのに最適です。

では実際のランウェイ画面を見ていきましょう。

まず、PrismCentralの「計画」メニューから「容量のランウェイ」を選択します。
PrismCentralに登録されたNutanixクラスターが表示されますので、リソースの状態を見たいクラスターをクリックします。
（ランウェイはNutanixクラスター単位の表示になります）

まず表示されるのは、ストレージのランウェイ（今と今後予測される利用状況）です。

右上のオレンジ色の文字列では、何日でリソースが枯渇するかが記載されています。
この環境では1年以上リソースは不足しないため「365+ days」と記載されています。
グラフは、現在地を基準に今後この調子で使っていくとどれくらいストレージが利用されていくかが、スナップショットやストレージ管理用のメタデーターを含め予測されたグラフが表示されています。
このNutanix環境は、Redundancy Factor2で構成していますので、N+1の原則に基づき、1ノードダウンしたときのストレージ容量として2.5TiB（有効容量）とN+1を無視した最大利用可能容量3.74TiBの表示があります。
実際の運用としては、2.5TiBを超えた時点で、N+1が担保できなくなりますので、早急にノード追加が必要となりますが、その予測を含めてこのグラフでいつノードを追加する必要があるかがわかります。
このストレージの情痴はストレージコンテナごとに確認することも可能です。

では次にCPUランウェイを見ていきましょう。

CPUも同じようにN+1とクラスター全体のCPU氏擁立に基づいたグラフが表示されます。ここでN+1の線を超えるグラフが1年以内に出てくる場合は、線に近づく前にノードの追加を検討する必要があります。（この環境ではまだまだ余裕ですね）

では最後にメモリーも見ていきましょう。

こちらも同じようにクラスター全体のメモリー利用状況をグラフで表しています。
この画面では徐々にではありますが、クラスターのメモリー利用率が上昇していますが、1年以内に枯渇することはないと思われます。
また、下側にはクラスター内で稼働する仮想マシンのメモリー使用容量と使用率が表示されています。

このようにグラフを見るだけで、リソースの枯渇状態がすぐにわかるのはメリットがあります。一方でリソースが不足することが見えるということは、リソースを追加しなければなりませんが、一方で既存で稼働している仮想マシンのリソースがそもそも適切なのかというのを見る必要があります。過剰にリソースを与えていることによってクラスター全体のリソースが少なくなっているが、実はその仮想マシンからリソースを回収することでリソース不足を回避することができる可能性もあります。

次回はリソース配分に関するアドバイスを見る方法を見ていきましょう。

2018年9月25日火曜日

PrismCentalの使いどころ（その９）現実に近い予測をするX-Fitを知る

※この機能はPrismProのライセンスが必要な機能の紹介です。
（PrismCentralは展開後60日間PrismProの機能を体験利用できます）

今まではPrismStarterで利用できる機能を中心に見てきましたが、今回はPrismProの肝でもあるPlan（計画）機能について見ていきます。

まずPlan機能において押さえておくべき機能がX-Fitです。
X-Fitは単純に言うとPrismCentarlに搭載されている機械学習の機能です。
今までのリソース管理とは、一般的に閾値を中心にした管理でしたが、閾値の設定は、それぞれの仮想マシンなどの監視対象の状態により異なり、その監視対象ごとにおけるフィットする閾値の設定というのは、閾値設定者の勘と経験がどうしても必要になります。
X-Fitは、仮想マシンやクラスター全体のCPUやRAMストレージなどを監視し、普段どのように動作しているかの"ふるまい"を観察(洞察)し、どのようにリソースが消費されていくかなどの状態から、未来の状況を予測したり、普段のふるまいから逸脱したものを見つけてアラートを出すような機能を持っています。

単純に言えば、普段からおりこうさんな仮想マシンが素行の悪い行為をしているのを見つけたら、即座にアラートがあがるようなもので、普段から素行が悪いものが、急に素行が良くなった場合もアラートが発動するといった感じでしょうか。

X-Fitのアーキテクチャーに関しては、X-Fitの解説（Seasonal Timeseries
Analysis and Forecasting using Tournament Selection）に詳しく書かれています。

実際のところX-Fitの動きを細かく知ったところで難しい話になしかならないと思っています。簡単に、普段のふるまいをもとに、リソース状況の今後の予測やよりよいリソースの活用法を指南してくれる機能だと思っていればよいかと思います。

次回からはX-Fitを使った機能を紹介していきます。

2018年9月24日月曜日

PrismCentalの使いどころ（その８）レポート機能を使って定期報告を楽に

※この機能はPrismProのライセンスが必要な機能の紹介です。
（PrismCentralは展開後60日間PrismProの機能を体験利用できます）

前回までに画面操作を中心としたPrismCentralのオペレーションを確認してきました。
PrismCentralは、集中管理とパフォーマンス等々の情報を集約と可視化できるということが理解できたかと思います。

さて、日本国内においてもシステムの安定稼働というのは重要視されることであり、データーセンターなどのシステム基盤の運用を行われる方は、稼働状況を定期的に報告するためにレポートを定期的に作成されているケースがあります。

PrismCentralはこのレポートを自動作成する機能を持っています。
今日はこのレポート機能について見ていきます。

レポートはPrismCentralの探索（Explorer）から、レポートを選択します。
今回は新しくレポートを作成しますので、「新規レポート」をクリックします。