Nutanixを使って思った良いところ、不満なところ


はじめに

この記事はNutanix Advent Caledar 2017に参加しています。

軽く自己紹介

(^◯^)誰だお前…という方がいらっしゃると思いますので、軽く自己紹介をさせていただくと、都内でインフラエンジニアをしていまして、ここ数年は某SIerがグループ会社向けに提供しているプライベートクラウドサービスのうち、仮想化基盤に関わるあれこれをやっています。
もともとvSphereを担当しているのですが、2017年4月以来、Nutanix+AHVにもどっぷりと関わるようになりました。(大人の事情でほぼ一人で運用をしています。)
NutanixとAHVのユーザはどんどん増えているはずなのに、ユーザ目線で利用感などの情報発信をされている方が少ないのかな?と思い、思いきって、Advent Calenderに参加させていただくこととしました。(お声がけくださった @smzksts さんありがとうございます!)
さて、NutanixのAdvent Calenderの記事の多くは技術的な記事をが多く、そういったものを期待されていた方には申し訳ありません。あらかじめお詫び申し上げます。

Nutanixの不満なところとか

物理サーバのコア数によってカウントされるライセンスとの相性の悪さ

これはNutanixが、というよりはHCIと呼ばれるもののうちCVMのようなエージェント仮想マシンが存在するもの全般が抱えるものではないでしょうか。
当方の環境ですと1ノード20コアの機種を使っています。各ノードのCVMに10コアが割当てられており、うち4コア相当分は予約されています。ハイパーバイザのオーバーヘッドも差し引くと実際にゲスト仮想マシンは16コア弱を利用できることになりますね。
しかし、実際に利用できるリソースで課金をしてくれるものわかりの良いソフトウェアベンダは存在しないでしょう。
ユーザーは、物理サーバのコア数によってカウントされるソフトウェアを購入する場合、「CVMによって利用できないぶんもライセンスを購入しなければならない」のです。
当方の環境で問題になったのはWindows Server 2016のライセンス(2012 R2以下を利用するのも新規購入では2016を購入しダウングレードしなければならない。)でしたが、仮想化基盤でStandard版では1インスタンスあたりのライセンス費用が割高になりすぎてお話になりません。そこでDataCenter Editionを利用するとして、何インスタンス動かせば「もとがとれる」というライセンスの”損益分岐点”が高まります。ざっくり言えば 仮想マシンを既存の環境より集約しなければなりません。しかし、仮想化基盤では仮想マシンを統合すればするほど、リソースの競合や障害時のリスクが高まるため、むやみやたらと統合率を上げるわけにもいけません。
導入検討時、当初はNutanix + ESXiの構成で話が進んでいました。しかし当時は既存のvSphere環境でDRSの利用すらできておらずメンテナンスの度にエクセルと睨めっこして、どの仮想マシンをどこにvMotionすべきか決める、という作業に追われていた私は、これらの理由からNutanixの導入に反対の論陣を張った人間の一人でした。
(これは反面、インスタンス単位でライセンスがカウントされるクライアントOSが中心のVDI環境や、そもそもライセンスが不要な一部のLinuxなどとは相性が非常に良い、ということでもあります。もちろんある程度の規模になればDRSは必須です。)
結局、NutanixはAHVで入りました。

PrismのACLが貧弱である。(AOS 5.0.xで一部改善)

NutanixをESXiやHyper-Vで利用する場合、vCenter ServerやSCVMMなどでユーザーに適切な権限を割り当てることができます。
しかし、AHVでPrism Elementで完結しており非常にシンプルな反面、ユーザー権限がClusterAdminとUserAdmin、Viewerしかありません。また、UserAdminにいはもれなくClusterAdminの権限がつくため、実質的にViewerとClusterAdminしか選択肢がないのです。
ここで、仮想マシンの担当がClusterAdminの権限をもったまま気軽にログインしてやりたい作業をする、という恐ろしいことがまかり通ってしまいました。
藁にもすがる思いでPrism Centralをデプロイしてみたところ、こちらもPrismCentralAdminとUserAdmin、そしてViewerしか権限がなく、「変わらないよ…」とがっくりとした記憶があります。
この問題は5.0.x で実装されたSelf Service Portalを使うことで解消されますが、ログインURLや画面が違うということは、仮想マシンの担当者向けの手順書をすべて書き直さなければいけない、ということです。誰が?私が。。。
せめてVirtualMachineAdminみたいなロールだけでもあれば、こんなことにはならないのに…!私が知らないだけでAOS 5.5で改善されてたりしませんか?
[20171230追記]
@smzsts さんから教えていただきましたが、Prism Centralを利用する場合は5.5からは改善されているそうです。私が試したPrism Centralのバージョンは5.1.x でした。こうやってどんどん改善されてくのは嬉しいですね!
https://portal.nutanix.com/#/page/docs/details?targetId=Prism-Central-Guide-Prism-v55:ssp-ssp-role-based-access-control-pc-c.html

CVMのネットワークトラフィックが分けられない(AOS 5.5で改善)

いろんなユーザーのところに行く仕事をしていた頃、セキュリティやその他の理由でバックアップやIP-SAN用などLANを物理的に分離するか、論理的に分離して厳しいACLをかけている環境をいくつか見たことがあります。同じく、当方の環境も用途別のネットワークが構成され物理的に分離されています。

例えばESXiですと複数のvSwitchに複数のvmkernelポートを作成でき、このポートはIP-SAN用、このポートはvMotion用、このポートは管理用と細かい設定ができますので、ケーブルさえ挿せば、その構成にハイパーバイザ側で合わせることができます。しかし、NutanixではCVMの足は1本だけ。。。
私はNutanixの導入には関わっておらず、また前任者から引き継ぎをほぼ受けていないため、どのような議論の末にそういった構成にしたのか正確な理由は判らないのですが「CVMがアクセスができないストレージ側のLAN」にあるのです。(まあ、おそらく当時10Gbps化されていたネットワークがストレージ用だけだったからでしょう。)
ESXiやHyper-Vでしたら日々の利用であまりPrism Elementに入ることもないかと思います。しかしながら、AHVで利用する場合はPrism Elementへのアクセスありきです。大抵のサーバには自席からアクセスができるのに、Prism Elementにだけ特定の端末からしかアクセスできなかったり、と運用面で非常に面倒なことになっています。
もっとも、AOS 5.5よりCVMのネットワークトラフィックをある程度わけられるようになりました。これらの問題解決のため、今すぐにでもAOS 5.5にあげたい気分なのですが、えらい人からは「まだダメよ」と言われています。。。
管理用のネットワークがサービス用のLANに出せれば、サービスLANの仮想マシンからCVMにSSHアクセスしたりもできますので、ユーザーが好きなタイミングで自動で自分の仮想マシンのSnapShotをとるようにできる、などと、いろいろできることが増えるのですが。。

まだまだありますが、この辺りでやめておきましょう。身バレ怖い身バレ怖い。

Nutanixの良いところ、好きなところとか

バージョンアップのサイクルが早い

先ほどから、Nutanixを利用するうえで困ったことや不満なこと、物足りないことを散々あげましたが、課題については次期AOSで改善予定、など頼もしい返事が多く問題解決までの目途を他プロダクトと比較して素早く立てることができます。
機能追加も、スピードが速く、私などついていくのがやっとです。
SIerでは、いわゆる「枯れた」バージョンを好む傾向にありますが、Nutanixに限ってはそれをすると逆にFixされた不具合にばかり当たるのではないか、と考えています。
また、今のところNutanix社は「この新機能はライセンス別売り」というビジネスの仕方をされていないため、発表されている機能のほとんどはPro以上のライセンスで利用ができ、その新機能も自動化やセキュリティ、クラウドとの併用、などのトレンドを押さえたもので、新しいバージョンがでるたびにワクワクします。

アップグレードが楽

1クリックアップグレードは誇大広告(?)だと思いまして、実際はきちんと「本当にアップグレードしますか?」と確認が入りますのでPrism Elementログインしたあとであれば4クリックくらいでアップグレードが開始されます。あとは終わるまで放置。かんたん。
先日、本番機に対してAOSバージョンアップを実施した際、I/Oが別のCVMに切り替わるまでに発生するI/O断にドキドキしながら作業を実施しましたが、稼働している仮想マシン上で提供されているサービスには何ら影響がなく作業が完了しました。
40台近くあるESXiのバージョンアップを数ヶ月がかりで実施していることと比較するとクラスタ単位で半日でバージョンアップが終了しますので、工数の削減にもなりますし、作業申請・手順書作成・レビュー・実作業というルーティンをこなしているエンジニアの負担も減ります。彼らがその分を付加価値の高い仕事にまわすことができるのであれば、とれも素晴らしいことですよね。

早い

ストレージのパフォーマンスがとても良いです。死活監視のテストをしていた際、大抵のストレージではサーバを再起動すればひっかかってくれるのですが、Nutanixの場合、死活監視の閾値以内に起動してしまうため、予期せぬ再起動を検知するのに、別の方法を考えなければならないほどです。

その他、美しいUIやデータ保護の機能など、気に入っているところをあげたらキリがありません。そういった魅力はほかの皆さまの記事で知ることができるでしょう。
AHVは、ESXiと比べて機能的には物足りないと思うことが多々ありますが、だからこそ頻度の高い機能改善や新機能が魅力的に感じるのでしょうか。

さいごに

実名は伏せさせていただきますが、日頃よりお世話になっておりますNutanix社の担当営業およびSEの方。丁寧に回答をいただけるサポートの方(日付変わって今日はちょっとイラってしましたが。トラブルあったので)、技術情報を発信されている方々に敬意を表するとともに、心より御礼申し上げます。

以上