こんにちは、ソフトバンク コマース&サービス株式会社 稲葉です。

最近話題の「2ノードvSAN」。名前だけが先行していて、どのような構成でどのように
構築できるのか、どの程度の耐障害性を得られるのか、よくわからず導入に踏み切れて
いない方が多いのではないでしょうか。

そこで、わたしたちはデルさまと共同で実際に2ノードvSANを構築し、
さまざまな実験をしてみました。

その結果を、8回のシリーズブログにまとめ、詳しく解説していきます。

6回目では、2ノードvSANの障害時の挙動についてご紹介します。

構築した2ノードvSANの環境でさまざまな障害を意図的に発生させ、
どのような挙動になるかを検証しました。


障害検証は以下の環境構成で実施しています。

<構成イメージ>

検証結果をまとめた内容が以下のマトリクスとなります。

本章では、この検証結果の中から仮想マシンの稼働に影響を与える5つの障害について解説します。


     : 本章で解説している障害

1. ESXiホスト(vSAN)の停止

検証内容:vSANを構成するESXiホストをシャットダウンする

検証結果:障害の発生したESXiホストで稼働していた仮想マシンは対向のESXiホストで再稼働

<障害イメージ>

<障害時の画面>

vSphere HAが有効化されている状態で、vSANを構成するESXiホストに障害が発生すると、障害の発生したESXiホスト上で稼働していた仮想マシンは対向のESXiホストにフェイルオーバーします。

(vSphere HAが無効な場合、ESXiホストと共に仮想マシンは停止します。)

仮想マシンのデータはvSANを構成する2台のESXiホストに複製(FTT=1)されているため、1台のESXiホストに障害が発生してもデータは欠損しません

再起動は伴いますがデータの移行なく、仮想マシンは稼働中のESXiホストにて復旧します。

2. ESXiホスト(Witness)の停止

検証内容:Witnessを強制的に停止する

検証結果:稼働中の仮想マシンに影響なし

<障害イメージ>

<障害時の画面>

vSANを構成するWitnessが停止した場合、vCenter Server上にアラートは挙がりますが、稼働している仮想マシンへの影響はありません

Witnessを再稼働後、自動的にアラートは解消されvSANの健全性は正常に戻ります。


3. ESXiホスト(vSAN)+ESXiホスト(Witness)の停止

検証内容:vSANを構成するESXiホスト1台とWitnessを強制的に停止する

検証結果:vSAN上の仮想マシンは全て停止

<障害イメージ>

<障害時の画面>

Witnessを含むvSANを構成する3台のESXiホストのうち2台が停止するとvSANのサービスを維持できなくなります

このときvSANデータストア内のファイルが参照できなくなり、vSAN上の仮想マシンは「inaccessible」と表示され全て停止してしまいます。

vSANを構成するESXiホストが2台になるまで復旧されるとvSANデータストア内のファイルが参照できるようになり、仮想マシンは障害前の電源状態に再稼働します。

4. vSANネットワーク(10Gb)の抜線

検証内容:ESXiホストを直結しているケーブルを両系ともに抜線する

検証結果:フォールトドメインが「優先」のESXiホストにフェイルオーバーする

<障害イメージ>

<障害時の画面>

ESXiホスト間を直結しているネットワーク(10Gb)が不通になった場合、仮想マシンは「フォールトドメインおよびストレッチクラスタ」のフォールトドメインホストが「優先」のホストにフェイルオーバーします。(※HA有効時のみ)

「優先」のESXiホストはvSANの[設定] – [フォールトドメインおよびストレッチクラスタ]から確認できます。

なお、vSANネットワークが冗長構成の場合、直結ケーブルの片系のみを抜くと「冗長性が失われました」というアラームが表示されるだけで、仮想マシンの動作に影響はありません。

vSANネットワークの障害は仮想マシンの稼働に影響があるため、物理的なポートのみならずネットワークカードの障害も考慮した冗長構成をお勧めします。

5. 管理ネットワーク(1G)の抜線

検証内容:ESXi1の管理ネットワークを両系ともに抜線する

検証結果:ESXi1上で稼働している仮想マシンは継続稼働するが外部ネットワークに接続できなくなる。

<障害イメージ>

<障害時の画面>

1台のESXiホストの管理ネットワーク(両系)が不通となった場合、ESXiホストは「not responding」となり、仮想マシンは「disconnected」となります。

この状態になると仮想マシンは継続的に稼働しますが、今回の検証環境では業務ネットワークも兼用しているため、仮想マシンへの疎通ができなくなりました。

管理ネットワークが復旧すると、仮想マシンの通信は自動的に回復します。

なお、ケーブルの片系のみを抜くと「冗長性が失われました」というアラームが表示されますが、仮想マシンの動作に影響はありません。

管理/業務ネットワークの障害も仮想マシンの稼働に影響があるため、物理的なポートのみならずネットワークカードの障害も考慮した冗長構成をお勧めします。

補足:SSD/HDDディスクの障害紹介

   SSDやHDDのディスクが故障した場合の挙動を確認されたい方は以下をご覧ください。

   内容は3ノードでのvSANとなりますが2ノードvSANでも共通の内容となります。


DELL サーバ x VMware で時代を切り拓く新しいストレージ "VSAN"


まとめ

今回の検証では、14パターンの障害試験を行い、そのうち5つをピックアップしてご紹介させていただきました。

結果、2ノードvSAN環境における注意点として以下の3点が確認できました。

問題

解決案

Witnessを含むvSANを構成する3台のESXiホストのうち2台が停止するとvSANのサービスを維持できなくなり、仮想マシンが全台停止する。
 
想定する耐障害性は「1重」とする。

また、停止したESXiホストの復旧は可能な限り
速やかに行う。
vSANネットワーク(10G)が両系ダウンすると
「優先」設定のESXiホストにフェイルオーバーする。
ネットワークカードを物理的に 2枚用いて冗長構成をとるなど、ネットワークを堅牢に構成する。
 
管理ネットワーク(1G)が両系ダウンすると、
不通になったESXiホスト上の仮想マシンへの
通信も不通となる。
(管理用と業務用のネットワークが兼用の場合)

 

ネットワークカードを物理的に 2枚用いて冗長構成をとるなど、ネットワークを堅牢に構成する。

仮想マシン用のサービスネットワークを管理用ネットワークとは別のネットワークで構成するなどの対応も有用。

 

 

 

2ノードvSANを設計/運用する際は上記のポイントを押さえ、障害が発生する可能性を少しでも低減することと、障害が発生した際の切り分けにお役立てください。
 
今回の検証にて、ホストやネットワークなどの物理的な障害がどのように仮想マシンの稼働に影響を及ぼすのかについてご確認いただけたと思います。

7では、2ノードvSAN運用時に押さえるポイントや検証時に発生した障害事例について復旧方法を交えながらご紹介いたします。



ナベさんのつぶやき

こんにちは。デルの川奈部です。
作成したマトリクス、情報が整理されていて非常にわかりやすいですね。

2ノードvSANの構築手順を解説している記事は時々見かけますが、
障害時の挙動をここまでしっかりまとめている記事は他にないと思います。

2ノードvSANの導入を検討されているお客様にとっては、
このような情報は安心材料に繋がるはずです。

ただ、実際に導入される際には、ここにある情報を鵜呑みにするのではなく、
導入先の環境で必ず動作試験(正常動作試験、障害試験)を実施するようにしてください。

その際にはこちらの記事の内容が試験項目として活用できると思います。

2ノードvSANに限らずですが、一般に導入時の動作試験は非常に
重要なタスクの一つになりますので、お忘れのないように実施ください。

次回は運用時のポイントや障害からの復旧方法のお話となりますので、
ますます続きが気になっていただけるはず!

いよいよ終盤戦ですが、次回もご期待ください!



======Back Number======

(1) 第1回:vSANの新たなカタチ “2ノードvSAN”~概要~

(2) 第2回:vSANの新たなカタチ “2ノードvSAN”~ライセンス~

(3) 第3回:vSANの新たなカタチ “2ノードvSAN”~作り方(その1:構成編)~

(4) 第4回:vSANの新たなカタチ “2ノードvSAN”~作り方(その2:Witness編)~

(5) 第5回:vSANの新たなカタチ “2ノードvSAN”~作り方(その3:仕上げ編)~

(6) 第6回:vSANの新たなカタチ “2ノードvSAN”~障害検証~

(7) 第7回:vSANの新たなカタチ “2ノードvSAN”~トラブルシューティング~

(8) 第8回:vSANの新たなカタチ “2ノードvSAN”~まとめ~

(9) 番外編:vSANの新たなカタチ “2ノードvSAN”~2ノードvSANのUPS~ 





デルの製品またはソリューションに関するお問い合わせは

こちらからご連絡ください。