みなさま、こんにちは。 ソフトバンクC&S の大塚です。vExpertが“VSAN愛”を伝えるシリーズ第3回目です。2016年もよろしくお願いします。

 “前回“は VSAN 3台構成におけるキャパシティHDDの障害時の動きについてみてきました。その中で「監視」や「ディスクグループ」というVSANで出てくる用語もみてきました。

 今回は各ディスクグループでキャッシュの役割を担うSSD障害の動きをみていきましょう。

 

★キャッシュ用SSDの障害( VSAN 3台構成の場合)

 VSANにおける各 ESXi には、SSD x1 とキャパシティHDDでディスクグループを構成します。各ディスクグループには必ず1つのSSDが搭載されています。

今回はこのVSAN 3台構成におけるキャッシュ用SSD障害時の動作や操作についてみていきましょう。

 

今回もDELL PowerEdge R630を使用して各サーバにディスグループを1つ構成しています。

  

 

下図、Web Clientの画面では各ESXiで1つのディスクグループが構成されているのがわかります。

  

 

今回はesxi 001 に搭載されているキャッシュ用SSD障害を想定して、物理的に抜いてみます。この際、VSAN3台構成ではどのような動作をするでしょうか?

実際にesxi 001に搭載されているキャッシュ用SSDを抜いてみます。

どのように動作するか少し、想像してみてください。

 

・  ・・・・・・(想像時間)

 

しばらくすると下記のようにesxi 001のディスクグループにエラーがでます。
(画像をクリックすると拡大表示します)

 

仮想マシンWIN7-LC-01のデータは、FTT = 1なのでesxi 001と002に配置されていましたが、esxi 001にあるコンポーネントのステータスが変わっていますね。

(今回も完全に壊れていないので”不完全”というステータスになります。実際には”低下”というステータスになります)

 

(VMwareの中村さんは該当仮想マシンからWebを閲覧してました…ので、仮想マシン自体はまったく問題なく稼働しています)

 

ちなみに、キャッシュ用SSDに障害が発生すると、そのSSDが属するディスクグループのキャパシティデータは無効になります。

今回はesxi 001のキャッシュ用SSDを抜きましたので、esxi 001にあるディスクグループ自体無効になってしまいます。

 

FTT = 1の場合、冗長構成を保つために、esxi 002にあるデータを別のesxiにコピーしたい所ですが…. VSAN 3台構成の場合ここがポイントです。

 

そもそもFTT =1 の場合「3台のESXiにデータ +データ + 監視 と分散」されます ( = すなわち”データ”と”監視”が同一のESXiにはのらない ) ので、キャッシュ用SSD障害時、FTT =1の構成がとれず、ハードウエアが復旧するまでは冗長性がない状態で動きます。

  

 

ほとんどの場合、FTT = 1で構成することが多いかと思いますので、VSAN 3台構成の場合、割り切ってこの構成をよしとするか、常に冗長構成を満たすことが必要か?を事前に考慮する必要がありますね。

 

ちなみに今回は検証環境を準備できなかったのですが、VMwareの中村朝之さん曰く「ESXiに複数ディスクグループがある場合、同じESXi内の異なるディスクグループにコピーが走り、冗長構成が即時復旧する」とのことです。

  

★キャッシュ用SSDの復旧

 

復旧の流れをみていきましょう。

(1)vSphere 上でディスクグループの削除

(2)新キャッシュ用SSDの挿入

(3)vSphere 上でディスクグループの再作成

(4)自動的に再同期

  

それでは、実際に復旧を始めます。

 

(1)vSphere 上でディスクグループの削除

 無効になっているesxi 001にあるディスクグループを削除します。(間違えないように操作します)

 

 

(2)新キャッシュ用SSDの挿入

自動認識しますが、デバイスの自動認識が待てない私のような方はvSphere上で再スキャンします。

  

 

(3)vSphere 上でディスクグループの再作成

esxi 001にディスクグループができあがりました!

  

 

(4)自動的に再同期

FTT = 1の仮想マシンは冗長構成がみたせていない状態(コンプライアンスに”非準拠”) でしたが、FTT = 1を満たせる環境ができましたので、自動的にデータ再同期が走ります。

  

  

終了後はコンプライアンス準拠状態になります。

  

 

 

★まとめ

 キャパシティHDDに引き続き、VSAN 3台構成におけるキャッシュ用SSD障害を想定した動きをみてきました。キャッシュSSD障害時、VSAN 3台構成は割り切れるかそうでないかが、ポイントになりそうですね。

 すこしずつですが、 VSANの動きが何とな〜くつかめてきた感じかと思います。次回はVSAN3台構成における ESXiホスト障害をみていきます。

 

 

★黄(ふぁん)のひとりごと ~Hwang’s Eye~

 皆さん、こんにちは。DELL 黄です。

 SSD障害はHDD障害に比べ、その障害に対するインパクトは大きいです。

 その理由はまず、HDD障害とは違ってSSDに障害が発生するとそのディスクグループそのものが利用できなくなるからです。特にVSAN3台構成の場合、n+1ではなくなりますので仮想マシンの冗長性を担保できなくなります。

 もう一つは、障害が発生したSSDのディスクグループ内すべてのHDDデータが他のディスクグループへ再同期されるためです。VSANネットワークが10Gbとは言え、数百~数千GBのデータの再同期には時間がかかります。ハードウェア保守により最短4時間で交換対応が可能ですが、もし復旧前に他のESXiホストやHDD、SSDに障害が起きたら? 考えるだけでゾッとしますね。。。

SSD障害によるデータの”コンプライアンスの非準拠”状態を最小化するためにも予備SSDを用意しておくことをオススメします。

 

 

====Back Number====

(1)VSANって何が良いのか?

(2)障害試験〜3台構成でHDD交換

(3)障害試験〜3台構成でSSD交換

(4)障害試験〜3台構成でESX停止

(5)メンテナンスモード〜3台構成

(6)スケールアウト〜3台構成から4台構成への拡張

(7)障害試験〜4台構成でHDD交換

(8)障害試験〜4台構成でSSD交換

(9)障害試験〜4台構成でESX停止 

(10)メンテナンスモード〜4台構成

(11)まとめ

 

 

デルの製品またはソリューションに関するお問い合せは
こちらからご連絡ください。