みなさま、こんにちは。 ソフトバンク C&S の大塚です。vExpertが“VSAN愛”を伝えるシリーズ第2回目です。

前回”は、VSANはシンプルな構成であること、汎用的なハードウエアでデバイスを使って構築できること、データ保護に関しても安心してお使いいただけるアーキテクチャであること等をお話させていただきました。

 

とはいいつつも…VSAN=ストレージなので、 ハードウエア( Disk等…)が故障した際、どのような振る舞いや操作をするのか?というのは少し不安になる部分かと思います。

その辺をふまえて、第2回目の今回からは操作や動作をみていきましょう。

 

 

おっと、その前に
簡単にVSANがどのようにデータ保護しているのか簡単に振り返ります。

VSANはRAID構成ではなく、「各仮想マシンで可用性レベルを定義して展開する」ということを先日お話しました。

どのくらい冗長構成をとるか?というのをFTT (Failures To Tolerate) で定義します。

FTT=1であればデータはミラーされ異なるホストに配置され、下記の図で仮想マシンのデータが異なる ESXi に分散されていることがわかります。

 

  

上の図では、”データ”と別に「ウイットネス(以下、監視)というのがあります。この「監視」、簡単にいうとクォーラムディスクのような役割をします。データ容量自体はほとんどありません。VSANでは仮想マシンが構成されているファイル(vmdkや構成ファイル) 毎にFTTで定義された冗長構成が組まれます。ここでは、そのファイルにつきこの監視がついてくることを覚えておきましょう。

※ウイットネスはメタデータだけで構成されるコンポーネントであり、「多数決」を決める場合のみに使用されます

 

例えば下の例。仮想マシンRDSH001(FTT=1)があります。
この仮想マシンのデータは esxi 002と esxi 003に分散されて配置され、監視ついては esxi 001 に配置されていることがわかりますね。

 

 

★HDD故障時のVSANの動きと操作 (VSAN 3台構成)

さてさて、お待ちかね。実際にHDD(キャパシティHDD)の故障時の交換方法をみていきましょう。

今回は、VSAN 3台構成 (全仮想マシンFTT = 1)の動きをみていきます。

 

 

◆環境構成について

今回使用している ESXi はDELL PowerEdge R630です。キャパシティ部分は 600GBのSAS HDDx4入っており、そのHDDを疑似障害として引っこ抜いてみます。

ちなみに、今回はパススルーモードでVSAN6.1(最新版)が構成されてます。Raidを一切組んでいません!!

 

◆正常時のデータストア

各ESXiからデータストア部分は vsanDatastoreとして1つのデータストアが見えています。ここでは、いまvsanDatastoreがどのESXiで構成されているかみることができます。

各 ESXi には「ディスクグループがみえます。このディスクグループはSSDとHDD(キャパシティ部分)がセットになったグループです。

本検証では各 ESXi あたり、1 ディスクグループを設定しております。

 

 

◆正常時の仮想マシン

 仮想マシンWN7-LC-02のデータがどのように配置されているかみていきましょう。 キャパシティ部分は esxi 001 / esxi 002 に、監視は esxi 003 に配置されている状態です。

 

 

◆障害発生させてみる

 それでは esxi 001 に入っているキャパシティHDDを抜いてみます。

  

しばらくすると….コンポーネントの状態が”不完全”になりました。

  

※今回はHDDの疑似障害(引っこ抜き)なので”不完全”ですが、本当に故障した場合は”低下”となります

 esxi002 側にデータがあるので、もちろん仮想マシンは動いています!! (VMwareの中村さんが、その仮想マシンでWebを閲覧してました….)

 

また、vsanDatastoreの状態もesxi001のディスクグループがエラーになっております。

 ※今回はHDDを引っこ抜いただけなのでステータスが”Absent”となっております。HDDが故障した場合は Degrated という状態になります。

 

 

★ (VSAN 3台構成) データ退避先について

本構成の場合、キャパシティHDDが故障した場合、VSANはどのような振る舞いをするか?

 

もともとこの仮想マシンにおけるコンポーネントの配置を振り返ります。

データはesxi001 esxi002 監視 esxi003に配置されていました。

 

D:データ / W: ウイットネス(監視)

 

 

正常時 vSphere上では下図のような感じです。esxi 001のHDD名に注目です

  

今回、esxi 001のHDD を引っこ抜きました(HDD名は末尾 ….b129です)

さて気になるデータ退避先はどこになりますでしょうか?

 

・・・・・

 

同一サーバ内 esxi 001の別HDDに移行しております。(HDDディスク名が変わっていますね)

冗長構成 ( FTT = 1 )状態もこの時点で復旧されていることがわかります。

  

 

★復旧手順

 すでに、仮想マシンは冗長状態が復帰しておりますので、安心してゆっくりとHDDを交換します。

 

復旧手順は3ステップ

 (1)vSphere上で ディスクグループから故障HDDの削除

 (2)物理HDDの交換

 (3)vSphere上で新HDDをディスクグループに追加

VSANではホットスペアという概念はないので、新HDDヘコピーバックという動作はなく、単純にキャパシティが復帰したという考えになります。

 

(1)vSphere上でディスクグループから故障HDDの削除

  

(2)物理的にあたらしいDiskを追加!

今回はパススルーモードでVSANが構成されてますので、Raidの再設定は不要です。

  

 

(3)新しいHDDをディスクグループへ追加

HDDがvSphereで認識されたらディスクグループに追加しましょう。

  

はい、これだけです。

 

 

★  まとめ

今回はVSAN 3台構成で、キャパシティHDD障害を想定した動作と操作をみていきました。

新しく出てきた言葉として2つおさらいします。

 

-ウイットネス(監視)

監視については各vmdkや構成ファイル毎についてくるコンポーネントです。

VSAN を構成するネットワークパーティション時のsplit brain状態を適切にハンドリングする必要性があるため、この「監視」コンポーネントがあります。

 

-ディスクグループ

ディスクグループはSSDとHDDをグルーピングしたものをさします。

ちなみに今回は1サーバ1ディスクグループで構成しておりますが、サーバごとに複数のディスクグループを搭載し、容量やパフォーマンスを向上させることも可能です。

 

 

今回3台でVSAN構成している、というのを連呼しておりますが、FTT = 1ではこのVSAN 3台構成と4台構成では、多少動作が変わってきます。その辺は後々ご紹介していきますね。

 

次回は3台構成におけるSSD障害時の動きをみていきます。

 

 

★黄(ふぁん)のひとりごと ~Hwang’s Eye~

皆さま、こんにちは。DELLの黄です。

今回、大塚さんの紹介にもありましたが擬似HDD障害を想定し、HDDを抜いた場合はコンポーネントの状態が”Degraded”ではなく”Absent”になりました。

HDDを抜く=HDDが壊れたと判断、ストレージ障害としてDegradedになるのでは?と思っている方もいらっしゃると思います。実際にもありました。。。

VSANでは稼働中のHDDを抜いた場合、”Absent”状態に移り、データ再構成まで60分(デフォルト)の猶予時間を持ちます。これは間違ってHDDを抜いたり予期せぬESXiの再起動が発生するなどすぐ現状復帰できる場合を想定し、無闇にリソースを使って再同期が行わないようにデザインされたからです。よく出来てますよねー、VSAN!

 

しかしながらHDD障害テストに60分も待てない!という方はESXiの詳細設定より以下のパラメータを変更することで猶予時間を短くすることができますのでテスト時には合わせてご検討ください。

 VSAN.ClomRepairDelay 猶予時間

 

 

 

 

====Back Number====

(1)VSANって何が良いのか?

(2)障害試験〜3台構成でHDD交換

(3)障害試験〜3台構成でSSD交換

(4)障害試験〜3台構成でESX停止

(5)メンテナンスモード〜3台構成

(6)スケールアウト〜3台構成から4台構成への拡張

(7)障害試験〜4台構成でHDD交換

(8)障害試験〜4台構成でSSD交換

(9)障害試験〜4台構成でESX停止 

(10)メンテナンスモード〜4台構成

(11)まとめ

 

 

デルの製品またはソリューションに関するお問い合せは
こちらからご連絡ください。