デル株式会社 エンタープライズソリューション & アライアンス部門にてビッグデータ ビジネス開発を担当している

堀田 鋭二郎 (通称:Hotty / ほってぃー) と申します。

 

 

前回に引き続き、デルとグローバルで事前検証、ソリューション展開している商用 Hadoop ディストリビューション展開の Cloudera (クラウデラ) 社とのソリューションについてご説明をいたします。

 

 

 

今回は、多くのご要望、ご質問をいただいたリファレンス アーキテクチャー (Reference Architecture) について、Cloudera 社からリリースされた Cloudera Enterprise 5.7.0 (CDH 5.7) にも適合した Hadoop / Spark の設計導入ガイドラインを PDF データにて公開するとともに、その概要についてご説明いたします。(PDF ファイルはこの記事の下部にあるリンクからダウンロードできます)

# 先日に Cloudera Enterprise 5.8 (CDH 5.8) がリリースされておりますが、主な Update としては Amazon S3 への対応、品質向上や Bug の修正、機能追加のため、本リファレンスアーキテクチャー構成要素に影響ございません。

Cloudera Enterprise 5.8.0 リリースのおしらせ

 

 

前回、リファレンス アーキテクチャーを活用することでHadoop / Spark 環境を構築するお客様の時間と工数を削減できる とお伝えいたしました。

お客様、特に日本のお客様においては、ソリューションの導入までに非常に多くのプロセス、多大な時間を費やす傾向があります。ソリューションの検討から、サイジング、設計、PoC、導入、運用、全てが順調に進んでもかなりの時間が必要ですし、その間にトラブルが起こると、トラブルシュートも必要になります。デルが提供する Apache Hadoop Solution Reference Architecture は、完全検証済みをコンセプトに、動作の保障された HW や SW の組み合わせ情報、サイジング情報など様々な情報を提供します。これにより上記プロセス、特にサイジングから PoC にかかる工数手間と時間を大幅に削減することが出来ます。

 

Dell | Cloudera Apache Hadoop ソリューション リファレンス アーキテクチャガイド バージョン 5.7 における主な記載内容は以下です。

  

  1.  用語集
  2.  Dell | Cloudera Apache Hadoop ソリューション概要
  3.  クラスタ アーキテクチャ
  4.  ハードウェア アーキテクチャ
  5.  ネットワーク アーキテクチャ
  6.  Cloudera Enterprise ソフトウェア
  7.  導入方法論
  8.  物理ラック構成
  9.  構成一覧表

  

なお、上記の導入方法論のより詳細な導入ワークフローは、このリファレンスアーキテクチャを補完している Dell | Cloudera Apache Hadoop ソリューション導入ガイド (Dell | Cloudera Apache Hadoop Deployment Guide 5.7) にて、Cloudera Hadoop のクラスタアーキテクチャーを構成するために必要となる要素 (アドレス設計含むネットワーク機器の構成、OS 導入から各物理マシン Configuration の推奨パラメータ値、各セットアップの方法、DB 設定含む Cloudera Manager の導入に至るまでのワークフロー) を記載しています。

今回公開しているリファレンスアーキテクチャーをご覧いただき、Hadoop クラスタを新規構成するためにより詳細をご要望の方はご連絡ください。 *競合会社の方には公開をお断りする可能性がございます点、あらかじめご了承願います。

 

 

 

Hadoop / Spark のコンポーネントは多岐にわたりますが、以下にこのソリューションにおける主要な構成要素をご説明します。

 

図: Dell | Cloudera Apache Hadoop ソリューション構成要素

 

デル PowerEdge サーバ、デル・ネットワーキングスイッチ、OS と Java 仮想マシンが、 Hadoop ソフトウェアスタッ クが動作する基盤を構成しています。

図の左側のダイアグラムは Hadoop のシステムの内外にある構造化、非構造化データを移動するために使用できる統合コンポーネントを 示しています。

図の右側のダイアグラムはシステム全体で統合されている機能を示しています。Hadoop アドミニストレーション とマネジメントは、Apache Sentry を通じてエンタープライズレベルのセキュリティをスタック全体で統合しつ つ、Cloudera Manger で提供されます。

Hadoop のコンポーネントは、この基盤の上で複数のレイヤにわたる機能を提供します。

HDFS は、Hadoop の分散ファイルシステムとして、  システム内のデータファイルのコアストレージを提供します。

HBase は HDFS 上で実行され、Hadoop に対し BigTable (構造化されたデータに低レイテンシでアクセスするために Google が設計・利用したデータストア) のような機能を提供します。NoSQL データベースとして分散型のスケーラブルなデータストア機能を提供しています。

HDFS は、「Write Once, Read Many (Worm)」 なファイルシステムであり、バッチ処理やインタラクティブ SQL、検索処理に適しています。HDFS では、I/O レイテンシの低さよりも、スループットの高さを重視していますが、HBase はランダム Read / Write 処理を高速に実行できるよう、レコードベースのストレージ層を提供する形に拡張されています。このデザインによって、ユーザーやアプリケーションにリアルタイムなランダムな Read / Write 機能を提供し、同時に、HDFS の持つフォールトトレラント性や永久性を実現します。

YARN は MapReduce の制約を受けることなく、Hadoop 環境で稼動する分散型アプリケーションにリソースマネジメントフレームワークを提供します。

この分散リソース制御機構である YARN により、アプリケーションの集中管理によるマスタノードのボトルネックが解消され、より多数の処理ノードにより Hadoop クラスタを構成することが可能になりました。Apache Spark など YARN 上で稼働します。

そして、以下の主な 4つすべてのレイヤが、ワークロードや解決する問題に応じて同時に、または個別の利用が可能です。

  • データ処理 (MapRedece)
  • インメモリ処理 (Spark)
  • データクエリ (Impala)
  • データ検索 (Solar)

 

次に、上記で記載したコンポーネント類を稼動させる全体的なクラスタアーキテクチャについてです。

スケーラビリティ、パフォーマンスならびに継続的なマネジメントと 同様に、ソフトウェア層、物理サーバのハードウェア、ネットワークファブリックなど、Hadoop クラスタの運用のす べてと関係します。

 

図: Dell | Cloudera Apache Hadoop ソリューション クラスタ アーキテクチャー

クラスタ環境は複数の物理サーバノード上で稼働する複数のソフトウェアで構成されています。

物理 サーバの構成は 2つの広範なクラスに分けられます。1つはデータノードで、Hadoop の処理の大部分を扱います。 もう 1つはインフラストラクチャノードで、クラスタのオペレーションで必要なサービスのサポートを行います。

高性能なネットワークファブリックは複数のクラスタノードを 1つに接続し、コアデータネットワークからマネジメン ト機能を分離します。

Hadoop / Spark 環境の増大にあわせてサイジングを行う必要がありますが、既存コンポーネントを入れ替える事なく、追加容量を加える事によって環境の拡 張を可能とする設計をする場合には、

推奨は最低 9ノード (データ ノード x 5, インフラストラクチャーノード x 4) をお奨めします。

 

最後に、ネットワークアーキテクチャーについて概要をご説明します。

クラスタネットワークは冗長性とマネジメント機能へのアクセス性を満たしながらも、高いパフォーマンスとスケーラブルなクラスタの要求に答えられるように 4つの独自ネットワークが設計されています。

  1.  クラスタデータネットワーク
  2.  アウトオブバンド管理ネットワーク
  3.  BMC ネットワーク
  4.  エッジネットワーク

それぞれのネットワークは個別の VLAN、可能な際は専用のコンポーネントを使用します。

 

図: Dell | Cloudera Apache Hadoop ソリューション Hadoop 論理ネットワーク接続

 

 

本リファレンスアーキテクチャーでは、Hadoop / Spark 環境の増大に合せてサイジングを行うために3つのユニット (ラック、ポッド、クラスタ) を定義、構成されており、最大 252ノードまでの拡張をサポートする想定として事前検証しています。

 

 

以上、デルが提供する Dell | Cloudera Apache Hadoop ソリューション リファレンス アーキテクチャガイド バージョン 5.7 の概要説明となります。

なお、本リファレンスアーキテクチャーの日本語翻訳版のご提供を必要とされる方、ならびに、本内容についての詳細だけでなく、デルが実現するビッグデータ関連の内容についてご質問等あれば、どうぞ遠慮なくご連絡ください。

喜んで!我々からご説明の機会をいただきたいと思います。

 

 

 

# 最後に、本リファレンスアーキテクチャーの日本語版翻訳にあたり、多忙の中お時間を割いていただき、日本語版の内容 Review をいただいた Cloudera Japan の皆様に対して、この場を借りて御礼申し上げます。

  

  

【関連ブログ】

Bigdata/IoTの取り組み - Apache Hadoopリファレンスガイド公開  - Dell | Cloudera 共同事前検証ソリューション①

Bigdata/IoTの取り組み – Apache Hadoop Solution の件! - Dell | Cloudera 共同事前検証ソリューション③