hadoop conference japan 2009 - ntt data

23
Copyright ©2009 NTT DATA Corporation 株式会社 NTTデータ 基盤システム事業本部 政谷 株式会社 NTTデータ 基盤システム事業本部 政谷 2009年11月13日 2009年11月13日 SI事業の視点から見た Hadoop の適用領域と今後の展望 ~ NTTデータにおけるHadoopへの取り組み ~ SI事業の視点から見た Hadoop の適用領域と今後の展望 ~ NTTデータにおけるHadoopへの取り組み ~ Hadoop Conference Japan 2009

Upload: ntt-data-oss-professional-services

Post on 28-May-2015

7.506 views

Category:

Technology


4 download

DESCRIPTION

NTT Data's presentation at Hadoop Conference Japan 2009 (Nov 13)

TRANSCRIPT

Copyright ©2009 NTT DATA Corporation

株式会社 NTTデータ

基盤システム事業本部

政谷

株式会社 NTTデータ

基盤システム事業本部

政谷

2009年11月13日2009年11月13日

SI事業の視点から見た Hadoop の適用領域と今後の展望

~ NTTデータにおけるHadoopへの取り組み ~

SI事業の視点から見た Hadoop の適用領域と今後の展望

~ NTTデータにおけるHadoopへの取り組み ~

Hadoop Conference Japan 2009

1Copyright ©2009 NTT DATA Corporation

担当紹介担当紹介

NTTデータ 基盤システム事業本部 OSS技術統括部

Linux/OSSを利用したシステム構築・運用をサポートする業務を担当OSSによるシステム基盤 Prossione®

– 徹底的に検証・評価したOSSの組み合わせ、設定・運用のノウハウの提供

– 高品質なシステム基盤を実現する仕組みの整備

OSSのサポートサービス Linaccident®

– 幅広いOSSを対象とするプロフェッショナルサービスの提供

最近は、OSSを活用したクラウド分散処理基盤 Hadoopの技術整備も担当

『象』 好きです

PostgreSQL Hadoop

2Copyright ©2009 NTT DATA Corporation

本日のアジェンダ本日のアジェンダ

Hadoopへの取り組み

OSSベースの企業ITシステム規模と動向

NTTデータの取り組み

Hadoop+OSSで今後のITはどう変わるのか

3Copyright ©2009 NTT DATA Corporation

Hadoopへの取り組み

4Copyright ©2009 NTT DATA Corporation

OSSの未来OSSの未来

独自ハード +UNIX

IAサーバ+

Windows

独自ハード +独自OS

(メインフレーム)

IAサーバ

+OSS

1970 1980 1990 2000 未来

一般的な

顧客が利用

可能な性能

従来技術は、必要充分な性能をもった後発のローエンド技術に凌駕されていく!

性能

「ムーアの法則」半導体集積密度は18ヵ月で2倍

「ギルダーの法則」ネットワークの通信速度は

6~9ヵ月で2倍(ネットワークの時代)

「メトカーフの法則」ネットワークの価値はユーザ数の2乗に比例

(マス・コラボレーションの時代)

5Copyright ©2009 NTT DATA Corporation

クラウド時代のITシステム ... クラウド時代のITシステム ...

IT基盤をより Smart に

無駄を減らすことによる効率化、資源のプール化などで実現

単一性と多様性のバランスが練られたシステム

コモディティ技術を使い切ることがポイントに

スケールアウト技術を身近なものに

IAサーバ+OSSにより多数のサーバの利用が容易化

新しい処理モデルやデータモデルの浸透従来のACIDを求める処理方式とは異なるモデル

MapReduceアルゴリズム、Key-Valueストア、自律分散協調システム など

6Copyright ©2009 NTT DATA Corporation

なぜ Hadoop か?なぜ Hadoop か?

今まで扱うことが難しかった領域を切り拓くペタバイトクラスのデータ、大規模分散処理

数千台規模のサーバを用いることで、従来は困難であった処理が実現できる

『定型的な業務データ』 処理の枠組みにとらわれない単純なETLではなく 準定型的なデータも扱える 柔軟な ETL & ELT (*1)

プロセス指向だけでなく、データ指向に基づいたシステムの浸透

ターゲット現在: コスト、スケールに価値を

見出す 『先見派』

今後: さらなる生産性向上の手段を求めている 『実利派』

* “Impact of Cloud Computing on Research in Extreme Scale Analytics” Hamid Prahesh [email protected]

Extract Transform Load

DataRepository

Source

TransformAnalyze

7Copyright ©2009 NTT DATA Corporation

OSSベースの企業ITシステム規模と動向

8Copyright ©2009 NTT DATA Corporation

OSS構築実績 (規模・処理量マップ)OSS構築実績 (規模・処理量マップ)

DB規模

処理量(万件/時)

●●

40

10

20

10万件 100万件 300万件 500万件 1000万件 1億件

60

●●

10億件

~150TPS~2TB

敢えて乱暴に絵を描いてみる

9Copyright ©2009 NTT DATA Corporation

経産省実証案件実施中

OSS構築実績 (規模・処理量マップ)OSS構築実績 (規模・処理量マップ)

DB規模

処理量(万件/時)

●●

40

10

20

10万件 100万件 300万件 500万件 1000万件 1億件

60

●●

10億件

~数PB

構築・運用支援中

10Copyright ©2009 NTT DATA Corporation

経産省実証案件実施中

OSS構築実績 (規模・処理量マップ)OSS構築実績 (規模・処理量マップ)

DB規模

処理量(万件/時)

●●

40

10

20

10万件 100万件 300万件 500万件 1000万件 1億件

60

●●

10億件

構築・運用支援中

先見派

実利派

今後のターゲット領域

11Copyright ©2009 NTT DATA Corporation

NTTデータの取り組み

12Copyright ©2009 NTT DATA Corporation

2匹目の象を育むために2匹目の象を育むために

キャズム

実利派 保守派懐疑派先見派

時間マニア

顧客数 サーバLinuxPostgreSQL

パフォーマンス市場(ハイエンド)

バリュー市場(メインストリーム)

要件定義支援サービス、設計・構築サービス の提供

OSからHadoopまで一貫した スタックサポートサービス、

オンサイト障害対応サービス の提供

OSS基盤を使ったシステム構築の 実績作り

要件定義支援サービス、設計・構築サービス の提供

OSからHadoopまで一貫した スタックサポートサービス、

オンサイト障害対応サービス の提供

OSS基盤を使ったシステム構築の 実績作り

新技術普及の流れ

Hadoop

技術に強くはない、コモディティ化した技術をマーケット・リーダから購入、手厚いサポート必須

技術に強い、リスクは取らない生産性向上の手段を求めている

自分で組み合わせる顧客が自分で改造 組み込まれて目に見えなければ購入

13Copyright ©2009 NTT DATA Corporation

3つのクラウドタイプ3つのクラウドタイプ

AmazonタイプのIaaS

Force.comタイプのPaaS

HadoopタイプのPaaS

特徴徹底した

仮想化インフラの追及

徹底したマルチテナンシーの追及

(DB仮想化)

徹底したスケーラビリティの追及

(BASE)

適したアプリ

Webアプリ一品モノ

既存アプリのマイグレーション

Webアプリワークフロー

ビジネスプロセス系参照・問合せ系

キャンペーンサイト社内システム

大規模データBI/DWH

センサー系分析系、バッチ系参照・問合せ系

メディア系

適さないアプリ 大規模データ、BI/DWH

高トランザクション高インタラクティブ

メディア系コンテンツ大規模データ、BI/DWH

リアルタイムトランザクション

高インタラクティブ

スタック構成

(Web/AP/DB)サーバゲストOS、ゲストOS、・・・VMM(ハイパーバイザー)

ハード

(AP/API/検索)サーバDBクラスタ

ハード

MapReduce分散ファイルシステム

OSハード

14Copyright ©2009 NTT DATA Corporation

経産省 「実証事業」 に Hadoopベースの提案が採択経産省 「実証事業」 に Hadoopベースの提案が採択

テーマ:クラウド型分散処理基盤 (Hadoop) の適用性評価

基盤の観点では...

クラウド基盤信頼性向上への取り組み

Master Server の冗長化確立した Heartbeat + DRBD に加えて Kemari + DRBD を評価

クラウド基盤運用効率化への取り組み

初期構築・増設、故障交換時のノードの自動構成を標準的な製品機能とOSSの組合せで実現

サーバの種別・機種が混在する環境でも適用可能な実装を実証

15Copyright ©2009 NTT DATA Corporation

Heartbeat + DRBD による Master Server の冗長化Heartbeat + DRBD による Master Server の冗長化

Master Server(NameNode,JobTracker)の冗長化を実現Heartbeat

Linux-HAプロジェクトによって開発されたサーバのHAソフトウェアhttp://www.linux-ha.org/ja/HomePage_ja

DRBD(Distributed Replicated Block Device)

2台のサーバ間でディスク上のデータミラーリングを実現するソフトウェア

http://www.drbd.org/

heartbeat

DRBD

NameNode

heartbeat

DRBD

NameNode

editsファイルイメージファイルeditsファイルイメージファイル

Heartbeat/ミラーリング LAN

永続データの同期型ミラー

NameNode(現用系)NameNode(待機系)

16Copyright ©2009 NTT DATA Corporation

Master Server冗長化 (続き)Master Server冗長化 (続き)

Master Serverのうち、 Job Trackerは永続データの引き継ぎは不要NameNodeの冗長化では永続データの引継ぎが必要

イメージファイルHDFS上のデータに対する格納先ノード、ブロックサイズなどのメタ情報が格納されたファイルNameNode起動時にメモリにロードされ、チェックポイントのタイミング及び、NameNode停止時にディスク上のファイルにフラッシュされる。

editsファイルイメージファイルに対するトンラザクションログメタ情報の更新時はイメージファイルではなく、トランザクションログに更新内容が出力

NameNodeの異常終了(プロセスダウンなど)後にNameNodeを起動する場合、イメージファイルにeditsファイルの更新内容が適用され、異常終了直前の整合性が維持された状態にメタ情報が復元される。

Job Trackerのハード故障時、実行中のJobの内容は失われる...長時間かけた処理の結果が失われるのは辛い

17Copyright ©2009 NTT DATA Corporation

“Kemari” ?“Kemari” ?

Copyright © 2007-2008 Nippon Telegraph and Telephone Corporation 17

鞠を落とさない!↓

サーバを落とさない!

蹴鞠(Kemari)

http://www.ntt.co.jp/cclab/activity/category_6/a_product_01.htmlhttp://www.osrg.net/kemari/

18Copyright ©2009 NTT DATA Corporation

“Kemari” + DRBD による Master Server の冗長化“Kemari” + DRBD による Master Server の冗長化

Hardware

Xen

Dom0 DomU

Back-end Front-end

Kemari イベントチャネルKemari イベントチャネル

Kemari差分転送

Kemari差分転送

Hardware

Xen

Dom0DomU

Back-endFront-end

Kemari差分更新

Kemari差分更新

Network

Sync DomU

[1] 特定のイベントを補足し、VMを一時停止

[2] 運用系の差分を転送

DRBD or SAN

[3] 差分で待機系を更新

Job Tracker ハード故障時でも、Job の中断・再試行を回避できる

Kemari KVM版 開発中!!

19Copyright ©2009 NTT DATA Corporation

Hadoopで今後のITはどう変わるのか

20Copyright ©2009 NTT DATA Corporation

まずは、大規模データ処理ニーズを取り込むまずは、大規模データ処理ニーズを取り込む

現在: 先見派 ~ コスト・スケールメリットを訴求とにかく大きなデータを扱いたい - 大量の生データ

あまり複雑な処理まで未だ望んでいないバッチ処理でデータを抄訳、...

メリットがあるところから適材適所で使われるまずは大規模バッチへの適用から、適宜従来システムとのハイブリッド化(例 Facebookのハイブリッド構成)

基盤の経済的な構築・運用の実績作りの段階

今後: 実利派 ~ 『生産性向上』 のシナリオデータ指向に基づいたITシステムの活用が新しいIT領域を切り拓き、新しいビジネスを創出する

より抽象度の高いツールの使いこなし ← 今後の取り組み適切な可視化ツールの整備

21Copyright ©2009 NTT DATA Corporation

大規模データを対象としたITシステム大規模データを対象としたITシステム

今まで扱うことが難しかった領域を切り拓く~ 大規模データを扱うシステム それ自体が「新しいITシステム」

大量データを扱うプラットフォームを Commodity で実現するのが当り前に長期に渡るデータの収集、Webスケールのデータ収集を可能に→ HDFS + IAサーバ

プロセス指向のITシステムからデータ指向に基づいたITシステムへの転換

プロセス指向のIT化 ~ データの扱いは ETLExtract Transform Loadドメイン・業務分析 → 構造化できるデータを特定 → システム化活用

予め解釈を与えておいて

データ指向のIT化Gather Extract Load & Transform集めて 面白そうな対象を選び システムに取り込みモデル化を試みる

分析対象のモデル化作業自体をIT化の対象とする Extreme Analytics

データを対象にした extreme programming 様のプラットフォームとして Hadoop が普及 ☺

記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。

お問い合わせ先:株式会社NTTデータ 基盤システム事業本部システム方式技術ビジネスユニット OSS技術統括部 (担当: 濱野, 政谷)

メール: [email protected] TEL: 050-5546-2496