hpc & ai 特化型サーバー最前線! 世界初!hpc向...
TRANSCRIPT
HPE HPC & AI フォーラム 2018
プラナスソリューションズ株式会社 代表取締役社長さくらインターネット株式会社 営業部担当部長臼井 宏典
HPC & AI特化型サーバー最前線!世界初!HPC向けArmサーバー商用ホスティングサービスとは?
日本ヒューレット・パッカード株式会社ハイブリッドIT製品統括本部 カテゴリーマネージャー高橋 健
HPC & AIに最適化されたHPE製品のポートフォリオ
HPE Apollo 2000 Gen10HPE SGI 8600 HPE Apollo 6000 Gen10
スーパーコンピューター / エンタープライズ向けHPC
アドバイザリ、プロフェッショナルサービス - HPE フレキシブルキャパシティ for HPC、HPEデータセンターケア for Hyperscale
AI・新興マーケット
天候・気象研究金融サービス
ライフサイエンス医療
官公庁大学・研究所
石油・天然ガスエネルギー
EDA / CAE製造
業種別HPCソリューション
2Uのコンパクトデザインに柔軟な構成を実現。
GPUコンピューティング、VDI、仮想化基盤にも最適。
業界をリードするパフォーマンス、密度、
冷却効率を実現する水冷システム。
1ラックあたり144ノードを収容可能。
高密度実装と究極のパフォーマンスを提供する
空冷システム。
筐体内に広帯域ネットワークスイッチを内蔵する革新的デ
ザイン。
PCIe版、SXM2版のGPUを8枚搭載可能。
エンタープライズでのAI活用に最適。
HPE Apollo 6500 Gen10
New
Armベースの高密度実
装サーバー。高いメモリバンド幅を提供。New
HPE Apollo 70
AI/ディープラーニングに最適なサーバーHPE Apollo 6500 System
3
4
HPE Apollo 6500 Gen10 System の特長
幅広いワークロードに応える柔軟性 充実したサポートサービス
エンタープライズ環境に最適な設計
エンタープライズ環境での利用に最適な設計
5
標準ラック搭載世界標準の安心サーバー
エンタープライズ標準OSサポート
エンタープライズ環境で利用される汎用サーバーと同じように運用・管理可能
• 管理プロセッサ iLO5搭載• ProLiant DL380 Gen10の
マザーボードとオプションを使用
• 業界標準1075mmラック搭載¹• Gen9で必要であったエンクロージャ、
電源用筐体は不要
• 2+2のパワーサプライ構成• ホットプラグ可能なファン²
可用性への配慮
¹ ²ファンのホットプラグを実現する場合、1200mmラック、およびケーブルマネジメントアームが必要となります。
幅広いラインアップからGPUを選択可能
6
Computational Options
AMD Radeon InstinctMI25
NVIDIA TeslaP100
NVIDIA TeslaP100
NVIDIA TeslaV100
NVIDIA TeslaV100
NVIDIA TeslaP40
HPE SKU Q1K38A Q0C71A Q0E21A Q2N66A Q2N68A Q0V80A
Core Count 4096 3584 3584 5120 5120 3027
Perf (Tflops) HP 24.6 21.2 18.7 NA NA NA
SP 12.3 10.6 9.3 15 14 12.0
DP 5.3 4.7 7.5 7
Int8 47 TOPS
Tensor 120 112
PCI-e Gen3 Gen3 Gen3 Gen3 Gen3 Gen3
Memory (GB)/BW GB/s 16/484 16/732 16/732 16or32/900 16or32/900 24/346
Form Factor Double-Width Double-Width Double-Width Double-Width Double-Width Double-Width
Power Connector PCI-e, 8-pin & 6-pin CPU, 8-pin CPU, 8-pin CPU, 8-pin CPU, 8-pin CPU, 8-pin
Card Power 300W 300W 250W 300W 250W 250W
幅広いGPUラインアップから選択可能
3つのGPU接続パターンから選択可能
7
NVLink 2.0 PCIe 4:1 PCIe 8:1
SW
SW
CPU2
CPU1
SW
SW
GPU1 GPU4
GPU3 GPU2
GPU5 GPU8
GPU7 GPU6
SW
SW
CPU2
CPU1
SW
SW
GPU1 GPU4
GPU3 GPU2
GPU5 GPU8
GPU7 GPU6
SW
SW
CPU2
CPU1
SW
SW
GPU1 GPU4
GPU3 GPU2
GPU5 GPU8
GPU7 GPU6
トラディショナルなPCIeを用いた4:1のトポロジー。均一な構成が好まれるMPIジョブ、HPCの用途に最適。
ディープラーニングに最適な8:1のトポロジー。サーバー内のGPU間通信
が多いワークロードにおいて高いパフォーマンスを発揮。
BIOS設定変更で柔軟に切り替えが可能
広帯域・密結合なネットワークでディープラーニング/AIやHPCにおいて最も高いパフォーマンスを発揮。
New
New
GPUの接続パターンを柔軟に選択可能
HPEがデータ分析プラットフォーム活用を総合的支援
企画
データ活用におけるビジョン、目的の議論を促進
求められるプラットフォームの技術を学習
実装 運用・改善
膨大なデータをビジネスに生かすデータ分析プラットフォームの実現に向け、すべてのフェーズでHPEがご支援いたします
AIセミナー・Workshop
教育サービス
抽出・加工・ストア・分析のためのデータパイプラインを実現する、柔軟なプラットフォームのデザイン・実装を支援
分析基盤コンサルティング
分析基盤のPoC環境分析基盤活用支援
プラットフォームの運用支援ならびに技術支援
データ分析プラットフォームのオンプレミス環境を従量課金モデルで提供
運用支援サービス
GreenLake
9
エンタープライズ向けコンテナオーケストレーション
Dockerと採用実績豊富なKubernetesをネイティブに統合、エンタープライズ向け認証・SDN・Webコンソール・運用管理等の機能も充実
HPE Apollo Systemは、ラックあたりの最高レベルのパフォーマンスと効率性を実現する、Deep Learning 向けに最適化されたスケールアウト型GPUシステムです。
Deep Learning開発用コンテナ環境構築サービス概要本サービスは、Deep Learning開発環境としてNVIDIA GPUを搭載したHPE Apollo 6500 Gen10 SystemをRed Hat OpenShift Container Platform(以降OpenShift)のNodeサーバーとして構成し、その上でTensorFlowやChainer等のDeep Learningアプリケーションコンテナを稼働する環境を導入します。OpenShiftの特長でもある堅牢なテナント分離を実現するだけでなく、特定のGPUリソースを柔軟に各利用者のコンテナに割り当てることが可能となる、リソース、開発環境構築時間、コスト等あらゆる面で開発効率が飛躍的に向上しうる環境を提供いたします。
HPE Apollo 6500 Gen10 System の特徴 OpenShiftによる開発環境のメリット
HPEが提供するDeep Learning開発用コンテナ基盤環境
GPUリソースのマルチテナント毎割り当てが可能
NVIDIA GPUのワークロードに合わせた柔軟な割り当て、テナント毎のリソース分離とアクセス制御を実現。セキュリティ、パフォーマンスの双方において、開発効率が飛躍的に向上します。
Deep Learning Application Containers
※コンテナ環境構築には、上記Apolloサーバーの他にMaster/Infraサーバーが必要となります。
HPE Apollo 6500 Gen10 System4U, 8x GPGPU, 2X Intel Xeon Scalable Processors
開発者
異なるプラットフォーム/バージョンの開発用コンテナを混在して利用可能です
HPE Deep Learning開発用コンテナ基盤環境
・・・
異種・複数バージョンDeep Learningフレームワークの混在可
Deep LearningフレームワークとCUDA Toolkitライブラリをコンテナ化。複数フレームワークの開発環境を同一プラットフォーム上で利用可能です。
最高のGPU密度NVIDIA Tesla GPU (PCIe もしくは NVLINK 2.0) を最大8基搭載可能
柔軟なストレージ構成16本までのSATA/SAS/SSDもしくは4本までのNVMeを構成可能
GPUパフォーマンスを活かす1または2CPUあたり最大8GPUを実現し、アプリケー ションに最適化
優れた管理性iLO等のHPE ProLiant Gen10と 共通の管理環境を提供
10
HPE Apollo 6500 Gen10 System
HPEはエンタープライズ用途でのAI活用をサポートします!
幅広いワークロードに応える柔軟性
充実したサポートサービス
エンタープライズ環境に最適な設計
“AI for Business”を実現するプラットフォーム
HPE Apollo 6500 Gen10 System
ArmベースのHPCプラットフォームHPE Apollo 70 System
11
HPEPerformance
Software Suite
Apollo Servers
Protocol Design
Shared-Memory Expertise
HPE エクサスケールコンピューティングプロジェクト
12
SiPhNVMVLSI
シリコンデザインラボ
Hewlett Packardラボ/ The Machine
Memory-Driven Computing
HPC製品
ビジネスユニット
エクサスケール
HPC
顧客とのコラボレーション
次世代プラットフォームの開発 GenZ プロトコル とファブリックデザイン
次世代のスーパーコンピュータをデザイン
HPC Storage
HPE Apollo 70 System
13
2ソケットのArmベースサーバー
– 2基のMarvell | Cavium ThunderX2プロセッサを搭載
– 最大 32コア / 2.2GHz
高いメモリバンド幅
– IAサーバーより33%高いメモリバンド幅
– 1CPUあたり、8本のメモリチャネル
充実したソフトウェアスタック
– Arm向けRHEL/SUSE Linuxのサポート
– Arm Allinea Studioの提供
高いスケーラビリティ
– エクサスケールを目指す大規模コンピューティングにも最適
2つのサーバートレイを選択可能HPE AR44z (1Uハーフワイド)HPE AR64z (2Uハーフワイド)
Armベースの高密度型サーバー
Marvell | CaviumのThunderX2プロセッサを搭載した、Armベースの高密度システム。2Uの筐体に2ソケットサーバーを4台まで搭載可能。
HPE Apollo 70 Systemスペック詳細
14
スペック HPE Apollo 70 SystemCPU Cavium 64-bit Armv8.1-A ThunderX2™
プロセッサ / コア / クロック 2プロセッサ/ 最大32コア/ 最大2.2 GHz
メモリ (メモリタイプ, 最大容量, スロット数)DDR4-2667 DIMMノード当たり最大512GB(16x32GB); 16 DIMMスロット
ドライブベイ8 LFF HDD/SSD2 internal 2280 M.2 per node; up to 960GB/SSD
I/O
Mellanox CX-5 100 Gb/s VPI アダプター (IBあるいはEthernet)デュアルポート SFP+ 10GbE Mellanox CX4 LOMシングルポート RJ-45 1GbE NIC(管理ポート用)1x USB, 1x VGA, 1x UART
拡張性 拡張PCIeスロットに2GPUまで搭載可能
マネジメント IPMI.2.0
パワーサプライ 2x 1600W ホットプラグ対応
標準保障 3年間 翌営業日オンサイトサポート
HPE AR44z 1Uノード HPE AR64z 2Uノード
AR64z x1台 と AR44z x2台 の背面
2Uシャーシに最大4ノード搭載
15
プラナスソリューションズ株式会社
代表取締役社長
さくらインターネット株式会社
営業部担当部長
臼井宏典様
HPC & AI特化型サーバー最前線!世界初!HPC向けArmサーバー商用ホスティングサービスとは?
さくらインターネットについて
商 号 さくらインターネット株式会社
本 社 所 在 地 大阪市北区大深町4-20グランフロント大阪タワーA 35F
創 業 年 月 日 1996年12月23日(会社設立は1999年8月17日)
上 場 年 月 日 2005年10月12日(マザーズ)2015年11月27日(東証一部へ市場変更)
資 本 金 22億5,692万円
従 業 員 数 連結563名(2018年3月末)
会社概要
インターネットインフラの提供を事業ドメインとして、大阪、東京、北海道の3都市に5つのデータセンターを展開
プラナスソリューションズについて
「プラナス」とはサクラ属、スモモ属を意味する言葉です。サクラ属は樹木となり5弁の花を付けます。転じて5つの業務を主軸とし、さくらインターネットのグループのHPCを中心としたソリューションを提供する会社として2018年5月に設立されました。
商 号 プラナスソリューションズ株式会社
本 社 所 在 地 新宿区西新宿7-20-1住友不動産西新宿ビル 33F
創 業 年 月 日 2018年5月1日
株 主 さくらインターネット(100%)
資 本 金 1億円(資本準備金1億円)
代表取締役社長 臼井 宏典
会社概要
4号棟5号棟
最終完成イメージ計5棟、最大6,800ラック規模
3号棟(2016年12月
竣工)
既存棟(1・2号棟)
石狩データセンター概要
●冷涼な気候で冷房コストを大幅にカット
●大規模の開発用地がある●通信回線の結節点となりえる地の利● 災害リスクが低い● 200万人の大都市を持つ
3号棟・外観パース(中央:3号棟、左:1・2号棟) 3号棟・鳥瞰パース(奥:3号棟、手前:1・2号棟)
1号棟 2号棟 3号棟敷地面積 51,448㎡(石狩湾新港地域全体で3,022ha) (左記に含む)竣工 2011年11月15日 2016年12月28日
建物構造 地上2階建・鉄骨造 地上3階建・鉄骨造建設面積 7,116㎡ 6,487㎡延床面積 11,417㎡ 12,270㎡ラック数 500 620 1,924
東京ドーム約1個分の敷地面積札幌から車で約30分とアクセスも容易
北海道道央圏の強み
HPEとの事例
◎ 高火力コンピューティング基盤を採用したサービス型の利用従来の「顧客所有」から「サービス利用」へ、スパコンの調達ニーズの変化に対応(電力消費量と資産管理コストの増加回避)
◎ エネルギー効率の高い石狩データセンターでの運用消費電力の大幅抑制とCO2の削減が可能
◎ 2017年4月より稼動開始。予算規模は約21億円(5年総額)1,024台のサーバーを提供。提供規模は合計32,768コア、総理論演算性能は約1.153ペタフロップス( PFLOPS )※2
「超先端材料超高速開発基盤技術プロジェクト」向けスーパーコンピューターシステムに、高火力コンピューティング基盤が採用
※1 産総研:国立研究開発法人産業技術総合研究所※2 ペタフロップス(PFLOPS):コンピュータの処理能力の単位で、Peta Floating-point Operations Per Secondの略。
Petaは1000兆(10の15乗)であり、毎秒1000兆回の浮動小数点演算ができることを表します
産総研※1・先端素材高速開発技術研究組合共同運営のスーパーコンピューターシステム受注
本案件のポイント
HPEとの事例HPE Apollo2000×256台1024ノード+DDN SFA14KX(2PB)+Mellanox SB7800,SB7890×100
1024ノードを高集積した場合、アイルキャッピングされたデータセンター内においても立ち上げ時には部分的に70℃を超える熱だまりが発生した。
エアフローや配線取り回し等を見直し、空冷にて安定した運用ができている。
機械の大型化、高集積化、GPU等高電力を必要とする機材等旧来型のデータセンターや電算室では電力、冷却、耐荷重等に大きな制約がある状況。
機材の運用、保守面を含め高集積・高電力案件に関しては実績のあるデータセンター、ソリューションを選定しないとトラブルの多発が懸念される。
時代は所有から利用へ
初期費用 **億円運用費用 年額*億円 × X年
初期費用
運用費用
構築 運用
月額 ●●万円×@@ヶ月=xx億円月払いでのサービス利用
※中間評価で減額の際は他の自社サービスへの転用も検討
ご契約期間
サービス利用費 サービス利用費
従 来 の 大 型 調 達 こ れ か ら の 調 達
・初期費用にかかるコストが大きい・運用フェーズでの予算確保が難航・中間評価での変動に対応できない・資産を保持しないとならない・スパコン調達になると時間がかかってしまう
・月額利用費を毎月支払うだけでよい・中間評価での変動に対応可能・資産を保持しなくてよい・「クラウド型調達」である・サービス利用である・スケールアップ時も迅速に対応
Armに対する期待値
・CPUの価格の優位性(対Intel比70%)
・特定の計算、メモリを使うAppにおいては同価格帯のx86系CPUよりコストパフォーマンスが良い
・欧米での採用と期待値の大きさ
・サーバーとクライアントの関係性において、特にスマホとの取り回しに優位性
・Post-Kでの採用が決まっていること
・Armチップの生産数と今後の更なる拡大、そしてその市場規模
2ソケットのArmベースサーバー– 2基のMarvell | Cavium
ThunderX2 プロセッサを搭載– 最大 32コア / 2.2GHz
高いメモリバンド幅– IAサーバーより33%高いメモリバンド幅
– 1CPUあたり、8本のメモリチャネル
充実したソフトウェアスタック– Arm向けRHEL/SUSE Linuxのサポート
– Arm Allinea Studioの提供
高いスケーラビリティ– エクサスケールを目指す大規模コンピューティングにも最適
Marvell | Cavium社のThunderX2プロセッサを搭載した、Armベースの高密度システム。2Uの筐体に2ソケットサーバーを4台まで搭載可能。
2つのサーバートレイを選択可能HPE AR44z (1Uハーフワイド)HPE AR64z (2Uハーフワイド)
HPE Apollo 70 System
HPE Apollo 70 System
スペック HPE Apollo 70 System
CPU Cavium 64-bit Armv8.1-A ThunderX2™
プロセッサ / コア / クロック 2プロセッサ/ 最大32コア/ 最大2.2 GHz
メモリ (メモリタイプ, 最大容量, スロット数)
DDR4-2667 DIMMノード当たり最大512GB(16x32GB); 16 DIMMスロット
ドライブベイ8 LFF HDD/SSD2 internal 2280 M.2 per node; up to
960GB/SSD
I/O
Mellanox CX-5 100 Gb/s VPI アダプター(IBあるいはEthernet)デュアルポート SFP+ 10GbE Mellanox CX4 LOMシングルポート RJ-45 1GbE NIC(管理ポート用)1x USB, 1x VGA, 1x UART
拡張性 拡張PCIeスロットに2GPUまで搭載可能
マネジメント IPMI.2.0
パワーサプライ 2x 1600W ホットプラグ対応
標準保障 3年間 翌営業日オンサイトサポート
HPE AR44z 1Uノード HPE AR64z 2Uノード
AR64z x1台 と AR44z x2台 の背面
2Uシャーシに最大4ノード搭載
・スペック詳細
2018年11月プラナスソリューションズがサービスリリース予定
メモリサイズ64GB、256GBの2つのモデルをご用意
いち早くArm/ThunderX2を搭載したサーバーをサービス利用にてお使いいただくことができます
Armサーバーサービスのリリース
HPE Apollo 70 Systemを採用した世界初のArmホスティングサーバー
・Armでのソフトウェアやアプリケーションの動作確認・ベンチマーク計測・何よりも先行して触ってみたい方