ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/macnica...•...

33
Confidential NVMe over Fabricに対応した分散ストレージ Excelero」の紹介 2019/2/1 1 Gfarmワークショップ2019

Upload: others

Post on 27-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

Confidential

NVMe over Fabricに対応した分散ストレージ「Excelero」の紹介

2019/2/1

1

Gfarmワークショップ2019

Page 2: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

マクニカ・富士エレホールディングス グループ

2

GmbH

D H W

米国(カリフォルニア、イリノイ)

シンガポール香港台湾中国(深セン、上海、北京)

韓国タイマレーシア

中国・香港

ASEAN・インド

台湾

北米

ブラジル

欧州

マクニカ社内分社国内関連会社

(ネットワーク・セキュリティ)

マクニカ海外現地法人(主に日系顧客対応)

海外グループ会社(現地顧客対応)

GROUP

国内関連会社(コンポーネント・富士エレグループ)

半導体商社の

Global Leader

2017年度売上

5,041 億円

2500以上の従業員お客様に根ざしたサポートを

世界 70 拠点以上で展開

200 以上の最先端製品・技術を提供

Global Top5(ELECTRONICS DISTRIBUTORS 部門)

3132

Page 3: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

取扱い製品

3

Network

Compute Storage

• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ• ハイパースケールネットワーク(Cumulus)• Smart NIC, 高機能アダプタカード(GPU-Direct, RDMA, OVS, VXLAN)• LincX ケーブル、モジュール製品

• インテントベースネットワーキングソフトウェアデザイン、構築、運用を完全自動化

• FPGAアクセラレータカードDeep LearningアクセラレーションDataBaseアクセラレーション

• マルチコア、高密度サーバ(Xeon, AMD)• GPU搭載サーバ• All NVMe Flashストレージ

• NVMe SSD• 大容量オブジェクトストレージシステム• JBOD/JBOF

• 次世代NVMeスケールアウトストレージソフトウェアソリューション

• 各種GPU製品• コンポーザブル・インフラストラクチャ

統合管理ソフトウェア

Page 4: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

本日のお話

4

「NVMe over Fabricに対応した分散ストレージExceleroの紹介」

NVMe over Fabricsの現在

Excelero NVMeshの紹介 & ベンチマークデータ

(いま)

Page 5: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMe over Fabrics

5

NVMeをローカル利用する課題○ PCIスロット以上には拡張できない

○ ノード単位の容量制限以上をアプリケーション利用できない

NVMe over Fabricとは○ NVMeストレージを複数ノードで共有する仕組み

‐ マルチプロトコルサポート

‐ データプレーン、マネジメントプレーン機能提供

○ NVMe over Fabrics標準規格化‐ NVMe over Fabrics 1st Version 1.0 (2016/June)

‐ NVMe over Fabrics Latest Version 1.0a (2018/July)

NVMe over Fabricが目指すところ○ 低レイテンシー性能(over Fabric)

○ ファブリックスケール

Page 6: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMe over Fabricsのいま

サービス環境で使用できる機能セットのサポートはこれから

○ SCM, QCLサポート

○ Multipath

○ Namespace Sharing

○ Discovery(Management)

○ Security

○ Etc

6

https://www.nvmedeveloperdays.com/English/Conference/Proceedings_Chrono.html

Page 7: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMe over Fabricsのいま(性能面)

7

TCP/IP(iSCSI)○ 性能面でのアドバンテージなし

RDMA/RoCE○ 現状、最大限のパフォーマンスを求めるのであればRDMAが必須

○ Exceleroはさらにレイテンシーのチューニングがされている(+5usec)

TCP/IP

○ iSCSIに比べ1/2のレイテンシー性能

○ RDMAが勝る

https://www.nvmedeveloperdays.com/English/Collaterals/Proceedings/2018/20181205_Plenary_1_Brett.pdf

Page 8: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

ここまでのまとめ

NVMe over Fabricsはフラッシュストレージのファブリック技術のスタンダードとして発展していく

現状、サービス用途のユースケースでは課題は多い

○ そもそも、バージョン1.0x …

一方で、既にIOパフォーマンスが必要なEmergentな市場/アプリケーションはある

8

Page 9: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

9

Excelero紹介

Page 10: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

Exceleroの紹介

10

拠点:イスラエル(HQ)、北米概要:2014年設立、2017年3月NVMesh GAリリースその他:投資トータル$35M(RoundC) as of 2018 Oct

Page 11: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

Lowest OverheadLocal Flash Latency across the Network

100% Software-definedUse any Hardware

Block StorageUse any File System

Software-defined Block Storage

Page 12: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

Exceleroの紹介

コアテクノロジー 「NVMesh」○ RDDA(標準技術RDMA+NVMeofがベース)による、ゼロオーバーヘッドのアクセス性能

‐ リモート性能 = ローカル性能

‐ ゼロCPUアクセス

‐ 低レイテンシー

○ スケールアウトSAN

‐ PBクラスのスケーラブルなブロックストレージ提供

‐ アプリケーションからの透過性

‐ データ冗長(RAID10, Erasure Coding)

○ GUI、オープンAPIによる統合管理、監視

‐ プロビジョニング

‐ モニタリング

12

Page 13: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMeshアーキテクチャ

13

Page 14: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMeshアーキテクチャ(コンポーネント)

14

マネジメントノードマネジメント、ノード死活監視、モニタリング

クライアントノードストレージは単なるブロックデバイスとして見える

ストレージに対してRDMA通信

ターゲットノードRDMA Target offloadに対応

Client間CPUゼロコピーTarget-NVMe間ゼロコピー

Page 15: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

柔軟な構成が可能

15

Page 16: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMeshサポート機能

NVMeshサポート機能(v1.2.x – 2019/1月)

16

TCP/IP, FC (NVMesh2 coming soon)

Erasure Coding 8+2 (NVMesh2 coming soon)

Page 17: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

17

ユースケース

Page 18: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

ユースケース

18

Page 19: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

HPCユースケース

採用ポイント○ 250GB/sec バーストバッファ

○ チェックポイント・リスタート

ハイライト○ 圧倒的パフォーマンス!

‐ 80 pooled NVMe devices

‐ 148 GB/s of write burst (device limited)

‐ 250GB/s read throughput (network limited)

‐ Well over 20M random 4k IOPS

○ ファブリック化により大容量化、階層化などを実現化

‐ ブロックストレージ :NVMesh

‐ ファイルシステム :IBM Spectrum Scale

19

Page 20: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMeを活用した並列ファイルシステムの高速化ソリューション

20

Compute Cluster

PFS

並列ファイルストレージ

NVMe based distributed Hot-Tier

特徴○ 高速read/writeバーストバッファ

○ PFSへのIOアクセス高速化

○ スケールアウト‐ 性能 = NVMeローカルパフォーマンス

‐ 容量 = ~PB

機能概要○ Excelero NVMesh

‐ NVMe over Fabric(RDMA[Eth/IB])による超高速IO

‐ スケールアウトブロックストレージ

‐ データ冗長(RAID10, Erasure-Coding)

○ IBM Spectrum Scale

‐ 並列ファイルシステムの実現

‐ 高速バッファ/大容量ストレージのキャッシング/階層化

Page 21: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

IBM Spectrum Scale (GPFS) 概要

21

ユーザー端末

ユーザー/

アプリケーション

コンピュートファームアプリケーション

▪Powered by

シングル・ネーム・スペース

SMB NFS POSIX

Transparent HDFS

ディスク テープフラッシュ非共有ディスククラスター

クラウド(オブジェクト・スト

レージ)

オブジェクト

Swift S3

共有ディスククラスター

特長①高い拡張性とパフォーマンス

特長②様々なプロトコルに対応

特長⑤拠点間連携機能

特長④データ階層化機能

特長③HDFS対応

Spectrum Scale

Page 22: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

NVMesh x Spectrum Scale 構成例例 : Local NVMeを活用したHyper Converged構成

22

PFS

Compute

Ethernet or InfiniBand

NVMesh(Client)

GPFSClient

RDMA NIC

NSD

NVMesh(Client)

GPFSClient

RDMA NIC

NSD

NVMesh(Client)

GPFSClient

RDMA NIC

NSD

Shared Storage(GPFS)

構成概要 ハード

○ コモディティサーバ & 汎用NVMe

○ インターコネクト Eth or IBサポート

○ RDMA対応NIC(Mellaanox)

ソフト○ Excelero NVMesh Client/Target

○ IBM Spectrum Scale

IO○ プロトコル :RDMA/RoCEv2

○ データ冗長 :RAID10/Erasure Coding(NVMesh)

○ キャッシング/階層化:Spectrum Scale

✓ ローカルNVMeをストレージHCI化

✓ リモートノード間のファイル共有をLocaliz

(ローカル=リモート性能)

✓ GPFSによる高速ローカルNVMe領域と大容

量ストレージ間のキャッシング、階層管理

※レイテンシー +5u

RDMA/RoCEv2

(read/write)

Shared Storage(GPFS)

キャッシング階層化

Page 23: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

23

ベンチマーク

Page 24: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

ローカル vs リモート

24

NVMeのローカル性能とほぼ同等のパフォーマンス

IOPS Throughput

0

100000

200000

300000

400000

500000

1 2 4 8 16 32 64 128 256

Sustained 4KB Random mixed 30% Write Tests

by Number Threads

NVMesh local

IOPS

Threads

0

500

1000

1500

2000

1 2 4 8 16 32 64 128 256

Sustained 4KB Random mixed 30% Write Tests

by Number Threads

NVMesh local

MB/s

Threads

LocalLocal

※1クライアント vs 1ターゲット(x1NVMe)の性能※HGST SN150 PCIe SSD使用

Page 25: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

iSCSI vs NVMesh

25

0

100000

200000

300000

400000

500000

1 2 4 8 16 32 64 128 256

Sustained 4KB Random mixed 30% Write Tests

by Number Threads

NVMesh iSCSI

IOPS

Threads

x6.4

iSCSI0

500

1000

1500

2000

1 2 4 8 16 32 64 128 256

Sustained 4KB Random mixed 30% Write Tests

by Number Threads

NVMesh iSCSI

MB/s

Threads

x6.4

iSCSI

iSCSIに比べ6.4倍の性能差

IOPS Throughput

※1クライアント vs 1ターゲット(x1NVMe)の性能※HGST SN150 PCIe SSD使用

Page 26: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

レイテンシー

26

94.63101.77

167.07

33.6441.09

87.48

0

20

40

60

80

100

120

140

160

180

local NVMesh iSCSI

Latency4K Read 4K write

fioツールのアウトプット値

ローカル≒リモート(+7usec)の低レイテンシー性能

Page 27: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

CPU Utilization

27

0

10

20

30

40

50

60

70

80

90

100

1

24

5

489

733

977

1221

1465

1709

1953

219

7

24

41

2685

2929

317

3

34

17

3661

3905

414

9

4393

4637

4881

512

5

5369

5613

5857

610

1

CPU Utils

total cpu usage usr total cpu usage sys

0

50000

100000

150000

200000

250000

300000

350000

400000

1

255

509

763

1017

1271

1525

1779

2033

2287

2541

2795

3049

3303

3557

3811

4065

4319

4573

4827

5081

5335

5589

5843

6097

割り込み、コンテキストスイッチ

iSCSIの負荷基準

CPU使用率ほぼゼロ%、割り込み負荷極少

Page 28: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

28

スケーラビリティテスト

Page 29: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

検証機器

29

ネットワーク

✓ 25/100GE対応 低レイテンシー/ノンブロッキングスイッチ✓ 6.4Tbpsのフルワイヤーレート✓ スマートバッファ搭載(動的バッファリング)✓ RDMA(RoCE)対応アダプタ

NVMeストレージ

✓ HGST社製 Ultrastar Serv24✓ 2U / x24 NVMe SSD搭載✓ 最大容量 184TB

NVMeofソフトウェア

✓ NVMe over Fabric対応スケールアウトブロックストレージソフトウェア✓ 高可用性、データ冗長対応✓ RDDA機能による超低遅延性

Page 30: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

検証環境

30

100GbE

25GbE

NVMesh

Target

NVMesh

Client

NVMesh

Client

NVMesh

Client

NVMesh

Client

NVMesh

Management

Page 31: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

オーバヘッドなしでリニアに性能UP

31

0

200,000

400,000

600,000

800,000

1,000,000

1,200,000

1,400,000

1 2 3 4 5

RAID0 #Stripe

0

50,000

100,000

150,000

200,000

250,000

300,000

1 2 3 4 5

RAID0 #Stripe

0

50,000

100,000

150,000

200,000

250,000

300,000

350,000

400,000

1 2 3 4 5

RAID0 #Stripe

0

1,000

2,000

3,000

4,000

5,000

6,000

7,000

1 2 3 4 5

RAID0 #Stripe

IOPS

4k Rand ReadIOPS

4k Rand Write

IOPS

4k mix (30%write)

Throughput(MB/s)

256k Seq Read

Sandisk Skyhawk NVMe

Seq Read(128KB) : 1500MB/s

Seq Write(128KB) : 1170MB/s

Rand Read(4KB) : 250k IOPS

Rand Write(4KB) : 47k IOPS

Page 32: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

最大パフォーマンス性能※今回の構成における、RAID0 24ストライプ時

32

0

200,000

400,000

600,000

800,000

1,000,000

1,200,000

1,400,000

1 2 3 4 5

RAID0 #Stripe

0

50,000

100,000

150,000

200,000

250,000

300,000

1 2 3 4 5

RAID0 #Stripe

0

50,000

100,000

150,000

200,000

250,000

300,000

350,000

400,000

1 2 3 4 5

RAID0 #Stripe

0

1,000

2,000

3,000

4,000

5,000

6,000

7,000

1 2 3 4 5

RAID0 #Stripe

IOPS

4k Rand ReadIOPS

4k Rand Write

IOPS

4k mix (30%write)

Throughput(MB/s)

256k Seq Read

1.6M IOPSRAID0 #24stripe

1.1M IOPSRAID0 #24stripe

1.5M IOPSRAID0 #24stripe

11GB/s = 88GbpsRAID0 #24stripe

Page 33: ワークショップ2019oss-tsukuba.org/wp-content/uploads/2019/02/Macnica...• ストレージネットワークに最適な、低遅延、高機能バッファ搭載スイッチ

まとめ

33

性能・スケーラビリティ・可用性を兼ね揃えたNVMeファブリックストレージソフトウェアは既にReady!!

HPCアプリケーションを高速化

✓ スケールアウト高速NVMeファブリックを実現✓ 高速な並列ファイルシステム