© 2015 HGST, INC. 1 © 2015 HGST, INC.
株式会社HGSTジャパン 大黒 義裕
PCI-eフラッシュで、 高可用性・高性能データベースシステム?!
© 2015 HGST, INC. 2
アジェンダ
• 初めましてHGSTです
• PCI-e SSDの最新状況
• PCI-e SSD製品のシステムへの適用状況
• HGST Flash Platform Software Suiteのご紹介
• Oracle RAC システムについて
• まとめ
© 2015 HGST, INC. 3
初めましてHGSTです
© 2015 HGST, INC. 4
n HGST及び WD は互いに独立した企業として存続
n 両方の会社は優れた業績をあげ続けています
n Hard Drive
n Division
n Storage Technology
n Division
n Storage Technology
n Division
© 2015 HGST, INC. 5
イノベーションの伝統と数々の「業界初」
1950 2000 2010
1979 薄膜ヘッド
1991 MR
ヘッド
1997 GMR ヘッド
2000 アメリカ国家技術賞
受賞
2001 AFCメディア
2007 初の1TB
HDD
2013 10ナノメートル 磁性ドットパ
ターンマイルストーン
1973 Winchester Disk
IBM 3340 – 現代の HDDの元祖
1978 初のディスクアレイ
サブシステムの特許
1962 流体エアベリング
スライダー
1990 PRML
Channel
1997 ランプ
ロードアンロード方式
1994 100万時間の
MTBFを 達成した 初の3.5”
エンタープライズHDD
1999 1” マイクロ
ドライブ
2006 大量販売OEM向け
2.5”垂直記憶 方式 HDD
2004 First 5-platter
3.5”design
2011 200万時間の
MTBFを達成した初の7200回転エンタープライズ
HDD
2010 初の7200回転
7mm 2.5” HDD 1956 –
RAMAC 世界初の
ハードディスクドライブの開発
2012 ヘリウム充填
HDD
2008 Intel
SATA SSD JV
© 2015 HGST, INC. 6
10億ドルを主流になりつつある “ホット” ストレージに投資
アプリケーション
OS
ストレージ HDD
Intel JDA
SSD
sTec
更に進化した コントローラ
SSD
VeloBit
高度な キャッシュ
Virident
アプリケーション最適化フラッシュ サーバ間共有フラッシュ
フラッシュ前提の アプリケーションAPI
SW SW
© 2015 HGST, INC. 7
ServerCache
アプリケーション処理を加速
リードキャッシュ& ライトバックキャッ
シュ
SSD問わず
スタンドアローンWindows &
Linux
HGST HA
同期サーバ間データコピー
Fail-Over
低遅延
InfiniBand & Ethernet
Windows Linux
HGST Share
フラッシュ共有化
低遅延
高パフォーマンス
Windows
Oracle RAC
Profiler
記憶用虜の計画に
フラッシュ使用量見積もりに
キャッシュ解析
アプリケーション 問わず
スタンドアローンWindows & Linux
HGST ClusterCache
Discover
Monitor
Manage
Report
HGST SSDs
For Standalone Windows, Linux,
& Solaris
Clustered Server Caching
Linux
エンタープライズ向けソフトウェアポートフォリオ
ストレージサーバ共有ボリュームマ
ネージャ
vHA
HGST Space Device Manager
ソフトウェアテクノロジーがFlash Fabricを可能にする
© 2015 HGST, INC. 8
PCI-e SSD製品の最新状況
© 2015 HGST, INC. 9
PCI-e 不揮発性メモリデバイス
n PCIeはどのサーバの中にもあるインターコネクト
n PCIeはサーバのバスの中で、データ転送において最大の帯域幅と最短の遅延時間を提供
n PCIe不揮発性メモリデバイスは、拡張スロット型のフォームファクタ、数テラ規模の大容量製品もある
§ 業界初の製品が2007年、Viridentが2009年、sTecが2013年
© 2015 HGST, INC. 10
HGST PCIe フラッシュ製品ラインナップ HGST PCIe Products have been qualified by Tier-1 OEMs and provide the storage for
some of the world’s largest cloud-based applications
s1122 FlashMAX II & III
ServerCache Caching Software and Hardware Device Manager
高書き込み耐性
HH-HLの大容量(4.8TB)/高性能
HGST Flash Software Suite
Server Flash Pools + HA
Ultrastar SN100
Ultrastar SN150
大容量/さらなる高性能
HGST Flash Software Suite
Server Flash Pools + HA
New
© 2015 HGST, INC. 11
NVMe?
• フラッシュアレイの性能値
• PCI-eカードの性能値 NVMe 1.6TB/3.2TB 743K Random Read IOPS (4KB)
n NVMexpress inc.が制定したPCI-e SSDのホストコントローラインターフェイス規格
n 標準規格なので、OS側でドライバが提供されるように
n PCI-Expressを使った不揮発性メモリ(Non Volatile Memory)デバイスの標準規格
n 新たに、ドライブ型のPCI-Express x 4レーンのインターフェイスを定義、ドライブ型のモデルが出るようになった
© 2015 HGST, INC. 12
PCIe SSD標準化のまとめ
出展: SNIA-J “PCIe SSD 101(日本語版)”
© 2015 HGST, INC. 13
Ultrastar SN100 Series
FAST PERFORMANCE
3.0 GB/S READ
310K MIXED RANDOM IOPS
大容量 最大
3.2TB
フレキシビリティ
HHHL + SERVICEABLE SFF
フォームファクタ
ソフトウェアイノベーション CLUSTERING, HA, &
ADVANCED CACHING
© 2015 HGST, INC. 14
PCIeフラッシュ製品群 主な仕様
Note: Performance is sustained, for 100% full drive, unless noted as Peak; IOs are aligned to their size * SN100 800 GB Performance is not listed
HGST FlashMAX II Capacity
HGST FlashMAX III
HGST SN100/ SN150
容量 4.8TB 1.1 / 2.2TB 800GB*, 1.6/3.2 TB
インターフェイス PCIe 2.0 x8 PCIe 2.0 x8 PCIe 3.0 x4
フォームファクタ HH-‐HL HH-‐HL HH-‐HL, SFF(SFF-‐8639)
ホストドライバ 独自ドライバ(No AHCI) 独自ドライバ (No AHCI) NVMe
Read Bandwidth (MB/s) 2,600 2,700 3,000
Write Bandwidth (MB/s) 900 1,400 1,600
Read IOPS (4KB) 269K 531K 743K
Write IOPS (4KB) 51K 59K 160K
Mixed (70:30) R/W IOPS (4 KB) 128K 150K 310K
Endurance 1.3 DWD 2 DWD 3 DWD
© 2015 HGST, INC. 15
デバイス単体での性能比較 (Block Size 4KB)
0 200000 400000 600000 800000
NVMe SSD(UltaStar SN100/150)
FlashMAX III
SAS12Gbps SSD
15K HDD
IOPS
Mix 70/30 100% Write 100% Read
§ Read性能においてNVMe SSDは SAS 12Gbps SSDの6倍
© 2015 HGST, INC. 16
SFF-8639 NVMe SFF SSD
PCIe 3.0 x 4レーンを サポートする端子
© 2015 HGST, INC. 17
書き込み耐性
• DWPD (Drive Write Per Day) - 保証期間のあいだに、1日あたりどのくらいの書き込みをSSDの容量を基準に
表したもの - 例 5年保証, 3DWPD, 3.2TB容量のものなら、1日あたり9.6TBの書き込みを5
年間耐えられるだけの耐性がある
• PBW/TBW (Peta Byte Write/Tera Byte Write) - 保証期間の間に、どのくらいの書き込みが出来るのかを容量で表している
メーカーとしては安心して使えるレベルものものを提供 (E/Uの件をさんこうで)
リードのパフォーマンスを出せるものをE/Uは欲しがっている
© 2015 HGST, INC. 18
PCI-e SSD製品のシステムへの適用状況
© 2015 HGST, INC. 19
エンタープライズ クラウド
Common to Both
現在のフラッシュの展開状況と悩み
• パフォーマンス、システムの余裕面、より高いIO性能を必要としている
• ライセンスコストを減らすために、CPU/CPUコアの使用率を上げる必要がある
• アーキテクチャと管理が “一致” • ストレージアレイがシステムを
決定づけている
• 分散されたノード間では遅延が大きい
• フラッシュが様々なサーバに展開されているが容量使用率は高くない
• サーバ台数が肥大 • コモディティサーバがシス
テムを決定づけている
• データの収集、保存、解析にさらなる効率性と性能 • コストを抑えるためもっと大容量が必要 • より早い意思決定のため遅延時間を減らす必要がある
共通の悩み
© 2015 HGST, INC. 20
遅延時間
n zzz n zzzzzzzz
SAN APPLICATI
ON
© 2015 HGST, INC. 21
Wikibon Server SAN 予測 http://wikibon.org/wiki/v/The_Rise_of_Server_SAN
$-
$5,000
$10,000
$15,000
$20,000
$25,000
$30,000
$35,000
$40,000
$45,000
2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2027
Hyperscale Server SAN Enterprise Server SAN Traditional Enterprise Storage
$M
• “エンタープライズシステムはストレージがホストにより近い位置にあるように、 ハイパースケールにアーキテクチャが変わるであろう”
• “DASプールは経済性のアドバンテージに加えて、SANやNASの機能性を持つようになるであろう”
• “既存のSANやNASより優れた性能、機能性と可用性を持つようになるであろう”
© 2015 HGST, INC. 22
HGST Flash Fabric Softwareができること
SAN
ü 多数のサーバで共有
ü 使用効率を最大化
ü データ管理を一元化
Flash Fabric § Oracle Database
(Oracle RAC)
§ SQL Server
§ Etc…
ストレージサーバ+PCIeフラッシュ&低遅延・広帯域ネットワーク&ストレージソフトウェア
§ ストレージアレイが必須と思われていたソフトウェア群に、 管理性・高可用性とフラッシュの高性能を提供
© 2015 HGST, INC. 23
よりシンプルに〜Flash Fabric
Flash Fabric
§ ストレージサーバとデータベースサーバは 同じx64アーキテクチャサーバ
§ これらのサーバを共通化することでさらに サーバの台数を削減
© 2015 HGST, INC. 24
HGST Flash Platform Software Suiteのご紹介
© 2015 HGST, INC. 25
HGST Flash Software Suite
Flash Fabric
§ ストレージサーバとデータベースサーバは 同じx64アーキテクチャサーバ
§ これらのサーバを共通化することでさらに サーバの台数を削減
§ ネットワークは10GbE(Bonding前提)または、 InfiniBand(RDMA)前提
§ PCI-eカードのネームスペース(≒パーティション) をブロックデバイスとしてサーバ間で利用可能
© 2015 HGST, INC. 26
HGST Flash Software Suite
Share
I/O
Share
I/O
Share –Allows remote access to HGST SSDs
Secondary Primary
HA
Reads Writes
HA – Synchronous Replication between HGST SSDs
SAN Volumes
ClusterCache ClusterCache
ClusterCache - Accelerate a SAN by leveraging HGST SSDs
Space – Clustering and Volume Management
§ パーティションをサーバ間で共有 § パーティションをサーバ間で同期ミラー
§ SANボリュームのデータを パーティションにキャッシュ
§ 複数サーバ間で耐障害性のあるボリュームを構成
© 2015 HGST, INC. 27
4つのMySQLに対するソリューション
MASTER 2 COPY of 1
Rep
licat
ion
@ b
lock
-IO R
eplication @
block-IO
Multi-Function Server
Flash for MySQL HA for MySQL
Space for MySQL ClusterCache for MySQL
© 2015 HGST, INC. 28
HGST Space が共有の フラッシュプールを作成
ブロックレベルミラーリング HA
HGST Spaceにより スレーブ台数削減 1台のサーバを追加するだけで、以前と同じ機能を実現
Master Shard 1
Backup Slave 1
Master Shard N/2
Backup Slave N/2
…
…
Master Shard 1
Master Shard N/2
…
マルチ-ファンクション
サーバ
Replace all slaves in a group with a single redundant server while maintaining data replication, availability, and development access
PCIE Flash
xactions xactions
PCIE Flash
PCIE Flash
PCIE Flash
HGST Flash HGST
Flash
© 2015 HGST, INC. 29
高可用性データベースをFlashで構築する
• Oracle RAC + HGST Share - 後ほど詳しく
• Oracle RAC + HGST ClusterCache
Share
I/O
Share
I/O
Share –Allows remote access to HGST SSDs
SAN Volumes
ClusterCache ClusterCache
ClusterCache - Accelerate a SAN by leveraging HGST SSDs
© 2015 HGST, INC. 30
高可用性データベースをFlashで構築する
• Microsoft SQL Server
乞うご期待
§ 複数サーバ間でカードの領域を共有
§ その他、ここまでに挙げていないデータベースでも組み合わせが可能
© 2015 HGST, INC. 31
Oracle RACシステムについて
© 2015 HGST, INC. 32 n 32
FlashFabric for Oracle RAC ネットワークトポロジ: 2ノードクラスタ構成
InfiniBand または 10 GbE RAC Node 2 RAC Node 1
vShare 及び Oracle private network
アプリケーションサーバ, クライアン
ト
Ethernet
投票ディスク用 HGST FlashFabric SoXware Server
n 2ノードクラスタ構成においてはInfiniBandスイッチは不要 Interconnectがイーサネットの際にはスイッチが必要
© 2015 HGST, INC. 33 n 33
FlashFabric for Oracle RAC ネットワークトポロジ: 3ノード以上構成
アプリケーションサーバ、 クライアント
InfiniBand or 10GbE スイッチ
RAC Node 2
RAC Node 3
RAC Node 1
vShare and Oracle private network
Ethernet
© 2015 HGST, INC. 34 n 34
サーバサイドオールフラッシュストレージ for Oracle RAC
オラクル社より「お墨付き」です http://linux.oracle.com/pls/apex/f?p=102:1:1085640574746607
http://linux.oracle.com/pls/apex/f?p=102:2:4069946698618466::NO::P2_VC_ID:649
© 2015 HGST, INC. 35
アメリカの大手通信業者の事例
RAC Node 2
Internal Cloud
Cisco Nexus
Ethernet Switch
(stacked)
RAC Node 4
RAC Node 3
RAC Node 5
(1) FlashMax II – 2.2TB Per RAC Node Configured as Primary Storage with ASM
13.2 TB Total RAC Storage
10GbE
(Multiple VLANs)
Communications between FlashMax PCIe Cards will share the 10GbE ethernet ports but will use a dedicated VLAN
Oracle RAC 6ノード構成 Dell R720 + 2x HDD (boot only) Intel Dual Port 10GbE NIC HGST FlashMax II
ALL DB storage is 100% flash Ret Hat Enterprise Linux Oracle RAC with ASM Oracle Data Guard for DR (op]onal)
© 2015 HGST, INC. 36
弊社社内システム構成
56Gbps InfiniBand (Ac]ve/Standy)
Voting: iSCSI DISK 4GB
Hardware CPU Xeon E5-2620 x 2 DDR3-1600 x 64GB InfiniBand Mellanox ConnectX-3 SATA HDD x 2 (160GB) SATA SSD x 1 (60GB) PCI-e SCM/SSD 上図参照
Software Oracle Linux 6.6 Oracle Database 12cR1 (12.1.0.2) HGST Flash Software Suite V2.5 beta
FlashMAX III 1.1TB FlashMAX II 4.8TB
SN150 1.6TB
§ 実運用時にはフラッシュカード搭載 3ノード構成以上を推奨
© 2015 HGST, INC. 37
HGST Flash Software SuiteでのGUI設定
§ 画面は開発中のものであり、変更されることがあります
© 2015 HGST, INC. 38
HGST Flash Software SuiteでのGUI設定
§ 画面は開発中のものであり、変更されることがあります
© 2015 HGST, INC. 39
HGST Flash Software SuiteでのGUI設定
§ 画面は開発中のものであり、変更されることがあります
© 2015 HGST, INC. 40
ASMの冗長性とフラッシュカードの関係
© 2015 HGST, INC. 41
ASM_PREFERRED_READ_FAILURE_GROUPS
© 2015 HGST, INC. 43
本社でのDBMS_RESOURCE_MANAGER.CALIBRATE_IOによる性能
§ 3ノード、FlashMAX II 2.2TB カード 6枚 CPU Xeon E5-2690 x2 (ノードあたり) Block Size 4KB Random Read
§ 1434268 IOPS (239044 IOPS/Card) ネットワークのオーバヘッド込みで カード単体比約70%のリード性能
© 2015 HGST, INC. 44
まとめ
• I/Oボトルネックが解消し、CPUが性能の鍵に・・・CPU性能を最高にする価値が出る
• 大規模分散データベースシステム(MySQLやNoSQL)で主に用いられてきたPCI-eフラッシュであるが、ストレージソフトウェアとの組み合わせで、旧来はストレージアレイが必要であると考えられていたシステムにも適用の幅を広げられるようになった
• 超高性能かつ可用性のあるデータベースシステムをPCI-eフラッシュと広帯域・低遅延ネットワーク・ソフトウェアで組めるようになった
• データベース管理者の真の腕の見せ所が来る