gpudirectの現状整理 multi-gpuに取組むために -...

Japan GPU Computing Development Partnership

GPUDirectの現状整理

〜 multi-GPUに取組むために〜

G-DEP チーフエンジニア河井博紀（kawai@gdep.jp）

名称: 日本GPUコンピューティングパートナーシップ (G-DEP) 所在: 東京都文京区本郷7丁目3番1号東京大学アントレプレナープラザ，他工場

URL http://www.gdep.jp

アライアンスパートナーコアテクノロジーパートナー

NVIDIA JAPAN

ソリューションパートナー株式会社エルザジャパン、みずほ情報総研株式会社、株式会社アーク情報システム、日本ネスト株式会社株式会社システム計画研究所、有限会社イワタシステムサポート、サーヴァンツインターナショナル株式会社、株式会社ソフテック、株式会社サイコム、プロメテック・ソフトウェア株式会社、トーワ電機株式会社

小型PCから…

高性能ワークステーション、

InfiniBand GPUクラスタまで。ノード内 multi-GPU

複数ノード multi-GPU

1 2 3 4

• • •

Outline

mult i-GPU プログラミング概論

GPUDirect とは？

GPUDirect の現状整理

We assume …

・Fermi or later Tesla

・CUDA 4.0 or later

・64-bit Linux / 64-bit Windows with TCC driver

Why multi-GPU ? ・性能を Scaling-up させるため

・メモリを増やして、大きな問題に取組むため

・各セルは alive( =1) or dead( =０)

・Rules

誕生

過疎死

過密死

ノード内 Tesla K20 ×2枚で “Game of Life”

Grid Size：N × N

境界条件：periodic b.c.

Tesla 0

Tesla 1

Grid Size：N × N

Tesla 0

Tesla 1

cudaSetDevice( 0 );

kernel<<<…>>>(…);

cudaSetDevice( 1 );

kernel<<<…>>>(…);

// Tesla 0 を操作

// Tesla 1 を操作

Tesla 0

Tesla 1

Tesla 0 の境界の更新にはTesla 1の境界が必要

境界

Tesla 0

Tesla 1

境界

隣の境界をcopy “ ghost領域 ”

Tesla 0

Tesla 1

隣の境界をcopy

境界 ghost を参照する事で

境界も update できる。

“ ghost領域 ”

Tesla 0

Tesla 1

境界 ghost を参照する事で

“ ghost領域 ”

Tesla 0

Tesla 1

境界

“ ghost領域 ”

ghost を参照する事で

Tesla 0

Tesla 1

境界

“ ghost領域 ”

ghost を参照する事で

Tesla 0

Tesla 1

① update

② copy して ghost を更新

もう少し工夫できます。

copy 時間の “隠蔽” が重要に

・「Kernel処理」と「データ送受信」は同時に行える。

update copy

短縮！

△ naive

copy copy

境界

update

◎ 隠蔽

update copy

内部

update

境界

update

内部

update

Tesla 0

Tesla 1

② 内部 update

② 同時に、 copyしてghost更新

① 境界 update

② 内部 update

① 境界 update

更新回数：10 万回

Grid Size：2048 × 2048

境界条件：periodic b.c. 0 10 20 30 40 50

Processing Time [sec]

K20 ×1

K20 ×2 (naive)

K20 ×2 (隠蔽)

cudaSetDevice( i );

update_bnd<<<…, stream_up[i]>>>(…);

for ( i=0; i<2; i++) {

cudaEventRecord( event[i], stream_up[i] );

update_inner<<<…, stream_up[i]>>>(…);

for ( i=0; i<2; i++) {

cudaStreamWaitEvent( stream_cpy[i], event[i] );

cudaMemcpyAsync(…, stream_cpy[i] ); }

for ( i=0; i<2; i++) cudaMemcpyAsync(…, stream_cpy[i] );

for ( n=0; n<NUM_STEPS; n++)

cudaSetDevice( i );

for ( i=0; i<2; i++) {

cudaDeviceSynchronize(); }

境界の update完了まで、cudaMemcpyAsync を停止

内部 update kernel

境界 update kernel

双方向 cudaMemcpyAsync

× 2セット

ここで同期

Outline

GPUDirect とは？

GPUDirect とは、

「異なる Tesla 間のデータ転送」

を高速に行う機能の事です。

隠蔽できるのに、恩恵はあるのか？

copy copy

境界内部

copy copy

隠蔽できなく

なった…

境界

内部内部

内部

・・・

Teslaの枚数

・隠蔽してる暇がない時も、ある。

・原理的に隠蔽出来ない時は、ある。

・Teslaの枚数を増やす可能性を考慮して

使っておくべき。

GPUDirect の恩恵はあるのか？

Outline

GPUDirect には現在、

「version 1」と「version 2」

があります。

InfiniBandクラスタ専用

ノードをまたぐ高速転送

GPUDirect ver.1

GPUDirect ver.2

ノード内の高速転送

GPUDirect 用途ダイレクト転送？ CUDA 使用方法正式リリース

IBクラスタ

ノード間

ver.2 ノード内済

Summary

・転送を隠蔽できない/してない時に

GPUDirectは有用。

GPUDirect ver.2 はノード内のダイレクト転送です。

CPU メインメモリ

Tesla 0

Tesla 1

Tesla 0

Tesla 1

No GPUDirect ver.2 With GPUDirect ver.2

遠回り… Direct !

cudaDeviceEnablePeerAccess()

を宣言するだけ。

GPUDirect ver.2 を使用するには

Tesla 0

Tesla 1

cudaDeviceEnablePeerAccess(1, 0);

cudaMemcpy(p1, p0, size, cudaMemcpyDefault);

cudaSetDevice(0);

cudaMalloc(&p0, size);

cudaSetDevice(1); cudaMalloc(&p1, size); Direct !

with GPUDirect ver.2 GPUDirect ver.2 の実装

// ※ UVA (CUDA ≧ 4.0) により異なるGPU間の転送が可能

Tesla “1” への

GPUDv2を有効化

// cudaDeviceEnablePeerAccess(1, 0); cudaSetDevice(0);

cudaMalloc(&p0, size);

cudaSetDevice(1); cudaMalloc(&p1, size);

Tesla 0

Tesla 1

no GPUDirect ver.2

Fallback …

// ※ UVA (CUDA ≧ 4.0) により異なるGPU間の転送が可能

// ※ 但し、Nsightのタイムラインによるとパイプライン処理

されており、cudaMemcpy ×2回よりは高速

GPUDirect ver.2 の実装

cudaMemcpy(p1, p0, size, cudaMemcpyDefault);

4B 16B 64B 256B 1KB 4KB 16KB 64KB 256KB 1MB 4MB 16MB 64MB 256MB

転送データサイズ

cudaMemcpy

with GPUDv2

no GPUDv2 Fallback wins

〜 8MB single: 200万個

double: 100万個

int: 200万個

latency with GPUDv2: 11μs

no GPUDv2: 20μs

(fallback)

※ Performance may vary based on system HDW and config.

※ CentOS 6.2, NV Driver 319.32, CUDA5, K20c, X79Chipset

(fallback) Fallback wins

双方向 cudaMemcpyAsync

with GPUDv2

no GPUDv2

〜 32MB single: 800万個

double: 400万個

int: 800万個

no GPUDv2: 31μs

※ CentOS 6.2, NV Driver 319.32, CUDA5, K20c, X79Chipset

再度、Tesla K20 ×2枚で Game of Life

更新回数：10 万回

Grid Size：2048 × 2048

K20 ×1

K20 ×2 (naive)

K20 ×2 (隠蔽)

0 10 20 30 40 50

Processing Time [sec]

with GPUDv2

11%高速化

隠蔽できているので変わらず

no GPUDv2

IBクラスタ

ノード間

ver.2 ノード内 Yes 4.0〜 cudaDeviceEnablePeerAccess()

※ 同じIOHの必要あり済

Summary

GPUDirect ver.1 はマーケティング・ネームです。

GPUDirect ver.1 ダイレクト転送ではありません。

メインメモリをしっかり通ります。

rank0 の M/B

メインメモリ

Tesla 1

*Ad Tesla用 buffer

InfiniBand用 buffer

InfiniBand クラスタの 1ノード

InfiniBand

rank0 の M/B

メインメモリ

Tesla 1

MPI_Send

{ if ( myrank == 0 )

cudaMemcpy( A, Ad, … ); MPI_Send( A, … );

naive なコード

// 後述の “CUDA-Aware MPI” を除いて

// MPI関数にデバイスポインタは渡せない

*A CPU

else if ( myrank == 1 ) }

cudaMemcpy( Bd, B, … ); MPI_Recv( B, … );

rank0 の M/B

Tesla 1

MPI_Send

cudaMemcpy( A, Ad, … ); MPI_Send( A, … );

cudaMallocHost( &A, size ); cudaMallocHost( &B, size );

GPUDirect ver.1を使用

else if ( myrank == 1 ) }

cudaMemcpy( Bd, B, … ); MPI_Recv( B, … );

rank0 の M/B

Tesla 1

OpenMPI ver. 1.7 以上

Cray, IBM

でのみ

可能

CUDA-Aware MPIを使用

MVAPICH2 ver. 1.8 以上

else if ( myrank == 1 )

MPI_Send( Ad, … ); }

{ MPI_Recv( Bd, … );

} デバイスポインタ

を渡せる

パイプライン処理

MPI_Send

rank0 の M/B

Tesla 1

OpenMPI ver. 1.7 以上

Cray, IBM

でのみ

可能

CUDA-Aware MPIを使用

MVAPICH2 ver. 1.8 以上

else if ( myrank == 1 )

MPI_Isend( Ad, … ); }

{ MPI_Irecv( Bd, … );

} デバイスポインタ

を渡せる

パイプライン処理

MPI_Isend

MPI_Send/Recv

CUDA-Aware MPI

with GPUDv1

no GPUDv1

no GPUDv1: 16μs

CUDA-Aware : 16μs

※ CentOS 6.2, NV Driver 319.32, CUDA5, QDR, K20c, X79Chipset

双方向 MPI_Isend/Irecv

CUDA-Aware MPI

with GPUDv1

no GPUDv1

no GPUDv1: 17μs

CUDA-Aware : 16μs

※ CentOS 6.2, NV Driver 319.32, CUDA5, QDR, K20c, X79Chipset

Drawer

InfiniBand Switch

計算ノード

Gigabit Switch

G-DEPはCUDA-Aware MPIをインストール

したGPUクラスタの販売を開始しております。

さらに大規模なクラスタも販売しております。

是非お気軽に kawai@gdep.jp まで

お問い合わせ下さい。

IBクラスタ

ノード間

3.1〜

中継メモリをpinnedに

CUDA-Aware MPIが最速

Summary

GPUDirect ver.3 はまだ正式リリースされてません。

ノードをまたぐダイレクト転送

IBクラスタ

ノード間

3.1〜

中継メモリをpinnedに

CUDA-Aware MPIが最速

IBクラスタ

ノード間

5.0〜

2013 Q4

Summary

gpudirectの現状整理 multi-gpuに取組むために -...

Documents

multi-gpu mapreduce on gpu clusters

the development of mellanox - nvidia gpudirect over...

a fpga-based network interface card with gpudirect enabling...

gpu benefits for earth system science › sites › default...

gpudirect rdma and green multi-gpu...

gpu, gp-gpu, gpu computing

multi-gpu programming - gpu technology conference

nvidia gpudirect technology â€“ accelerating gpu-based...

1 evaluating modern gpu interconnect: pcie, nvlink, nv-sli...

gpu physics -...

developer data sheet - bluefish444 · gpu acceleration with...

taming gpu threads with f# and alea gpu · taming gpu...

mellanox gpudirect rdma user manual - nvidia · 2019. 12....

nvidia gpudirect™ technology

cmpt454 gpu managed database · gpgpu: general purpose gpu,...

gpudirect rdma and green multi-gpu architectures ·...

gpu computing with matlab® @ cbi laboratory. overview gpu...

gpudirect, cuda aware mpi, & cuda ipc · & cuda ipc. 2...

v0.2 | july 2012 developing a linux kernel module...

coupling gpudirect rdma and infiniband hardware multicast...