delivering high performance to parallel applications using advanced scheduling nikolaos drosinos,...

Delivering High Performance to Delivering High Performance to Parallel Applications Using Parallel Applications Using

Advanced SchedulingAdvanced Scheduling

Nikolaos Drosinos, Georgios GoumasMaria Athanasaki and Nectarios Koziris

National Technical University of Athens

Computing Systems Laboratory

{ndros,goumas,maria,nkoziris}@cslab.ece.ntua.grwww.cslab.ece.ntua.gr

5/9/2003 Parallel Computing 2003 2

OverviewOverview

Introduction Background Code Generation

• Computation/Data Distribution• Communication Schemes• Summary

Experimental Results Conclusions – Future Work

IntroductionIntroduction

Motivation:

• A lot of theoretical work has been done on arbitrary tiling but there are no actual experimental results!• There is no complete method to generate code for non-rectangular tiles

IntroductionIntroduction

Contribution:

• Complete end-to-end SPMD code generation method for arbitrarily tiled iteration spaces• Simulation of blocking and non-blocking communication primitives• Experimental evaluation of proposed scheduling scheme

OverviewOverview

BackgroundBackground

Algorithmic Model:

FOR j1 = min1 TO max1 DO

FOR jn = minn TO maxn DO

Computation(j1,…,jn);

ENDFOR

Perfectly nested loops Constant flow data dependencies (D)

BackgroundBackground

Tiling:

Popular loop transformation Groups iterations into atomic units Enhances locality in uniprocessors Enables coarse-grain parallelism in distributed memory systems Valid tiling matrix H: 0DH

Tiling TransformationTiling Transformation

Example:

FOR j1=0 TO 11 DO FOR j2=0 TO 8 DO A[j1,j2]:=A[j1-1,j2] + A[j1-1,j2-1]; ENDFORENDFOR

Rectangular Tiling Rectangular Tiling TransformationTransformation

3 0P = 0 3

1/3 0H = 0 1/3

Non-rectangular Tiling Non-rectangular Tiling TransformationTransformation

3 3P = 0 3

1/3 -1/3H = 0 1/3

Why Non-rectangular Tiling?Why Non-rectangular Tiling?

Reduces communication

Enables more efficient scheduling schemes

8 communication points

6 communication points

6 time steps 5 time steps

OverviewOverview

Computation DistributionComputation Distribution

We map tiles along the longest dimension to the same processor because:

• It reduces the number of processors required• It simplifies message-passing• It reduces total execution times when overlapping computation with communication

Computation DistributionComputation Distribution

Data DistributionData Distribution

Computer-owns rule: Each processor owns the data it computes Arbitrary convex iteration space, arbitrary tiling Rectangular local iteration and data spaces

Tile Iteration SpaceTIS

Transformed Tile Iteration SpaceTTIS

LDS TTIS...

Computation Storage

Communication Storage

Unused Space

)( ypidLDS

)( xpidLDS

loc–1()

loc()loc–1()

OverviewOverview

Communication SchemesCommunication Schemes

With whom do I communicate?

What do I send?

Tile Iteration SpaceTIS

Transformed Tile Iteration SpaceTTIS

Blocking SchemeBlocking Scheme

12 time steps

Non-blocking SchemeNon-blocking Scheme

6 time steps

OverviewOverview

Code Generation SummaryCode Generation Summary

Advanced Scheduling = Suitable Tiling + Non-blocking Communication Scheme

Sequential Code

Dependence Analysis

ParallelizationParallel SPMD

Tiling Transformation

Sequential Tiled Code

Tiling

• Computation Distribution

• Data Distribution

• Communication Primitives

Code Summary – Blocking Code Summary – Blocking SchemeSchemeFORACROSS Spid 11 min TO S

1max DO … FORACROSS S

nnpid 11 min TO Sn 1max DO

/*Sequential execution of tiles*/ FOR S

nSt min TO S

nmax DO /*Receive data from neighbouring tiles*/

BLOCKING_RECV( CCDtpid SS ,,, ); /*Traverse the internal of the tile*/ FOR 11 lj TO 1u STEP= 1c DO … FOR nn lj TO nu STEP= nc DO /*Perform computations on LDS*/ t := St - S

LA[map( tj , )]:=F(LA[map( tdj ,1 )],…,

LA[map( tdj q , )]); ENDFOR … ENDFOR /*Send data to neighbouring processors*/

BLOCKING_SEND( CCDtpid mS ,,, ); ENDFOR ENDFORACROSS … ENDFORACROSS

FORACROSS Spid 11 min TO S1max DO

… FORACROSS S

nnpid 11 min TO Sn 1max DO

/*Sequential execution of tiles*/ FOR S

nSt min TO S

nmax DO /*Receive data for next tile*/

NON_BLOCKING_RECV( CCDtpid SS ,,1, ); /*Send data computed at previous tile*/

NON_BLOCKING_SEND( CCDtpid mS ,,1, ); /*Compute current tile*/ FOR 11 lj TO 1u STEP= 1c DO … FOR nn lj TO nu STEP= nc DO /*Perform computations on LDS*/ t := St - S

LA[map( tj , )]:=F(LA[map( tdj ,1 )],…,

LA[map( tdj q , )]);

ENDFOR … ENDFOR /*Wait for communication completion*/ WAIT_ALL ENDFOR ENDFORACROSS … ENDFORACROSS

Code Summary – Non-blocking Code Summary – Non-blocking SchemeScheme

OverviewOverview

Experimental ResultsExperimental Results

8-node SMP Linux Cluster (800 MHz PIII, 128 MB RAM, kernel 2.4.20) MPICH v.1.2.5 (--with-device=p4, --with-comm=shared) g++ compiler v.2.95.4 (-O3) FastEthernet interconnection 2 micro-kernel benchmarks (3D):

• Gauss Successive Over-Relaxation (SOR)• Texture Smoothing Code (TSC)

Simulation of communication schemes

SORSOR

Iteration space M x N x N Dependence matrix:

Rectangular Tiling:

Non-rectangular Tiling:

SORSOR

TSCTSC

Iteration space T x N x N Dependence matrix:

10111101

11100111

11110000

Rectangular Tiling:

Non-rectangular Tiling:

TSCTSC

OverviewOverview

ConclusionsConclusions

Automatic code generation for arbitrary tiled spaces can be efficient High performance can be achieved by means of

a suitable tiling transformation overlapping computation with communication

Future WorkFuture Work

Application of methodology to imperfectly nested loops and non-constant dependencies Investigation of hybrid programming models (MPI+OpenMP) Performance evaluation on advanced interconnection networks (SCI, Myrinet)

Questions?Questions?

http://www.cslab.ece.ntua.gr/~ndros

delivering high performance to parallel applications using advanced scheduling nikolaos drosinos,...

parallel computing

communication slide

data distribution slide

endfor slide

parallel applications

background tiling

data distribution computer

communication points

Documents

promethee yÖntemİ kullanarak en uygun...

europeo !!nformazionidott. ioannis kartalas goumas -...

complaints management corporate policy · 0.1 sept 2014 1.0...

advanced hybrid mpi/openmp parallelization paradigms for...

antikythera mechanism - goumas-info.de uhrwerk.pdf · um...

eleftherios h. drosinos,...

w d. s j c m j. w v c /s€¦ · tony gibson, vdot robert...

uefa champions league - temporada 2017/1819/09/2000 1ª fg...

nikos anastopoulos, konstantinos nikas, georgios goumas...

celebrating success at - cwmbran high … · celebrating...

a pipelined execution of tiled nested loops on smps with...

look book - microsoft · 2020-01-01 · 6 dresden & company...

scheduling of tiled nested loops onto a cluster with a fixed...

options for reduction of upstream … emissions from oil...

nikolaos drosinos and nectarios koziris national technical...

code generation methods for tiling...

curriculum vitae ufficiale kartalas goumas ioannis …scuola...

nikos anastopoulos, konstantinos nikas, georgios goumas...

load balancing hybrid programming models for smp clusters...

an extended compression format for the optimization of...