cerit-sc, metacentrum - rozvrhový plánovac v cerit-sc · cerit-sc, metacentrum rozvrhový...

27

Upload: others

Post on 03-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

CERIT-SC, MetaCentrumRozvrhový plánova£ v CERIT-SC

Václav Chlumský, Dalibor Klusá£ek

CESNET, z. s. p. o.

2. 12. 2014

Page 2: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Úvod

MetaCentrum a CERIT-SC

mj. poskytují rozsáhlé výpo£etní zdrojeefektivní spou²t¥ní úloh na t¥chto zdrojích

vysoké vyuºití zdroj·férovost v·£i uºivatel·m

zdroje jsou více homogení v CERIT-SC

nový plánova£ v CERIT-SC

výzkum a vývoj okolo plánova£e n¥kolik letvychazí z dizertace D. Klusá£ka (2011)

praktický vývoj v TORQUE sou£ástí diplomové práce (2012)dal²í vývoj pod CESNETem a GA�R projektem P202/12/0306

vytvá°í plán budoucího spu²t¥ní úloh

optimalizace plánu

nasazen v £ervenci 2014

Page 3: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

P°edchozí p°ístup k plánování

úlohy jsou uloºeny ve

frontách

rozhodnutí o spu²t¥ní úlohy

aº v poslední okamºik p°ed

spu²t¥ním

obtíºn¥ p°edvídatelné a

t¥ºko plánovatelné

je t¥ºké optimalizovat

n¥kolik kritérií sou£asn¥

Page 4: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový p°ístup k plánování

fronty se ignorují (s vyjimkou

prioritních front)

vytvá°í se budoucí plán

spu²t¥ní úloh

umoº¬uje p°edvídat kde a

kdy bude úloha spu²t¥na

plán spu²t¥ní je moºné

ohodnotit a vylep²it jeho

kvalitu

kaºdý cluster má sv·j plán

plán se neustále aktualizuje

a komprimuje

Page 5: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Novinky: back�lling

plánova£ ví, kde je kolik nevyuºitých zdroj·, tzv. díry

umoº¬uje zaplnit tyto díry aniº by byl ohroºen plán spu²t¥ní

d°íve naplanované úlohy

pro novou úlohu plánova£ hledá nejd°ív¥j²í vhodnou díru

Page 6: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Novinky: kdy a kde

http://metavo.metacentrum.cz/schedule-overview/

qstat

Page 7: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Novinky: optimalizace

existující plán je moºné ohodnotit

z dvou r·zných plánu lze rozhodnout, který je podle zvolených

kriterií lep²í

optimalizovaná kritéria

pr·m¥rná doba £ekánípr·m¥rné zpomalení úlohy

zpomalení úlohy =jak dlouho je úloha v systému

doba výpo£tuférovost v·£i uºivateli v rozvrhu

má desetkát v¥t²í váhu

sledované kritérium: pr·m¥rný £as odezvy (jak dlouho je úloha

v systému)

zm¥ny v rozvrhu jsou náhodné

na základ¥ p°edcházejících experiment·

p°ijímají se pouze zlep²ující zm¥ny

Page 8: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Novinky: optimalizace

−5%

0%

5%

10%

15%

20%

21.10.26.10.

31.10.5.11.

10.11.15.11.

20.11.

doba čekání

−5%

0%

5%

10%

15%

20%

21.10.26.10.

31.10.5.11.

10.11.15.11.

20.11.

zpomalení

−5%

0%

5%

10%

15%

20%

21.10.26.10.

31.10.5.11.

10.11.15.11.

20.11.

férovost

−5%

0%

5%

10%

15%

20%

21.10.26.10.

31.10.5.11.

10.11.15.11.

20.11.

doba odezvy (nulová váha)

Page 9: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Hezké vlastnosti plánova£e

víme kdy a kde bude úloha spu²t¥na, uºivatel m·ºe lépe

organizovat svoji práci

iniciáln¥ naplánovaný £as spu²t¥ní úlohy má tendenci se

sniºovat

lze vylep²ovat plán podle r·zných kriterií sou£asn¥, s r·znou

váhou na jednotlivá kriteria

správce systému m·ºe v mnoha p°ípadech detekovat potíº

pouhým pohledem na plán

Page 10: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nepodporované vlastnosti

sloºité poºadavky na uzly, nap°: nodes=1:ppn=1+2:ppn=4

konkrétní uzel

zavislá úloha je p°idána do plánu aº kdyº je závislot spln¥na

synchronizované úlohy

Page 11: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový vs. p°edchozí plánova£

sledujeme a analyzujeme co se po nasazení d¥je

pr·b¥ºne ladíme plánova£ a jeho kon�guraci

data v následujících grafech jsou za tato období

p°edchozí plánova£: leden � £erven 2014nový plánova£: £ervenec � listopad 2014

Page 12: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový vs. p°edchozí plánova£

0

20000

40000

60000

80000

100000

předchozí plánovač nový plánovač

prům. spotřebované CPU hodiny za den [CPUh]

0

5

10

15

20

25

předchozí plánovač nový plánovač

prům. doba čekání úloh [h]

Page 13: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový vs. p°edchozí plánova£

0%

20%

40%

60%

80%

100%

ungu zegox zigur zewura zapat

prům. vytížení clusterů

předchozí plánovačnový plánovač

Page 14: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový vs. p°edchozí plánova£

0

50

100

150

200

<1h1−2 h2−4 h4−24 h1−2 d2−4 d4−7 d7−14 d14−30 d>30 d

prům. doba čekání [h] podle plánované doby běhu

předchozí plánovačnový plánovač

Page 15: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Nový vs. p°edchozí plánova£

0 10 20 30 40 50 60 70

1 CPU2 CPUs3−4 CPUs5−8 CPUs9−16 CPUs17−32 CPUs33−64 CPUs65−96 CPUs>96 CPUs

prům. doba čekání [h] podle požadovaných počtu CPU

předchozí plánovačnový plánovač

Page 16: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

CERIT-SC, MetaCentrumTipy pro zadávání úloh

Page 17: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Tipy pro zadávání úloh

pro £asté a pohodlné p°ihla²ování na £elní uzel je vhodnénainstalovat na svoje PC Kerberos

°e²í opakované zadávání heslaLinux i Windows

p°íkaz pro zadávání úloh

qsub [-q @server] -l resource_string skript

Page 18: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Výb¥r serveru

speci�kace serveru (paramer -q)

@arien.ics.muni.cz (vychozí pro: skirit, tarkil, nympha, hermes,minos, perian)@wagap.cerit-sc.cz (vychozí pro: zuphux)

NEspeci�kovat frontu v MetaCentru ani v CERIT-SC

s výjimkou prioritních front

Page 19: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Doba b¥hu úlohy

poºadovaná doba b¥hu (parametr -l)-l walltime=[[dny:[hodiny:]]minuty:]sekundy[.milisekundy]

-l walltime=10:00 � úloha bude trvat nejvý²e 10 minut-l walltime=3:00:00 � úloha bude trvat nejvý²e 3 hodiny

-l walltime=[1w][1d][1h][1m][1s]

-l walltime=1d1h � úloha bude trvat nejvý²e 25 hodin-l walltime=4w � úloha bude trvat nejvý²e 4 týdny, tj. 28 dn·

lze doporu£it nadhodnocení 20%�30%£ím p°esn¥j²í jsou odhady doby b¥hu úloh, tím p°esn¥j²í je plánv CERIT-SC

Page 20: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Uzly a procesory

poºadavky na uzly a po£ty procesor· (parametr -l)

-l nodes=1:ppn=1 � jeden procesor na jednom stroji-l nodes=1:ppn=16 � jeden stroj s 16 procesory-l nodes=20:ppn=2 � dvacet dvouprocesorových stroj·-l nodes=1:ppn=4#excl � exkluzivní p°i°azení uzlu sminimáln¥ £ty°mi procesory

exkluzivitu si lze p°edstavit jako "nafouknutí" úlohy na celýuzel-l nodes=1:ppn=3:cl_zapat#excl-l nodes=1:ppn=16:cl_zapat

konkrétní uzel/y (nelze v CERIT-SC)

-l nodes=doom2.metacentrum.cz+doom9.metacentrum.cz

Page 21: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Vlastnosti a vyhraditelné zdroje

vlastnostiuzly mají r·zné vlastnosti

brno, praha, cl_doom, in�niband, . . .vylou£ení uzl· s vlastností: cl_doom

vyhraditelné zdroje-l zdroj=hodnota

p°íklady zdroj·: city, cluster, home, in�niband, room, . . .nap°.: -l city=plzen

-l place=zdroj

stejný zdroj, nezáleºí na hodnot¥nap°.: -l place=clusterpouºití vlastnosti in�niband vynutí -l place=in�niband

Page 22: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Scratch

lokální úloºi²t¥ do£asných dat na výpo£etních uzlech

-l scratch=1 � úloha vyºaduje 1 KiB místa-l scratch=1gb � úloha vyºaduje 1 GiB místa-l scratch=10gb:ssd � úloha vyºaduje 10 GiB místa na SSDdisku-l scratch=20gb:local � úloha vyºaduje 20 GiB místa nalokálním HDD-l scratch=100gb:shared � úloha vyºaduje 100 GiB sdílenéhomísta na sí´ovém disku-l scratch=500gb:�rst � úloha vyºaduje 500 GiB místa nahlavním výpo£etním uzlu (na ostatních nebude scratchalokován)

Page 23: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Scratch a jeho úklid

#!/bin/bash

#PBS -N poradkumilovnyjob

#PBS -l nodes=1:ppn=1

#PBS -l mem=500mb

#PBS -l scratch=1gb

trap 'clean_scratch' TERM EXIT

DATADIR="/storage/brno2/home/$LOGNAME/"

cp $DATADIR/vstup.txt $SCRATCHDIR || exit 1

cd $SCRATCHDIR || exit 2

#... vlastní výpo£et ...

cp vystup.txt $DATADIR || export CLEAN_SCRATCH=false

Page 24: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Dal²í tipy

noti�kace o stavu úlohy e-mailem (parametr -m)

n � neposílat ºádný e-maila � noti�kace o zru²ení úlohy systémemb � noti�kace o spu²t¥ní úlohye � noti�kace o dokon£ení úlohyqsub [-q @server] -l resource_string -m abe skript-M e-mail1,e-mail2

p°edání prom¥nných úloze (parametr -v)

qsub [-q @server] -l resource_string -v a=1,i=$j skript

Page 25: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Sledování stavu úlohy

b¥hem výpo£tu je moºné úlohu sledovat

kdyº se n¥co neda°í, ne£ekatje moºné logovat, ºe se n¥co (ne)poda°ilo

na konkrétním uzlu: /var/spool/torque/spool/

1234.arien.ics.muni.cz.OU � standardní výstup1234.arien.ics.muni.cz.ER � standardní chybový výstup

volba -j pro qsub

n � implicitní nastaveníoe � chybový výstup do standardníhoeo � standardní výstup do chybového

omezeno na 1GB

Page 26: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Co kdyº se úloha nespou²tí?

p°eklep v poºadovaných vlastnostech

qsub nekontroluje, ºe poºadovaná vlastnost existujenap°.: cl_capat

kontrola správného mnoºství poºadované pam¥ti

p°eklep v °ádech/jednotkách

plánovaný výpadek

nap°. nelze naplánovat m¥sí£ní úlohu, pokud má býtpoºadovaný cluster za 14 dní odstaven kv·li udrºb¥

Page 27: CERIT-SC, MetaCentrum - Rozvrhový plánovac v CERIT-SC · CERIT-SC, MetaCentrum Rozvrhový plánova£ v CERIT-SC Václav Chlumský , Dalibor Klusá£ek CESNET, z. s. p. o. 2. 12

Jak urychlit spu²t¥ní úlohy?

nejsnadn¥ji se spustí úzká a krátká úloha

zbyte£n¥ nenadhodnocovat poºadavky

p°esn¥j²í odhad doby b¥hu

poºadovat pouze skute£n¥ pot°ebné vlastnosti

pokud je to moºné, pouºít -l place=zdroj

v CERIT-SC je snaº²í spustit nodes=2:ppn=1 neºnodes=1:ppn=2

ale pozor