chaîne de calcul ipsl - niveau 2 avril 2013

79
Chaîne de calcul IPSL - niveau 2 avril 2013

Upload: kristine-eris

Post on 01-Jan-2016

32 views

Category:

Documents


1 download

DESCRIPTION

Chaîne de calcul IPSL - niveau 2 avril 2013. Plan. Présentation du pôle de modélisation Présentation du modèle IPSL-CM5 Rappel du fonctionnement de la chaine Surveillance de la chaîne de calcul Travaux pratiques personnalisés. Le pôle de modélisation du climat. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Chaîne de calcul IPSL  - niveau 2 avril 2013

Chaîne de calcul IPSL - niveau 2avril 2013

Page 2: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 3: Chaîne de calcul IPSL  - niveau 2 avril 2013

Le pôle de modélisation du climat• 80 personnes, coordinateur Jean-Louis Dufresne, dir adj IPSL• Missions :

– Fédérer les études multidisciplinaires (scientifiques ou techniques) faisant intervenir les composantes du modèle de l'IPSL

– Identifier et coordonner les simulations de référence– Fédérer et rationaliser les moyens, les développements

techniques– Animation scientifique

• Modèle climat :– Atmosphère– Océan et glace de mer– Surfaces continentales– Cycle du carbone– Chimie

• IPSLCM5• Earth System Model

3

Le modèle climat IPSL

Page 4: Chaîne de calcul IPSL  - niveau 2 avril 2013

Modeling platform (IPSL-ESM)Arnaud Caubel (LSCE) - Marie-Alice Foujols (IPSL)

Data Archive and Access RequirementsSébastien Denvil (IPSL) - Karim Ramage (IPSL)

Atmospheric and surface physics and dynamics (LMDZ)

Frédéric Hourdin (LMD) - Laurent Fairhead (LMD)

Ocean and sea ice physics and dynamics (NEMO, LIM)

C Ethé (IPSL) - Claire Lévy - Gurvan Madec (LOCEAN)

Atmosphere and ocean interactions (IPSL-CM, different resolutions)

Sébastien Masson (LOCEAN) - Olivier Marti (LSCE)

Biogeochemical cycles (PISCES)Laurent Bopp (LSCE) - Patricia Cadule (IPSL)

Current and future climate changes

Jean-Louis Dufresne(LMD) - Olivier Boucher (LMD)

Paleoclimate and last millennium

Pascale Braconnot - Masa Kageyama (LSCE)

“Near-term” prediction (seasonal to decadal)

Eric Guilyardi (LOCEAN) - Juliette Mignot (LOCEAN)

Evaluation of the models, present-day and future climate change analysis

Sandrine Bony (LMD) - Patricia Cadule (IPSL) - Marion Marchand (LATMOS) - Juliette Mignot

(LOCEAN) – Jérôme Servonnat (LSCE)

Regional climatesRobert Vautard (LSCE), Laurent Li (LMD)Atmospheric chemistry and aerosols (INCA,

INCA_aer, Reprobus)Anne Cozic (LSCE) - M. Marchand (LATMOS)

Continental processes (ORCHIDEE)Philippe Peylin (LSCE) - Josefine Ghattas (IPSL)

Organisation du pôle de modélisation du climatResp: J-L Dufresne; Bureau: L. Bopp, MA Foujols, J. Mignot

Comité de pilotage

Page 5: Chaîne de calcul IPSL  - niveau 2 avril 2013

Groupe de travail Plate-formecoordination M-A. Foujols, A. Caubel

• Ancien nom ESCI : Equipe Système Climat IPSL• 40 personnes ( 15 régulières )• Missions :

– Organiser les développements techniques en accord avec les activités scientifiques du pôle

– Assurer le lien et la cohérence des développements entre les différentes composantes et le modèle couplé IPSLCM5

– Support aux utilisateurs des modèles, liste entraide : [email protected]

– Documentation– Animation technique, formations– Veille technologique

• Organisation : 1 réunion/mois (Jussieu et LSCE)• liste interne : [email protected]

Page 6: Chaîne de calcul IPSL  - niveau 2 avril 2013

forge.ipsl.jussieu.fr/igcmg

Page 7: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 8: Chaîne de calcul IPSL  - niveau 2 avril 2013

Le modèle climat de l’IPSL : IPSLCM5

IPSL

Page 9: Chaîne de calcul IPSL  - niveau 2 avril 2013

IPSLCM5

Carbone / CO2 (Orchidée, Pisces)

Ozone strato. (Reprobus)

Émissions

Utilisation des sols

VolcansInsolation

Physique – Transport

•Atmosphère (LMDZ)

•Surface (ORCHIDEE)

•Océan (NEMO)

•Glace de mer (LIM)

•Coupleur (OASIS)

Modèle du système Terre (ESM)

Climat global

Climat régional

LMDZ zoomé

Chimie tropo & aérosols (INCA)

Page 10: Chaîne de calcul IPSL  - niveau 2 avril 2013

lmdz.lmd.jussieu.fr

Page 11: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 12: Chaîne de calcul IPSL  - niveau 2 avril 2013

http://www.nemo-ocean.eu/

Page 13: Chaîne de calcul IPSL  - niveau 2 avril 2013

19 vert. levelsAtmosphère et surf. continentale

(LMDZ - ORCHIDEE)

Océan et glace de mer(ORCA-LIM)

coupleur(OASIS)

Résolutions:

Atm: 3.75°x2.5° (~350 km)

Oce: 2°x2° reserré à l’équateur

Les grilles horizontales - couplage - 3 exécutables

Page 14: Chaîne de calcul IPSL  - niveau 2 avril 2013

History of IPSLCM model since 2004

Frozen IPSLCM4

for CMIP3/ IP

CC AR4

Carbon configurations fo

r CMIP3/AR4

2004 2005

from IPSLCM4_v1 …

2006 2007 2008 2009

IPSLCM5A-LR : r

eady for C

MIP5

… to IPSLCM5A …

Oasis3 : IP

SLCM4_OASIS3

LMDZ and Orch

idee // IPSLCM4_v2

NEMO for o

cean : IPSLCM5

Carbon cycle

included : IP

SLCM5_v3

20112010

IPSLCM5A-M

R : 144x1

42x39

New physic

: LMZ5B IP

SLCM5B

IO se

rver

iomput for o

cean : IPSLCM5

libIGCM : IPSLCM4_OASIS3

Increasin

g of reso

lution fo

r atm

New dynamica

l core fo

r atm

Increasin

g of reso

lution fo

r oce

an

NEC SX-9

Operationnal o

n vargas,

titane (3

2 procs)

… and prepare the next generation

Implici

t usa

ge of MPI/O

penMP

Page 15: Chaîne de calcul IPSL  - niveau 2 avril 2013

Modèles de l'IPSL pour CMIP5

LMDZ-ORCHIDEE-ORCA-LIM-PISCES-INCA-REPROBUS-OASIS

IPSL-CM5AModèle intégré du système

Terre (ESM)

IPSL-CM5A-MR Moyenne résolutionatm: 2.5°x1.25°L39

oce: 2° L31

IPSL-CM5BIdem IPSL-CM5A, avec modèle

atmosphérique LMDZ5B

IPSL-CM5A-LR Basse résolutionatm: 3.75°x2°L39

oce: 2° L31

IPSL-CM5B-LR Basse résolutionatm: 3.75°x2°L39

oce: 2° L31

Page 16: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 17: Chaîne de calcul IPSL  - niveau 2 avril 2013

Curie

1 Tflops

1 Pflops

1 Gflops

Page 18: Chaîne de calcul IPSL  - niveau 2 avril 2013

TOP 500 : nb de processeurs/cores

Page 19: Chaîne de calcul IPSL  - niveau 2 avril 2013

Eléments techniques : parallélisme, HPC

• Composantes seules : parallélisme MPI et mixte MPI/OpenMP utilisation de fichiers de forçages

• Couplé ou MPMD : 3 composantes au moins : coupleur, atmosphère, océan

chacune MPI ou MPI/OpenMP avec nombre différent de tâches les serveurs d'IO

ajout des composantes imbriquées : 5 exécutables ajout OpenMP en routine

• Codes écrits en Fortran, sauf exception• Beaucoup de sorties

NetcDF librairie IOIPSL serveur : XIOS : en attaché/détaché

• Grand challenge au CINES, SGI, > 2000 procs• Couplé LMDZ 1/3°- OASIS -NEMO 1/4°

Page 20: Chaîne de calcul IPSL  - niveau 2 avril 2013

Evolutions prévues à court terme :

• Physique : nouvelle physique LMDZ• Plus de résolutions, Pulsation et S Masson• Des ensembles, S Denvil tests actuels• Des simulations plus longues, P Braconnot • Des modèles plus complexes à bon escient: ajout de

la chimie A Cozic• Plus grand nombre de processeurs : cœur

dynamique de LMDZ sur grille icosaédrique, Y Meurdesoif

• Optimisations des IO, XIOS, Y Meurdesoif• de l'ensemble de la chaine: modipsl/libIGCM, ...

Contraintes ressources calcul, données, réseau

Page 21: Chaîne de calcul IPSL  - niveau 2 avril 2013

Quelques Enjeux pour les simulations climatiquesDes questions de plus en plus précises impliquant :

de nombreuses échelles de temps et d’espace (global au local, quelques années à quelques décennies)

Evolution des caractéristiques de la météorologies et de la variabilité climatique (heure à décennale)

Couplages entre le climat et les cycles biogéochimiques (gaz à effet de serre, aérosols, cycle du carbone, utilisation des terres,…)

Ens

embl

es

Résolu

tion

Complexité

GIEC (simulations coordonnées) : Ensembles de projections climatiques suivant

différents scénarios socioéconomiques

À 3° de résolution : 380 cœurs pendant 2 ans (exercice actuel) À 2° de résolution : 840 cœurs pendant 2 ans (exercice en cours) À 1/3° de résolution : 500000 cœurs pendant 2 ans (à venir?)

Page 22: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 23: Chaîne de calcul IPSL  - niveau 2 avril 2013

Récupération de la configuration

Compilation

Soumission/Exécution

Visualisation/comparaison des résultats

Description d’une expérience

Assemblage du modèle

Modipsl

Machines

LibIGCM

IOserver

Documentation

Support

Formation

Accés aux résultats

Serveurs CVS/SVN

Environnement

Page 24: Chaîne de calcul IPSL  - niveau 2 avril 2013

Documentation

Récupération de la configuration

Compilation

Soumission/Exécution

Visualisation/comparaison des résultats

Description d’une expérience

Assemblage du modèle

Modipsl

Machines

LibIGCM

IOserver

SupportFormation

Accés aux résultats

Serveurs CVS/SVN

Environnement

Documentation : http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation(Version PDF disponible)

Page 25: Chaîne de calcul IPSL  - niveau 2 avril 2013

Définition : plateforme qui permet, sur les centres de calcul usuels : • de récupérer des configurations de référence• de compiler :

– les sources des différentes composantes– les interfaces de couplage (océan-atmosphère) et le coupleur

• de réaliser une expérience type fournie (y compris fichiers entrée), • de suivre son exécution, • de produire et stocker des résultats bruts, • de produire, stocker et rendre accessible des ATLAS et analyses

systématiques

Le modèle climat de l’IPSL

Page 26: Chaîne de calcul IPSL  - niveau 2 avril 2013

Deux centres de calcul privilégiés

Calcul Ada (10 624 cores, 233 Tflops) : 332 nodes, 4 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (32 cores/node), 128Go/nodes (4Go/core)

Turing (65 536 cores, 836 Tflops) : 4.096 nœuds de calcul, PowerPC A2 (16 cores/node), 16 Go/node (1G/core)

Post Ada : 4 nœuds 4 proc Intel Westmere 8-cœurs à 2,67GHz (32cores/node), 1 To (32 Go/core) Fichiers Gaya, transferts des fichiers dods : http://dods.idris.fr Assistance [email protected], 01-69-35-85-55Infos www.idris.fr

Calcul Curie NF (80 640 cores, 1,6 Pflops) 5 040 thin nodes, 2 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (16 cores/node), 64Go/nodes (4Go/core)

Curie NL (11 520 cores) 90 fat nodes, 16 proc Nehalem-EX 8-cœurs à 2,27 GHz (128 cores/node), 512Go/nodes (4Go/core)

Titane (12 768 cores, 140 Tflops) 1596 nœuds de calcul, 2 proc Intel Xeon 8 cœurs à 2,93 GHz (8 cores/node), 24 Go/node (3G/core)

Post Curie NL, titaneFichiers $CCCWORKDIR, $CCCSTOREDIR, quotas : ccc_quota dods : http://dods.extra.cea.fr/work, http://dods.extra.cea.fr/store Assistance [email protected], 01-77-57-42-42Infos curie.info

Page 27: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl → Une configuration contient les sources des modèles, les outils de lancement basés sur libIGCM (driver et card) et les paramètres d'entrée

Les configurations cohérentes avec IPSLCM5A :

IPSLCM5A : Modèle couplé standard LMDZ-ORCHIDEE-NEMO-PISCES, utilisé pour CMIP5. Responsable A. Caubel et M-A Foujols

LMDZOR_v4 : Modèle forcé LMDZ-ORCHIDEE. Responsable J. Ghattas. Même réglage que LMDZ4OR_v3.

LMDZORINCA : Modèle avec chimie troposphère LMDZ-ORCHIDEE-INCA. Responsable A. Cozic

IPSLCM5A_C : Comme IPSLCM5A mais avec des versions des composants différentes Responsable P. Cadule

IPSLCM5B : Comme IPSLCM5A mais avec la nouvelle physique dans LMDZ. Responsable L. Fairhead

Ces configurations sont figées et ne sont plus maintenues

Page 28: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl → « La famille v5 » : Refonte des configurations pour améliorer le cohérence entre les différentes configurations et faciliter leur gestion/utilisation. Les réglages pour une composante restent les mêmes dans toutes les configurations dans la même famille.

Les configurations dans la famille v5 :

IPSLCM5_v5 : Correspond à IPSLCM5A et 5B. Responsables A. Caubel et M-A Foujols

LMDZOR_v5 : Prend la suite de LMDZOR_v4. Responsable J. Ghattas

LMDZORINCA_v5 : Correspond au LMDZORINCA mais les réglages ont un peu changé pour correspondre à IPSLCM5_v5. Responsable A. CozicLMDZREPR_v5 : Avec chimie stratosphère LMDZ-Reprobus. Responsable J. GhattasIPSLCM5CHT_v5 : Comme IPSLCM5_v5 avec INCA. Responsable A. CozicIPSLCM5CHS_v5 : Comme IPSLCM5_v5 avec Reprobus. Responsable M. MarchandA noter : IPSLCM5CHT_v5 et IPSLCM5CHS_v5 sont des versions de travail et non des version de production

Page 29: Chaîne de calcul IPSL  - niveau 2 avril 2013

Configurations distribuées dans modipsl

Autre configurations :

NEMO : Modèle forcé de l'océan OPA-LIM-PISCES. Responsable C. Ethé.

ORCHIDEE_TAG : Modèle forcé de surface ORCHIDEE, contient le dernier tag de ORCHIDEE (actuellement 1.9.6). Responsable J. Ghattas.

ORCHIDEE_SVN_AR5 : Modèle forcé de surface ORCHIDEE, contient la version utilisée pour CMIP5 de ORCHIDEE. Responsable J. Ghattas.

Recommandation générale : prévenir lors de nouvelles études basées sur une de ces configurations, en particulier pour les modèles couplés

Page 30: Chaîne de calcul IPSL  - niveau 2 avril 2013

Récupérer, compiler et lancer une configuration de type _v5

1. Accès à MODIPSL svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl

2. Accès à IPSLCM5_v5cd modipsl/util ; ./model IPSLCM5_v5

3. Installation des Makefilescd modipsl/util ; ./ins_make

4. Compilation cd modipsl/config/IPSLCM5_v5 ; gmake + resolution choisie

5. Installation de l’expérience type (et post-traitements) cp EXPERIMENT/IPSLCM5/piControl/config.card . vi config.card ### JobName=MYEXP ../../util/ins_job ### recopie repertoire piControl dans MYEXP

avec COMP, DRIVER, PARAM • Soumission du Job de lancement

cd modipsl/config/IPSLCM5_v5/MYEXP; ccc_msub Job_MYEXPllsumbmit Job_MYEXP

Page 31: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulGestion des sources des composantes

IPSL Serveur cvs/svn

LibIGCM

Récupération de la configuration

Compilation

Exécution/ lancement du run

Connexion

Fron

tale

Description de la simulation

Modipsl

LibIGCM Choix des réglages physiques

Page 32: Chaîne de calcul IPSL  - niveau 2 avril 2013

Script de référence : AA_Job

PeriodLength

Page 33: Chaîne de calcul IPSL  - niveau 2 avril 2013

Schéma de la librairie de scripts libIGCMEXP00 EXP00/COMP

Page 34: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 35: Chaîne de calcul IPSL  - niveau 2 avril 2013

Comment vérifier que cela s’est bien passé?

• Message de fin de simu reçu

• run.card : PeriodState=Completed

• Fichiers sur le serveur de fichiers

• Post-traitements lancés puis finis

• ATLAS et monitoring sur serveur dods

modipsl

MY_EXPERIENCE

config

EXP00

IPSLCM5_v5

Job_EXP00 COMP PARAMconfig.cardrun.card.initrun.cardScript_Output*

en décalé

DRIVER

Page 36: Chaîne de calcul IPSL  - niveau 2 avril 2013

A la fin d’une expérience, vous recevrez un message de ce type :

Objet : T05042013 completed

Dear user,

Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301

Message en fin de simulation

Page 37: Chaîne de calcul IPSL  - niveau 2 avril 2013

Arborescence sur serveur de fichiers IDRIS

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL RESTART

JobName

ATM DEBUGICE

AnalyseOutput

[INS]DA [HF]

MO

gaya: cd IGCM_OUT

SE

MBG SBG

NCRCAT

Fichiers archivés à la fréquence définie (PackFrequency)

TAR

MONITORINGATLAS

Page 38: Chaîne de calcul IPSL  - niveau 2 avril 2013

Arborescences sur serveurs de fichiers TGCC

TS_DA TS_MO

IPSLCM5A/DEVT/pdControl

OCE SRF CPL RESTART

JobName

ATM DEBUGICE

AnalyseOutput

[INS]DA [HF]

MO

cd $CCCSTOREDIR/IGCM_OUT

SE

MBG SBG

NCRCAT

Fichiers archivés à la fréquence définie (PackFrequency)

TAR

cd $CCCWORKDIR/IGCM_OUT

IPSLCM5A/DEVT/pdControl

MONITORING

JobName

ATLAS

Page 39: Chaîne de calcul IPSL  - niveau 2 avril 2013

Simulations avec libIGCM : les optionsSimulations avec libIGCM : les options

Job_EXP00Job_EXP00create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoringrebuildrebuild

RebuildFrequency=1Y, PackFrequency=NONE, mode « Sans pack » (IDRIS-vargas)

Job_EXP00Job_EXP00create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoring

RebuildFrequency=NONE, PackFrequency=NONE(ou absent), mode « DEBUG » ou « TEST »

rebuild onlinerebuild online

2007

2010

Job_EXP00Job_EXP00

create_tscreate_ts

create_secreate_se atlasatlas

monitoringmonitoringrebuildrebuild

pack_restartpack_debugpack_restartpack_debug

pack_outputpack_output

RebuildFrequency=1Y, PackFrequency=1Y, mode « Avec pack » (CCRT-TGCC et IDRIS-ada)

2012

Page 40: Chaîne de calcul IPSL  - niveau 2 avril 2013

Les utilitaires de pack

• pack_restart.job : archive, avec tar, les restart par période « PackFrequency »

• pack_debug.job : archive, avec tar, les fichiers debug par période « PackFrequency »

• pack_output.job : • concatène, avec ncrcat, les fichiers output (netcdf) par période

« PackFrequency »• est lancé par le job de rebuild

• Une simulation de type historical (1850-2005) :• 50 jobs de calcul (36 mois à la fois)• 156 rebuild, 156 pack_output, 156 pack_debug, 156 pack_restart• 16 create_se, 45 atlas, 500 create_ts, 30 monitoring

Page 41: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st

ada

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

RebuildFrequency PackFrequency

$WORKDIR/REBUILD $WORKDIR/IGCM_OUT

PeriodLength PeriodLength PeriodLength

rebuildrebuild pack_restartpack_debug

pack_restartpack_debug

PackFrequency

$WORKDIR/IGCM_OUT gaya : IGCM_OUT

Post

gaya:IGCM_OUTdods.idris.fr

pack_outputpack_output

create_tscreate_ts create_secreate_se

SeasonalFrequency

gaya : IGCM_OUT

monitoringmonitoring atlasatlas

Post

TimeSeriesFrequency

ada

ada

ada

tar

ncrcat

IDRIS

Page 42: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 43: Chaîne de calcul IPSL  - niveau 2 avril 2013

Calc

ulPo

st

titane, curie

Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00

titane, curie

RebuildFrequency PackFrequency

$SCRATCHDIR/IGCM_OUT

PeriodLength PeriodLength PeriodLength

rebuildrebuild

PackFrequency

$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR

Post

titane, curie

TS et SE : $CCCSTOREDIR/IGCM_OUT/… dods/storeMONITORING et ATLAS : $CCCWORKDIR dods/work

create_tscreate_ts create_secreate_se

SeasonalFrequency

$CCCSTOREDIR/IGCM_OUT

titane, curiemonitoringmonitoring atlasatlas

Post

TimeSeriesFrequency

TGCC

$SCRATCHDIR/REBUILD

tar

ncrcat

pack_restartpack_debug

pack_restartpack_debug

pack_outputpack_output

Page 44: Chaîne de calcul IPSL  - niveau 2 avril 2013

quotasquotas

Page 45: Chaîne de calcul IPSL  - niveau 2 avril 2013

Nombre de fichiers : historical

Sans Pack Pack 1 an Pack 5 ans

Output (ncrcat) 59 904 4 992 1 000

Analyse TS 1 700 1 700 1 700

Analyse SE 255 255 255

Restart (tar) 16 848 156 32

Debug (tar) 20 592 156 32

Exe 3 3 3

MONITORING (work)

400 0 0

ATLAS (work) 19 400 0 0

TOTAUX 121 000 7 262 3 019

Page 46: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 47: Chaîne de calcul IPSL  - niveau 2 avril 2013

1 : Suivi de la simulation

2 : Vérification, correction

Page 48: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Il est indispensable de surveiller très régulièrement sa simulation !!!

• RunChecker : script (libIGCM) à lancer pour obtenir des informations sur l’état d’une (ou plusieurs) simulations.

•Rappel : une simulation historical : 50 jobs de calcul et près de 1000 jobs de post-traitements

• Documentationhttp://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi

Suivi de la simulation

Page 49: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : usage et options

Le script RunChecker.job peut être lancé de n'importe où :

path/to/libIGCM/RunCkecker.job [-u user] [-q] [-j n] [-s] [-p path] job_name -u user : lance le Checker sur la simulation d'un autre utilisateur-q : mode silencieux-j n : affiche n jobs de post-traitement (10 par défaut)-s : recherche d'une simulation non référencée $WORKDIR pour l'ajouter à son catalogue personnel de simulations avant d'afficher les informations-p path : pour donner le chemin !!!absolu!!! du répertoire contenant le config.card à la place du job_name. A donner une fois seulement. Ensuite le nom de la simulation suffit. Voir ~/.simucatalog.dat

1) path/to/libIGCM/RunCkecker.job -p $CCCWORKDIR/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.rcp45CMR2

2) path/to/libIGCM/RunCkecker.job v5.rcp45CMR2

Page 50: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : exemple de simulation OK

Page 51: Chaîne de calcul IPSL  - niveau 2 avril 2013

RunChecker : exemple de simulation à problèmes

Page 52: Chaîne de calcul IPSL  - niveau 2 avril 2013

Si souci, vous recevrez un message de ce type :

Objet : v5.historicalCMR5 failed

Dear user,

Simulation v5.historicalCMR5 is failed on supercomputer curie2024. Job started : 18500101 Job ended : 20051231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5

Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5/REBUILD

Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5

Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.historicalCMR5

Message signalant un problème : failed

Page 53: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 1/

D’où vient le problème ?

• Job calcul (1 mail failed)

Pb machine ? On regarde le Script_output_xxxx.

Si pas de messages très clairs, on relance (clean_month): path/to/libIGCM/clean_month.job

ccc_msub (llsubmit) Job_...

Page 54: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 2/

D’où vient le problème ?

• Job calcul (1 mail failed) : analyse du Script_outputxxxx

######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################

http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output

Page 55: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 3/

D’où vient le problème ?

• Job calcul (1 mail failed) : analyse du Script_outputxxxx

######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################

http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output

Page 56: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 4/

D’où vient le problème ?

• Job calcul (1 mail failed) : analyse du Script_outputxxxx

======================================================================== EXECUTION of : mpirun -f ./run_file > out_run_file 2>&1 Return code of executable : 1 IGCM_debug_Exit : EXECUTABLE !!!!!!!!!!!!!!!!!!!!!!!!!! !! IGCM_debug_CallStack !! !------------------------! !------------------------! IGCM_sys_Cp : out_run_file Debug/xxxxxxxxxxxx_out_run_file_error========================================================================

http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output

Page 57: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 5/• --> Regarder en détail le sous-

répertoire Debug (si il existe)• Regarder le fichier xxxxx_error

dans le répertoire Debug/

– Contient le texte de sortie de LMDZLMDZ s’arrête souvent dans hgardfou Stopping in hgardfou

– Contient les erreurs brutales de toutes les composantes

• Regarder les fichiers texte de sortie de NEMO, ORCHIDEE, INCA, OASIS

– Debug/xxxx_ocean.output

– Debug/xxxx_output_orchidee

– Debug/xxxx_inca.out

– Debug/xxxx_cplout

Page 58: Chaîne de calcul IPSL  - niveau 2 avril 2013

Debug 1/

Par ex : Plantage inexpliqué• Dans Debug/out_execution :

indices sur le modèle qui plante ?forrtl: severe (174): SIGSEGV, segmentation fault

occurredImage PC Routinep25mpava_lmdz.x_2 0000000000EF005B Unknownp25mpava_lmdz.x_2 00000000006F293D Unknownp25mpava_lmdz.x_2 00000000006BB58F Unknownp25mpava_lmdz.x_2 0000000000477A6F Unknownp25mpava_lmdz.x_2 0000000000457C99 Unknownp25mpava_lmdz.x_2 00000000004568BC Unknownlibc.so.6 00000034AB81ECDD Unknownp25mpava_lmdz.x_2 00000000004567B9 Unknown

Compilation du modèle en mode « debug »

Execution Si toujours rien, utiliser un débugueur

(voir la documentation)

Page 59: Chaîne de calcul IPSL  - niveau 2 avril 2013

Par défaut nous compilons les codes en mode « optimisé » (= « prod »). Pour pouvoir trouver l’origine des bugs, certaines options du compilateur sont utiles. La méthode « debug » est différente suivant les modèles :

• Pour ORCHIDEE et IOIPSL il faut modifier les options de compilation dans le fichier modipsl/util/AA_make.gdef

#-Q- curie F_O = -DCPP_PARA -xHost -O3 -p -g -traceback -fp-stack-check -ftrapuv $(F_D) $(F_P) -I$(MODDIR) -module $(MODDIR)

Après avoir modifié ce fichier, vous devez relancer la commande ins_make permettant la création des Makefile

• Pour LMDZ et INCA il faut modifier le fichier Makefile dans config/xxx/ en rajoutant l'option -debug ou -dev dans la ligne de compilation

(cd ../../modeles/INCA3; ./makeinca_fcm -debug -chimie CH4 -resol (...) ../../bin/inca.dat ; )

(cd ../../modeles/LMDZ; ./makelmdz_fcm -cpp ORCHIDEE_NOOPENMP -debug -d (..) ../../bin/gcm.e;)

• Pour NEMO il faut modifier le fichier Makefile dans modeles/NEMO/WORK/MakefileF_O = -O3 -i4 -r8 –xHost -traceback -module $(MODDIR)/oce -I$(MODDIR) -I$(MODDIR)/oce -I$

(NCDF_INC) $(USER_INC)

A noter : Lorsqu’on débugue (mode « debug »), il peut être utile de diminuer l’optimisation qui est (-O3) en mode « prod ».

=> Travail d’harmonisation des systèmes de compilation en cours

Debug 2/

Page 60: Chaîne de calcul IPSL  - niveau 2 avril 2013

Debug 3/Par ex : Valeurs « étranges » dans

un fichier de sortie

• Execution (1er niveau debug)– Space name=TEST dans

config.card, pas de pack, tout sur $SCRATCHDIR(curie) ou $WORKDIR(ada).

– Rebuildfrequency=1M ou 1 période dans config.card

• Execution (2ème niveau debug)– Durée de simulation

+Rebuildfrequency=1M ou 1 période (1M) dans config.card

– RUN_DIR_PATH=…/rep/debug sur le $SCRATCHDIR(curie) ou $WORKDIR(ada) + Jobtype=DEV dans Job_...

– Analyse dans dir : $RUN_DIR_PATH– (Pas de rebuild (niveau expert !) :

supprimer les fichiers outputs des cards)

Page 61: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 6/

Pb Job calcul : relance (après correctif éventuel)– relance après clean_month :

path/to/libIGCM/clean_month.job

ccc_msub (llsubmit) Job_...

Page 62: Chaîne de calcul IPSL  - niveau 2 avril 2013

Pb !

STOP (Fatal dans run.card)

Page 63: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 7/

• Vous avez reçu 2 messages failed ou le RunChecker est anormal.

• Etudiez la situation :• cas simple :

• Relancer un rebuild ou pack_debug ou pack_restart

• Relancer un pack_output

• cas plus compliqué :• utiliser clean_year pour

revenir à la date sainepath/to/libIGCM/clean_year.job [SSAA]

avec SSAA = année jusqu'à

laquelle on efface tout (incluse).

• poursuivre la simulation

Page 64: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Installer un répertoire dédié à cela par simulation• Y copier : config.card, run.card, COMP, POST• Y copier le job à relancer• Modifier les paramètres de ce job pour qu'il traite la simu

en question• Voir documentation :http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#Lancerourelancerlespost-traitements

Refaire tourner un job de post-traitement

Page 65: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Cela peut être nécessaire pour boucher un trou– Trous évités :

• avec suivi régulier de la simulation !• avec arrêt du job de calcul par les jobs de pack si souci

• Les configurations actuelles sont reproductibles à l'identique, si fichier Bands identique.

• Voir trusting : http://webservices.ipsl.jussieu.fr/trusting/• Principe :

– mettre en place une simulation avec SpaceName=REDO– faire tourner une période complète, pack inclus– Repérer et recopier les fichiers de l'espace REDO vers PROD, et

seulement ceux-ci• Détails :

– fichier Bands– fichier meshmask si océan– RESTART 1 seul– config.card

• SpaceName=REDO• Dates• Pas de TS ou SE

Refaire tourner une simulation à l'identique

REDO

PROD

Page 66: Chaîne de calcul IPSL  - niveau 2 avril 2013

Suivi et correction (si problèmes) 8/Tout s’est bien passé : • Mail de fin de simulation• Aucune anomalie RunChecker

• TimeSeriesChecker (et SE_checker) : • vérifie les séries temporelles (SE)

existantes• propose de détruire les TS en double

(même date de début) • relance les jobs create_ts (create_se)

nécessaires pour reconstruire les TS et SE manquantes.

• Rappel : • les rebuilds lancent

automatiquement pack_output, ainsi que les TS et SE en découlant.

• les pack (debug, restart, output) peuvent être relancés séparement (sans passer par les rebuilds)

Page 67: Chaîne de calcul IPSL  - niveau 2 avril 2013

A la fin d’une expérience, vous recevrez un message de ce type :

Objet : T05042013 completed

Dear user,

Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301

Message en fin de simulation

Page 68: Chaîne de calcul IPSL  - niveau 2 avril 2013

The END ! (déjà )

[email protected] pour communiquer entre utilisateurs.

[email protected] pour trinquer entre utilisateurs.

Page 69: Chaîne de calcul IPSL  - niveau 2 avril 2013

Cas particulier : IPSLCM5A-MR

• Voir : platform/documentation/configuration/IPSLCM5#IPSLCM5A-MR

• MR :

– sur curie, les rebuild du MR prennent plus de 24h. Il faut utiliser une astuce pour pouvoir les faire. Modifier rebuild.job

• Tourner dans /tmp (SSD), RUN_DIR_PATH=/tmp/REBUILD_$$• -q standard, noeud fin• -x, réserver le noeud entier (16 cores)• 1h40 pour les rebuild historical au lieu de 18h à 30h

– Sur ada, il faut préciser: # @ as_limit = 7.0gb dans le job de calcul.

– Réduire les tailles des Chunck– TagName, pmagic, ...

Page 70: Chaîne de calcul IPSL  - niveau 2 avril 2013

• Modifier/créer un fichier de type EXP_../POST/monitoring01_model.cfg

• Attention : il faut que les variables que l'on veut visualiser dans les monitoring soient sorties en time series

#----------------------------------------------------------------------------------------------------------------# field | files patterns | files additionnal | operations | title | units | calcul of area#-----------------------------------------------------------------------------------------------------------------NOX_surf_global | "NO NO2" | LMDZ4.0_9695_grid.nc | "(NO[d=1,k=19]+NO2[d=2,k=19])" | " NOX a la surface" | "VMR" | "aire[d=3]"

CH4_surf_global | "CH4" | LMDZ4.0_9695_grid.nc | "CH4[d=1,k=19]" | " CH4 a la surface" | "VMR" | "aire[d=2]"

CO_surf_global | "CO" | LMDZ4.0_9695_grid.nc | "CO[d=1,k=19]" | " CO a la surface" | "VMR" | "aire[d=2]"

O3_surf_global | "_O3" | LMDZ4.0_9695_grid.nc | "O3[d=1,k=19]" | " O3 a la surface" | "VMR" | "aire[d=2]"

HNO3_surf_global | "HNO3" | LMDZ4.0_9695_grid.nc | "HNO3[d=1,k=19]" | " HNO3 a la surface" | "?" | "aire[d=2]"

Les monitorings

Page 71: Chaîne de calcul IPSL  - niveau 2 avril 2013

http://webservices.ipsl.jussieu.fr/monitoring/tmp/fegg_plot01_wHiyP3_prod/

Page 72: Chaîne de calcul IPSL  - niveau 2 avril 2013

InterMonitoring – tutoriel

• Vidéo du tutoriel : http://dods.ipsl.jussieu.fr/brocksce/screencast/InterMonitoring.html

Page 73: Chaîne de calcul IPSL  - niveau 2 avril 2013

IGCMG Web services http://webservices.ipsl.jussieu.fr/monitoring/

Page 74: Chaîne de calcul IPSL  - niveau 2 avril 2013
Page 75: Chaîne de calcul IPSL  - niveau 2 avril 2013

Formations

Formations IPSL

• Formations niveau 1 et 2 : modipsl, libIGCM, chaîne de calcul• Formation LMDZ (contact [email protected]) • Chaque mois, INCAHowTo (inscription per mail to [email protected])

Autres formations

• Fortran(14-05-2013) and MPI(30-09-2013) à l’IDRIS (2 fois par an) www.idris.fr• Formations à l’utilisation des calculateurs du TGCC• Formation UNIX

Page 76: Chaîne de calcul IPSL  - niveau 2 avril 2013

A retenir

Avant de lancer une simulation • informer le responsable de la configuration• s’assurer de la bonne version des modèles• s’assurer du type de simulation qu’on lance

• historique, piControl, pdControl• paramètres dans les fichiers de configuration• niveaux des sorties (écritures,…)

Savoir ce qu’on fait - faire attention à ce qu’on fait• chaîne de calcul IPSL = chaîne complexe

• un ou plusieurs modèles (modèles couplés) • gros calculateurs (milliers/millions de cœurs de calcul)

• on pense à soi : gain de temps• on pense aux autres : ressources partagées par la communauté

Problèmes• machine => hotline centre de calcul• configuration, chaîne de calcul => documentation, platform-users, responsable de la configuration• modèle => « hotline » modèle

Page 77: Chaîne de calcul IPSL  - niveau 2 avril 2013

Plan

• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés

Page 78: Chaîne de calcul IPSL  - niveau 2 avril 2013

Contributions

Le groupe de travail Plate-forme de l’IPSL

Page 79: Chaîne de calcul IPSL  - niveau 2 avril 2013

OutilsNCO/netCDFRnetcdf/3.6.3 + 4hdf5 udunitsferretnetpbmimagemagicktetex-latexCDORSYNCNCAR NCLVTKSubversion et accès non filtrés aux serveurs cvs/svnParaviewgnuplotFirefoxgs