chaîne de calcul ipsl - niveau 2 avril 2013
DESCRIPTION
Chaîne de calcul IPSL - niveau 2 avril 2013. Plan. Présentation du pôle de modélisation Présentation du modèle IPSL-CM5 Rappel du fonctionnement de la chaine Surveillance de la chaîne de calcul Travaux pratiques personnalisés. Le pôle de modélisation du climat. - PowerPoint PPT PresentationTRANSCRIPT
Chaîne de calcul IPSL - niveau 2avril 2013
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le pôle de modélisation du climat• 80 personnes, coordinateur Jean-Louis Dufresne, dir adj IPSL• Missions :
– Fédérer les études multidisciplinaires (scientifiques ou techniques) faisant intervenir les composantes du modèle de l'IPSL
– Identifier et coordonner les simulations de référence– Fédérer et rationaliser les moyens, les développements
techniques– Animation scientifique
• Modèle climat :– Atmosphère– Océan et glace de mer– Surfaces continentales– Cycle du carbone– Chimie
• IPSLCM5• Earth System Model
3
Le modèle climat IPSL
Modeling platform (IPSL-ESM)Arnaud Caubel (LSCE) - Marie-Alice Foujols (IPSL)
Data Archive and Access RequirementsSébastien Denvil (IPSL) - Karim Ramage (IPSL)
Atmospheric and surface physics and dynamics (LMDZ)
Frédéric Hourdin (LMD) - Laurent Fairhead (LMD)
Ocean and sea ice physics and dynamics (NEMO, LIM)
C Ethé (IPSL) - Claire Lévy - Gurvan Madec (LOCEAN)
Atmosphere and ocean interactions (IPSL-CM, different resolutions)
Sébastien Masson (LOCEAN) - Olivier Marti (LSCE)
Biogeochemical cycles (PISCES)Laurent Bopp (LSCE) - Patricia Cadule (IPSL)
Current and future climate changes
Jean-Louis Dufresne(LMD) - Olivier Boucher (LMD)
Paleoclimate and last millennium
Pascale Braconnot - Masa Kageyama (LSCE)
“Near-term” prediction (seasonal to decadal)
Eric Guilyardi (LOCEAN) - Juliette Mignot (LOCEAN)
Evaluation of the models, present-day and future climate change analysis
Sandrine Bony (LMD) - Patricia Cadule (IPSL) - Marion Marchand (LATMOS) - Juliette Mignot
(LOCEAN) – Jérôme Servonnat (LSCE)
Regional climatesRobert Vautard (LSCE), Laurent Li (LMD)Atmospheric chemistry and aerosols (INCA,
INCA_aer, Reprobus)Anne Cozic (LSCE) - M. Marchand (LATMOS)
Continental processes (ORCHIDEE)Philippe Peylin (LSCE) - Josefine Ghattas (IPSL)
Organisation du pôle de modélisation du climatResp: J-L Dufresne; Bureau: L. Bopp, MA Foujols, J. Mignot
Comité de pilotage
Groupe de travail Plate-formecoordination M-A. Foujols, A. Caubel
• Ancien nom ESCI : Equipe Système Climat IPSL• 40 personnes ( 15 régulières )• Missions :
– Organiser les développements techniques en accord avec les activités scientifiques du pôle
– Assurer le lien et la cohérence des développements entre les différentes composantes et le modèle couplé IPSLCM5
– Support aux utilisateurs des modèles, liste entraide : [email protected]
– Documentation– Animation technique, formations– Veille technologique
• Organisation : 1 réunion/mois (Jussieu et LSCE)• liste interne : [email protected]
forge.ipsl.jussieu.fr/igcmg
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Le modèle climat de l’IPSL : IPSLCM5
IPSL
IPSLCM5
Carbone / CO2 (Orchidée, Pisces)
Ozone strato. (Reprobus)
Émissions
Utilisation des sols
VolcansInsolation
Physique – Transport
•Atmosphère (LMDZ)
•Surface (ORCHIDEE)
•Océan (NEMO)
•Glace de mer (LIM)
•Coupleur (OASIS)
Modèle du système Terre (ESM)
Climat global
Climat régional
LMDZ zoomé
Chimie tropo & aérosols (INCA)
lmdz.lmd.jussieu.fr
http://www.nemo-ocean.eu/
19 vert. levelsAtmosphère et surf. continentale
(LMDZ - ORCHIDEE)
Océan et glace de mer(ORCA-LIM)
coupleur(OASIS)
Résolutions:
Atm: 3.75°x2.5° (~350 km)
Oce: 2°x2° reserré à l’équateur
Les grilles horizontales - couplage - 3 exécutables
History of IPSLCM model since 2004
Frozen IPSLCM4
for CMIP3/ IP
CC AR4
Carbon configurations fo
r CMIP3/AR4
2004 2005
from IPSLCM4_v1 …
2006 2007 2008 2009
IPSLCM5A-LR : r
eady for C
MIP5
… to IPSLCM5A …
Oasis3 : IP
SLCM4_OASIS3
LMDZ and Orch
idee // IPSLCM4_v2
NEMO for o
cean : IPSLCM5
Carbon cycle
included : IP
SLCM5_v3
20112010
IPSLCM5A-M
R : 144x1
42x39
New physic
: LMZ5B IP
SLCM5B
IO se
rver
iomput for o
cean : IPSLCM5
libIGCM : IPSLCM4_OASIS3
Increasin
g of reso
lution fo
r atm
New dynamica
l core fo
r atm
Increasin
g of reso
lution fo
r oce
an
NEC SX-9
Operationnal o
n vargas,
titane (3
2 procs)
… and prepare the next generation
Implici
t usa
ge of MPI/O
penMP
Modèles de l'IPSL pour CMIP5
LMDZ-ORCHIDEE-ORCA-LIM-PISCES-INCA-REPROBUS-OASIS
IPSL-CM5AModèle intégré du système
Terre (ESM)
IPSL-CM5A-MR Moyenne résolutionatm: 2.5°x1.25°L39
oce: 2° L31
IPSL-CM5BIdem IPSL-CM5A, avec modèle
atmosphérique LMDZ5B
IPSL-CM5A-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
IPSL-CM5B-LR Basse résolutionatm: 3.75°x2°L39
oce: 2° L31
Curie
1 Tflops
1 Pflops
1 Gflops
TOP 500 : nb de processeurs/cores
Eléments techniques : parallélisme, HPC
• Composantes seules : parallélisme MPI et mixte MPI/OpenMP utilisation de fichiers de forçages
• Couplé ou MPMD : 3 composantes au moins : coupleur, atmosphère, océan
chacune MPI ou MPI/OpenMP avec nombre différent de tâches les serveurs d'IO
ajout des composantes imbriquées : 5 exécutables ajout OpenMP en routine
• Codes écrits en Fortran, sauf exception• Beaucoup de sorties
NetcDF librairie IOIPSL serveur : XIOS : en attaché/détaché
• Grand challenge au CINES, SGI, > 2000 procs• Couplé LMDZ 1/3°- OASIS -NEMO 1/4°
Evolutions prévues à court terme :
• Physique : nouvelle physique LMDZ• Plus de résolutions, Pulsation et S Masson• Des ensembles, S Denvil tests actuels• Des simulations plus longues, P Braconnot • Des modèles plus complexes à bon escient: ajout de
la chimie A Cozic• Plus grand nombre de processeurs : cœur
dynamique de LMDZ sur grille icosaédrique, Y Meurdesoif
• Optimisations des IO, XIOS, Y Meurdesoif• de l'ensemble de la chaine: modipsl/libIGCM, ...
Contraintes ressources calcul, données, réseau
Quelques Enjeux pour les simulations climatiquesDes questions de plus en plus précises impliquant :
de nombreuses échelles de temps et d’espace (global au local, quelques années à quelques décennies)
Evolution des caractéristiques de la météorologies et de la variabilité climatique (heure à décennale)
Couplages entre le climat et les cycles biogéochimiques (gaz à effet de serre, aérosols, cycle du carbone, utilisation des terres,…)
Ens
embl
es
Résolu
tion
Complexité
GIEC (simulations coordonnées) : Ensembles de projections climatiques suivant
différents scénarios socioéconomiques
À 3° de résolution : 380 cœurs pendant 2 ans (exercice actuel) À 2° de résolution : 840 cœurs pendant 2 ans (exercice en cours) À 1/3° de résolution : 500000 cœurs pendant 2 ans (à venir?)
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Récupération de la configuration
Compilation
Soumission/Exécution
Visualisation/comparaison des résultats
Description d’une expérience
Assemblage du modèle
Modipsl
Machines
LibIGCM
IOserver
Documentation
Support
Formation
Accés aux résultats
Serveurs CVS/SVN
Environnement
Documentation
Récupération de la configuration
Compilation
Soumission/Exécution
Visualisation/comparaison des résultats
Description d’une expérience
Assemblage du modèle
Modipsl
Machines
LibIGCM
IOserver
SupportFormation
Accés aux résultats
Serveurs CVS/SVN
Environnement
Documentation : http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation(Version PDF disponible)
Définition : plateforme qui permet, sur les centres de calcul usuels : • de récupérer des configurations de référence• de compiler :
– les sources des différentes composantes– les interfaces de couplage (océan-atmosphère) et le coupleur
• de réaliser une expérience type fournie (y compris fichiers entrée), • de suivre son exécution, • de produire et stocker des résultats bruts, • de produire, stocker et rendre accessible des ATLAS et analyses
systématiques
Le modèle climat de l’IPSL
Deux centres de calcul privilégiés
Calcul Ada (10 624 cores, 233 Tflops) : 332 nodes, 4 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (32 cores/node), 128Go/nodes (4Go/core)
Turing (65 536 cores, 836 Tflops) : 4.096 nœuds de calcul, PowerPC A2 (16 cores/node), 16 Go/node (1G/core)
Post Ada : 4 nœuds 4 proc Intel Westmere 8-cœurs à 2,67GHz (32cores/node), 1 To (32 Go/core) Fichiers Gaya, transferts des fichiers dods : http://dods.idris.fr Assistance [email protected], 01-69-35-85-55Infos www.idris.fr
Calcul Curie NF (80 640 cores, 1,6 Pflops) 5 040 thin nodes, 2 proc Intel Sandy Bridge 8-cœurs à 2,7 GHz (16 cores/node), 64Go/nodes (4Go/core)
Curie NL (11 520 cores) 90 fat nodes, 16 proc Nehalem-EX 8-cœurs à 2,27 GHz (128 cores/node), 512Go/nodes (4Go/core)
Titane (12 768 cores, 140 Tflops) 1596 nœuds de calcul, 2 proc Intel Xeon 8 cœurs à 2,93 GHz (8 cores/node), 24 Go/node (3G/core)
Post Curie NL, titaneFichiers $CCCWORKDIR, $CCCSTOREDIR, quotas : ccc_quota dods : http://dods.extra.cea.fr/work, http://dods.extra.cea.fr/store Assistance [email protected], 01-77-57-42-42Infos curie.info
Configurations distribuées dans modipsl → Une configuration contient les sources des modèles, les outils de lancement basés sur libIGCM (driver et card) et les paramètres d'entrée
Les configurations cohérentes avec IPSLCM5A :
IPSLCM5A : Modèle couplé standard LMDZ-ORCHIDEE-NEMO-PISCES, utilisé pour CMIP5. Responsable A. Caubel et M-A Foujols
LMDZOR_v4 : Modèle forcé LMDZ-ORCHIDEE. Responsable J. Ghattas. Même réglage que LMDZ4OR_v3.
LMDZORINCA : Modèle avec chimie troposphère LMDZ-ORCHIDEE-INCA. Responsable A. Cozic
IPSLCM5A_C : Comme IPSLCM5A mais avec des versions des composants différentes Responsable P. Cadule
IPSLCM5B : Comme IPSLCM5A mais avec la nouvelle physique dans LMDZ. Responsable L. Fairhead
Ces configurations sont figées et ne sont plus maintenues
Configurations distribuées dans modipsl → « La famille v5 » : Refonte des configurations pour améliorer le cohérence entre les différentes configurations et faciliter leur gestion/utilisation. Les réglages pour une composante restent les mêmes dans toutes les configurations dans la même famille.
Les configurations dans la famille v5 :
IPSLCM5_v5 : Correspond à IPSLCM5A et 5B. Responsables A. Caubel et M-A Foujols
LMDZOR_v5 : Prend la suite de LMDZOR_v4. Responsable J. Ghattas
LMDZORINCA_v5 : Correspond au LMDZORINCA mais les réglages ont un peu changé pour correspondre à IPSLCM5_v5. Responsable A. CozicLMDZREPR_v5 : Avec chimie stratosphère LMDZ-Reprobus. Responsable J. GhattasIPSLCM5CHT_v5 : Comme IPSLCM5_v5 avec INCA. Responsable A. CozicIPSLCM5CHS_v5 : Comme IPSLCM5_v5 avec Reprobus. Responsable M. MarchandA noter : IPSLCM5CHT_v5 et IPSLCM5CHS_v5 sont des versions de travail et non des version de production
Configurations distribuées dans modipsl
Autre configurations :
NEMO : Modèle forcé de l'océan OPA-LIM-PISCES. Responsable C. Ethé.
ORCHIDEE_TAG : Modèle forcé de surface ORCHIDEE, contient le dernier tag de ORCHIDEE (actuellement 1.9.6). Responsable J. Ghattas.
ORCHIDEE_SVN_AR5 : Modèle forcé de surface ORCHIDEE, contient la version utilisée pour CMIP5 de ORCHIDEE. Responsable J. Ghattas.
Recommandation générale : prévenir lors de nouvelles études basées sur une de ces configurations, en particulier pour les modèles couplés
Récupérer, compiler et lancer une configuration de type _v5
1. Accès à MODIPSL svn co http://forge.ipsl.jussieu.fr/igcmg/svn/modipsl/trunk modipsl
2. Accès à IPSLCM5_v5cd modipsl/util ; ./model IPSLCM5_v5
3. Installation des Makefilescd modipsl/util ; ./ins_make
4. Compilation cd modipsl/config/IPSLCM5_v5 ; gmake + resolution choisie
5. Installation de l’expérience type (et post-traitements) cp EXPERIMENT/IPSLCM5/piControl/config.card . vi config.card ### JobName=MYEXP ../../util/ins_job ### recopie repertoire piControl dans MYEXP
avec COMP, DRIVER, PARAM • Soumission du Job de lancement
cd modipsl/config/IPSLCM5_v5/MYEXP; ccc_msub Job_MYEXPllsumbmit Job_MYEXP
Calc
ulGestion des sources des composantes
IPSL Serveur cvs/svn
LibIGCM
Récupération de la configuration
Compilation
Exécution/ lancement du run
Connexion
Fron
tale
Description de la simulation
Modipsl
LibIGCM Choix des réglages physiques
Script de référence : AA_Job
PeriodLength
Schéma de la librairie de scripts libIGCMEXP00 EXP00/COMP
Comment vérifier que cela s’est bien passé?
• Message de fin de simu reçu
• run.card : PeriodState=Completed
• Fichiers sur le serveur de fichiers
• Post-traitements lancés puis finis
• ATLAS et monitoring sur serveur dods
modipsl
MY_EXPERIENCE
config
EXP00
IPSLCM5_v5
Job_EXP00 COMP PARAMconfig.cardrun.card.initrun.cardScript_Output*
en décalé
DRIVER
A la fin d’une expérience, vous recevrez un message de ce type :
Objet : T05042013 completed
Dear user,
Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301
Message en fin de simulation
Arborescence sur serveur de fichiers IDRIS
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
gaya: cd IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
MONITORINGATLAS
Arborescences sur serveurs de fichiers TGCC
TS_DA TS_MO
IPSLCM5A/DEVT/pdControl
OCE SRF CPL RESTART
JobName
ATM DEBUGICE
AnalyseOutput
[INS]DA [HF]
MO
cd $CCCSTOREDIR/IGCM_OUT
SE
MBG SBG
NCRCAT
Fichiers archivés à la fréquence définie (PackFrequency)
TAR
cd $CCCWORKDIR/IGCM_OUT
IPSLCM5A/DEVT/pdControl
MONITORING
JobName
ATLAS
Simulations avec libIGCM : les optionsSimulations avec libIGCM : les options
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
RebuildFrequency=1Y, PackFrequency=NONE, mode « Sans pack » (IDRIS-vargas)
Job_EXP00Job_EXP00create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoring
RebuildFrequency=NONE, PackFrequency=NONE(ou absent), mode « DEBUG » ou « TEST »
rebuild onlinerebuild online
2007
2010
Job_EXP00Job_EXP00
create_tscreate_ts
create_secreate_se atlasatlas
monitoringmonitoringrebuildrebuild
pack_restartpack_debugpack_restartpack_debug
pack_outputpack_output
RebuildFrequency=1Y, PackFrequency=1Y, mode « Avec pack » (CCRT-TGCC et IDRIS-ada)
2012
Les utilitaires de pack
• pack_restart.job : archive, avec tar, les restart par période « PackFrequency »
• pack_debug.job : archive, avec tar, les fichiers debug par période « PackFrequency »
• pack_output.job : • concatène, avec ncrcat, les fichiers output (netcdf) par période
« PackFrequency »• est lancé par le job de rebuild
• Une simulation de type historical (1850-2005) :• 50 jobs de calcul (36 mois à la fois)• 156 rebuild, 156 pack_output, 156 pack_debug, 156 pack_restart• 16 create_se, 45 atlas, 500 create_ts, 30 monitoring
Calc
ulPo
st
ada
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
RebuildFrequency PackFrequency
$WORKDIR/REBUILD $WORKDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild pack_restartpack_debug
pack_restartpack_debug
PackFrequency
$WORKDIR/IGCM_OUT gaya : IGCM_OUT
Post
gaya:IGCM_OUTdods.idris.fr
pack_outputpack_output
create_tscreate_ts create_secreate_se
SeasonalFrequency
gaya : IGCM_OUT
monitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
ada
ada
ada
tar
ncrcat
IDRIS
Calc
ulPo
st
titane, curie
Job_EXP00Job_EXP00 Job_EXP00Job_EXP00 Job_EXP00Job_EXP00
titane, curie
RebuildFrequency PackFrequency
$SCRATCHDIR/IGCM_OUT
PeriodLength PeriodLength PeriodLength
rebuildrebuild
PackFrequency
$SCRATCHDIR/IGCM_OUT $CCCSTOREDIR
Post
titane, curie
TS et SE : $CCCSTOREDIR/IGCM_OUT/… dods/storeMONITORING et ATLAS : $CCCWORKDIR dods/work
create_tscreate_ts create_secreate_se
SeasonalFrequency
$CCCSTOREDIR/IGCM_OUT
titane, curiemonitoringmonitoring atlasatlas
Post
TimeSeriesFrequency
TGCC
$SCRATCHDIR/REBUILD
tar
ncrcat
pack_restartpack_debug
pack_restartpack_debug
pack_outputpack_output
quotasquotas
Nombre de fichiers : historical
Sans Pack Pack 1 an Pack 5 ans
Output (ncrcat) 59 904 4 992 1 000
Analyse TS 1 700 1 700 1 700
Analyse SE 255 255 255
Restart (tar) 16 848 156 32
Debug (tar) 20 592 156 32
Exe 3 3 3
MONITORING (work)
400 0 0
ATLAS (work) 19 400 0 0
TOTAUX 121 000 7 262 3 019
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
1 : Suivi de la simulation
2 : Vérification, correction
• Il est indispensable de surveiller très régulièrement sa simulation !!!
• RunChecker : script (libIGCM) à lancer pour obtenir des informations sur l’état d’une (ou plusieurs) simulations.
•Rappel : une simulation historical : 50 jobs de calcul et près de 1000 jobs de post-traitements
• Documentationhttp://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi
Suivi de la simulation
RunChecker : usage et options
Le script RunChecker.job peut être lancé de n'importe où :
path/to/libIGCM/RunCkecker.job [-u user] [-q] [-j n] [-s] [-p path] job_name -u user : lance le Checker sur la simulation d'un autre utilisateur-q : mode silencieux-j n : affiche n jobs de post-traitement (10 par défaut)-s : recherche d'une simulation non référencée $WORKDIR pour l'ajouter à son catalogue personnel de simulations avant d'afficher les informations-p path : pour donner le chemin !!!absolu!!! du répertoire contenant le config.card à la place du job_name. A donner une fois seulement. Ensuite le nom de la simulation suffit. Voir ~/.simucatalog.dat
1) path/to/libIGCM/RunCkecker.job -p $CCCWORKDIR/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.rcp45CMR2
2) path/to/libIGCM/RunCkecker.job v5.rcp45CMR2
RunChecker : exemple de simulation OK
RunChecker : exemple de simulation à problèmes
Si souci, vous recevrez un message de ce type :
Objet : v5.historicalCMR5 failed
Dear user,
Simulation v5.historicalCMR5 is failed on supercomputer curie2024. Job started : 18500101 Job ended : 20051231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5/REBUILD
Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A-MR/PROD/historical/v5.historicalCMR5
Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R1414/IPSLCM5A_20120731/modipsl/config/IPSLCM5A/v5.historicalCMR5
Message signalant un problème : failed
Suivi et correction (si problèmes) 1/
D’où vient le problème ?
• Job calcul (1 mail failed)
Pb machine ? On regarde le Script_output_xxxx.
Si pas de messages très clairs, on relance (clean_month): path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Suivi et correction (si problèmes) 2/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 3/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
######################################## ANOTHER GREAT SIMULATION ######################################## 1ère partie######################################## DIR BEFORE RUN EXECUTION ######################################## 2ème partie######################################## DIR AFTER RUN EXECUTION ######################################## 3ème partie#######################################
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 4/
D’où vient le problème ?
• Job calcul (1 mail failed) : analyse du Script_outputxxxx
======================================================================== EXECUTION of : mpirun -f ./run_file > out_run_file 2>&1 Return code of executable : 1 IGCM_debug_Exit : EXECUTABLE !!!!!!!!!!!!!!!!!!!!!!!!!! !! IGCM_debug_CallStack !! !------------------------! !------------------------! IGCM_sys_Cp : out_run_file Debug/xxxxxxxxxxxx_out_run_file_error========================================================================
http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#AnalysedelasortieduJob:Script_Output
Suivi et correction (si problèmes) 5/• --> Regarder en détail le sous-
répertoire Debug (si il existe)• Regarder le fichier xxxxx_error
dans le répertoire Debug/
– Contient le texte de sortie de LMDZLMDZ s’arrête souvent dans hgardfou Stopping in hgardfou
– Contient les erreurs brutales de toutes les composantes
• Regarder les fichiers texte de sortie de NEMO, ORCHIDEE, INCA, OASIS
– Debug/xxxx_ocean.output
– Debug/xxxx_output_orchidee
– Debug/xxxx_inca.out
– Debug/xxxx_cplout
Debug 1/
Par ex : Plantage inexpliqué• Dans Debug/out_execution :
indices sur le modèle qui plante ?forrtl: severe (174): SIGSEGV, segmentation fault
occurredImage PC Routinep25mpava_lmdz.x_2 0000000000EF005B Unknownp25mpava_lmdz.x_2 00000000006F293D Unknownp25mpava_lmdz.x_2 00000000006BB58F Unknownp25mpava_lmdz.x_2 0000000000477A6F Unknownp25mpava_lmdz.x_2 0000000000457C99 Unknownp25mpava_lmdz.x_2 00000000004568BC Unknownlibc.so.6 00000034AB81ECDD Unknownp25mpava_lmdz.x_2 00000000004567B9 Unknown
Compilation du modèle en mode « debug »
Execution Si toujours rien, utiliser un débugueur
(voir la documentation)
Par défaut nous compilons les codes en mode « optimisé » (= « prod »). Pour pouvoir trouver l’origine des bugs, certaines options du compilateur sont utiles. La méthode « debug » est différente suivant les modèles :
• Pour ORCHIDEE et IOIPSL il faut modifier les options de compilation dans le fichier modipsl/util/AA_make.gdef
#-Q- curie F_O = -DCPP_PARA -xHost -O3 -p -g -traceback -fp-stack-check -ftrapuv $(F_D) $(F_P) -I$(MODDIR) -module $(MODDIR)
Après avoir modifié ce fichier, vous devez relancer la commande ins_make permettant la création des Makefile
• Pour LMDZ et INCA il faut modifier le fichier Makefile dans config/xxx/ en rajoutant l'option -debug ou -dev dans la ligne de compilation
(cd ../../modeles/INCA3; ./makeinca_fcm -debug -chimie CH4 -resol (...) ../../bin/inca.dat ; )
(cd ../../modeles/LMDZ; ./makelmdz_fcm -cpp ORCHIDEE_NOOPENMP -debug -d (..) ../../bin/gcm.e;)
• Pour NEMO il faut modifier le fichier Makefile dans modeles/NEMO/WORK/MakefileF_O = -O3 -i4 -r8 –xHost -traceback -module $(MODDIR)/oce -I$(MODDIR) -I$(MODDIR)/oce -I$
(NCDF_INC) $(USER_INC)
A noter : Lorsqu’on débugue (mode « debug »), il peut être utile de diminuer l’optimisation qui est (-O3) en mode « prod ».
=> Travail d’harmonisation des systèmes de compilation en cours
Debug 2/
Debug 3/Par ex : Valeurs « étranges » dans
un fichier de sortie
• Execution (1er niveau debug)– Space name=TEST dans
config.card, pas de pack, tout sur $SCRATCHDIR(curie) ou $WORKDIR(ada).
– Rebuildfrequency=1M ou 1 période dans config.card
• Execution (2ème niveau debug)– Durée de simulation
+Rebuildfrequency=1M ou 1 période (1M) dans config.card
– RUN_DIR_PATH=…/rep/debug sur le $SCRATCHDIR(curie) ou $WORKDIR(ada) + Jobtype=DEV dans Job_...
– Analyse dans dir : $RUN_DIR_PATH– (Pas de rebuild (niveau expert !) :
supprimer les fichiers outputs des cards)
Suivi et correction (si problèmes) 6/
Pb Job calcul : relance (après correctif éventuel)– relance après clean_month :
path/to/libIGCM/clean_month.job
ccc_msub (llsubmit) Job_...
Pb !
STOP (Fatal dans run.card)
Suivi et correction (si problèmes) 7/
• Vous avez reçu 2 messages failed ou le RunChecker est anormal.
• Etudiez la situation :• cas simple :
• Relancer un rebuild ou pack_debug ou pack_restart
• Relancer un pack_output
• cas plus compliqué :• utiliser clean_year pour
revenir à la date sainepath/to/libIGCM/clean_year.job [SSAA]
avec SSAA = année jusqu'à
laquelle on efface tout (incluse).
• poursuivre la simulation
• Installer un répertoire dédié à cela par simulation• Y copier : config.card, run.card, COMP, POST• Y copier le job à relancer• Modifier les paramètres de ce job pour qu'il traite la simu
en question• Voir documentation :http://forge.ipsl.jussieu.fr/igcmg/wiki/platform/documentation/suivi#Lancerourelancerlespost-traitements
Refaire tourner un job de post-traitement
• Cela peut être nécessaire pour boucher un trou– Trous évités :
• avec suivi régulier de la simulation !• avec arrêt du job de calcul par les jobs de pack si souci
• Les configurations actuelles sont reproductibles à l'identique, si fichier Bands identique.
• Voir trusting : http://webservices.ipsl.jussieu.fr/trusting/• Principe :
– mettre en place une simulation avec SpaceName=REDO– faire tourner une période complète, pack inclus– Repérer et recopier les fichiers de l'espace REDO vers PROD, et
seulement ceux-ci• Détails :
– fichier Bands– fichier meshmask si océan– RESTART 1 seul– config.card
• SpaceName=REDO• Dates• Pas de TS ou SE
Refaire tourner une simulation à l'identique
REDO
PROD
Suivi et correction (si problèmes) 8/Tout s’est bien passé : • Mail de fin de simulation• Aucune anomalie RunChecker
• TimeSeriesChecker (et SE_checker) : • vérifie les séries temporelles (SE)
existantes• propose de détruire les TS en double
(même date de début) • relance les jobs create_ts (create_se)
nécessaires pour reconstruire les TS et SE manquantes.
• Rappel : • les rebuilds lancent
automatiquement pack_output, ainsi que les TS et SE en découlant.
• les pack (debug, restart, output) peuvent être relancés séparement (sans passer par les rebuilds)
A la fin d’une expérience, vous recevrez un message de ce type :
Objet : T05042013 completed
Dear user,
Simulation TEST201301 is completed on supercomputer curie5779. Job started : 25000101 Job ended : 25011231 Output files are available in /ccc/store/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Files to be rebuild are temporarily available in /ccc/scratch/cont003/dsm/user/REBUILD/IPSLCM5A/TEST201301 Pre-packed files are temporarily available in /ccc/scratch/cont003/dsm/user/IGCM_OUT/IPSLCM5A/DEVT/piControl/TEST201301 Script files, Script Outputs and Debug files (if necessary) are available in /ccc/work/cont003/dsm/user/CURIE/CMIP5/R99/IPSLCM5A_20120910/modipsl/config/IPSLCM5A/TEST201301
Message en fin de simulation
The END ! (déjà )
[email protected] pour communiquer entre utilisateurs.
[email protected] pour trinquer entre utilisateurs.
Cas particulier : IPSLCM5A-MR
• Voir : platform/documentation/configuration/IPSLCM5#IPSLCM5A-MR
• MR :
– sur curie, les rebuild du MR prennent plus de 24h. Il faut utiliser une astuce pour pouvoir les faire. Modifier rebuild.job
• Tourner dans /tmp (SSD), RUN_DIR_PATH=/tmp/REBUILD_$$• -q standard, noeud fin• -x, réserver le noeud entier (16 cores)• 1h40 pour les rebuild historical au lieu de 18h à 30h
– Sur ada, il faut préciser: # @ as_limit = 7.0gb dans le job de calcul.
– Réduire les tailles des Chunck– TagName, pmagic, ...
• Modifier/créer un fichier de type EXP_../POST/monitoring01_model.cfg
• Attention : il faut que les variables que l'on veut visualiser dans les monitoring soient sorties en time series
#----------------------------------------------------------------------------------------------------------------# field | files patterns | files additionnal | operations | title | units | calcul of area#-----------------------------------------------------------------------------------------------------------------NOX_surf_global | "NO NO2" | LMDZ4.0_9695_grid.nc | "(NO[d=1,k=19]+NO2[d=2,k=19])" | " NOX a la surface" | "VMR" | "aire[d=3]"
CH4_surf_global | "CH4" | LMDZ4.0_9695_grid.nc | "CH4[d=1,k=19]" | " CH4 a la surface" | "VMR" | "aire[d=2]"
CO_surf_global | "CO" | LMDZ4.0_9695_grid.nc | "CO[d=1,k=19]" | " CO a la surface" | "VMR" | "aire[d=2]"
O3_surf_global | "_O3" | LMDZ4.0_9695_grid.nc | "O3[d=1,k=19]" | " O3 a la surface" | "VMR" | "aire[d=2]"
HNO3_surf_global | "HNO3" | LMDZ4.0_9695_grid.nc | "HNO3[d=1,k=19]" | " HNO3 a la surface" | "?" | "aire[d=2]"
Les monitorings
http://webservices.ipsl.jussieu.fr/monitoring/tmp/fegg_plot01_wHiyP3_prod/
InterMonitoring – tutoriel
• Vidéo du tutoriel : http://dods.ipsl.jussieu.fr/brocksce/screencast/InterMonitoring.html
IGCMG Web services http://webservices.ipsl.jussieu.fr/monitoring/
Formations
Formations IPSL
• Formations niveau 1 et 2 : modipsl, libIGCM, chaîne de calcul• Formation LMDZ (contact [email protected]) • Chaque mois, INCAHowTo (inscription per mail to [email protected])
Autres formations
• Fortran(14-05-2013) and MPI(30-09-2013) à l’IDRIS (2 fois par an) www.idris.fr• Formations à l’utilisation des calculateurs du TGCC• Formation UNIX
A retenir
Avant de lancer une simulation • informer le responsable de la configuration• s’assurer de la bonne version des modèles• s’assurer du type de simulation qu’on lance
• historique, piControl, pdControl• paramètres dans les fichiers de configuration• niveaux des sorties (écritures,…)
Savoir ce qu’on fait - faire attention à ce qu’on fait• chaîne de calcul IPSL = chaîne complexe
• un ou plusieurs modèles (modèles couplés) • gros calculateurs (milliers/millions de cœurs de calcul)
• on pense à soi : gain de temps• on pense aux autres : ressources partagées par la communauté
Problèmes• machine => hotline centre de calcul• configuration, chaîne de calcul => documentation, platform-users, responsable de la configuration• modèle => « hotline » modèle
Plan
• Présentation du pôle de modélisation• Présentation du modèle IPSL-CM5 • Rappel du fonctionnement de la chaine• Surveillance de la chaîne de calcul• Travaux pratiques personnalisés
Contributions
Le groupe de travail Plate-forme de l’IPSL
OutilsNCO/netCDFRnetcdf/3.6.3 + 4hdf5 udunitsferretnetpbmimagemagicktetex-latexCDORSYNCNCAR NCLVTKSubversion et accès non filtrés aux serveurs cvs/svnParaviewgnuplotFirefoxgs