rendimiento y monitorización · monitorización de aplicaciones estado de las ejecuciones...

-Operations Department-Barcelona Supercomputing CenterRED ESPAÑOLA DE

SUPERCOMPUTACIÓN

Rendimiento y monitorizaciRendimiento y monitorizacióónn

Foreword

All Information contained in this document refers to BSC´s & RES´s internal proceedings/scripts/developments. This information is

confidential and should not be published nor distributed.

● Introduction● RES node architecture ● RES node policies ● Monitorización

Introduction

● Resource Manager● Handles any allocatable resource (check, start application,

stop application, ...)● Scheduler

● Decides which job to run at every moment in base of priorities and policies defined

● IBM´s LoadLeveler was our de-facto (Resource Manager + Scheduler solution)

● Since June 2007 MareNostrum production tools are:●Slurm as Resource Manager (OpenSource)●Moab as Scheduler (from ClusterResources)

● Introduction● RES Node Architecture● RES Node Policies ● Monitorización

RES Node Architecture

Servers

Head node

Login nodes

Cluster Management

Users` job control commands

SYSTEM ARCHITECTURE

RES Node Architecture

Servers

Head node

Login nodes

Cluster Management

User’s job control commands

slurmd

slurmd slurmd

slurmdslurmd

slurmd slurmd

slurmd

slurmd slurmd slurmd

SlurmCtld

COMPONENTS DEPLOYED

● Introduction● RES Node Architecture ● RES Node Policies● Monitorización

RES Node Policies

● MareNostrum´s CPU time is divided and prioritized ensuring access for:● Access Committee assigned projects (70%)● Site own projects (20%)● Other (10%)

● Scheduling policies should guarantee this consumption at the end of every period and year

INTRODUCTION

RES Node PoliciesACCESS COMMITTEE

● For every project, Scientific Committee provides:● # Number of hours –in thousands-● Class of hours:

● A - maximum priority, should be executed before the rest

● B - if there are no A jobs, or filling the gaps

● To accomplish this BSC:● Defines internal ‘Class C’

● for those users that wasted all their A and/or B time● only run if there are no suitable A or B jobs on queue

● Establishes manual Priority Management Rules: ● «One ‘A+B’ project that wastes A, is moved to B»● «One only ‘A’ or ‘B’ project that wastes all its time, is moved to C»

RES Node PoliciesJOB PRIORITY MODEL

● To evaluate priority weights from components:CREDENTIAL + FAIR-SHARING + SERVICE

RES Node PoliciesCREDENTIALS - JOB PRIORITY MODEL

This sets priority depending on the:* Group* User* Quality of Service

CREDWEIGHT 1QOSWEIGHT 1000

GROUPWEIGHT 10USERWEIGHT 1

RES Node PoliciesFAIR-SHARE - JOB PRIORITY MODEL

FSINTERVAL 07:00:00:00FSDEPTH 16FSDECAY 0.95FSPOLICY DEDICATEDPESFSTREEISPROPORTIONAL TRUE

FSWEIGHT 100FSUSERWEIGHT 1FSGROUPWEIGHT 10

RES Node Policies

FAIR-SHARE TREE - COMMITTEE BRANCH

otherbscprojects

class_cclass_bclass_a

70 20 10

1000 100 2

Initial Group Share == # thousand hours from Access Committee

RES Node PoliciesSERVICE - JOB PRIORITY MODEL

This sets priority depending on the time the job has spent in the queue

SERVICEWEIGHT 1QUEUETIMEWEIGHT 100

● Introduction● RES Node Architecture ● RES Node Policies ● Monitorización

17Centro Nacional de Supercomputación

Necesidades básicas - Monitorización

● Monitorización de sistema● Diagnósticos (detección de anomalías)

● Monitorización de aplicaciones● Estado de las ejecuciones (rendimiento)● Contabilidad

● Fuentes● Software específico (Ganglia)● Sistema de colas● Software propio

● Frecuencia● Elevada, pero sin excesos● Minimización de interferencias con la ejecución● Inicio y final de las ejecuciones

Herramientas – Monitorización de sistema

● Ganglia● Monitorización de sistema

● Carga cpu● Uso de memoria/swap● Uso de red● …

● Posibilidad de envío de información adicional● Desde scripts

● Componentes● Gmond – daemon local● Gmetad – recolector remoto● Interfaz web

Herramientas – Monitorización de sistema

● Ganglia● Puntos fuertes

● Daemon local ligero● Fácilmente modificable (open source)

● Puntos débiles● Broadcast de información● Recolector no fácilmente escalable

● Modificaciones BSC-CNS● Modificación Gmond (métricas adicionales)● Generación automàtica de configuración● Limitación de broadcast a blade center● Desarrollo de un recolector escalable● Desarrollo de herramientas de consulta

Herramientas – entorno de ejecución

● Desarrollos en el BSC-CNS● Prólogo

● Verificación del estado del nodo● Drivers, red, sistemas de ficheros, hardware, …

● Cancelación automática del trabajo en caso de fallo● Extracción del nodo del sistema de colas en caso de fallo● Propagación de información al script inicial del usuario a través

de variables de entorno● Nodo master, lista de nodos

● Generación de información de contabilidad● Epílogo

● Localización y eliminación de procesos de usuario● Verificación del estado del nodo y reconfiguración en caso

necesario

Thank you !www.bsc.es

rendimiento y monitorización · monitorización de aplicaciones estado de las ejecuciones...

Documents

abordaje criminológico de las ejecuciones extrajudiciales

número de ejecuciones desde 1976: 1,429

masacres y ejecuciones extrajudiciales responsabilidad

las ejecuciones extrajudiciales de jóvenes estigmatizados

condenas a muerte y ejecuciones en 2008 - …€¦ · cabo...

turquÍa tortura, ejecuciones extrajudiciales,...

arauca, ejecuciones extrajudiciales 2002-2008

las ejecuciones hipotecarias - lsnj

ejecuciones extrajudiciales. bolet n n. · ejecuciones...

ejecuciones contra el estado (3)

relator especial sobre las ejecuciones extrajudiciales

colombia: desaparición forzada y ejecuciones...

monitorización y optimización del rendimiento en windows...

carse ejecuciones industriales

presentación ejecuciones extrajudiciales

10. administración servidor web http (apache2) en ubuntu...

ejecuciones extrajudiciales

sonicaid dopplers y monitores fetales€¦ · dopplers...

instrucciones de monitorización a del paciente...la...

martes 27.07.2021 gigane ejecuciones, ayer