Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
Uso di griglie computazionali per il calcolo degli esperimenti LHC
Claudio GrandiINFN - Bologna
15 Aprile 2004IFAE 2004 - Torino 2Claudio Grandi INFN Bologna
Outline
• Le problematiche del calcolo ad LHC
• Griglie Computazionali (GRID)
• I progetti GLOBUS e Condor
• I progetti di sviluppo del middleware per HENP
• LHC Computing Grid (LCG)
Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
Le problematiche del calcolo ad LHC
15 Aprile 2004IFAE 2004 - Torino 4Claudio Grandi INFN Bologna
Calcolo per gli esperimenti LHC Gli esperimenti LHC sono “grandi”, con partecipanti
distribuiti sull’intero globo.
Anche la mole dei dati è “grande”: non possono essere replicati tutti in tutti i siti.
L’accesso ai dati deve essere garantito ad ognuno, indipendentemente dalla sua locazione e dalla sua preparazione informatica (l’utente non è in generale un esperto di software).
La produzione di dati simulati (oggi) ma soprattutto l’analisi (sempre) non sono concentrate in un unico sito ma distribuite su molti (se non tutti) i siti.
15 Aprile 2004IFAE 2004 - Torino 5Claudio Grandi INFN Bologna
Accesso ai dati distribuiti
15 Aprile 2004IFAE 2004 - Torino 6Claudio Grandi INFN Bologna
Modello di calcolo a-la Monarc
Tier 1
Tier2 Center
Online System
CERN Center PBs of Disk;
Tape Robot
CNAF CenterIN2P3 Center FNAL Center RAL Center
InstituteInstituteInstituteInstitute
Workstations
~100-1500 MBytes/sec
2.5-10 Gbps
0.1 to 10 GbpsPhysics data cache
~PByte/sec
~2.5-10 Gbps
Tier2 CenterTier2 CenterTier2 Center
~2.5-10 Gbps
Tier 0 +1
Tier 3
Tier 4
Tier2 Center Tier 2
Experiment
15 Aprile 2004IFAE 2004 - Torino 7Claudio Grandi INFN Bologna
Il problema… È necessario “nascondere” all’utente la complessità
del sistema sottostante
L’utente deve lavorare come se:avesse di fronte un unico cluster di macchine
i dati fossero su un unico pool di dischi accessibile da ogni macchina del cluster e da ogni utente
tutti i dati fossero sul pool di dischi
lo spazio disco accessibile in scrittura dall’utente fosse sul pool di dischi e “virtualmente” infinito
È impossibile?!?
Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
Griglie computazionali:GRID
15 Aprile 2004IFAE 2004 - Torino 9Claudio Grandi INFN Bologna
Da dove nasce la Grid? Il concetto è introdotto da Ian
Foster e Carl Kesselman
È un “paradigma” di utilizzo delle risorse distribuite
Si materializza negli anni ’90 in Globus, nato per interconnettere alcuni centri di calcolo USA
Evoluzione: utilizzo dei Web Services (WSDL)– Open Grid Service Infrastructure (OGSI): introdotto nel 2001– WS Resource Framework (WSRF): introdotto il 20/1/2004 (!)
rimpiazza OGSI ma non c’ è ancora nulla…
15 Aprile 2004IFAE 2004 - Torino 10Claudio Grandi INFN Bologna
Una definizione di Grid Grid è l'insieme delle tecnologie software che
consentono la condivisione di risorse e la risoluzione coordinata di problemi nell'ambito di organizzazioni virtuali multi istituzionali, dinamiche e scalabili
[ I.Foster]
15 Aprile 2004IFAE 2004 - Torino 11Claudio Grandi INFN Bologna
Organizzazioni Virtuali
I partecipanti: insieme dinamico di individui e istituzioni
Le risorse: computers, software, dati, strumenti
Grid fornisce la capacità di negoziare la condivisione delle risorse fra le diverse parti in causa (fornitori e clienti) e quindi uso dell’insieme delle risorse risultanti per perseguire uno scopo
[I.Foster]
15 Aprile 2004IFAE 2004 - Torino 12Claudio Grandi INFN Bologna
Un parallelo: la rete elettricaLa rete elettrica
Richiesta di risorse (potenza: KWatt installati)
Si inserisce la spina di un apparecchio elettrico
Si usa l’apparecchio: non è necessario sapere da dove arriva l’energia elettrica!!!
La manutenzione è a carico del fornitore
La Grid Computazionale
Richiesta di risorse (CPU, disco, ecc…)
Si collega alla rete un computer
Si usa il computer: non è necessario sapere da dove arrivano le risorse!!!
La manutenzione e’ a carico del fornitore
15 Aprile 2004IFAE 2004 - Torino 13Claudio Grandi INFN Bologna
Accesso alle risorse con Grid
Gri
d
Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
I progetti GLOBUS e Condor
15 Aprile 2004IFAE 2004 - Torino 15Claudio Grandi INFN Bologna
L’iniziativa Globus Nasce agli Argonne National Laboratories (ANL)
E’ un toolkit e un insieme di servizi che indirizzano problemi tecnici chiave:modello “bag of services” modulare
non è una soluzione “verticalmente integrata”
strumenti di infrastruttura generale (middleware) che possono essere applicati a molti domini applicativi
Utilizza standard e implementazioni “open source” ovunque possibile
http://www.globus.org/
15 Aprile 2004IFAE 2004 - Torino 16Claudio Grandi INFN Bologna
Globus: architettura a layers
Coreservices
Local OS
A p p l i c a t i o n s
Diverse global services
Application
FabricControllo locale ed accesso alle risorse
ConnectivityComunicazione tra le risorse e sicurezza delle transazioni
ResourceControllo dell’uso condiviso delle singole risorse
CollectiveCoordinamento e condivisionedi gruppi di risorse
Supporto per una varietà di ambienti locali (OS, etc…)
Supporto per una varietà di utenti finali
Il toolkit implementa i Core services che devono essere semplici e generali
15 Aprile 2004IFAE 2004 - Torino 17Claudio Grandi INFN Bologna
Globus: componenti baseFabric Layer:
– meccanismi di base:• start di programmi• accesso ai files• …
Connectivity Layer: – comunicazione via IP– sicurezza tramite Grid Security Infrastructure (GSI)
• basata su meccanismi a chiave pubblica (TSL/SSL, certificati X.509 & Certification Authorities, ecc…).
• meccanismo uniforme per la autenticazione e autorizzazione degli utenti
Autenticazione: verifica dell’identità di un utente (o una risorsa)
Autorizzazione: accesso alle risorse ad uno specifico utente
15 Aprile 2004IFAE 2004 - Torino 18Claudio Grandi INFN Bologna
Globus: componenti baseResource Layer:
– Usa GSI per la sicurezza– Grid Resource Allocation Management (GRAM) gira su ogni
risorsa; garantisce il controllo remoto delle risorse– GridFTP (FTP modificato) per il trasferimento files– Grid Resource Information Server (GRIS) raccoglie e
pubblica dinamicamente le informazioni sulla risorsa (ad es. memoria installata, code dponibili, ecc…)
Collective Layer: esempi:– Metacomputing Directory Service (MDS): GRIS e GIIS– Grid Index Info Server (GIIS) raccoglie, e pubblica
informazioni selezionate da diversi GRIS– Resource Broker seleziona risorse adatte per un job– Replica Catalog e Replica Services gestiscono l’accesso e la
copia dei dati distribuiti
15 Aprile 2004IFAE 2004 - Torino 19Claudio Grandi INFN Bologna
Accesso ad una risorsa
Grid SecurityInfrastructure
Job Manager
GRAM client API calls to request resource allocation
and process creation.
MDS client API callsto locate resources
Query current statusof resource
Create
RSL Library
Parse
RequestAllocate &
create processes
Process
Process
Process
Monitor &control
Site boundary
Client MDS: Grid Index Info Server
Gatekeeper
MDS: Grid Resource Info Server
Local Resource Manager
MDS client API callsto get resource info
GRAM client API statechange callbacks
Da: “Introduction to Grid Computing and the Globus Toolkit™”
15 Aprile 2004IFAE 2004 - Torino 20Claudio Grandi INFN Bologna
Condor Sviluppato alla University of Wisconsin negli anni ’80
Punta a fornire “cicli di CPU” altrimenti non utilizzati
Gestiti insiemi (pool) di calcolatori eterogenei
L’INFN lo utilizza dal 1997 su scala geografica
Robusto, ma ha alcune limitazioni per HEP:– sistema monolitico (e non totalmente open source)– inefficiente nell’accesso a grandi moli di dati distribuiti– usa canali di rete non sicuri per la comunicazione– alcune componenti di Condor usate dai progetti grid
http://www.cs.wisc.edu/condor
Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
I progetti di sviluppo del middleware per HEP
15 Aprile 2004IFAE 2004 - Torino 22Claudio Grandi INFN Bologna
Principali progetti Grid per HENPPPDG
– Produce il Virtual Data Toolkit (include Globus, Condor, …)– Stretta collaborazione con ciascuno degli esperimenti
European DataGrid– Servizi di alto livello basati su Globus e Condor-G– Supporto per diverse scienze
GriPhyN– Partner di PPDG per VDT. Introduce i Virtual Data
European DataTAG– Europeo, dedicato all’interoperabilità con gli USA
iVDGL– Americano, dedicato all’interoperabilità con l’Europa
Progetti in fase di start-up: EGEE (UE), Grid3 (USA)
15 Aprile 2004IFAE 2004 - Torino 23Claudio Grandi INFN Bologna
Architettura di DataGrid
Collective ServicesCollective Services
Information &
Monitoring
Information &
Monitoring
Replica ManagerReplica
ManagerGrid
SchedulerGrid
Scheduler
Local ApplicationLocal Application Local DatabaseLocal Database
Underlying Grid ServicesUnderlying Grid Services
Computing Element Services
Computing Element Services
Authorization Authentication and Accounting
Authorization Authentication and Accounting
Replica CatalogReplica Catalog
Storage Element Services
Storage Element Services
SQL Database Services
SQL Database Services
Fabric servicesFabric services
ConfigurationManagement
ConfigurationManagement
Node Installation &Management
Node Installation &Management
Monitoringand
Fault Tolerance
Monitoringand
Fault Tolerance
Resource Management
Resource Management
Fabric StorageManagement
Fabric StorageManagement
Grid
Fabric
Local Computing
Grid Grid Application LayerGrid Application Layer
Data Management
Data Management
Job Management
Job Management
Metadata Management
Metadata Management
Object to File Mapping
Object to File Mapping
Service Index
Service Index
Da: B.Jones
15 Aprile 2004IFAE 2004 - Torino 24Claudio Grandi INFN Bologna
Esempio di Job Submission
UIJDL
Logging &Logging &Book-keepingBook-keeping
ResourceResourceBrokerBroker
Job SubmissionJob SubmissionServiceService
StorageStorageElementElement
ComputeComputeElementElement
Information Information ServiceService
Job Status
ReplicaReplicaCatalogueCatalogue
DataSets info
Author.&Authen.
Job S
ub
mit
Even
t
Job
Qu
ery
Job
Stat
us
Input “sandbox”
Input “sandbox” + Broker InfoGlobus RSL
Output “sandbox”
Output “sandbox”
Job Status
Pu
blis
h
grid
-pro
xy-in
it
Exp
and
ed J
DL
SE & CE info
Da: B.Jones
Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004
LHC Computing Grid
LCG
15 Aprile 2004IFAE 2004 - Torino 26Claudio Grandi INFN Bologna
Ruolo di LCG LCG è il progetto CERN nato nel 2002 che supporta
tutte le esigenze di calcolo di LHC– infrastruttura hardware, librerie numeriche, event-generators,
persistenza dei dati, grid, ecc…
Due releases di sistemi grid: LCG-1 e LCG-2– Basate su middleware di VDT, DataGrid e DataTAG
E’ in fase iniziale il progetto ARDA (assieme ad EGEE)– Middleware e strumenti software comuni agli esperimenti per
il supporto all’analisi dei dati– Userà anche software dagli esperimenti, in particolare Alien:
sistema grid per il supporto all’analisi dati distribuita di ALICE, che usa direttamente middleware di basso livello (non dai “grid projects”)
15 Aprile 2004IFAE 2004 - Torino 27Claudio Grandi INFN Bologna
Decomposizione funzionale di Alien
Program
RootSE
Wrapper
Node
VO
Job Catalog
File Catalog
PosixData Placement
Batch queue
Internal User ID
VO Unix ID
UI
External User ID
JobOptimizer
CE
15 Aprile 2004IFAE 2004 - Torino 28Claudio Grandi INFN Bologna
Utilizzo di LCG in CMS
User Interface
BOSS DB
McRunjob+ ImpalaLite
CMSProd
RefDB
JDLGrid (LCG)Scheduler
RLS
SECE
CMS software
CE
CMS software
CE
CMS software
CE
SE
SE
SE
WN
SECE
CMS software
Job
metadata
Dataset
metadata
Push data or info
Pull info
Grid InformationSystem (bdII)
15 Aprile 2004IFAE 2004 - Torino 29Claudio Grandi INFN Bologna
Data challenges su grid Produzione dati simulati su Grid3 negli USA per il Data Challenge 2004 di CMS
Jobs nel sistema AliEn di Alicedurante il Data Challenge 2004
Number of simulated events
15 Aprile 2004IFAE 2004 - Torino 30Claudio Grandi INFN Bologna
I servizi di ARDA
Information Service
Authentication
Authorisation
Audi ting
Grid Monitoring
Workload Management
Metadata Catalogue
File Catalogue
Data Management
Computing Element
Storage Element
Job Monitor
Job Provenance
Package Manager
DB Proxy
User Interface
API
7:
12:
5: 13:
8:
15: 11:
9: 10:
1:
4:
2:
3:
6:
14:
15 Aprile 2004IFAE 2004 - Torino 31Claudio Grandi INFN Bologna
Conclusioni Gli strumenti grid forniscono una grande opportunità
per gestire l’accesso a dati e risorse distribuiti– In modo sicuro e con la corretta gestione dei privilegi– In modo trasparente per l’utente
Tre anni di (faticosa) esperienza con i progetti grid hanno permesso di identificare le componenti base– Gli esperimenti hanno costruito prototipi per i loro sistemi di
calcolo anche se a volte privilegiando aspetti diversi sia in termini di funzionalità che di affidabilità
– Alcuni strumenti sono già “in produzione”
Il prossimo passo è quello di consolidare gli strimenti per reggere all’impatto dell’analisi dati di LHC– LCG al CERN, assieme ai progetti grid EGEE e Grid3, ci
deve fornire il sistema in tempo per l’inizio della presa dati Non ci sono vere alternative a grid per gestire i dati di LHC!!!