arhitectura sistemelor de calcul curs 14 -...
TRANSCRIPT
![Page 1: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/1.jpg)
1
Arhitectura Sistemelor de Calcul – Curs 14
Universitatea Politehnica Bucuresti
Facultatea de Automatica si Calculatoare
cs.pub.ro
curs.cs.pub.ro
2
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
![Page 2: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/2.jpg)
2
3
www.top500.org
• Proiect demarat in 1993 (Iunie 1993)
• Lista actualizata a celor mai puternice 500 de sisteme de calcul de uz general, disponibile comercial in lume si folosite la aplicatii complexe
• Statisticile referitoare la supercalculatoare sunt interesante pentru – Dezvoltatorii de sisteme (producatorii de HW & SW)
– Utilizatori
– Potentialii viitori utilizatori
• Se doreste cunoasterea – Numarului si locatiei sistemelor
– Domeniilor de aplicatie ale sistemelor facilitarea unor potentiale colaborari
4
www.top500.org
• Lista este publicata de 2 ori pe an
• Benchmark – versiune paralela a Linpack – HPL (Jack Dongarra @ ICL, University of Tennessee) – http://www.netlib.org/benchmark/hpl/
– Rezolvarea unui sistem dens de ecuatii liniare
– Nu reflecta intr-un mod exhaustiv performanta intregului sistem!
– Dimensiunea problemei poate fi modificata pentru a se potrivi cel mai bine pe arhitectura sistemului masurat
• A 36-a lista a fost publicata la SC10 (Supercomputing Conference – US)
• A 37-a va fi publicata la ISC11 (International Supercomputing Conference – Hamburg, Germania)
![Page 3: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/3.jpg)
3
5
The LINPACK Benchmark
• Linpack a fost ales pentru ca – Este extrem de raspandit si utilizat – Date si teste pentru acest program sunt disponibile pentru “toate”
sitemele relevante din lume
• Benchmark-ul masoara cat de repede rezolva computer-ul un sistem dens de ecuatii liniare A·x=b de dimensiune n · n
• Solutia se bazeaza pe metoda eliminarii Gaussiene, utilizand pivotarea partiala
• Conduce la 2/3 · n3 + n2 operatii in virgula mobila O(n3)
• Se exclude utilizarea metodelor optimizate de inmultire a matricelor de genul metodei lui Strassen O(n2)
• In acest mod se vor genera milioane de operatii in virgula mobila pe secunda (Mflop/s)
• Rezolvarea sistemelor de ecuatii liniare este o problema intalnita frecvent in aproape orice aplicatie stiintifica sau inginereasca
6
The LINPACK Benchmark
• Avantaje
– Rpeak = performanta maxima teoretica de varf (in functie de CPU)
– Linpack ofera ca rezultat un singur numar
• Rmax = performanta maxima realizata
– Usor de definit si usor de clasificat pe baza lui
– Permite modificarea dimensiunii problemei – Jaguar 5.4x106
– Ocupa sistemul testat cu un job de lunga durata
• Dezavantaje
– Scoate in evidenta doar viteza “peak” si numarul de procesoare
– Nu evidentiaza rata de transfer locala (bandwidth)
– Nu evidentiaza reteaua de comutare
– Nu testeaza mecanisme de tipul gather/scatter
• Un singur numar nu poate caracteriza performanta totala a
unui sistem de calcul!
![Page 4: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/4.jpg)
4
7
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
8
Motivatie – HW Then & Now…
![Page 5: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/5.jpg)
5
9
Motivatie – Domenii de Aplicatie
(No) more
Kaboom…
10
Motivatie – The Earth-Simulator
• Simulari atmosferice pentru Agentia Aerospatiala a Japoniei
• Simulari oceanice pentru Centrul Japonez de Stiinte si Tehnologii Marine
• Simulari industriale
• Simulari atomice pentru Insititutul Japonez de Cercetari Atomice
![Page 6: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/6.jpg)
6
11
(94) – NEC Earth-Simulator
• Site: The Earth Simulator Center
• Familia de sisteme: NEC Vector
• Model: SX6 (SX9)
• Procesor: NEC 1000MHz
• OS: Super-UX
• Arhitectura: MPP
• Aplicatii: studiul mediului
• Anul instalarii: 2002
• Numar de procesoare: 5120
• Rmax(TFlops): 35.86
• Rpeak(TFlops): 40.96
• Interconectare: Multi-stage crossbar
• No 1 intre 2002-2004
12
Procesoare Vectoriale SX6
• Unitate Scalara (SU)
• Unitate Vectoriala (VU)
• Frecventa – 500 MHz
• SU – procesor super-scalar: 64Kb instr cache; 64Kb data cache; 128 registrii de uz general
• VU – 72 registrii vectoriali cu 256 elemente & 8 seturi de 6 benzi de asamblare pentru operatii logice si aritmetice
• Tehnologie de fabricaţie: LSI, 0.15µm CMOS, 60 mil. tranzistori
• Consum 140 W
![Page 7: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/7.jpg)
7
13
Arhitectura Earth-Simulator
14
Arhitectura Fizica Earth-Simulator
• Fiecare 2 noduri sunt instalate într-un container (1x1.4x2m)
• Fiecare container consumă 20 KW 8MW
• Memoria sistemului este de 10TB
• Spatiu de stocare pe disc 700 TB
• Stocare in masa pe banda 1.6 PB
![Page 8: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/8.jpg)
8
15
(299) – MareNostrum JS20 Cluster
• Site: Barcelona Supercomputing Center
• Familia de sisteme: IBM Cluster
• Model: BladeCenter JS20 Cluster
• Procesoare: PowerPC 970 2.3 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: Cluster
• Aplicatii: Medicina
• Anul instalarii: 2006
• Numar de procesoare: 10240
• Rmax(TFlops): 62.630
• Rpeak(TFlops): 94.208
• Interconectare: Red Myrinet
16
Arhitectura MareNostrum
• Memorie totala 20TB
• Capacitate de stocare: 370TB
• Este format din 44 de rack-uri ce ocupa 120m2
![Page 9: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/9.jpg)
9
17
Aplicatii MareNostrum
• Computational Sciences: – Computer Architecture
– Performance Tools
– Grid Computing & Clusters
• Earth Sciences – Air Quality
– Meteorological Modelling
– Mineral Dust
– Climate Change
• Life Sciences – Molecular Modelling & Bioinformatics
– Computational Genomics
– Electronic & Atomic Protein Modelling
18
(268) – Columbia – SGI Altix
• Site: NASA/Ames Research Center/NAS
• Familia de sisteme: SGI® Altix™
• Model: SGI® Altix™ 3700, Voltaire Infiniband
• Procesoare: Intel IA-64 Itanium 2 1.5 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: MPP
• Aplicatii: Cercetari aerospatiale
• Anul instalarii: 2004
• Numar de procesoare: 10240
• Rmax(TFlops): 51.870
• Rpeak(TFlops): 60.960
• Interconectare: Numalink/Infiniband
![Page 10: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/10.jpg)
10
19
Columbia – Arhitectura
• Botezat astfel în memoria echipajului de pe Columbia (1 februarie 2001)
• Utilizeaza 20 superclustere Altix™ din seria 3000
– 8 SGI Altix 3700 si 12 Altix 3700 Bx2
– 4 din Bx2-uri formeaza un 2048-PE (processor shared memory environment)
• Are 10.240 procesoare Intel Itanium 2 (1.5GHz, 6MB Cache)
• Pana la 24 TB de Global shared memory pe fiecare cluster
20
Columbia – Interconectare
• Nodurile sunt conectate prin Voltaire InfiniBand si prin Ethernet de 1 si 10 Gb/s
• Columbia este conectat la un on-line RAID printr-o conexiune Fibre Channel 440TB
• Conectarea procesoarelor prin SGI®NUMAlink™ design modular
– 2048 de procesoara folosesc NumaLink si pentru conectarea dintre noduri
– Singura tehnologie care ofera global shared memory si intre noduri, nu doar in cadrul clusterului
![Page 11: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/11.jpg)
11
21
Columbia – Software
• OS: SGI ProPack 4 – bazat pe SUSE Linux
• Compilatoare Intel® Fortran/C/C++ & Gnu
• Fiecare nod de 512 procesoare ofera – Latenţă mică la accesul mem (<1 ms) → reduce
overheadul in comunicatie
– Global shared mem de 1TB → procesele mari rămân rezidente
• Optim pentru aplicatii cu comunicatie masiva intre procesoare – Simulari fizice in care domeniul este
discretizat CFD
– Prognoza meteo & Nanotehnologii
– N-Body simulations Astrofizica
22
Columbia – Aplicatii
• Cart3D: – O simulare utilizata pentru a prezice traiectoria unei bucati de spuma desprinse in timpul ascensiunii navetei spatiale – Culorile reprezinta presiunea pe suprafata spumei
• Debris: – Codul calculeaza traiectoriile resturilor desprinse din vehicolul orbital in timpul
ascensiunii – Ajuta la evaluarea periculozitatii acestor resturi
• Overflow: – Un cod CFD complex utilizat pentru a proiecta si evalua modificarile vehiculelor aerospatiale – Imaginea prezinta campul de presiune in jurul navetei spatiale la viteza de 2.46Mach, la o altitudine de aproximativ 22km – Culorile reprezinta presiunea si tonalitatile de gri din jurul vehiculului, densitatea aerului
• Phantom: – Este un alt cod CFD utilizat pentru a simula flow-uri 3D, nestationare in motoare cu
reactie – Iata asadar presiunea in pompa de combustibil a motorului principal al navetei
spatiale, ce functioneaza cu hodrogen lichid
![Page 12: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/12.jpg)
12
23
(13) – Jugene BlueGene/P
• Site: Forschungszentrum Juelich (FZJ)
• Familia de sisteme: IBM BlueGene/P
• Model: eServer Blue Gene/P Solution
• Procesor: PowerPC 450 850MHz
• OS: CNK/SLES 9
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2009
• Numar de core-uri: 294.912
• Rmax(TFlops): 825.500
• Rpeak(TFlops): 1.002.701
• Consum: 2.268 KW
• Interconectare: Proprietary
24
Arhitectura IBM BlueGene
• Program initiat de IBM in 1999 pentru a construi “a petaflop scale machine”
• BlueGene/L – primul pas, bazat pe procesoare PowerPC
– Spatiu de adresare mare
– Compilatoare standard
– Bazat pe middleware de “message passing” deja existent
– A necesitat adaugiri semnificative fata de sistemul PowerPC standard
• Un nod computational = computer-on-a-chip – ASIC:
– Procesoare CMOS (IBM PowerPC 440 700 MHz ): 2 CPU/Chip
– Memorie DRAM embedded
– L1-3 cache embedded
– Multiple module de interconectare folosind retele de comutare de mare viteza
![Page 13: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/13.jpg)
13
25
Arhitectura IBM BlueGene (2)
• Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare
• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s 32768 GB – Controler de memorie externa de tip DDR integrat on-chip
• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces
• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG
• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul
de I/O – CNK (Compute Node Kernel) – Linux
• Software – MPI – Co-arrays – UPC
26
Arhitectura IBM BlueGene (3)
![Page 14: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/14.jpg)
14
27
Retele de Comunicatie IBM BlueGene
• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru
comunicatii intre noduri (175MB/s)
– Retea colectiva de comunicatii (350MB/s)
– Retea globala de intreruperi si bariere
– Pentru I/O – Gigabit Ethernet
– Joint Test Access GroupGigabit Ethernet – pentru control si monitorizare
28
• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati
• BlueGene e dezvoltat pentru aplicatii cu volum mare de date – Analiza proteinelor
• Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea
“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie
– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica
• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune
Aplicatii IBM BlueGene
![Page 15: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/15.jpg)
15
29
Top 10
30
10 – RoadRunner
• Site: DOE/NNSA/Los Alamos NL
• Familia de sisteme:
• Model: BladeCenter QS22 Cluster
• Procesoare: PowerXCell 8i 3.2 GHz
• OS: Linux
• Arhitectura: Cluster
• Memorie: 104TB
• Aplicatii: Cercetare
• Anul instalarii: 2008
• Numar de procesoare: 122.400
• Rmax(PFlops): 1,042 (NMax 2,25M)
• Rpeak(PFlops): 1,376
• Consum: 2345 KW
• MFlops/Watt: 444
• Interconectarea: Voltaire Infiniband
![Page 16: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/16.jpg)
16
31
Arhitectura RoadRunner
32
De ce RoadRunner?
![Page 17: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/17.jpg)
17
33
RoadRunner HW/SW
34
Programare RoadRunner
![Page 18: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/18.jpg)
18
35
Programare Hibrida pe RoadRunner
36
Aplicatii RoadRunner
![Page 19: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/19.jpg)
19
37
9 – Terra 100 Bull
• Site: Commissariat a l'Energie Atomique (CEA)
• Familia de sisteme: Bull SA
• Model: Bull Bullx super-node S6010/S6030
• Procesoare: Intel EM64T Xeon 75xx (Nehalem-EX) 2.26GHz
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetari militare
• Anul instalarii: 2010
• Numar de core-uri: 138.368
• Rmax(PFlops): 1,05 (NMax 4,93M)
• Rpeak(PFlops): 1,255
• Consum: 4590 KW
• MFlops/Watt: 229
• Interconectare: Infiniband QDR
• Memorie principala: 29904GB
38
Tera-100 – Aplicatii
• Destinat in principal simularilor de arme nucleare
• Investigarea momentelor premergatoare unei detonari nucleare
• Simularile informatice sunt realizate pe baza modelelor fizice si matematice dezvoltate de catre CEA
• Datele initiale utilizate sunt – Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din
Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de
fuziunea nucleara, utilizata in bombele cu Hidrogen
• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la
ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)
![Page 20: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/20.jpg)
20
39
8 – Hopper Cray XE6
• Site: National Energy Research Scientific Computing Center
• Familia de sisteme: Cray XE
• Model: Cray XE6
• Procesor: AMD Opteron 2.1 GHz
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 153.408
• Rmax(TFlops): 1.054.000 (NMax 4.58M)
• Rpeak(TFlops): 1.288.630
• Consum: 2910 KW
• MFlops/Watt: 362
• Interconectare: Custom
40
Hopper – Interconnect
![Page 21: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/21.jpg)
21
41
Hopper – Diagrama Sistemului I/O
42
Hopper – Aplicatii
• Explicarea LED-Efficiency-Droop
Electron + Electron hole Electron + hole + carrier
= light = no light + vibrations
• Detectie de particule “grele”
![Page 22: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/22.jpg)
22
43
Hopper – Aplicatii (2)
• Simularea “accelerarii” acceleratoarelor de particule (LHC)
Laser plasma wakefiled
• “Calare” pe o raza de lumina… timpul se opreste si spatiul se contracta
44
Hopper – Aplicatii (3)
• Detectarea unor galaxii satelit formate din “materie neagra”
![Page 23: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/23.jpg)
23
45
7 – Pleiades
• Site: NASA/Ames Research Center/NAS • Familia de sisteme: SGI Altix • Model: SGI Altix ICE 8200EX/8400EX • Procesor: Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2011 (2008) • Numar de core-uri: 111.104 • Rmax(PFlops): 1,088
– (Nmax 3,34M)
• Rpeak(PFlops): 1,315 • Consum: 4.102KW • MFlops/Watt: 830 • Interconectare: Infiniband DDR
46
6 – Cielo Cray XE6
• Site: DOE/National Nuclear SA/Los Alamos/Sandia
• Familia de sisteme: Cray XE
• Model: Cray XE6
• Procesor: AMD Opteron 8-core 2.4 GHz 9.6GFlops
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 142.272
• Rmax(PFlops): 1,111
• Rpeak(PFlops): 1,365
• Consum: 3.980 KW
• MFlops/Watt: 278
• Interconectare: Custom
![Page 24: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/24.jpg)
24
47
5 – Tsubame 2.0 NEC/HP
• Site: GSIC Center, Tokyo Institute of Technology
• Familia de sisteme: HP Cluster Platform 3000SL
• Model: Cluster Platform SL390s G7
• Procesoare: Intel EM64T Xeon X56xx 2.93GHz / Nvidia GPU
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare / Academic
• Anul instalarii: 2010
• Numar de procesoare: 73.278
• Rmax(PFlops): 1,192 (NMax 2.49M)
• Rpeak(PFlops): 2,287
• Consum: 1399 KW • MFlops/Watt: 852
• Interconectarea: Infiniband QDR
48
Tsubame 2.0 – Arhitectura
![Page 25: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/25.jpg)
25
49
4 – Nebulae
• Site: National Supercomputing Centre in Shenzhen (NSCS)
• Familia de sisteme: Dawning Cluster
• Model: Dawning TC3600 Blade System
• Procesoare: Intel X5650 2.66GHz, NVidia Tesla C2050 GPU
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 120.640
• Rmax(PFlops): 1.271 (NMax 2.36M)
• Rpeak(PFlops): 2.984
• Consum: 2580 KW
• MFlops/Watt: 493
• Interconectarea: Infiniband QDR
50
Nebulae – Aplicatii
![Page 26: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/26.jpg)
26
51
3 – Jaguar Cray XT5
• Site: Oak Ridge National Laboratory
• Familia de sisteme: Cray XT5-HE
• Model: Cray XT5 QuadCore
• Procesoare: AMD Opteron SixCore 2.6 GHz
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2009
• Numar de core-uri: 224.162
• Rmax(PFlops): 1.76 (NMax 5.47M)
• Rpeak(PFlops): 2.331
• Consum: 6950 KW
• MFlops/Watt: 253
• Interconectarea: Cray XT4 Internal Interconnect (SeaStar2)
52
Arhitectura Cray XT5
![Page 27: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/27.jpg)
27
53
Arhitectura Cray XT5
54
Jaguar – Aplicatii (1)
Prima simulare a schimbarii abrupte de clima
Topirea
Groenlandei
![Page 28: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/28.jpg)
28
55
Jaguar – Aplicatii (2)
Studiul Supernovelor – evolutie asimetrica in functie de masa
56
Jaguar – Aplicatii (3)
Simularea perioadei de injumatatire de la Carbon-14 la Azot-14 (+ electron/neutrino)
![Page 29: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/29.jpg)
29
57
Jaguar – Aplicatii (4)
De la fotosinteza la combustibil biologic (Etanol): Celuloza (albastru) & Molecule de Lignina
58
Jaguar – Aplicatii (5)
Simulare 3D al microturbulentei in plasma in reactoare cu fuziune – foarte intensive I/O
![Page 30: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/30.jpg)
30
59
2 – Tianhe-1A TH MPP
• Site: National SuperComputer Center in Tianjin/NUDT
• Familia de sisteme: NUDT Cluster
• Model: NUDT YH MPP
• Procesor: Intel Xeon 5670 2.93Ghz 6C, NVIDIA GPU
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 186.368
• Rmax(PFlops): 2,566 (NMax 3,6M)
• Rpeak(PFlops): 4,701
• Consum: 4040 KW
• MFlops/Watt: 635
• Interconectare: Infiniband DDR 4x
60
Tianhe-1A System Characteristics
• Hybrid architecture with heterogeneous processors
– 6144 Quadcore Intel Xeon CPUs and 5120 AMD GPUs
• Compute nodes
– 2560 compute nodes totally with 32GB memory
• Operational node
– 512 nodes with 2 Quadcore Xeon & 32GB memory
• Interconnection subsystem
– Infiniband QDR: 40Gbps bandwidth & MPI latency 1.2us
• I/O storage subsystem:
– Lustre parallel file system in 64 nodes and 1PB
• Compiling system
– Supporting C/C++, Fortran77/90/95, Java, OpenMP and MPI
– Providing a programming framework for hybrid architecture, which supports adaptive task partition and streaming data access
![Page 31: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/31.jpg)
31
61
Tianhe-1A – Aplicatii
• Resource management subsystem:
– Providing a uniform view of heterogeneous resources in the TH-1
– Support multiple policies for task scheduling and resource allocation
– Supporting multi-level Checkpoint/Restart
• Development kit for parallel programming:
– Integrated Development Environment & Multiple debugging tools
• Applications:
– Petroleum exploration
– Biological medicine research
– Simulation of large aircraft design
– Remote sensing data processing
– Data analyzing of financial engineering
– Simulation of environment research
62
1 – K computer
• Site: RIKEN Advanced Institute for Computational Science
• Model: Fujistu – SPARC64 VIIIfx 2.0GHz
• Procesor: SPARC64 VIIIfx 2.0GHz (8-core)
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare
• Anul instalarii: 2011
• Numar de core-uri: 705.024
• Rmax(PFlops): 10,51 (Nmax 11,87M)
• Rpeak(PFlops): 11,28
• Consum: 12.660 KW
• MFlops/Watt: 830
• Interconectare: Custom – Tofu
![Page 32: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/32.jpg)
32
63
1 – K-Computer SPARC64 VIIIfx Processor
• 8 cores @ 2GHz – SoC design
• Embedded Memory Controller
• Shared 5M L2 Cache
• 45nm – 760M tranzistori
• 128GFlops (peak)
• 64GB/s transfer la memorie
• 58W si racire cu apa
• Set de registri mare
– 192 registri int
– 256 registri fp
• Unitati SIMD
• Software Managed Cache
64
1 – K-Computer 6D Mesh/Torus Tofu Interconnect
![Page 33: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/33.jpg)
33
65
1 – K-Computer Fujitsu Exabyte File System
• Date foarte multe: 100PB~1EB
• Foarte multi clienti: 100k~1M
• Foarte multe servere: 1k~10k
• Reducerea latentei la fisiere: ~10k ops
66
1 – K-Computer Performance Tuning
4096 de procesoare ca
16 x 16 x 16 celule
![Page 34: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/34.jpg)
34
67
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
68
Clienti
![Page 35: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/35.jpg)
35
69
Arhitectura Sistemelor
70
Familia Procesoarelor
![Page 36: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/36.jpg)
36
71
Domeniul de Aplicatie
72
Sisteme de Operare
![Page 37: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/37.jpg)
37
73
Solutia de Interconectare
74
Eficienta Sistemelor vs. Interconnect
![Page 38: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/38.jpg)
38
75
Producatori
76
Distributia pe Tari
![Page 39: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/39.jpg)
39
77
MFlops/Watt vs. Procesoare
78
MFlops/Watt vs. Sisteme
![Page 40: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/40.jpg)
40
79
Evolutia Sistemelor de Calcul
80
Proiectia Evolutiei Viitoare
![Page 41: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/41.jpg)
41
81
HW Trends
82
Further Trends
![Page 42: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/42.jpg)
42
83
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
84
Examen la ASC
• Examenul consta din doua parti distincte – Partea de teorie – 50min:
• Subiecte din temele prezentate la curs
• Examenul de teorie poate fi sustinut si oral
– Partea de probleme – 30min-45min: • Subiecte similare cu unele din problemele propuse ca teme de laborator
• Nota finala este calculata cu formula: – Teorie Examen*0.40 + Problema Examen*0.10 + Laborator*0.50
• Punctajul fiecarei parti este in intervalul 0..10
• Intrarea in examen si promovarea nu poate avea loc decat daca nota finala de la laborator este strict mai mare ca 2.5 – Restantierii din anii 4/5: minim o tema din 1 si 2 si una din 3 si 4 +
minim 2.5 puncte
• Examen: – CA – xx.05 & xx.06
– CB & CC: 22/31.05 & 01/04.06
![Page 43: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea](https://reader034.vdocuments.site/reader034/viewer/2022050804/5a79ec5c7f8b9ae5058b47d7/html5/thumbnails/43.jpg)
43
85
Bibliografie vs. Cursuri
• Introduction to Parallel Computing: Design & Analysis of Algorithms – Cursurile 6, 8, 11
• The Sourcebook of Parallel Computing – Cursurile 4, 13, 14
• Computer Architecture: A Quantitative Approach – Cursurile 3, 4, 7, 9, 10, 11
• Introduction to Parallel Processing; Algorithms and Architectures – Cursurile 6, 7, 8, 9, 10, 11
• Techniques for Optimizing Applications: High Performance Computing:
– Cursul 4
• Practical Computing on the Cell Broadband Engine – Cursul 5
• www.top500.org, http://www.netlib.org/benchmark/hpl/,
http://icl.cs.utk.edu/hpcc/ – Cursurile 13, 14
• Structura si Arhitectura Sistemelor Numerice – Cursurile 2, 3, 6, 7, 8, 9, 10, 11, 12
86
What Next?
• Q & A?
• Next time:
– Exam…
– Last but not least – feedback forms!