von Äpfeln und birnen - guug.de · „earlier, we used 10 elements of periodic table now we use...
TRANSCRIPT
best OpenSystems DayHerbst 2008
Dornach
Wolfgang [email protected] Systemingenieurbest Systeme GmbH GUUG Board Member
CPU-UpdateVon Äpfeln und Birnen
„Earlier, we used 10 elements of periodic tablenow we use over ½ of periodic table.“
„Two decades ago, 1 micron was challengingand 100nm looked impossible and nowwe casually talk about what it takesto get to 10nm.“
Pat GelsingerSenior Vice President
General Manager, Digital Enterprise Group Intel Corporation
Motivation
2008-10-08 2 / 35
Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?
ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)
Technologien für die nächsten zwei JahreWohin fährt der Zug?
Agenda
3 / 352008-10-08
Neuer Hypertransport3.0 kommt mit Shanghai (AM2+, Ende 2008), 3.1 später
Mehr Multicore und Multithreading„Many-Core“, Alternative zum GHz-Rennen, Applikationen fehlen weiterhin
CO2 wird ThemaGreen IT, Stromsparmechanismen
Speicherbandbreiten nehmen zuDDR2 → DDR3 / FB-DIMM, Bussysteme
„Proximity Communication“nichts (mehr?) zu sehen und zu hören
Wie gut war die Kristallkugel?
4 / 352008-10-08
Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?
ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)
Technologien für die nächsten zwei JahreWohin fährt der Zug?
Agenda
5 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
6 / 352008-10-08
AMD Shanghai (ca. Ende 2008 / Anfang 2009)
Quadcore, 45nm Prozess, AMD K10
„Facelift“ von Barcelona (65nm)
HT 1.0 → HT3.0 (ab Q2/2009)
DDR-667 → DDR2-800
2MB L3$ → 6MB L3$
Sockel F → „drop in“ replacement
~30%...35% mehr Rechenleistung
~30%...35% weniger Stromverbrauch
verbesserte Virtualisierung (AMD-V)
7 / 352008-10-08
AMD Istanbul and beyond
Istanbul (ca. 2. HJ 2009)45nm, 6-Core Shanghai3x HT-3 (3.0), RDDR-2,AMD-V, Sockel F (AM2+)
Magny-Cours (1. HJ 2010)45nm, 12-Core, 12MB L3$, Probe Filter4x HT-3 (3.1?), DDR-3„Maranello“-Plattform (AM3)
Sao Paulo (1. HJ 2010)45nm, 6-Core, ½ Magny-Cours„Maranello“-Plattform (AM3)
8 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
9 / 352008-10-08
Intel Dunnington (seit September 2008)
6-Core, 45nm, Penryn-Core
3MB L2$ je Dual-Core
8 / 12 / 16 MB L3$
FSB-1066
2.13 / 2.4 / 2.66 GHz
65 / 90 / 120 W
Coneland Plattform→ 64MB snoop filter in Northbridge (??)
10 / 352008-10-08
Intel Dunnington (seit September 2008) (cont'd)
Intel X7400 → sockelkompatibel mit X7300
FB-DIMM + Chipsatz istdeutlich leistungshungigerals AMD Opteron
50% mehr Cores + L3$ → „40% Performance Boost @ Microsoft Hyper-V“
Stückpreis 1100...2700 U$(1000er)
11 / 352008-10-08
Intel Nehalem (4. Quartal 2008)
max. 8-Core, 45nm, „Intel Core i7“, 2 Threads/Core
„shares significant portion of P6 gene pool“
Pipeline-Längewie Penryn
unwesentlich neueInstruktionen
QuickPath Interconnect
neues Pinout→ neuer Sockel
zunächst FB-DIMM2, später DDR-3 800+
12 / 352008-10-08
Intel Nehalem (4. Quartal 2008) (cont'd)
Chips in unterschiedlicher Ausprägung
„Havendale“ / „Auburndale“ (Mainstream, Desktop) 2-Core, 4MB L3$, 2x DDR3, 1x PCIe x16 integrierte GPU, Low End
„Lynnfield“ / „Clarksfield“ (Mainstream, Performance) 4-Core, 8MB L3$, 2x DDR3, 1x PCIe x16
„Bloomfield“ (Performance) 4-Core, 8MB L3$, 3x DDR3, 1x QuickPath
„Gainstown“ (Performance, High-End, Nehalem-EP) 4-Core , 8MB L3$, 3x DDR3, 2x QuickPath
„Beckton“ (Performance, High-End, Nehalem-EX) 8-Core, 24MB L3$, 4x FB-DIMM2, 4x QuickPath
13 / 352008-10-08
Intel Tukwila (IA-64, Ende 2008)
65nm, Quadcore, 2 Threads/Core
Σ 30MB Cache on Die (!)
FB-DIMM
QuickPath(wird mit Tukwila eingeführt)
Poulson32nm, 4 od. 8 CoresMultithreading + Parallelisierungab 2009 (Fertigung, Prozess)
Kittsonkaum vor 2011
IA-64 → langfristige Planung14 / 352008-10-08
Intel Larrabee (GPGPU)
65nm, Many-Core, 4 Threads/Core
je Core eine Skalar-Unit undeine Vector-FPU
Subset der x86 ISA + GPU-spezifische Erweiterungen
>8 „in-order“ Cores,typ. 16...24 Cores per Chip(nicht Terascale 80-Core aka Polaris)
Debüt als GPU für 3D-Spiele
zunächst eigenes Board mit OSals Treiber auf Systemdisk
15 / 352008-10-08
Intel Larrabee (GPGPU) (cont'd)
Cores über Ring verbunden, 256 Byte/cycle(wie IBM Cell B. E.)
L2 Cache über alle Cores mit Cache Lock (Partitionierung)(ähnlich IBM Cell B. E.)
Fixed Fuction Logic: je nach Anwendungsfall z. B. Raster-Hardware (GPU) od. Crypto-Unit (Server-CPU)
16 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
17 / 352008-10-08
Sun UltraSPARC T2+ (Victoria Falls)
10GBE entfällt, dafür Chip Interconnect
verfügbar seit 1. HJ 2008
2-Socket out of the box,4-Socket mit „External Coherence Hub“
8 Cores, 8 Threads→ 128 Thread @ 2-Socket (2U)→ 256 Thread @ 4-Socket (2U)
je Socket 4x DDR2-667 FB-DIMM→ 21GB/s read max.→ 10GB/s write max.
PCIe x8 I/O je Socket
VictoriaFalls: Scaling Highly-Threaded Processor Cores (Stephen Phillips, Sun Microsystems, 2007-07)
18 / 352008-10-08
Sun Niagara 3
16 Core / 16 Thread per Core→ 256 Thread per CPU
Codename KT
geplant bis zu 8-Socket System→ 8x16x16 = 2048 Threads / System (!)
Entwicklung seit 2006, in Systemen ca. Ende 2009
ähnlich Rock (sh. u.), aber mehr CMT und weniger Single Thread Performance
kaum Details bekannt, Modellpflege„Multicore-Rennen“?
19 / 352008-10-08
Sun Rock
65nm, 16 Cores, 2 visible Threads / Core→ 32 Threads per Socket
4 Core Clustersmit je 4 Cores
je Cluster:→ 32kB I$→ 2x 32kB D$→ 2x FGU je Core
16MB L3$off chip
<10W / CoreRock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)
20 / 352008-10-08
Sun Rock (cont'd)
I/O: 8GB/s max.
Memory: 48GB/s max.
256 TB (!) adressierbarerHauptspeicher je CPU
250W @ 2.3 GHz
neue ISA→ hardware scouting→ thread-level speculation→ thread-level parallelism→ transactional memory
ca. Ende 2009(Rock 2.0 bereits im Lab)
Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)
21 / 352008-10-08
Sun Rock (cont'd)
hardware scouting / thread-level speculation→ unsichtbar für das Betriebssystem→ automatisch gestartet bei „long latency instructions“→ wärmt Caches und Sprungvorhersage vor→ implementiert als Kopie der Registersätze→ 40% + @ TPC-C (single thread)→ 34% + @ SPECfp 2000
transactional memory→ initiiert von Software→ atomare Operationen→ „RISC“-Ansatz
thread-level parallelism / program parallelization→ unsichtbar für Anwendung, macht Compiler (C/C++) bzw. JVM→ Locking / Konflikte über transactional memory
Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)
22 / 352008-10-08
Sun Rock (cont'd)
Server-Prozessor
SMP-Systeme in Planung
Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)
23 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
24 / 352008-10-08
Fujitsu SPARC64 VII and beyond
65nm, 4 Cores, 2 Threads / Core, SMP
64kB I$ + 64kB D$ je Core, 6MB shared L2$ je CPUkein L3 Cache
2.4GHz und 2.52GHz→ ca. 80% + bei kommerziellen Applikationen (DB etc.)→ ca. 100% + bei Floating Point
je CPU 32GB Memory adressierbar, ECC
drop-in Replacement→ 64 Socket M9000 mit 2.52 GHz → 2023 TFlops (TOP500:1375, IBM)
danach: „Venus“ (ca. 2. HJ 2009)→ 45nm, 8 Core, 128 GFLOPs→ „embedded memory controller“ (wie Opteron)
25 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
26 / 352008-10-08
IBM Power 7
45nm, 8 Cores, 4 Threads / Core, 2 Chips / Module
4.0GHz, in 2010 erste Systeme verfügbar
2U → 4 Modules á 2 Chips → 256 Threads (= 4-Socket T2)
32GFlops / Core (= 2x Power6)→ 512 GFlops / Module
bis 1024 Cores in HPC-System geplant (16x 2U)→ 32TFlops, 2TB RAM (!)
„Blue Waters“ → 38.900 8-Core, 620TB RAM, 5PB/s memory peak→ ~100 Racks
27 / 352008-10-08
IBM Cell Broadband Engine
65nm, 8+1 Core „Power XCell 8i“
45nm ab ca. Ende 2008
SMP über BIC(Bus Interface Controller)
SPE ist ein„very simple PowerPC 601 area processor“(Synergistic Processing Element)
~4GHz→ 256GFlops single precision→ 26GFlops double precision
Introducing the IBM/Sony/Toshiba Cell Processor – Part II: The Cell Architecture (Jon Stokes, Ars Technica, 2005-02)
28 / 352008-10-08
AMD Shanghai, Istanbul ++
Intel Dunnington, Nehalem, Tukwila, Larrabee
Sun UltraSPARC T2+, Niagara 3 und Rock
Fujitsu SPARC64 VII
Blick über den TellerrandPower 7, Cell BE
Bussysteme: HyperTransport, QuickPath
Implementierungen
29 / 352008-10-08
Bussysteme (bisher)
Hypertransport (AMD)→ aktuell bis 2.6GHz (HT 3.0)→ evtl. Multihops
Frontside Bus (Intel)→ 1.6 GHz→ große L2$ (4MB, 6MB)→ „snoop filter“ (64MB)
30 / 352008-10-08
Bussysteme (demnächst)
Hypertransport 3.1
bis 6.4 GTransfers/s
51.6 GB/s aggr. Bandbreite→ HT3.0: 41.6 GB/s
2.6/2.8/3.0 GHz
Split-Verbindung:→ 1x x16 od. 2x x8
neuer Stecker HTX3→ ca. 3x Bandbreite von HTX
Intel Quick Path
„Universalbus“
16bit+4bit Busbreite
4.8...6.4 GTransfers/s
24...32 GB/s aggr. Bandbreite→ FSB1600: 12.8GB/s
3 Power States:normal – low – deeper low
31 / 352008-10-08
Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?
ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)
Technologien für die nächsten zwei JahreWohin fährt der Zug?
Agenda
32 / 352008-10-08
Many-Cores (> 2 Cores)Das neue MHz-Rennen?
Strom sparen (Green IT)CPU, Memory (!), Grafik
Special Purpose CPUs, GPGPUsNVidia, Sun Niagara, Cell BE
weiterhin höhere IntegrationSystem on a Chip (Embedded CPUs)Grafik on Die3D-Chips32nm (alle) und 28nm Strukturbreite (IBM, TSMC*)
Wo fährt der Zug hin?
* Taiwan Semiconductor Manufacturing Company (Chiphersteller)
33 / 352008-10-08
Blogs @ Intel, AMD, Sun, IBMhttp://blogs.intel.com/http://developer.amd.com/http://forums.amd.com/devblog/http://blogs.sun.com/http://www.ibm.com/developerworks/blogs/page/powerarchitecture
Ars Technica Jon Stokeshttp://www.arstechnica.com/
The RegisterAshlee Vance u. Timothy Prickett Morganhttp://www.theregister.co.uk/
Wikipediahttp://en.wikipedia.org/
Quellen
34 / 352008-10-08
best OpenSystems DayHerbst 2008
Unterföhring
Wolfgang [email protected] Systemingenieurbest Systeme GmbH GUUG Board Member
Danke für die Aufmerksamkeit.Fragen?