von Äpfeln und birnen - guug.de · „earlier, we used 10 elements of periodic table now we use...

35
best OpenSystems Day Herbst 2008 Dornach Wolfgang Stief [email protected] Senior Systemingenieur best Systeme GmbH GUUG Board Member CPU-Update Von Äpfeln und Birnen

Upload: hoanglien

Post on 04-Aug-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

best OpenSystems DayHerbst 2008

Dornach

Wolfgang [email protected] Systemingenieurbest Systeme GmbH GUUG Board Member

CPU-UpdateVon Äpfeln und Birnen

Page 2: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

„Earlier, we used 10 elements of periodic tablenow we use over ½ of periodic table.“

„Two decades ago, 1 micron was challengingand 100nm looked impossible and nowwe casually talk about what it takesto get to 10nm.“

Pat GelsingerSenior Vice President

General Manager, Digital Enterprise Group Intel Corporation

Motivation

2008-10-08 2 / 35

Page 3: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?

ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)

Technologien für die nächsten zwei JahreWohin fährt der Zug?

Agenda

3 / 352008-10-08

Page 4: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Neuer Hypertransport3.0 kommt mit Shanghai (AM2+, Ende 2008), 3.1 später

Mehr Multicore und Multithreading„Many-Core“, Alternative zum GHz-Rennen, Applikationen fehlen weiterhin

CO2 wird ThemaGreen IT, Stromsparmechanismen

Speicherbandbreiten nehmen zuDDR2 → DDR3 / FB-DIMM, Bussysteme

„Proximity Communication“nichts (mehr?) zu sehen und zu hören

Wie gut war die Kristallkugel?

4 / 352008-10-08

Page 5: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?

ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)

Technologien für die nächsten zwei JahreWohin fährt der Zug?

Agenda

5 / 352008-10-08

Page 6: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

6 / 352008-10-08

Page 7: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai (ca. Ende 2008 / Anfang 2009)

Quadcore, 45nm Prozess, AMD K10

„Facelift“ von Barcelona (65nm)

HT 1.0 → HT3.0 (ab Q2/2009)

DDR-667 → DDR2-800

2MB L3$ → 6MB L3$

Sockel F → „drop in“ replacement

~30%...35% mehr Rechenleistung

~30%...35% weniger Stromverbrauch

verbesserte Virtualisierung (AMD-V)

7 / 352008-10-08

Page 8: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Istanbul and beyond

Istanbul (ca. 2. HJ 2009)45nm, 6-Core Shanghai3x HT-3 (3.0), RDDR-2,AMD-V, Sockel F (AM2+)

Magny-Cours (1. HJ 2010)45nm, 12-Core, 12MB L3$, Probe Filter4x HT-3 (3.1?), DDR-3„Maranello“-Plattform (AM3)

Sao Paulo (1. HJ 2010)45nm, 6-Core, ½ Magny-Cours„Maranello“-Plattform (AM3)

8 / 352008-10-08

Page 9: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

9 / 352008-10-08

Page 10: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Dunnington (seit September 2008)

6-Core, 45nm, Penryn-Core

3MB L2$ je Dual-Core

8 / 12 / 16 MB L3$

FSB-1066

2.13 / 2.4 / 2.66 GHz

65 / 90 / 120 W

Coneland Plattform→ 64MB snoop filter in Northbridge (??)

10 / 352008-10-08

Page 11: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Dunnington (seit September 2008) (cont'd)

Intel X7400 → sockelkompatibel mit X7300

FB-DIMM + Chipsatz istdeutlich leistungshungigerals AMD Opteron

50% mehr Cores + L3$ → „40% Performance Boost @ Microsoft Hyper-V“

Stückpreis 1100...2700 U$(1000er)

11 / 352008-10-08

Page 12: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Nehalem (4. Quartal 2008)

max. 8-Core, 45nm, „Intel Core i7“, 2 Threads/Core

„shares significant portion of P6 gene pool“

Pipeline-Längewie Penryn

unwesentlich neueInstruktionen

QuickPath Interconnect

neues Pinout→ neuer Sockel

zunächst FB-DIMM2, später DDR-3 800+

12 / 352008-10-08

Page 13: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Nehalem (4. Quartal 2008) (cont'd)

Chips in unterschiedlicher Ausprägung

„Havendale“ / „Auburndale“ (Mainstream, Desktop) 2-Core, 4MB L3$, 2x DDR3, 1x PCIe x16 integrierte GPU, Low End

„Lynnfield“ / „Clarksfield“ (Mainstream, Performance) 4-Core, 8MB L3$, 2x DDR3, 1x PCIe x16

„Bloomfield“ (Performance) 4-Core, 8MB L3$, 3x DDR3, 1x QuickPath

„Gainstown“ (Performance, High-End, Nehalem-EP) 4-Core , 8MB L3$, 3x DDR3, 2x QuickPath

„Beckton“ (Performance, High-End, Nehalem-EX) 8-Core, 24MB L3$, 4x FB-DIMM2, 4x QuickPath

13 / 352008-10-08

Page 14: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Tukwila (IA-64, Ende 2008)

65nm, Quadcore, 2 Threads/Core

Σ 30MB Cache on Die (!)

FB-DIMM

QuickPath(wird mit Tukwila eingeführt)

Poulson32nm, 4 od. 8 CoresMultithreading + Parallelisierungab 2009 (Fertigung, Prozess)

Kittsonkaum vor 2011

IA-64 → langfristige Planung14 / 352008-10-08

Page 15: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Larrabee (GPGPU)

65nm, Many-Core, 4 Threads/Core

je Core eine Skalar-Unit undeine Vector-FPU

Subset der x86 ISA + GPU-spezifische Erweiterungen

>8 „in-order“ Cores,typ. 16...24 Cores per Chip(nicht Terascale 80-Core aka Polaris)

Debüt als GPU für 3D-Spiele

zunächst eigenes Board mit OSals Treiber auf Systemdisk

15 / 352008-10-08

Page 16: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Intel Larrabee (GPGPU) (cont'd)

Cores über Ring verbunden, 256 Byte/cycle(wie IBM Cell B. E.)

L2 Cache über alle Cores mit Cache Lock (Partitionierung)(ähnlich IBM Cell B. E.)

Fixed Fuction Logic: je nach Anwendungsfall z. B. Raster-Hardware (GPU) od. Crypto-Unit (Server-CPU)

16 / 352008-10-08

Page 17: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

17 / 352008-10-08

Page 18: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun UltraSPARC T2+ (Victoria Falls)

10GBE entfällt, dafür Chip Interconnect

verfügbar seit 1. HJ 2008

2-Socket out of the box,4-Socket mit „External Coherence Hub“

8 Cores, 8 Threads→ 128 Thread @ 2-Socket (2U)→ 256 Thread @ 4-Socket (2U)

je Socket 4x DDR2-667 FB-DIMM→ 21GB/s read max.→ 10GB/s write max.

PCIe x8 I/O je Socket

VictoriaFalls: Scaling Highly-Threaded Processor Cores (Stephen Phillips, Sun Microsystems, 2007-07)

18 / 352008-10-08

Page 19: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun Niagara 3

16 Core / 16 Thread per Core→ 256 Thread per CPU

Codename KT

geplant bis zu 8-Socket System→ 8x16x16 = 2048 Threads / System (!)

Entwicklung seit 2006, in Systemen ca. Ende 2009

ähnlich Rock (sh. u.), aber mehr CMT und weniger Single Thread Performance

kaum Details bekannt, Modellpflege„Multicore-Rennen“?

19 / 352008-10-08

Page 20: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun Rock

65nm, 16 Cores, 2 visible Threads / Core→ 32 Threads per Socket

4 Core Clustersmit je 4 Cores

je Cluster:→ 32kB I$→ 2x 32kB D$→ 2x FGU je Core

16MB L3$off chip

<10W / CoreRock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)

20 / 352008-10-08

Page 21: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun Rock (cont'd)

I/O: 8GB/s max.

Memory: 48GB/s max.

256 TB (!) adressierbarerHauptspeicher je CPU

250W @ 2.3 GHz

neue ISA→ hardware scouting→ thread-level speculation→ thread-level parallelism→ transactional memory

ca. Ende 2009(Rock 2.0 bereits im Lab)

Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)

21 / 352008-10-08

Page 22: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun Rock (cont'd)

hardware scouting / thread-level speculation→ unsichtbar für das Betriebssystem→ automatisch gestartet bei „long latency instructions“→ wärmt Caches und Sprungvorhersage vor→ implementiert als Kopie der Registersätze→ 40% + @ TPC-C (single thread)→ 34% + @ SPECfp 2000

transactional memory→ initiiert von Software→ atomare Operationen→ „RISC“-Ansatz

thread-level parallelism / program parallelization→ unsichtbar für Anwendung, macht Compiler (C/C++) bzw. JVM→ Locking / Konflikte über transactional memory

Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)

22 / 352008-10-08

Page 23: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Sun Rock (cont'd)

Server-Prozessor

SMP-Systeme in Planung

Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08)

23 / 352008-10-08

Page 24: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

24 / 352008-10-08

Page 25: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Fujitsu SPARC64 VII and beyond

65nm, 4 Cores, 2 Threads / Core, SMP

64kB I$ + 64kB D$ je Core, 6MB shared L2$ je CPUkein L3 Cache

2.4GHz und 2.52GHz→ ca. 80% + bei kommerziellen Applikationen (DB etc.)→ ca. 100% + bei Floating Point

je CPU 32GB Memory adressierbar, ECC

drop-in Replacement→ 64 Socket M9000 mit 2.52 GHz → 2023 TFlops (TOP500:1375, IBM)

danach: „Venus“ (ca. 2. HJ 2009)→ 45nm, 8 Core, 128 GFLOPs→ „embedded memory controller“ (wie Opteron)

25 / 352008-10-08

Page 26: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

26 / 352008-10-08

Page 27: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

IBM Power 7

45nm, 8 Cores, 4 Threads / Core, 2 Chips / Module

4.0GHz, in 2010 erste Systeme verfügbar

2U → 4 Modules á 2 Chips → 256 Threads (= 4-Socket T2)

32GFlops / Core (= 2x Power6)→ 512 GFlops / Module

bis 1024 Cores in HPC-System geplant (16x 2U)→ 32TFlops, 2TB RAM (!)

„Blue Waters“ → 38.900 8-Core, 620TB RAM, 5PB/s memory peak→ ~100 Racks

27 / 352008-10-08

Page 28: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

IBM Cell Broadband Engine

65nm, 8+1 Core „Power XCell 8i“

45nm ab ca. Ende 2008

SMP über BIC(Bus Interface Controller)

SPE ist ein„very simple PowerPC 601 area processor“(Synergistic Processing Element)

~4GHz→ 256GFlops single precision→ 26GFlops double precision

Introducing the IBM/Sony/Toshiba Cell Processor – Part II: The Cell Architecture (Jon Stokes, Ars Technica, 2005-02)

28 / 352008-10-08

Page 29: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

AMD Shanghai, Istanbul ++

Intel Dunnington, Nehalem, Tukwila, Larrabee

Sun UltraSPARC T2+, Niagara 3 und Rock

Fujitsu SPARC64 VII

Blick über den TellerrandPower 7, Cell BE

Bussysteme: HyperTransport, QuickPath

Implementierungen

29 / 352008-10-08

Page 30: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Bussysteme (bisher)

Hypertransport (AMD)→ aktuell bis 2.6GHz (HT 3.0)→ evtl. Multihops

Frontside Bus (Intel)→ 1.6 GHz→ große L2$ (4MB, 6MB)→ „snoop filter“ (64MB)

30 / 352008-10-08

Page 31: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Bussysteme (demnächst)

Hypertransport 3.1

bis 6.4 GTransfers/s

51.6 GB/s aggr. Bandbreite→ HT3.0: 41.6 GB/s

2.6/2.8/3.0 GHz

Split-Verbindung:→ 1x x16 od. 2x x8

neuer Stecker HTX3→ ca. 3x Bandbreite von HTX

Intel Quick Path

„Universalbus“

16bit+4bit Busbreite

4.8...6.4 GTransfers/s

24...32 GB/s aggr. Bandbreite→ FSB1600: 12.8GB/s

3 Power States:normal – low – deeper low

31 / 352008-10-08

Page 32: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Trends vor einem JahrWie gut war die Kristallkugel dieses Mal?

ImplementierungenAMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath)

Technologien für die nächsten zwei JahreWohin fährt der Zug?

Agenda

32 / 352008-10-08

Page 33: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Many-Cores (> 2 Cores)Das neue MHz-Rennen?

Strom sparen (Green IT)CPU, Memory (!), Grafik

Special Purpose CPUs, GPGPUsNVidia, Sun Niagara, Cell BE

weiterhin höhere IntegrationSystem on a Chip (Embedded CPUs)Grafik on Die3D-Chips32nm (alle) und 28nm Strukturbreite (IBM, TSMC*)

Wo fährt der Zug hin?

* Taiwan Semiconductor Manufacturing Company (Chiphersteller)

33 / 352008-10-08

Page 34: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

Blogs @ Intel, AMD, Sun, IBMhttp://blogs.intel.com/http://developer.amd.com/http://forums.amd.com/devblog/http://blogs.sun.com/http://www.ibm.com/developerworks/blogs/page/powerarchitecture

Ars Technica Jon Stokeshttp://www.arstechnica.com/

The RegisterAshlee Vance u. Timothy Prickett Morganhttp://www.theregister.co.uk/

Wikipediahttp://en.wikipedia.org/

Quellen

34 / 352008-10-08

Page 35: Von Äpfeln und Birnen - guug.de · „Earlier, we used 10 elements of periodic table now we use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm

best OpenSystems DayHerbst 2008

Unterföhring

Wolfgang [email protected] Systemingenieurbest Systeme GmbH GUUG Board Member

Danke für die Aufmerksamkeit.Fragen?