nvidia hpc day kiev rus

1

Решения для высокопроизводительных

вычислений от NVIDIA

Октябрь 2009

2

4 ядра

Гетерогенные вычисления

Вычисления CPU + GPU

Гибридные вычислительные системы

3

Когда прирост производительности имеет значение?

1

10

100

1000

1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970

Sailships Steamships Airplanes

Ско

рость

в м

ил

ь/ч

ас

2003 2004

Shader Model 1 & 2

(63Mill / 130 Mill Transistors)

1995 1999 2002

Pixel Transfer

(1Mill / 22 Mill Transistors)

Пр

ои

звод

ите

льность

в G

Flo

ps

Shader Model 3 + GPGPU

(222 / 302 Mill Transistors)

Shader Model 4 + CUDA

(754Mill / 1.4 Bill / 3.0 Bill

Transistors)

2005 2006 2008 2010

Fermi

4

GPU : переломный момент в отрасли

суперкомпьютеров

Tesla Personal

Supercomputer$10,000

CalcUA$5 млн.

Источник: University of Antwerp, Belgium

67,4 сек

59,9 сек

55 60 65 70

256 AMD dual-core Opterons

4 TeslaC1060 GPUs

Компьютерная томография,время обработки

Десктоп эффективнее кластера

5

146X

Рентгенография,

томография

U of Utah

36X

Молекулярная

динамика

U of Illinois, Urbana

18X

Транскодирование

видео

Elemental Tech

50X

Математические

вычисления

AccelerEyes

100X

Астрофизика

RIKEN

149X

Финансовые

задачи

Oxford

47X

Линейная

алгебра

Universidad Jaime

20X

3D ультразвук

Techniscan

130X

Квантовая химия

U of Illinois, Urbana

30X

Генная

инженерия

U of Maryland

Прирост производительности до 150 раз

6

Compute Unified Device Architecture

Программно-аппаратная архитектура для

параллельных вычислений

7

Архитектура параллельных вычислений CUDA

ATI’s Compute “Solution”

Архитектура для

параллельных вычислений

Включает Си компилятор

Стандартные языки и API

8

CUDA. Факты.

900+ научных трудов

115+ университетов преподают

CUDA

60 тыс. разработчиков

200 млн. GPU с CUDA

www.NVIDIA.ru/CUDA

9

Life Sciences &

Medical Equipment

Productivit

y / Misc

Oil and

Gas EDA

Manufa

cturing Finance

CAE /

Numerics

Commun

ication

Max Planck

FDA

Robarts

Research

Medtronic

AGC

Evolved

machines

Smith-Waterman

DNA sequencing

AutoDock

NAMD/VMD

Folding@Home

Howard Huges

Medical

CRIBI Genomics

GE Healthcare

Siemens

Techniscan

Boston Scientific

Eli Lilly

Silicon

Informatics

Stockholm

Research

Harvard

Delaware

Pittsburg

ETH Zurich

Institute Atomic

Physics

CEA

WRF Weather

Modeling

OptiTex

Tech-X

Elemental Technologies

Dimensional Imaging

Manifold

Digisens

General Mills

Rapidmind

MS Visual

Studio

Rhythm & Hues

xNormal

Elcomsoft

LINZIK

Hess

TOTAL

CGG/Veritas

Chevron

Headwave

Acceleware

Seismic City

P-Wave

Seismic

Imaging

Mercury

Computer

ffA

Synopsys

Nascentric

Gauda

CST

Agilent

Renault

Boeing

Symcor

Level 3

SciComp

Hanweck

Quant

Catalyst

RogueWave

BNP Paribas

The

Mathworks

Wolfram

National

Instruments

Access

Analytics

Tech-x

RIKEN

SOFA

Nokia

RIM

Philips

Samsung

LG

Sony

Ericsson

NTT

DoCoMo

Mitsubishi

Hitachi

Radio

Research

Laboratory

US Air Force

Более 250 заказчиков / разработчиков ПО

10

TeslaTM

Высокопроизводительные вычисления

Quadro®

Дизайн, разработка

GeForce®

Развлечения

Параллельные вычисления на GPU200+ млн. GPU в мире поддерживают CUDA

11

Выбор CUDA платформы

Tesla Quadro GeForce

Стресс-тест с проверкой точности вычислений X

Произведено NVIDIA из высококачественных комплектующих X X

3-х летняя гарантия, корпоративная поддержка X X

4 Гб оперативной памяти для работы с большими объемами данных X X

Единое профессиональное решение для вычислений и графики X

Пользовательские приложения: PhysX, Video, Imaging X

Короткий жизненный цикл пользовательского продукта X

Производится и сопровождается партнерами NVIDIA X

Поддержка осуществляется через партнеров NVIDIA X

12

Вычислительные решения Tesla

Созданы для профессионалов.

13

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

GPU NVIDIA Tesla 10-й серии

14

Tesla: созданы для вычислений

3-х летняя гарантия

Длинный жизненный цикл

Корпоративная поддержка

Высококачественная память

Надежность вычислений

24-часовой стресс-тест

Системные решения Профессиональный уровень

Поддержка NVIDIA Вычислительные ресурсы

Архитектура вычислений CUDA

4 ГБ ОЗУ

двойная точность IEEE-754

15

Вычислительные решения Tesla

Tesla S1070 1U SystemTesla C1060

Computing Board

Tesla Personal

Supercomputer (4 Tesla C1060s)

GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs

Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops

Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops

Memory 4 GB / GPU 4 GB 4 GB / GPU

16

Tesla S1070: эффективное решение

До 20 раз лучше показатель

производительность/Ватт

Hess

Chevron

Petrobras

NCSA

CEA

TiTech

JFCOM

SAIC

Federal

Motorola

Kodak

University of Heidelberg

University of Illinois

University of North Carolina

Max Planck Institute

Rice University

University of Maryland

GusGus

Eotvas University

University of Wuppertal

Chinese Academy of Sciences

National Taiwan University

17

Пример: ЦОД стоимостью $5 млн.

CPU 1U Server CPU 1U Server

Tesla 1U System

6x more perf

2 Quad-core Xeon

CPUs: 8 cores

0.17 Teraflop (single)

0.08 Teraflop (double)

$ 3,000

700 W

1819 CPU servers

310 Teraflops (single)

155 Teraflops (double)

Total area 16K sq feet

Total 1273 KW

8 CPU Cores +

960 GPU Сores

4.14 Teraflops (single)

0.346 Teraflop (double)

$ 11,000

1500 W

455 CPU servers

455 Tesla systems

1961 Teraflops (single)

196 Teraflops (double)

Total area 9K sq feet

Total 682 KW

60% smaller

½ the power

18

Персональный суперкомпьютер Tesla

ПроизводительностьМассивно параллельная CUDA архитектура

960 ядер. 4 Терафлоп/с

В 250 раз мощнее ПК

УдобствоСуперкомпьютер на рабочем столе

Включается в обычную розетку

ДоступностьПрограммируется на Си под Windows и Linux

Стоимость порядка $10,000

19

$100K - $1MДоступность

Пр

ои

зв

од

ите

ль

но

сть

250x

< $10 K

Tesla

Personal

Supercomputer

Современный

ПК

1x

В 250 раз

быстрее

В 100 раз доступнее

В 20 раз экономичнее

Supercomputing

Cluster

20

Standard

Workstation

Supercomputing

Cluster

$100K - $1M

Доступность

Пр

ои

зв

од

ител

ьн

ость

250x

< $10 K

Tesla Personal

Supercomputer

1x

Tesla Cluster5000x

Высокопроизводительные вычисления на базе GPU

22

Медицинская техника

GE Healthcare : CT

40% increase in CT resolution

2x increase in frame rate

Techniscan: Ultra-sound

High resolution ultra-sound

2x increase in acquisition

Digisens : Tomography

Tomography reconstruction

Several others on

X-Ray, Flow Cytometry, MRI, etc

Source: Stone et al, UIUC

Source: Batenburg, Sijbers, et al

23

Digisens SnapCT: Визуализация результатов CT

24

SVI Pro 2009 is the first

application to accelerate 3D

seismic analysis through

parallel computation on multiple

GPUs.

Leading to performance gains

of up to 37x on workstation

hardware.

3D анализ данных сейсморазведки

25

3D анализ данных сейсморазведки / Mercury

26

Клиенты

GPU vs CPU

преимущества

Performance / Watt 18x - 27x 12x - 17x

Performance / Space 20x - 31x 15x - 20x

Performance / Cost 15x - 20x 10x - 12x

Oil & Gas ISVs

27

Финансы: оценка котировок

2 Tesla S1070 500 CPU Servers

2.8 kWatts 37.5 kWatts

$24 K $250 K

16x экономия места

13x меньше потребление

10x меньше стоимость

Одинаковая производительность1 1

28

Финансы: прогнозирование рынка в режиме РВ

Figures assume:

Tesla S1070 + one 8-core host server per node

$260 / U / month rack and power charges

3-year hardware amortization

Volera real-time option valuation engine

Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s

GPUs CPUs Savings

Processors 12 736

Rack Space 6U 92U 15x

Hardware Cost $36,000 $370,000 10x

Annual Cost $31,000 $390,000 13x

29

MATLAB: ускорение на GPU

Jacket CUDA plugin from

Accelereyes

http://www.accelereyes.com

15-day trail version avaiable

Tesla GPU in a workstation

For MATLAB and research 143x Speedup

86x Speedup

44x Speedup

http://www.accelereyes.com/

30

Source: Stone, Phillips, Hardy, Schulten

Молекулярная динамика & квантовая химия

Available MD software

NAMD / VMD (alpha release)

GROMACS (alpha release)

HOOMD

OpenMM : Library for molecular

modeling https://simtk.org/home/openmm

Source: Anderson, Lorenz, TravessetSource: Ufimtsev, Martinez

https://simtk.org/home/openmm

31

Биоинформатика

62x Speedup

102x SpeedupAvailable applications

GPU HMMER

MUMmerGPU sequencing

MATLAB acceleration

Protein docking

33

Промышленность / FEA (Finite Element Analysis)

Сочетание визуализации и симуляции

Переход от сервера к рабочей станции(пример: CFD)

34

Новое поколение архитектуры GPU CUDA

“Fermi”

35

Обзор FermiСуперкомпьютер в формате GPU

3 млрд транзисторов

Вдвое больше ядер (512 ядер)

8-кратный прирост DP производительности

ECC

L1 и L2 кэш

Вдвое большая пропускная способность

памяти (GDDR5)

До 1Тб памяти на GPU

Конкурируещее исполнение кода, C++

DR

AM

I/F

HO

ST

I/F

Gig

a T

hre

ad

DR

AM

I/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2

36

“Oak Ridge National Lab (ORNL) has already announced it will be

using Fermi technology in an upcoming super that is "expected to

be 10-times more powerful than today's fastest supercomputer."

Since ORNL's Jaguar supercomputer, for all intents and purposes,

holds that title, and is in the process of being upgraded to 2.3

PFlops….

…we can surmise that the upcoming Fermi-equipped super is going

to be in the 20 Petaflops range.”

September 30 2009

37

Цель Fermi

Расширение круга

задач, решаемых с

помощью GPU

Больше

пользователей и

приложений для GPU

DR

AM

I/F

HO

ST

I/F

Gig

a T

hre

ad

DR

AM

I/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2

38

Архитектура SM

Register File

Scheduler

Dispatch

Scheduler

Dispatch

Load/Store Units x 16

Special Func Units x 4

Interconnect Network

64K Configurable

Cache/Shared Mem

Uniform Cache

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Instruction Cache

32 CUDA ядра в SM (512 ядер всего)

8-и кратный прирост пиковой

производительности в операциях с

плавающей точкой

50% от пиковой производительности

вычислений с одинарной точностью

Два менеджера потоков

64 KB RAM общей памяти и L1 кэш

(конфигурируемый)

39

Архитектура ядра CUDA

Register File

Scheduler

Dispatch

Scheduler

Dispatch

Load/Store Units x 16

Special Func Units x 4

Interconnect Network

64K Configurable

Cache/Shared Mem

Uniform Cache

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Core

Instruction Cache

CUDA CoreDispatch Port

Operand Collector

Result Queue

FP Unit INT Unit

Поддержка стандарта IEEE 754-2008,

недоступного на современных CPU

FMA(Fused multiply-add) операции

как для операций с одинарной так

и с двойной точностью

Новый ALU оптимизированный

для 64-битных операций и

операций с повышенной точностью

40

Иерархический кэш

Первая архитектура GPU поддерживающая

иерархический кэш в сочетании с разделяемой

памятью на GPU

L1 в каждом SM (32 ядра)

Улучшение пропускной способности и снижение

латентности

Унифицированный L2 кэш (768 KB)

Позволяет эффективно общаться всем ядрам GPU

DR

AM

I/F

Gig

a T

hre

ad

HO

ST

I/F

DR

AM

I/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2

Parallel DataCache™

Memory Hierarchy

41

Быстрый интерфейс памяти

GDDR5 интерфейс памяти

2-кратный прирост vs GDDR3

Поддержка до 1Тб памяти на GPU

Для работы с большими наборами данных

DR

AM

I/F

Gig

a T

hre

ad

HO

ST

I/F

DR

AM

I/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2

42

ECC

ECC защита для

DRAM

ECC поддержка для GDDR5 памяти

Все внутренняя памяти защищена ECC

Файл регистров, L1 кэш, L2 кэш

43

GigaThreadTM Hardware Thread Scheduler (HTS)

Аппаратный менеджер потоков

Одновременно управляет

тысячами активных потоков

В 10 раз более быстрое

переключение между контекстами

Одновременное исполнение

нескольких кернелов

HTS

44

Аппаратный менеджер потоков GigaThread

Одновременное исполнение нескольких кернелов + быстрое переключение контекста

Последовательное исполнение Параллельное исполнение

Tim

e

Kernel 1 Kernel 1 Kernel 2

Kernel 2 Kernel 3

Kernel 3

Ker

4

nelKernel 5

Kernel 5

Kernel 4

Kernel 2

Kernel 2

45

Схема передачи данных GigaThread

2 DMA устройства

Одновременная передача данных

CPUGPUи GPUCPU

Передача независит от счета на CPU и

GPU

Схема работы:

SDT

Kernel 0

Kernel 1

Kernel 2

Kernel 3

CPU

CPU

CPU

CPU

SDT0

SDT0

SDT0

SDT0

GPU

GPU

GPU

GPU

SDT1

SDT1

SDT1

SDT1

46

Расширенная поддержка со стороны ПО

Полная поддержка C++

Виртуальные функции

Метки

Поддержка системных вызовов

Поддержка С пайпов, семафоров, printf и тд

Унифицированное 64-битное адресное пространство памяти

47

GPU Computing Applications

Параллельная архитектура CUDA

NVIDIA GPUwith the CUDA Parallel Computing Architecture

C OpenCLtm Direct

ComputeFortran

Java and Python

OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.

C++

48

NVIDIA Nexus IDE

Ускорение разработки

гетерогенных (CPU + GPU) приложений

1-й в индустрии IDE (Integrated Development Environment) для

массивно-параллельных приложений

Полная интеграция со средствами

разработки Visual Studio

50

I believe history will record Fermi as a significant

milestone.“”

Dave PattersonDirector Parallel Computing Research Laboratory, U.C. BerkeleyCo-Author of Computer Architecture: A Quantitative Approach

Fermi surpasses anything announced by NVIDIA's

leading GPU competitor (AMD).“”

Tom HalfhillSenior Editor

Microprocessor Report

51

Fermi is the world’s first complete GPU computing

architecture.“”

Peter GlaskowskyTechnology AnalystThe Envisioneering Group

The convergence of new, fast GPUs optimized for computation as

well as 3-D graphics acceleration and industry-standard software

development tools marks the real beginning of the GPU computing

era. Gentlemen, start your GPU computing engines.

Nathan BrookwoodPrinciple Analyst & Founder

Insight 64

”“

52

Экосистема CUDA

Приложения Библиотеки

FFTBLAS

LAPACKImage processingVideo processingSignal processing

Vision

Консалтинг OEM

Языки

C, C++DirectXFortranJava

OpenCLPython

Компиляторы

PGI FortranCAPs HMPP

MCUDAMPI

NOAA Fortran2COpenMP

UIUCMIT

HarvardBerkeley

CambridgeOxford

…

IIT DelhiTsinghua

DortmundtETH Zurich

MoscowNTU…

Более 115 университетов преподают CUDA

ANEO

GPU Tech

Oil & Gas Finance

Medical Biophysics

Numerics

Imaging

CFD

DSP EDA

http://www.supermicro.com/

http://en.wikipedia.org/wiki/File:Logo_groupe_bull.jpg

http://images.google.com/imgres?imgurl=http://fishtrain.com/wp-content/uploads/2007/09/cray_logo.gif&imgrefurl=http://fishtrain.com/2007/09/03/nvidias-playbook/&usg=__mBEPjqB6tUo0mps50ld866NdmmI=&h=70&w=160&sz=3&hl=en&start=8&sig2=erIWlru80_C67bxBapde6g&tbnid=ooG9_suq3ywK-M:&tbnh=43&tbnw=98&prev=/images?q=cray+logo&gbv=2&hl=en&ei=aHYpSvyWEo-ctgPd-dXxCg

http://www.google.com/imgres?imgurl=http://blog.taragana.com/wp-content/uploads/2009/05/nec-logo.jpg&imgrefurl=http://blog.taragana.com/index.php/t/east-asia/&h=354&w=354&sz=8&tbnid=YJa5kHMJJ5aMmM:&tbnh=121&tbnw=121&prev=/images?q=NEC+logo&hl=en&usg=__vqs8CIGTn2HFsKXlXcsnKjhGaww=&ei=Q98zSsTUG4vWsgPysrDODg&sa=X&oi=image_result&resnum=2&ct=image

53

Ссылки

Fermihttp://www.nvidia.ru/fermi

CUDA Zone

http://www.nvidia.ru/cuda

Приложения, документы, видео

Teslahttp://www.nvidia.ru/tesla

Спецификации, технические и маркетинговые материалы

Вертикальные отраслевые решенияhttp://www.nvidia.com/object/vertical_solutions.html

YouTube Videoshttp://www.youtube.com/nvidiatesla

http://www.nvidia.ru/fermi

http://www.nvidia.ru/cuda

http://www.nvidia.com/tesla

http://www.nvidia.com/object/vertical_solutions.html

http://www.youtube.com/nvidiatesla

54

Вопросы?

nvidia hpc day kiev rus

Education