tesla&cuda for kpi event rus

1

Решения для высокопроизводительных вычислений от NVIDIA.

Апрель 2009

GPU NVIDIA : постоянное увеличение производительности

800

1000

1200

GFlops

NVIDIA GPU

Intel CPU

G9x

T10T10 = Tesla 10-seriesG9x = GeForce 9800 GTXG80 = GeForce 8800 GTXG71 = GeForce 7900 GTXG70 = GeForce 7800 GTXNV40 = GeForce 6800 Ultra

Добавлена двойная точность

2

0

200

400

600

22.09.2002 04.02.2004 18.06.2005 31.10.2006 14.03.2008

G71

G80G9x

Intel Xeon Quad-core 3 GHz

NV30 NV35 NV40G70

NV40 = GeForce 6800 UltraNV35 = GeForce FX 5950 UltraNV30 = GeForce FX 5800

Вычисления на GPU

3

4 cores

Вычисления CPU + GPUГибридные вычислительные системы

GPU : переломный момент в отрасли суперкомпьютеров

59,9 сек4 Tesla

C1060 GPUs

Десктоп эффективнее кластера

4

Tesla Personal Supercomputer

$10,000

CalcUA$5 млн.

Источник: University of Antwerp, Belgium

67,4 сек

55 60 65 70

256 AMD dual-core Opterons

Компьютерная томография,время обработки

146X

Рентгенография, Рентгенография, томографиятомография

U of UtahU of Utah

36X

Молекулярная Молекулярная динамикадинамика

U of Illinois, UrbanaU of Illinois, Urbana

18X

ТранскодированиеТранскодирование

видеовидео

Elemental TechElemental Tech

50X

Математические Математические вычислениявычисления

AccelerEyesAccelerEyes

100X

АстрофизикаАстрофизика

RIKENRIKEN

Прирост производительности до 150 раз

5

149X

Финансовые Финансовые задачизадачи

OxfordOxford

47X

Линейная Линейная алгебраалгебра

Universidad Jaime

20X

3D 3D ультразвукультразвук

TechniscanTechniscan

130X

Квантовая химияКвантовая химияU of Illinois, UrbanaU of Illinois, Urbana

30X

Генная Генная инженерияинженерия

U of MarylandU of Maryland

6

Compute Unified Device Architecture

Программно-аппаратная архитектура для параллельных вычислений

Архитектура параллельных вычислений CUDA

Архитектура для параллельных вычислений

Включает Си компилятор

7

ATI’s Compute “Solution”

Включает Си компилятор

Стандартные языки и API

CUDA. Факты.

750+ научных трудов

100+ университетов преподают

CUDA

8

CUDA

25 тыс. разработчиков

100 млн. GPU с CUDA

www.NVIDIA.ru/CUDA

Life Sciences &

Medical EquipmentProductivit

y / MiscOil and

Gas EDAManufacturing Finance

CAE /

NumericsCommunication

Max Planck

FDA

Robarts

Research

Medtronic

AGC

GE Healthcare

Siemens

Techniscan

Boston Scientific

Eli Lilly

Silicon

CEA

WRF Weather

Modeling

OptiTex

Tech-X

Elemental

Hess

TOTAL

CGG/Veritas

Chevron

Headwave

Acceleware

Synopsys

Nascentric

Gauda

CST

Agilent

Renault

Boeing

Symcor

Level 3

SciComp

Hanweck

Quant

Catalyst

The

Mathworks

Wolfram

National

Instruments

Access

Nokia

RIM

Philips

Samsung

LG

Sony

Более 250 заказчиков / разработчиков ПО

9

AGC

Evolved

machines

Smith-Waterman DNA sequencing

AutoDock

NAMD/VMD

Folding@Home

Howard Huges

Medical

CRIBI Genomics

Silicon

Informatics

Stockholm

Research

Harvard

Delaware

Pittsburg

ETH Zurich

Institute Atomic

Physics

Elemental Technologies

Dimensional Imaging

Manifold

Digisens

General Mills

Rapidmind

MS Visual

Studio

Rhythm & Hues

xNormal

Elcomsoft

LINZIK

Acceleware

Seismic City

P-Wave

Seismic

Imaging

Mercury

Computer

ffA

Catalyst

RogueWave

BNP Paribas

Access

Analytics

Tech-x

RIKEN

SOFA

Sony

Ericsson

NTT

DoCoMo

Mitsubishi

Hitachi

Radio

Research

Laboratory

US Air Force

TeslaTM

Высокопроизводительные вычисления

Quadro®

Дизайн, разработка

GeForce®

Развлечения

Параллельные вычисления на GPU100+ млн. GPU в мире поддерживают CUDA

10

Выбор CUDA платформы

Tesla Quadro GeForce

Стресс-тест с проверкой точности вычислений X

Произведено NVIDIA из высококачественных комплектующих X X

3-х летняя гарантия, корпоративная поддержка X X

4 Гб оперативной памяти для работы с большими объемами данных X X

11

4 Гб оперативной памяти для работы с большими объемами данных X X

Единое профессиональное решение для вычислений и графики X

Пользовательские приложения: PhysX, Video, Imaging X

Короткий жизненный цикл пользовательского продукта X

Производится и сопровождается партнерами NVIDIA X

Поддержка осуществляется через партнеров NVIDIA X

Вычислительные решения Tesla

12

Созданы для профессионалов.

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

GPU NVIDIA GPU NVIDIA Tesla Tesla 1010--йй сериисерии

13

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

Tesla: созданы для вычислений

Высококачественная память

Надежность вычислений

24-часовой стресс-тест

Системные решения Профессиональный уровень

14

3-х летняя гарантия

Длинный жизненный цикл

Корпоративная поддержка

Поддержка NVIDIA Вычислительные ресурсы

Архитектура вычислений CUDA

4 ГБ ОЗУ

двойная точность IEEE-754

Вычислительные решения Tesla

15

Tesla S1070 1U SystemTesla C1060

Computing Board

Tesla Personal Supercomputer (4 Tesla C1060s)

GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs

Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops

Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops

Memory 4 GB / GPU 4 GB 4 GB / GPU

Tesla S1070: эффективное решение

До 20 раз лучше показательпроизводительность/Ватт

Hess University of Heidelberg

16

Hess

Chevron

Petrobras

NCSA

CEA

TiTech

JFCOM

SAIC

Federal

Motorola

Kodak

University of Heidelberg

University of Illinois

University of North Carolina

Max Planck Institute

Rice University

University of Maryland

GusGus

Eotvas University

University of Wuppertal

Chinese Academy of Sciences

National Taiwan University

Пример: ЦОД стоимостью $5 млн.

CPU 1U Server CPU 1U Server

Tesla 1U System

2 Quad-core Xeon CPUs: 8 cores

0.17 Teraflop (single)0.08 Teraflop (double)

$ 3,000

700 W

8 CPU Cores +960 GPU Сores

4.14 Teraflops (single)0.346 Teraflop (double)

$ 11,000

1500 W

17

6x more perf

1819 CPU servers

310 Teraflops (single)

155 Teraflops (double)

Total area 16K sq feet

Total 1273 KW

455 CPU servers455 Tesla systems

1961 Teraflops (single)

196 Teraflops (double)

Total area 9K sq feet

Total 682 KW

60% smaller

½ the power

3 GPUs3 GPUs

Korea University ofIllinois

2 GPUs

Исследователи всего мира строят станции на основе GPU

18

8 GPUs

16 GPUsUniversity of

Antwerp,Belgium

University ofCambridge, UK

Персональный суперкомпьютер Tesla

ПроизводительностьМассивно параллельная CUDA архитектура

960 ядер. 4 Терафлоп/с

В 250 раз мощнее ПК

Удобство

19

УдобствоСуперкомпьютер на рабочем столе

Включается в обычную розетку

ДоступностьПрограммируется на Си под Windows и Linux

Стоимость порядка $10,000

Производительность

250xTesla

PersonalSupercomputer

В 250 раз

В 100 раз доступнееВ 20 раз экономичнее

SupercomputingCluster

20

$100K - $1MДоступность


< $10 K

Современный

ПК

1x

В 250 разбыстрее

Cluster


250x

Tesla PersonalSupercomputer

Tesla Cluster5000x

Высокопроизводительные вычисления на базе GPU

21

Standard Workstation

SupercomputingCluster

$100K - $1M

Доступность


250x

< $10 K

1x

Примеры приложений с поддержкой CUDA

22

Примеры приложений с поддержкой CUDA

Увеличение скорости вычислений

4.6 Days2.7 Days

8 Hours

3 Hours

23

27 Minutes30 Minutes

13 Minutes16 Minutes

CPU Only With GPU

Финансовые задачи

31,1 secs

0,4 secs 0,25 secs0

5

10

15

20

25

30

35

Intel Xeon (2.6 GHz)

1 Tesla C1060 2 Tesla C1060s

Time

(secs)Derivative Pricing using

SciFinanceДоступное ПО с поддержкой CUDA

SciComp : Derivatives pricing modeling

Hanweck: Options pricing & risk analysis

Aqumin: 3D visualization of market data

Exegy: High-volume Tickers & Risk Analysis

QuantCatalyst: Pricing & Hedging EngineSource: SciComp

24

164 491

2116

5132

0

1000

2000

3000

4000

5000

6000

Mersenne Twister DR + Box-Mueller (MKL)

LRAND48

Million

Samples

per sec

100x faster Random Number Generators for Monte Carlo Simulations

Intel Xeon Quad-Core (3.0 GHz)Tesla C1060

Source: CUDA SDK

QuantCatalyst: Pricing & Hedging Engine

Oneye: Algorithmic Trading

Arbitragis Trading: Trinomial Options Pricing

Разрабатываемое ПО

LIBOR Monte Carlo market model

Callable Swaps and Continuous Time Finance

Source: SciComp

0,89

241

0

50

100

150

200

250

300

Intel QX6700 quad-core w/

SSE

4 GPUs (Tesla 10-series)

Bil

lio

n E

va

lua

tio

ns

/ se

c Ion Placement in VMD

271xFaster

Source: Stone, Phillips, Hardy, Schulten

Молекулярная динамика

Доступное ПО

NAMD / VMD (alpha release)

HOOMD

ACE-MD

MD-GPU

25

0

100

200

300

400

500

600

N=24,300 N=64,017 N=125,010Tim

e s

tep

s ca

lcu

late

d /

se

c

Number of Particles

Lennard-Jones Liquid Modelon LAMMPs vs HOOMD

16 AMD Opteron 280s1 GPU (Tesla 8-series)

Source: Stone, Phillips, Hardy, SchultenMD-GPU

ПО в разработке

LAMMPS

CHARMM

GROMACS

AMBER

Source: Anderson, Lorenz, Travesset

4.4 secs

1.1 mins

4.7 mins 5.5 mins 12.5 mins

0,2 secs

1,2 secs4,5 secs 5,7 secs 8,1 secs

0,1

1

10

100

1000

Caffeine Cholesterol Taxol Buckyball Valinomycin

Tim

e (

Log

-sca

le)

GAMESS on Intel Pentium D (3.0 GHz)vs CUDA code on Tesla 8-Series GPU

Квантовая химия

Source: Ufimtsev, Martinez


NAMD / VMD (alpha release)

HOOMD

ACE-MD

MD-GPU

26

2.8 mins

8 mins

4 mins

9.9 mins

21,6 secs 32,0 secs 36,1 secs 64,5 secs

0

100

200

300

400

500

600

700

Taxol/ LSDA/ 3-21G

Taxol/ PW91/ 6-

31G

Valinomycin/ LSDA/ 3-21G

Valinomycin/ PW91/ 6-

31G

Time

(secs)

Coulomb Potential EvaluationGaussian 03 on Intel Pentium (2.4 GHz)vs CUDA code on 1 Tesla 8-Series GPU

Source: Yasuda

MD-GPU


LAMMPS

CHARMM

Q-Chem

Gaussian

Гидро- и газодинамика

0,9 0,6 0,6 0,5

24

38

48

54

0

10

20

30

40

50

60

128x32 x128

256x32 x256

512x32 x512

1024x32 x1024

Gflops Incompressible Navier-Stokes

AMD Opteron 2.4 GHz1 Tesla C8702 Tesla C870s4 Tesla C870s


Navier-Stokes

Lattice Boltzman

3D Euler Solver

Weather and ocean modeling

27

x128 x256 x512 x1024

4,8 7,641,3

592

0

100

200

300

400

500

600

700


Intel Itanium 2 (1.4 GHz)

NEC SX6+ (565 MHz)

NVIDIA GeForce

8800 Ultra

Million

Lattice

Updates

per

Sec

(MLUPs)

Lattice Boltzman Methods for 128x128 Mesh Size

Source: Thibault, Senocak

Source: Tolke, Krafczyk

Weather and ocean modeling

Электромагнетизм / Электродинамика

500,0 Mcells/s

300

400

500

600

Speed

Mcells/s

Cell Phone Model SimulationSimulation size : 80 Mcells


Acceleware

EM Photonics

CUDA Tutorial


28

9,9 Mcells/s

0

100

200

300

Intel Xeon (2.6 GHz) 4 GPUs (Tesla 8-series)

FDTD Acceleration using GPUsSource: Acceleware


Maxwell equation solver

Ring Oscillator (FDTD)

Particle beam dynamics simulator

Моделирование погоды, атмосферы, океана

1 315 Mflops/s

1 616 Mflops/s

64 728 Mflops/s

0

10000

20000

30000

40000

50000

60000

70000


AMD Opteron (2.4 GHz)

1 Tesla 10-series GPU

Mflops/s

WSM5 Micro-Physics Kernel in WRF


Other kernels in WRF being ported


Tsunami modeling

Ocean modeling

29

5 days

4,8 hours

0

50

100

150

200

250

300

350

Intel Xeon (2.4 GHz) 1 Tesla 10-series GPU

Time

(mins)

Tsunami simulation 3000km x 3000km (500m mesh)

Source: Michalakes, VachharajaniOcean modeling

Several CFD codes

Source: Matsuoka, Akiyama, et al

Сотни приложений на CUDA Zone

Duke

Erlangen

ETH Zurich

Georgia Tech

Grove City College

Harvard

IISc Bangalore

IIIT Hyderabad

Northeastern

Oregon State

Pennsylvania

Polimi

Purdue

Santa Clara

Stanford

Stuttgart

50+ университетов преподают CUDA750+ научных трудов

NVIDIA: лидер в области вычислений на GPU

30+ CUDA GPU clusters

30

CUDA 1.0

CUDA 1.1

CUDA 2.0

IIIT Hyderabad

IIT

Illinois

INRIA

Iowa

ITESM

Johns Hopkins

Kent State

Kyoto

Lund

Maryland

McGill

MSU

North Carolina

Stuttgart

Suny

Tokyo

TU-Vienna

USC

Utah

Virginia

Washington

Waterloo

Western Australia

Williams College

Wisconsin

Yonsei

100 млн. GPU с CUDA25,000+ разработчиков

150 тыс. скачиваний CUDA SDK

Ссылки

CUDA Zone

http://www.nvidia.ru/cuda

Приложения, документы, видео

Teslahttp://www.nvidia.ru/tesla

31

http://www.nvidia.ru/tesla

Спецификации, технические и маркетинговые материалы

Вертикальные отраслевые решенияhttp://www.nvidia.com/object/vertical_solutions.html

YouTube Videoshttp://www.youtube.com/nvidiatesla

Вопросы?

32

Вопросы?

tesla&cuda for kpi event rus

Technology