tesla&cuda for kpi event rus
TRANSCRIPT
1
Решения для высокопроизводительных вычислений от NVIDIA.
Апрель 2009
GPU NVIDIA : постоянное увеличение производительности
800
1000
1200
GFlops
NVIDIA GPU
Intel CPU
G9x
T10T10 = Tesla 10-seriesG9x = GeForce 9800 GTXG80 = GeForce 8800 GTXG71 = GeForce 7900 GTXG70 = GeForce 7800 GTXNV40 = GeForce 6800 Ultra
Добавлена двойная точность
2
0
200
400
600
22.09.2002 04.02.2004 18.06.2005 31.10.2006 14.03.2008
G71
G80G9x
Intel Xeon Quad-core 3 GHz
NV30 NV35 NV40G70
NV40 = GeForce 6800 UltraNV35 = GeForce FX 5950 UltraNV30 = GeForce FX 5800
Вычисления на GPU
3
4 cores
Вычисления CPU + GPUГибридные вычислительные системы
GPU : переломный момент в отрасли суперкомпьютеров
59,9 сек4 Tesla
C1060 GPUs
Десктоп эффективнее кластера
4
Tesla Personal Supercomputer
$10,000
CalcUA$5 млн.
Источник: University of Antwerp, Belgium
67,4 сек
55 60 65 70
256 AMD dual-core Opterons
Компьютерная томография,время обработки
146X
Рентгенография, Рентгенография, томографиятомография
U of UtahU of Utah
36X
Молекулярная Молекулярная динамикадинамика
U of Illinois, UrbanaU of Illinois, Urbana
18X
ТранскодированиеТранскодирование
видеовидео
Elemental TechElemental Tech
50X
Математические Математические вычислениявычисления
AccelerEyesAccelerEyes
100X
АстрофизикаАстрофизика
RIKENRIKEN
Прирост производительности до 150 раз
5
149X
Финансовые Финансовые задачизадачи
OxfordOxford
47X
Линейная Линейная алгебраалгебра
Universidad Jaime
20X
3D 3D ультразвукультразвук
TechniscanTechniscan
130X
Квантовая химияКвантовая химияU of Illinois, UrbanaU of Illinois, Urbana
30X
Генная Генная инженерияинженерия
U of MarylandU of Maryland
6
Compute Unified Device Architecture
Программно-аппаратная архитектура для параллельных вычислений
Архитектура параллельных вычислений CUDA
Архитектура для параллельных вычислений
Включает Си компилятор
7
ATI’s Compute “Solution”
Включает Си компилятор
Стандартные языки и API
CUDA. Факты.
750+ научных трудов
100+ университетов преподают
CUDA
8
CUDA
25 тыс. разработчиков
100 млн. GPU с CUDA
www.NVIDIA.ru/CUDA
Life Sciences &
Medical EquipmentProductivit
y / MiscOil and
Gas EDAManufacturing Finance
CAE /
NumericsCommunication
Max Planck
FDA
Robarts
Research
Medtronic
AGC
GE Healthcare
Siemens
Techniscan
Boston Scientific
Eli Lilly
Silicon
CEA
WRF Weather
Modeling
OptiTex
Tech-X
Elemental
Hess
TOTAL
CGG/Veritas
Chevron
Headwave
Acceleware
Synopsys
Nascentric
Gauda
CST
Agilent
Renault
Boeing
Symcor
Level 3
SciComp
Hanweck
Quant
Catalyst
The
Mathworks
Wolfram
National
Instruments
Access
Nokia
RIM
Philips
Samsung
LG
Sony
Более 250 заказчиков / разработчиков ПО
9
AGC
Evolved
machines
Smith-Waterman DNA sequencing
AutoDock
NAMD/VMD
Folding@Home
Howard Huges
Medical
CRIBI Genomics
Silicon
Informatics
Stockholm
Research
Harvard
Delaware
Pittsburg
ETH Zurich
Institute Atomic
Physics
Elemental Technologies
Dimensional Imaging
Manifold
Digisens
General Mills
Rapidmind
MS Visual
Studio
Rhythm & Hues
xNormal
Elcomsoft
LINZIK
Acceleware
Seismic City
P-Wave
Seismic
Imaging
Mercury
Computer
ffA
Catalyst
RogueWave
BNP Paribas
Access
Analytics
Tech-x
RIKEN
SOFA
Sony
Ericsson
NTT
DoCoMo
Mitsubishi
Hitachi
Radio
Research
Laboratory
US Air Force
TeslaTM
Высокопроизводительные вычисления
Quadro®
Дизайн, разработка
GeForce®
Развлечения
Параллельные вычисления на GPU100+ млн. GPU в мире поддерживают CUDA
10
Выбор CUDA платформы
Tesla Quadro GeForce
Стресс-тест с проверкой точности вычислений X
Произведено NVIDIA из высококачественных комплектующих X X
3-х летняя гарантия, корпоративная поддержка X X
4 Гб оперативной памяти для работы с большими объемами данных X X
11
4 Гб оперативной памяти для работы с большими объемами данных X X
Единое профессиональное решение для вычислений и графики X
Пользовательские приложения: PhysX, Video, Imaging X
Короткий жизненный цикл пользовательского продукта X
Производится и сопровождается партнерами NVIDIA X
Поддержка осуществляется через партнеров NVIDIA X
Вычислительные решения Tesla
12
Созданы для профессионалов.
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
GPU NVIDIA GPU NVIDIA Tesla Tesla 1010--йй сериисерии
13
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
Tesla: созданы для вычислений
Высококачественная память
Надежность вычислений
24-часовой стресс-тест
Системные решения Профессиональный уровень
14
3-х летняя гарантия
Длинный жизненный цикл
Корпоративная поддержка
Поддержка NVIDIA Вычислительные ресурсы
Архитектура вычислений CUDA
4 ГБ ОЗУ
двойная точность IEEE-754
Вычислительные решения Tesla
15
Tesla S1070 1U SystemTesla C1060
Computing Board
Tesla Personal Supercomputer (4 Tesla C1060s)
GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs
Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops
Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops
Memory 4 GB / GPU 4 GB 4 GB / GPU
Tesla S1070: эффективное решение
До 20 раз лучше показательпроизводительность/Ватт
Hess University of Heidelberg
16
Hess
Chevron
Petrobras
NCSA
CEA
TiTech
JFCOM
SAIC
Federal
Motorola
Kodak
University of Heidelberg
University of Illinois
University of North Carolina
Max Planck Institute
Rice University
University of Maryland
GusGus
Eotvas University
University of Wuppertal
Chinese Academy of Sciences
National Taiwan University
Пример: ЦОД стоимостью $5 млн.
CPU 1U Server CPU 1U Server
Tesla 1U System
2 Quad-core Xeon CPUs: 8 cores
0.17 Teraflop (single)0.08 Teraflop (double)
$ 3,000
700 W
8 CPU Cores +960 GPU Сores
4.14 Teraflops (single)0.346 Teraflop (double)
$ 11,000
1500 W
17
6x more perf
1819 CPU servers
310 Teraflops (single)
155 Teraflops (double)
Total area 16K sq feet
Total 1273 KW
455 CPU servers455 Tesla systems
1961 Teraflops (single)
196 Teraflops (double)
Total area 9K sq feet
Total 682 KW
60% smaller
½ the power
3 GPUs3 GPUs
Korea University ofIllinois
2 GPUs
Исследователи всего мира строят станции на основе GPU
18
8 GPUs
16 GPUsUniversity of
Antwerp,Belgium
University ofCambridge, UK
Персональный суперкомпьютер Tesla
ПроизводительностьМассивно параллельная CUDA архитектура
960 ядер. 4 Терафлоп/с
В 250 раз мощнее ПК
Удобство
19
УдобствоСуперкомпьютер на рабочем столе
Включается в обычную розетку
ДоступностьПрограммируется на Си под Windows и Linux
Стоимость порядка $10,000
Производительность
250xTesla
PersonalSupercomputer
В 250 раз
В 100 раз доступнееВ 20 раз экономичнее
SupercomputingCluster
20
$100K - $1MДоступность
Производительность
< $10 K
Современный
ПК
1x
В 250 разбыстрее
Cluster
Производительность
250x
Tesla PersonalSupercomputer
Tesla Cluster5000x
Высокопроизводительные вычисления на базе GPU
21
Standard Workstation
SupercomputingCluster
$100K - $1M
Доступность
Производительность
250x
< $10 K
1x
Примеры приложений с поддержкой CUDA
22
Примеры приложений с поддержкой CUDA
Увеличение скорости вычислений
4.6 Days2.7 Days
8 Hours
3 Hours
23
27 Minutes30 Minutes
13 Minutes16 Minutes
CPU Only With GPU
Финансовые задачи
31,1 secs
0,4 secs 0,25 secs0
5
10
15
20
25
30
35
Intel Xeon (2.6 GHz)
1 Tesla C1060 2 Tesla C1060s
Time
(secs)Derivative Pricing using
SciFinanceДоступное ПО с поддержкой CUDA
SciComp : Derivatives pricing modeling
Hanweck: Options pricing & risk analysis
Aqumin: 3D visualization of market data
Exegy: High-volume Tickers & Risk Analysis
QuantCatalyst: Pricing & Hedging EngineSource: SciComp
24
164 491
2116
5132
0
1000
2000
3000
4000
5000
6000
Mersenne Twister DR + Box-Mueller (MKL)
LRAND48
Million
Samples
per sec
100x faster Random Number Generators for Monte Carlo Simulations
Intel Xeon Quad-Core (3.0 GHz)Tesla C1060
Source: CUDA SDK
QuantCatalyst: Pricing & Hedging Engine
Oneye: Algorithmic Trading
Arbitragis Trading: Trinomial Options Pricing
Разрабатываемое ПО
LIBOR Monte Carlo market model
Callable Swaps and Continuous Time Finance
Source: SciComp
0,89
241
0
50
100
150
200
250
300
Intel QX6700 quad-core w/
SSE
4 GPUs (Tesla 10-series)
Bil
lio
n E
va
lua
tio
ns
/ se
c Ion Placement in VMD
271xFaster
Source: Stone, Phillips, Hardy, Schulten
Молекулярная динамика
Доступное ПО
NAMD / VMD (alpha release)
HOOMD
ACE-MD
MD-GPU
25
0
100
200
300
400
500
600
N=24,300 N=64,017 N=125,010Tim
e s
tep
s ca
lcu
late
d /
se
c
Number of Particles
Lennard-Jones Liquid Modelon LAMMPs vs HOOMD
16 AMD Opteron 280s1 GPU (Tesla 8-series)
Source: Stone, Phillips, Hardy, SchultenMD-GPU
ПО в разработке
LAMMPS
CHARMM
GROMACS
AMBER
Source: Anderson, Lorenz, Travesset
4.4 secs
1.1 mins
4.7 mins 5.5 mins 12.5 mins
0,2 secs
1,2 secs4,5 secs 5,7 secs 8,1 secs
0,1
1
10
100
1000
Caffeine Cholesterol Taxol Buckyball Valinomycin
Tim
e (
Log
-sca
le)
GAMESS on Intel Pentium D (3.0 GHz)vs CUDA code on Tesla 8-Series GPU
Квантовая химия
Source: Ufimtsev, Martinez
Доступное ПО
NAMD / VMD (alpha release)
HOOMD
ACE-MD
MD-GPU
26
2.8 mins
8 mins
4 mins
9.9 mins
21,6 secs 32,0 secs 36,1 secs 64,5 secs
0
100
200
300
400
500
600
700
Taxol/ LSDA/ 3-21G
Taxol/ PW91/ 6-
31G
Valinomycin/ LSDA/ 3-21G
Valinomycin/ PW91/ 6-
31G
Time
(secs)
Coulomb Potential EvaluationGaussian 03 on Intel Pentium (2.4 GHz)vs CUDA code on 1 Tesla 8-Series GPU
Source: Yasuda
MD-GPU
ПО в разработке
LAMMPS
CHARMM
Q-Chem
Gaussian
Гидро- и газодинамика
0,9 0,6 0,6 0,5
24
38
48
54
0
10
20
30
40
50
60
128x32 x128
256x32 x256
512x32 x512
1024x32 x1024
Gflops Incompressible Navier-Stokes
AMD Opteron 2.4 GHz1 Tesla C8702 Tesla C870s4 Tesla C870s
ПО в разработке
Navier-Stokes
Lattice Boltzman
3D Euler Solver
Weather and ocean modeling
27
x128 x256 x512 x1024
4,8 7,641,3
592
0
100
200
300
400
500
600
700
Intel Xeon (3.4 GHz)
Intel Itanium 2 (1.4 GHz)
NEC SX6+ (565 MHz)
NVIDIA GeForce
8800 Ultra
Million
Lattice
Updates
per
Sec
(MLUPs)
Lattice Boltzman Methods for 128x128 Mesh Size
Source: Thibault, Senocak
Source: Tolke, Krafczyk
Weather and ocean modeling
Электромагнетизм / Электродинамика
500,0 Mcells/s
300
400
500
600
Speed
Mcells/s
Cell Phone Model SimulationSimulation size : 80 Mcells
Доступное ПО
Acceleware
EM Photonics
CUDA Tutorial
ПО в разработке
28
9,9 Mcells/s
0
100
200
300
Intel Xeon (2.6 GHz) 4 GPUs (Tesla 8-series)
FDTD Acceleration using GPUsSource: Acceleware
ПО в разработке
Maxwell equation solver
Ring Oscillator (FDTD)
Particle beam dynamics simulator
Моделирование погоды, атмосферы, океана
1 315 Mflops/s
1 616 Mflops/s
64 728 Mflops/s
0
10000
20000
30000
40000
50000
60000
70000
Intel Xeon (3.0 GHz)
AMD Opteron (2.4 GHz)
1 Tesla 10-series GPU
Mflops/s
WSM5 Micro-Physics Kernel in WRF
Доступное ПО
Other kernels in WRF being ported
ПО в разработке
Tsunami modeling
Ocean modeling
29
5 days
4,8 hours
0
50
100
150
200
250
300
350
Intel Xeon (2.4 GHz) 1 Tesla 10-series GPU
Time
(mins)
Tsunami simulation 3000km x 3000km (500m mesh)
Source: Michalakes, VachharajaniOcean modeling
Several CFD codes
Source: Matsuoka, Akiyama, et al
Сотни приложений на CUDA Zone
Duke
Erlangen
ETH Zurich
Georgia Tech
Grove City College
Harvard
IISc Bangalore
IIIT Hyderabad
Northeastern
Oregon State
Pennsylvania
Polimi
Purdue
Santa Clara
Stanford
Stuttgart
50+ университетов преподают CUDA750+ научных трудов
NVIDIA: лидер в области вычислений на GPU
30+ CUDA GPU clusters
30
CUDA 1.0
CUDA 1.1
CUDA 2.0
IIIT Hyderabad
IIT
Illinois
INRIA
Iowa
ITESM
Johns Hopkins
Kent State
Kyoto
Lund
Maryland
McGill
MSU
North Carolina
Stuttgart
Suny
Tokyo
TU-Vienna
USC
Utah
Virginia
Washington
Waterloo
Western Australia
Williams College
Wisconsin
Yonsei
100 млн. GPU с CUDA25,000+ разработчиков
150 тыс. скачиваний CUDA SDK
Ссылки
CUDA Zone
http://www.nvidia.ru/cuda
Приложения, документы, видео
Teslahttp://www.nvidia.ru/tesla
31
http://www.nvidia.ru/tesla
Спецификации, технические и маркетинговые материалы
Вертикальные отраслевые решенияhttp://www.nvidia.com/object/vertical_solutions.html
YouTube Videoshttp://www.youtube.com/nvidiatesla
Вопросы?
32
Вопросы?