nvidia hpc day kiev rus
DESCRIPTION
Решения для высокопроизводительных вычислений от NVIDIAОктябрь 2009TRANSCRIPT
1
Решения для высокопроизводительных
вычислений от NVIDIA
Октябрь 2009
2
4 ядра
Гетерогенные вычисления
Вычисления CPU + GPU
Гибридные вычислительные системы
3
Когда прирост производительности имеет значение?
1
10
100
1000
1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970
Sailships Steamships Airplanes
Ско
рость
в м
ил
ь/ч
ас
2003 2004
Shader Model 1 & 2
(63Mill / 130 Mill Transistors)
1995 1999 2002
Pixel Transfer
(1Mill / 22 Mill Transistors)
Пр
ои
звод
ите
льность
в G
Flo
ps
Shader Model 3 + GPGPU
(222 / 302 Mill Transistors)
Shader Model 4 + CUDA
(754Mill / 1.4 Bill / 3.0 Bill
Transistors)
2005 2006 2008 2010
Fermi
4
GPU : переломный момент в отрасли
суперкомпьютеров
Tesla Personal
Supercomputer$10,000
CalcUA$5 млн.
Источник: University of Antwerp, Belgium
67,4 сек
59,9 сек
55 60 65 70
256 AMD dual-core Opterons
4 TeslaC1060 GPUs
Компьютерная томография,время обработки
Десктоп эффективнее кластера
5
146X
Рентгенография,
томография
U of Utah
36X
Молекулярная
динамика
U of Illinois, Urbana
18X
Транскодирование
видео
Elemental Tech
50X
Математические
вычисления
AccelerEyes
100X
Астрофизика
RIKEN
149X
Финансовые
задачи
Oxford
47X
Линейная
алгебра
Universidad Jaime
20X
3D ультразвук
Techniscan
130X
Квантовая химия
U of Illinois, Urbana
30X
Генная
инженерия
U of Maryland
Прирост производительности до 150 раз
6
Compute Unified Device Architecture
Программно-аппаратная архитектура для
параллельных вычислений
7
Архитектура параллельных вычислений CUDA
ATI’s Compute “Solution”
Архитектура для
параллельных вычислений
Включает Си компилятор
Стандартные языки и API
8
CUDA. Факты.
900+ научных трудов
115+ университетов преподают
CUDA
60 тыс. разработчиков
200 млн. GPU с CUDA
www.NVIDIA.ru/CUDA
9
Life Sciences &
Medical Equipment
Productivit
y / Misc
Oil and
Gas EDA
Manufa
cturing Finance
CAE /
Numerics
Commun
ication
Max Planck
FDA
Robarts
Research
Medtronic
AGC
Evolved
machines
Smith-Waterman
DNA sequencing
AutoDock
NAMD/VMD
Folding@Home
Howard Huges
Medical
CRIBI Genomics
GE Healthcare
Siemens
Techniscan
Boston Scientific
Eli Lilly
Silicon
Informatics
Stockholm
Research
Harvard
Delaware
Pittsburg
ETH Zurich
Institute Atomic
Physics
CEA
WRF Weather
Modeling
OptiTex
Tech-X
Elemental Technologies
Dimensional Imaging
Manifold
Digisens
General Mills
Rapidmind
MS Visual
Studio
Rhythm & Hues
xNormal
Elcomsoft
LINZIK
Hess
TOTAL
CGG/Veritas
Chevron
Headwave
Acceleware
Seismic City
P-Wave
Seismic
Imaging
Mercury
Computer
ffA
Synopsys
Nascentric
Gauda
CST
Agilent
Renault
Boeing
Symcor
Level 3
SciComp
Hanweck
Quant
Catalyst
RogueWave
BNP Paribas
The
Mathworks
Wolfram
National
Instruments
Access
Analytics
Tech-x
RIKEN
SOFA
Nokia
RIM
Philips
Samsung
LG
Sony
Ericsson
NTT
DoCoMo
Mitsubishi
Hitachi
Radio
Research
Laboratory
US Air Force
Более 250 заказчиков / разработчиков ПО
10
TeslaTM
Высокопроизводительные вычисления
Quadro®
Дизайн, разработка
GeForce®
Развлечения
Параллельные вычисления на GPU200+ млн. GPU в мире поддерживают CUDA
11
Выбор CUDA платформы
Tesla Quadro GeForce
Стресс-тест с проверкой точности вычислений X
Произведено NVIDIA из высококачественных комплектующих X X
3-х летняя гарантия, корпоративная поддержка X X
4 Гб оперативной памяти для работы с большими объемами данных X X
Единое профессиональное решение для вычислений и графики X
Пользовательские приложения: PhysX, Video, Imaging X
Короткий жизненный цикл пользовательского продукта X
Производится и сопровождается партнерами NVIDIA X
Поддержка осуществляется через партнеров NVIDIA X
12
Вычислительные решения Tesla
Созданы для профессионалов.
13
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
GPU NVIDIA Tesla 10-й серии
14
Tesla: созданы для вычислений
3-х летняя гарантия
Длинный жизненный цикл
Корпоративная поддержка
Высококачественная память
Надежность вычислений
24-часовой стресс-тест
Системные решения Профессиональный уровень
Поддержка NVIDIA Вычислительные ресурсы
Архитектура вычислений CUDA
4 ГБ ОЗУ
двойная точность IEEE-754
15
Вычислительные решения Tesla
Tesla S1070 1U SystemTesla C1060
Computing Board
Tesla Personal
Supercomputer (4 Tesla C1060s)
GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs
Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops
Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops
Memory 4 GB / GPU 4 GB 4 GB / GPU
16
Tesla S1070: эффективное решение
До 20 раз лучше показатель
производительность/Ватт
Hess
Chevron
Petrobras
NCSA
CEA
TiTech
JFCOM
SAIC
Federal
Motorola
Kodak
University of Heidelberg
University of Illinois
University of North Carolina
Max Planck Institute
Rice University
University of Maryland
GusGus
Eotvas University
University of Wuppertal
Chinese Academy of Sciences
National Taiwan University
17
Пример: ЦОД стоимостью $5 млн.
CPU 1U Server CPU 1U Server
Tesla 1U System
6x more perf
2 Quad-core Xeon
CPUs: 8 cores
0.17 Teraflop (single)
0.08 Teraflop (double)
$ 3,000
700 W
1819 CPU servers
310 Teraflops (single)
155 Teraflops (double)
Total area 16K sq feet
Total 1273 KW
8 CPU Cores +
960 GPU Сores
4.14 Teraflops (single)
0.346 Teraflop (double)
$ 11,000
1500 W
455 CPU servers
455 Tesla systems
1961 Teraflops (single)
196 Teraflops (double)
Total area 9K sq feet
Total 682 KW
60% smaller
½ the power
18
Персональный суперкомпьютер Tesla
ПроизводительностьМассивно параллельная CUDA архитектура
960 ядер. 4 Терафлоп/с
В 250 раз мощнее ПК
УдобствоСуперкомпьютер на рабочем столе
Включается в обычную розетку
ДоступностьПрограммируется на Си под Windows и Linux
Стоимость порядка $10,000
19
$100K - $1MДоступность
Пр
ои
зв
од
ите
ль
но
сть
250x
< $10 K
Tesla
Personal
Supercomputer
Современный
ПК
1x
В 250 раз
быстрее
В 100 раз доступнее
В 20 раз экономичнее
Supercomputing
Cluster
20
Standard
Workstation
Supercomputing
Cluster
$100K - $1M
Доступность
Пр
ои
зв
од
ител
ьн
ость
250x
< $10 K
Tesla Personal
Supercomputer
1x
Tesla Cluster5000x
Высокопроизводительные вычисления на базе GPU
21
22
Медицинская техника
GE Healthcare : CT
40% increase in CT resolution
2x increase in frame rate
Techniscan: Ultra-sound
High resolution ultra-sound
2x increase in acquisition
Digisens : Tomography
Tomography reconstruction
Several others on
X-Ray, Flow Cytometry, MRI, etc
Source: Stone et al, UIUC
Source: Batenburg, Sijbers, et al
23
Digisens SnapCT: Визуализация результатов CT
24
SVI Pro 2009 is the first
application to accelerate 3D
seismic analysis through
parallel computation on multiple
GPUs.
Leading to performance gains
of up to 37x on workstation
hardware.
3D анализ данных сейсморазведки
25
3D анализ данных сейсморазведки / Mercury
26
Клиенты
GPU vs CPU
преимущества
Performance / Watt 18x - 27x 12x - 17x
Performance / Space 20x - 31x 15x - 20x
Performance / Cost 15x - 20x 10x - 12x
Oil & Gas ISVs
27
Финансы: оценка котировок
2 Tesla S1070 500 CPU Servers
2.8 kWatts 37.5 kWatts
$24 K $250 K
16x экономия места
13x меньше потребление
10x меньше стоимость
Одинаковая производительность1 1
28
Финансы: прогнозирование рынка в режиме РВ
Figures assume:
Tesla S1070 + one 8-core host server per node
$260 / U / month rack and power charges
3-year hardware amortization
Volera real-time option valuation engine
Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s
GPUs CPUs Savings
Processors 12 736
Rack Space 6U 92U 15x
Hardware Cost $36,000 $370,000 10x
Annual Cost $31,000 $390,000 13x
29
MATLAB: ускорение на GPU
Jacket CUDA plugin from
Accelereyes
http://www.accelereyes.com
15-day trail version avaiable
Tesla GPU in a workstation
For MATLAB and research 143x Speedup
86x Speedup
44x Speedup
30
Source: Stone, Phillips, Hardy, Schulten
Молекулярная динамика & квантовая химия
Available MD software
NAMD / VMD (alpha release)
GROMACS (alpha release)
HOOMD
OpenMM : Library for molecular
modeling https://simtk.org/home/openmm
Source: Anderson, Lorenz, TravessetSource: Ufimtsev, Martinez
31
Биоинформатика
62x Speedup
102x SpeedupAvailable applications
GPU HMMER
MUMmerGPU sequencing
MATLAB acceleration
Protein docking
32
33
Промышленность / FEA (Finite Element Analysis)
Сочетание визуализации и симуляции
Переход от сервера к рабочей станции(пример: CFD)
34
Новое поколение архитектуры GPU CUDA
“Fermi”
35
Обзор FermiСуперкомпьютер в формате GPU
3 млрд транзисторов
Вдвое больше ядер (512 ядер)
8-кратный прирост DP производительности
ECC
L1 и L2 кэш
Вдвое большая пропускная способность
памяти (GDDR5)
До 1Тб памяти на GPU
Конкурируещее исполнение кода, C++
DR
AM
I/F
HO
ST
I/F
Gig
a T
hre
ad
DR
AM
I/F
DR
AM
I/FD
RA
M I/F
DR
AM
I/FD
RA
M I/F
L2
36
“Oak Ridge National Lab (ORNL) has already announced it will be
using Fermi technology in an upcoming super that is "expected to
be 10-times more powerful than today's fastest supercomputer."
Since ORNL's Jaguar supercomputer, for all intents and purposes,
holds that title, and is in the process of being upgraded to 2.3
PFlops….
…we can surmise that the upcoming Fermi-equipped super is going
to be in the 20 Petaflops range.”
September 30 2009
37
Цель Fermi
Расширение круга
задач, решаемых с
помощью GPU
Больше
пользователей и
приложений для GPU
DR
AM
I/F
HO
ST
I/F
Gig
a T
hre
ad
DR
AM
I/F
DR
AM
I/FD
RA
M I/F
DR
AM
I/FD
RA
M I/F
L2
38
Архитектура SM
Register File
Scheduler
Dispatch
Scheduler
Dispatch
Load/Store Units x 16
Special Func Units x 4
Interconnect Network
64K Configurable
Cache/Shared Mem
Uniform Cache
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Instruction Cache
32 CUDA ядра в SM (512 ядер всего)
8-и кратный прирост пиковой
производительности в операциях с
плавающей точкой
50% от пиковой производительности
вычислений с одинарной точностью
Два менеджера потоков
64 KB RAM общей памяти и L1 кэш
(конфигурируемый)
39
Архитектура ядра CUDA
Register File
Scheduler
Dispatch
Scheduler
Dispatch
Load/Store Units x 16
Special Func Units x 4
Interconnect Network
64K Configurable
Cache/Shared Mem
Uniform Cache
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Core
Instruction Cache
CUDA CoreDispatch Port
Operand Collector
Result Queue
FP Unit INT Unit
Поддержка стандарта IEEE 754-2008,
недоступного на современных CPU
FMA(Fused multiply-add) операции
как для операций с одинарной так
и с двойной точностью
Новый ALU оптимизированный
для 64-битных операций и
операций с повышенной точностью
40
Иерархический кэш
Первая архитектура GPU поддерживающая
иерархический кэш в сочетании с разделяемой
памятью на GPU
L1 в каждом SM (32 ядра)
Улучшение пропускной способности и снижение
латентности
Унифицированный L2 кэш (768 KB)
Позволяет эффективно общаться всем ядрам GPU
DR
AM
I/F
Gig
a T
hre
ad
HO
ST
I/F
DR
AM
I/F
DR
AM
I/FD
RA
M I/F
DR
AM
I/FD
RA
M I/F
L2
Parallel DataCache™
Memory Hierarchy
41
Быстрый интерфейс памяти
GDDR5 интерфейс памяти
2-кратный прирост vs GDDR3
Поддержка до 1Тб памяти на GPU
Для работы с большими наборами данных
DR
AM
I/F
Gig
a T
hre
ad
HO
ST
I/F
DR
AM
I/F
DR
AM
I/FD
RA
M I/F
DR
AM
I/FD
RA
M I/F
L2
42
ECC
ECC защита для
DRAM
ECC поддержка для GDDR5 памяти
Все внутренняя памяти защищена ECC
Файл регистров, L1 кэш, L2 кэш
43
GigaThreadTM Hardware Thread Scheduler (HTS)
Аппаратный менеджер потоков
Одновременно управляет
тысячами активных потоков
В 10 раз более быстрое
переключение между контекстами
Одновременное исполнение
нескольких кернелов
HTS
44
Аппаратный менеджер потоков GigaThread
Одновременное исполнение нескольких кернелов + быстрое переключение контекста
Последовательное исполнение Параллельное исполнение
Tim
e
Kernel 1 Kernel 1 Kernel 2
Kernel 2 Kernel 3
Kernel 3
Ker
4
nelKernel 5
Kernel 5
Kernel 4
Kernel 2
Kernel 2
45
Схема передачи данных GigaThread
2 DMA устройства
Одновременная передача данных
CPUGPUи GPUCPU
Передача независит от счета на CPU и
GPU
Схема работы:
SDT
Kernel 0
Kernel 1
Kernel 2
Kernel 3
CPU
CPU
CPU
CPU
SDT0
SDT0
SDT0
SDT0
GPU
GPU
GPU
GPU
SDT1
SDT1
SDT1
SDT1
46
Расширенная поддержка со стороны ПО
Полная поддержка C++
Виртуальные функции
Метки
Поддержка системных вызовов
Поддержка С пайпов, семафоров, printf и тд
Унифицированное 64-битное адресное пространство памяти
47
GPU Computing Applications
Параллельная архитектура CUDA
NVIDIA GPUwith the CUDA Parallel Computing Architecture
C OpenCLtm Direct
ComputeFortran
Java and Python
OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.
C++
48
NVIDIA Nexus IDE
Ускорение разработки
гетерогенных (CPU + GPU) приложений
1-й в индустрии IDE (Integrated Development Environment) для
массивно-параллельных приложений
Полная интеграция со средствами
разработки Visual Studio
49
50
I believe history will record Fermi as a significant
milestone.“”
Dave PattersonDirector Parallel Computing Research Laboratory, U.C. BerkeleyCo-Author of Computer Architecture: A Quantitative Approach
Fermi surpasses anything announced by NVIDIA's
leading GPU competitor (AMD).“”
Tom HalfhillSenior Editor
Microprocessor Report
51
Fermi is the world’s first complete GPU computing
architecture.“”
Peter GlaskowskyTechnology AnalystThe Envisioneering Group
The convergence of new, fast GPUs optimized for computation as
well as 3-D graphics acceleration and industry-standard software
development tools marks the real beginning of the GPU computing
era. Gentlemen, start your GPU computing engines.
Nathan BrookwoodPrinciple Analyst & Founder
Insight 64
”“
52
Экосистема CUDA
Приложения Библиотеки
FFTBLAS
LAPACKImage processingVideo processingSignal processing
Vision
Консалтинг OEM
Языки
C, C++DirectXFortranJava
OpenCLPython
Компиляторы
PGI FortranCAPs HMPP
MCUDAMPI
NOAA Fortran2COpenMP
UIUCMIT
HarvardBerkeley
CambridgeOxford
…
IIT DelhiTsinghua
DortmundtETH Zurich
MoscowNTU…
Более 115 университетов преподают CUDA
ANEO
GPU Tech
Oil & Gas Finance
Medical Biophysics
Numerics
Imaging
CFD
DSP EDA
53
Ссылки
Fermihttp://www.nvidia.ru/fermi
CUDA Zone
http://www.nvidia.ru/cuda
Приложения, документы, видео
Teslahttp://www.nvidia.ru/tesla
Спецификации, технические и маркетинговые материалы
Вертикальные отраслевые решенияhttp://www.nvidia.com/object/vertical_solutions.html
YouTube Videoshttp://www.youtube.com/nvidiatesla
54
Вопросы?