la evolución del sistema que está cambiando el mundo hpc (high performance computing)

NVIDIA® Quadro y Tesla

Soluciones para Profesionales

Análisis de Beneficios

Steve Harpster

Solutions Architect

[email protected]

XXIV Congreso de Telecomunicaciones

Octubre, 2009

XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009

mailto:[email protected]

© NVIDIA Corporation 2008 NVIDIA Restricted Confidential 2

NVIDIA HoyLíder de mundo en tecnologías visuales y cómputo de GPU

$4.1mil millones en ingresos FY08

Mas que 5,400 empleados

U$1.6 mil millones investigación y desarrollo en los 3 años pasados



Tesla®

Descubra y cómputo

Quadro®

Creación de contenidos digitales

GeForce®

Experiencia



Familias de GPU NVIDIA

3D Técnico Central

2D Profesional Servidor Corporativo

Quadro SDIQuadro G-SyncQuadro PlexMiddleware

NVIDIA Quadro NVS

NVIDIA Quadro FX

Soluciones Industriales

Consumidores:Entretenimiento

ProfesionalesDiseño & Creación:

Profesionales:HPC



NVIDIA Professional Market Solutions

NVIDIA SLI

NVIDIA HD SDI

NVDIA G-Sync

Movil/PC Portatil

Blades de Escritorio Remoto

PC de Escritorio

Servidores Gráficos Remotos

Power Desk Side



Canalización (Pipeline) de vídeo Digital con QuadroQuadro Digital Video pipeline

Transmisión y vídeo digital

Producción de película, postproducción

y acabado de cine

Mercados de nuevos medios



Estudio virtual de Transmisión (Broadcast)“Confiamos en las soluciones video digital de NVIDIA Quadro para entregar formatos del SD y de HD en una sola solución barata… dando a nuestros clientes los gráficos en tiempo real más rápidos con calidad.”

-- Paul Lacombe, President, Brainstorm

Images Courtesy of Brainstorm & Accuweather Images Courtesy of Brainstorm & NBC Universal



Live Broadcast- Transmisión en vivo

Images Courtesy of SportVision, NBC & IOC

“NVIDIA Quadro entregan la plataforma con la más de alta calidad y más confiable de la industria para producir efectos virtuales en tiempo real en transmisiones en vivo.”

-- Marv White, CTO SportVision



NVIDIA® Quadro® Digital Video Pipeline La primera solución basada en la GPU y integrada completamente

SISTEMA

QuadroSDI Salida

CPU

QuadroSDI Captura

API/Driver UnificadoGráficos(OGL & D3D): Captura, Proceso, Salida SDI VideoComputando (OGL, D3D, C, Open CL): procese la imagen

Beneficios- Envia vídeo

directamente a la memoria GPU

- Latencia es menos

- La utilización de la CPU es menos

- Drivers de un único proveedor

Quadro GPUCálculo y Gráficos

Memoria

SDI Video



Quadro Digital Video Pipeline in Broadcast

SYSTEM

CPUMemoria

HD-SDI

Transfiere PCIe

HD-SDI

Transfiere DVI

Images Courtesy of SportVision & MLBXXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009


Quadro SDI CapturaCaptura de vídeo SDI directamente a Quadro GPU

Ruta más rápido para la vídeo captura a la memoria de Quadro GPUCaptura todos los formatos de vídeo SDI SMPTELa única solución para la captura de hasta 4 señales SDI4 Single Link, 2 Dual Link, 2 3G-SDI Single Link, 1 3G-SDI Dual Link

Conector de BNCCompatible con Quadro FX 5800,

4800, and 3800



Quadro SDI Output (Salida)Gráficos-a-Vídeo directamente desde Quadro

Compatible con formatos SD,HD,2K SDI SMPTE 2 conectores de BNC (75 Ohm)

2 Single link, 1 Dual link

Compatible con Quadro FX 5800, 4800, and 3800



Servicios de “streaming vídeo” de Internet en vivo


http://www.cnn.com/

http://www.nfl.com/

http://web.mlsnet.com/index.jsp

http://web.mlsnet.com/index.jsp

http://images.google.com/imgres?imgurl=http://1.bp.blogspot.com/_Nb8DOoLyFwk/R1TVOZylFqI/AAAAAAAAE4Q/Gkg9873chl8/s400/yahoo_logo.jpg&imgrefurl=http://salaswildthoughts.blogspot.com/2007_12_01_archive.html&usg=__ryEO-F_Bejpf5jQwzlmLQM9xeNg=&h=245&w=350&sz=8&hl=en&start=1&sig2=1LXO58F8v4NYAv5DMyeDzw&tbnid=uYy64vIcgi1yXM:&tbnh=84&tbnw=120&ei=t-u3SeXqDpKMsQObuqnzAQ&prev=/images?q=yahoo+logo&gbv=2&hl=en

http://images.google.com/imgres?imgurl=http://www.searchviews.com/wp-content/themes/clean-copy-full-3-column-1/images/google-logo.jpg&imgrefurl=http://www.searchviews.com/index.php/archives/2008/04&usg=__5t6gL7bt6BJM52wn0ITyb6fEh1Q=&h=478&w=1197&sz=204&hl=en&start=1&sig2=IVNjRpA330Mb-UXFrl_u_w&tbnid=ylwf-XkJVe34QM:&tbnh=60&tbnw=150&ei=yuu3Sb6FOpngsAOWh83tAQ&prev=/images?q=google&gbv=2&hl=en

http://images.google.com/imgres?imgurl=http://www.uni-graz.at/~pommer/NBC.png&imgrefurl=http://www.uni-graz.at/~pommer/links.html&usg=__2zEl13Z5B36jbeko7OvCLoytMmo=&h=432&w=432&sz=9&hl=en&start=1&sig2=zIXBgBTcRQZQhl8EZwyCJg&tbnid=7Mwks257edbe0M:&tbnh=126&tbnw=126&ei=2-u3ScaCPJngsAOpiO3tAQ&prev=/images?q=nbc&gbv=2&hl=en

http://images.google.com/imgres?imgurl=http://odeo.com/uploads/0010/9209/weather_new_logo.jpg&imgrefurl=http://odeo.com/episodes/23715484-Baltimore-MD-5-day-Forecast-from-The-Weather-Channel-Sat-06-Dec-2008-17-05-00-EDT&usg=__2q4gQyOjJiwEoEPHkWIqJWvcmzs=&h=384&w=406&sz=126&hl=en&start=5&sig2=4vMrw4uyP_OVxM1Puj3hOQ&tbnid=8M056G-vXFj70M:&tbnh=117&tbnw=124&ei=7-u3SanCKJngsAPKisnvAQ&prev=/images?q=weather+channel&gbv=2&hl=en

http://images.google.com/imgres?imgurl=http://www.paul-rand.com/assets/gallery/identity/logo_abc_large.jpg&imgrefurl=http://www.paul-rand.com/identity.shtml&usg=__o1q2J-u1tgyai4aPm-2sthSzzWQ=&h=805&w=801&sz=46&hl=en&start=6&sig2=EwzHAFgyC2kB-qUrofX40Q&tbnid=BDZKR1uxDIkYSM:&tbnh=143&tbnw=142&ei=Cu23SdHcCI6qsAOGp-DxAQ&prev=/images?q=abc&gbv=2&hl=en

http://images.google.com/imgres?imgurl=http://watersecretsblog.com/archives/DirectTV_Logo-778572.jpg&imgrefurl=http://watersecretsblog.com/archives/2008/07/direct_tv_takes.html&usg=__MA0Mk13AR8MAtGesRMntnVWArcU=&h=495&w=775&sz=49&hl=en&start=1&sig2=WcKh2TAUWEXG-Ymy0akRXQ&tbnid=I5trYUrT-LX7nM:&tbnh=91&tbnw=142&ei=ke23SYuNLYm0sAO099npAQ&prev=/images?q=direct+tv&gbv=2&hl=en


2002 2003 2004 2006 2007 20082005 2009 2010

Mejor rendimiento puro con la GPU que la CPU.

GPUNVIDIA Quadro FX 5800240 núcleos933 GFLOPS

CPUIntel Core i7 965

4 núcleos102 GFLOPS

CPU

GPU



Codificadores son la puerta de enlace a servicios nuevos de MultiMedia

SISTEMA

CPU

h.264

Memoria

Mejor rendimiento puro con la GPU que la CPU

HD-SDI

TransfierePCIe



Soluciones Profesionales NVIDIA

80% de Participación Global en el mercado de Gráficos Profesionales

La GPU Profesional de Elección para:

CAD/CAM

80%

DCC

90%

WS de Finanzas 85%

Visualización Petrolera

60%

Simulación Visual 75%Aprende de Quadro & AutoCAD y Adobe - www.nvidia.com/builtforpros


http://www.nvidia.com/builtforpros


Liderazgo en Certificación ISV de Workstations Quadro FX



Familia Unificada de Quadro WS DT

NVIDIA Quadro FX 380



FX 580 FX 1800+ 2x Frame Buffer ( to 512MB)+ HD Video Connector (FX 1700 only)+ 1.3x Performance

FX 380 FX 580+ 2x DP + Dual Dual Link DVI+ 1.3x Performance


FX 1900 FX 3800+ 3pin Stereo Connector+ SLI+ 1.3X Performance

FX 4800 FX 5800( 4GB)+ SDI/Genlock/Framelock+ 2x DVI, 1x DP

FX 3800 FX 4800+ (1.5GB)+ SDI/Genlock/Framelock+ 2x DP, 1x DVI

Ult

ra A

lto

Niv

el

Alt

o N

ive

lR

an

go

-M

ed

ioE

ntr

ad

a

*ESP as of 2/12/08 from www.Pricegrabber.com

FX 380256 MB Frame BufferDual Dual Link DVI

Quadro FX 4800

Quadro FX 5800


Productos NVIDIA Tesla Serie 10



Porque usa la GPU por computación

El modelo para computar de GPU es utilizar una CPU y un GPU junto en un modelo que computa heterogéneo.

La parte secuencial del aplicaciones funciona en la CPU y la parte computa muy intenso, funciona en el GPU.

De la perspectiva del usuario, el uso funciona más rápidamente porque está utilizando el rendimiento mas alto del GPU para alzar funcionamiento.

CUDA es una arquitectura de cómputo paralelo para fines generales que aprovecha el motor de cómputo paralelo de las unidades de procesamiento gráfico (GPU) para resolver muchos de los problemas de cómputo más complejos en una fracción del tiempo requerido por la CPU.

Cores = núcleos



1,400 millones de transistores

1 TeraFLOP de poder de procesamiento

240 núcleos

El procesador Tesla Serie 10

Procesador CUDA de NVIDIA de segunda generaciónXXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009


.

Las aplicaciones en las áreas de electromagnetismo y electrodinámica utilizando GPU compatibles con CUDA se han implementado ampliamente en clientes como Motorola, Kodak, Nokia, etc. Por ejemplo, como muestran los gráficos, la aceleración de FDTD basada en la GPU se escala con el número de GPU



Hay varios proyectos en marcha encaminados a

acelerar códigos de química cuántica

utilizando GPUs con CUDA, lo que incluye

trabajos con Gaussian y GAMESS. Los gráficos

siguientes muestran los resultados más

representativos, seguidos de enlaces con aplicaciones y

publicaciones técnicas relativas al uso de CUDA

en química computacional.

l.

Hay varios proyectos en marcha encaminados a acelerar códigos de química cuántica utilizando GPUs con CUDA, lo que incluye trabajos con Gaussian y GAMESS. Los gráficos siguientes muestran los resultados más representativos, seguidos de enlaces con aplicaciones y publicaciones técnicas relativas al uso de CUDA en química computacional.



En la actualidad se está trabajando para utilizar código CUDA en aplicaciones de valoración de derivados, análisis de riesgos y trading algorítmico. A continuación presentamos los resultados de este trabajo junto con algunos gráficos representativos sobre generadores de números aleatorios y simulaciones Montecarlo.

Generadores de números aleatorios en el SDK de

CUDA

Valoración basada en

simulaciones Montecarlo

con SciFinance



Reconocimiento de imagen, procesamiento de señales y minería de datos (Data Mining) son aplicaciones perfectas para el cálculo de GPU.

“Hemos conseguido una aceleración de 75X con CUDA y Tesla sobre un 2,83 GHz Intel Core2”

Procesamiento de señales



Hay varios proyectos en marcha encaminados a acelerar códigos de química cuántica utilizando GPUs con CUDA, lo que incluye trabajos con Gaussian y GAMESS. Los gráficos siguientes muestran los resultados más representativos, seguidos de enlaces con aplicaciones y publicaciones técnicas relativas al uso de CUDA en química computacional.

Las aplicaciones de mecánica de fluidos para el cálculo de modelos climatológicos y oceánicos, como el modelo WRF (Weather Research and Forecasting), y las simulaciones de maremotos han experimentado avances extraordinarios que permiten acelerar su ejecución y sus niveles de precisión.


http://www.wrf-model.org/







146X

Imágenes MédicasU of Utah

36X

Dinámica Molecular

U of Illinois, Urbana

18X

Transcodificación de Video

Elemental Tech

50X

Cómputo MATLABAccelerEyes

100X

AstrofísicaRIKEN

149X

Simulación financiera

Oxford

47X

Álgebra LinearUniversidad

Jaime

20X

3D UltrasonidoTechniscan

130X

Química CuanticaU of Illinois, Urbana

30X

Secuencia Genetica

U of Maryland

Incrementos en Rendimiento de 20x hasta 150x!



Procesador 1 x Tesla T10

Núcleos 240

Velocidad de Reloj

1.296 GHz

Rendimiento de Punto Flotante

933 GFlops Precisión Sencilla

78 GFlops Precisión Doble

Memoria 4.0 GB

Ancho de Banda

102 GB/sec máximo

I/O de Memoria512-bit, 800MHz GDDR3

TamañoFull ATX: 4.736” x

10.5”Dual slot wide

I/O de Sistema PCIe x16 Gen2

Uso de Energía 160 W

Procesador de Cómputo Tesla C1060



TeslaS1070

Servidor anfitrión

Tarjetas de Interfáz PCIe en servidor

CablesPCIe Gen2

Tarjeta de Interfáz de servidor PCIe

Gen2

Cable PCIe Gen2(0.5m largo)

Conectando Tesla S1070 a Servidor Anfitrión



Ciencias biológicas y equipos médicos

Productividad/ Misc

Exploración de petróleo

y gas EDA FinanzasCAE /

MatemáticoComunica-

ción

Max Planck

FDA

Robarts Research

Medtronic

AGC

Evolved machines

Smith-Waterman DNA

sequencing

AutoDock

NAMD/VMD

Folding@Home

Howard Hughes MedicalCRIBI

Genomics

GE Healthcare

Siemens

Techniscan

Boston Scientific

Eli Lilly

Silicon Informatics

Stockholm Research

Harvard

Delaware

Pittsburg

ETH Zurich

Institute Atomic Physics

CEA

NCSA

WRF Weather Modeling

OptiTex

Tech-XElemental

TechnologiesDimensional

Imaging

Manifold

Digisens

General Mills

Rapidmind

Rhythm & Hues

xNormal

Elcomsoft

LINZIK

Hess

TOTAL

CGG/Veritas

Chevron

Headwave

Acceleware

Seismic City

P-Wave Seismic Imaging

Mercury Computer

ffA

Synopsys

Nascentric

Gauda

CST

Agilent

Symcor

Level 3

SciComp

Hanweck

Quant Catalyst

RogueWave

BNP Paribas

AccelerEyes MathWorks

Wolfram

National Instruments

Ansys

Access Analytics

Tech-x

RIKEN

SOFA

Renault

Boeing

Nokia

RIM

Philips

Samsung

LG

Sony Ericsson

NTT DoCoMo

Mitsubishi

Hitachi

Radio Research Laborator

y

US Air Force

5000+ Clientes / ISVs



Generación siguienteCode Named “Fermi”



Arquitectura ‘Fermi’ El alma de un Supercomputer en un cuerpo de un GPU

3 mil millones transistores

Sobre 2x los corazones (núcleos) (512 totales)

Funcionamiento 8x mas con doble precision

ECC

L1 and L2 Caches

Anchura de banda de la memoria ~2x (GDDR5)

Hasta 1 Terabyte memoria de GPU

Núcleos (Kernels) concurrentes de la memoria de GPU, C++

DR

AM

I/F

HO

ST

I/F

Gig

a T

hre

adD

RA

M I

/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2



Mas grande y mas rápido

GDDR5 interfaz de la memoria2x más rápida que GDDR3

Hasta 1 Terabyte memoria de GPU

Funcionará en conjuntos de datos grandes D

RA

M I/

FG

iga

Th

read

HO

ST

I/F

DR

AM

I/F

DR

AM

I/FD

RA

M I/F

DR

AM

I/FD

RA

M I/F

L2



GigaThreadTM Hardware Thread Scheduler (HTS)

Maneja jerárquico millares de hilos simultáneamente activos

10x mas rapido en conmutación de contexto

Ejecución concurrente del núcleo

HTS



GigaThread Hardware Thread Scheduler

Ejecución serial del núcleo (kernels)

Ejecución paralela del núcleo (kernels)

Tim

e

Kernel 1

Kernel 1

Kernel 2

Kernel 2 Kernel 3

Kernel 3

Ker4

nel

Kernel 5

Kernel 5

Kernel 4

Kernel 2

Kernel 2



GPU Computing Applications

CUDA Parallel Computing Architecture

NVIDIA GPU with the CUDA Parallel Computing Architecture

C OpenCLtm Direct Compute Fortran

Java and Python

OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.

C++


Questions?Preguntas?


la evolución del sistema que está cambiando el mundo hpc (high performance computing)

Technology