dell emc ready solutions for ai: aprendizaje profundo con ... · artificial (ia) y los nuevos...

© 2019 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Aceleración del rendimiento, optimización del TCO y simplificación de la facilidad de uso para cargas de trabajo de aprendizaje automático y profundo

Por Jack Poller, analista ejecutivo Abril de 2019

Esta validación técnica de ESG se elaboró por encargo de Dell EMC y se distribuye con licenciamiento de ESG.

Enterprise Strategy Group | Getting to the bigger truth.™

Validación técnica

Dell EMC Ready Solutions for AI: Aprendizaje profundo con Intel

Validación técnica: Dell EMC Ready Solutions for AI: Aprendizaje profundo con Intel 2


Contenido

Introducción ...................................................................................................................................................................... 3

Antecedentes ................................................................................................................................................................ 3

Aprendizaje profundo con Intel .................................................................................................................................... 4

Validación técnica de ESG ................................................................................................................................................. 5

Aceleración del desarrollo de modelos de IA ............................................................................................................... 5

Qué significan los números ....................................................................................................................................... 6

Escalamiento de la infraestructura ............................................................................................................................ 6

Qué significan los números ....................................................................................................................................... 7

Mejora del TCO del programa de la IA .......................................................................................................................... 9

Capacitación sobre modelos ..................................................................................................................................... 9

Qué significan los números ..................................................................................................................................... 10

Inferencia ................................................................................................................................................................ 10


Aprendizaje profundo acelerado en las instalaciones ............................................................................................. 12


Simplificación de la facilidad de uso ........................................................................................................................... 14

La gran verdad ................................................................................................................................................................. 16

Apéndice ......................................................................................................................................................................... 17

Validaciones técnicas de ESG

El objetivo de las validaciones técnicas de ESG es educar a los profesionales de TI acera de soluciones de tecnología de la información para empresas de todos los tipos y tamaños. Las validaciones técnicas de ESG no pretenden reemplazar el proceso de evaluación que debe realizarse antes de tomar decisiones de compra, sino proporcionar información valiosa de estas tecnologías emergentes. Nuestros objetivos son explorar algunas de las características y funciones más valiosas de las soluciones de TI, mostrar cómo se pueden utilizar para resolver problemas reales de los clientes e identificar las áreas que necesitan mejoras. La perspectiva de terceros expertos del equipo de validación de ESG se basa en nuestras propias pruebas prácticas, así como en entrevistas con clientes que utilizan estos productos en entornos de producción.



Introducción

Esta validación técnica de ESG documenta la evaluación de Dell EMC Ready Solutions for AI. Aprendizaje profundo con

Intel. Nos centramos en comprender el rendimiento, la facilidad de uso y el costo total de propiedad (TCO) de la solución.

Para validar el rendimiento de la pila completa, medimos el número de tokens por segundo que se procesaron al

capacitar el modelo Token2Token Big Transformer y evaluamos cómo Nauta, una iniciativa de código abierto de Intel,

acelera la capacitación del modelo de aprendizaje profundo. También comparamos la manera en que Nauta simplifica

el proceso de capacitación de aprendizaje profundo y cómo el TCO del aprendizaje profundo con Intel se compara con

la ejecución de las mismas tareas en un servicio de IA de nube pública principal.

Antecedentes

Como resultado del aumento de la potencia y la densidad de cómputo, los procesadores especializados de inteligencia

artificial (IA) y los nuevos algoritmos, el aprendizaje automático (ML) y el aprendizaje profundo (DL) han pasado de la

prueba de concepto directamente a la empresa, donde muchas organizaciones están implementando programas de

IA. Según la investigación de ESG, el 59 % de los encuestados esperaba que sus gastos en IA/ML aumentaran en 2019,

mientras que el 31 % de las organizaciones indicaron que aprovechar IA/ML en sus productos y servicios de TI fue

una de las áreas de modernización del centro de datos en las que esperaban las inversiones más importantes en

los próximos 12-18 meses.1

Las organizaciones que buscan aprovechar la potencia de la IA enfrentan retos importantes. El 35 % de los encuestados

en una encuesta de ESG mencionó el costo de la infraestructura de TI como su mayor reto, mientras que el 29 %

mencionó las funcionalidades de la infraestructura de TI y el 21 % mencionó el entorno de desarrollo de aplicaciones

(consulte la Figura 1).2

Figura 1. Retos de datos, tecnología y costos de IA/ML

Fuente: Enterprise Strategy Group

1 Fuente: Informe de investigación de ESG, 2019 Encuesta de intenciones de gasto en tecnología, febrero de 2019. 2 Fuente: Resultados de la encuesta maestra de ESG, la inteligencia artificial y el aprendizaje automático: Cómo determinar el valor de la infraestructura, marzo de 2019.

https://www.esg-global.com/research/esg-research-report-2019-technology-spending-intentions-survey

https://research.esg-global.com/reportaction/aimlmsr/Toc




¿Cuáles son los impulsores de estos retos? El aprendizaje profundo es multifacético y complejo, y la puesta en

funcionamiento de la IA es un problema difícil y de múltiples facetas que requiere personal capacitado y experimentado.

Sin embargo, hay una escasez de estas habilidades fundamentales.

El esfuerzo de poner en funcionamiento la IA es complicado por la necesidad de aumentar la precisión de los modelos.

Los conjuntos de datos más grandes, más ajustes de hiperparámetros y algoritmos de IA más complejos se traducen

en infraestructuras más grandes, más rápidas, más complejas y costosas. Por ello el atractivo de las infraestructuras

de nube pública, que proporcionan costos y servicios de inicio bajos categorizados como gastos operativos. Lo que

se necesita es una pila de infraestructura en las instalaciones que proporcione rendimiento y escalabilidad para los

modelos de IA más grandes y complejos, a la vez que simplifique el inicio y la implementación a un costo total de

propiedad comparable o inferior a los servicios de nube pública.

Aprendizaje profundo con Intel

El aprendizaje profundo con Intel es parte de las Ready Solutions

de Dell EMC para la IA, un conjunto de plataformas de infraestructura

estandarizadas para el aprendizaje automático y profundo diseñado

para acelerar el tiempo de respuesta que genera valor.

El aprendizaje profundo con Intel es un clúster de escalamiento horizontal

que consta de un solo nodo principal/de inicio de sesión de Dell EMC

PowerEdge R740xd y 16 servidores de procesamiento denso Dell EMC

PowerEdge C6420 en cuatro chasis C6000. Cada nodo de procesamiento está

interconectado con una conexión de 1 gigabit Ethernet para el acceso a la

red externa e Internet, y una conexión de 10 gigabit Ethernet para el tráfico

interno y la transferencia de datos. Un clúster de almacenamiento Dell EMC

Isilon H600 opcional se puede conectar a la red interna de 10 gigabit

Ethernet por medio de conexiones de 40 gigabit Ethernet. Los detalles de

la configuración del sistema se proporcionan en la Tabla 6 del apéndice.

El aprendizaje profundo con Intel incluye servicios de implementación para acelerar el tiempo de obtención de resultados

y el soporte de contacto único para la pila completa de hardware y software. Estas pilas de hardware y software validadas

combinan servidores Dell EMC PowerEdge, almacenamiento Dell EMC Isilon, redes de alta velocidad, software de ciencia

de datos y librerías e infraestructura de IA en sistemas preconfigurados, escalables y optimizados.

Dell EMC ha integrado y validado la iniciativa de código abierto de Intel, Nauta, en la solución. Nauta es una plataforma

de aprendizaje profundo distribuido que aprovecha las tecnologías de Kubernetes y Docker para proporcionar un

ambiente de procesamiento de pruebas y capacitación de DL distribuido para múltiples usuarios. Nauta simplifica

el flujo de trabajo de capacitación de DL y aprovecha el poder de Kubernetes para automatizar la implementación,

el escalamiento y la administración de las aplicaciones3 en contenedores. Además de una interfaz de línea de

comandos (CLI), Nauta incluye una interfaz gráfica de usuario (GUI) web y la integración de TensorBoard, un conjunto

de herramientas de visualización para el aprendizaje profundo. Estas interfaces optimizan y aceleran la carga de trabajo

de administración de experimentos de los científicos de datos. Nauta es compatible con la inferencia por lotes y streaming

para la validación de modelos integrada e incluye plantillas de modelo personalizables que simplifican la creación de

modelos y los experimentos de capacitación.

Las organizaciones que implementan el aprendizaje profundo con Intel se beneficiarán de lo siguiente:

Implementación rápida: en lugar de forzar a la organización a seleccionar, configurar, integrar y ajustar los

componentes en una pila de IA, el aprendizaje profundo con Intel es un sistema validado implementado por

Dell EMC Services, lo cual reduce el tiempo de implementación de un entorno de IA de meses a sem anas

y, al mismo tiempo, reduce los requisitos de aptitudes y el riesgo operacional.

3 Los contenedores dependen del aislamiento virtual para implementar y ejecutar aplicaciones sin la sobrecarga de máquinas virtuales

completas para cada aplicación.

https://www.intel.ai/introducing-nauta/#gs.2yzgzl

https://kubernetes.io/

https://www.tensorflow.org/guide/summaries_and_tensorboard



Configuración simplificada: el aprendizaje profundo con Intel está preconfigurado con Nauta, junto con la

distribución de TensorFlow e incluye las librerías de soporte de aprendizaje profundo de requisitos optimizados

para los procesadores escalables Intel Xeon.

Uso optimizado de recursos compartidos: la plataforma Nauta integrada aprovecha Kubernetes, lo que permite

la coordinación automatizada de los flujos de trabajo, de modo que permite programar y ejecutar muchos

experimentos con “manos libres”. Por lo tanto, varios científicos de datos pueden compartir la misma pila

de infraestructura de IA con un impacto mínimo en el rendimiento del sistema.

Escalabilidad rápida: todas las Ready Solutions de Dell EMC para IA son diseñadas para obtener una escalabilidad

rápida. Las organizaciones pueden aumentar la potencia de procesamiento agregando nodos de procesamiento al

clúster con solo unos pocos clics del mouse. El almacenamiento de Isilon se puede escalar de manera no disruptiva

mediante la adición de nodos adicionales, lo cual aumenta el rendimiento del almacenamiento de forma lineal,

o mediante el escalamiento del almacenamiento en el clúster de almacenamiento de escalamiento horizontal

de Isilon opcional.

Validación técnica de ESG

ESG llevó a cabo la evaluación y las pruebas de aprendizaje profundo con Intel en el laboratorio de innovación en HPC

e IA de Dell EMC. Las pruebas se diseñaron para cuantificar el rendimiento y la escalabilidad de la solución cuando se

capacitan modelos de aprendizaje profundo. Además, fue de interés comprender las ventajas de TCO y la manera en

que Nauta simplifica el flujo de trabajo de desarrollo de modelos.

Aceleración del desarrollo de modelos de IA

ESG utilizó Tensor2Tensor (T2T) de Google, una biblioteca de código abierto de modelos de aprendizaje profundo

y conjuntos de datos, para caracterizar el rendimiento del aprendizaje profundo con Intel. A partir de los muchos

problemas de DL que se incluyen en T2T, nos centramos en la traducción de idiomas, mediante el modelo de Big

Transformer para capacitar un traductor de máquina neuronal (NMT) de inglés a alemán. El conjunto de datos

incluía 4,5 millones de pares de frases y el rendimiento se midió en tokens procesados por segundo, donde un

token es una parte de la palabra.

Medimos el rendimiento de T2T en dos configuraciones. La primera configuración consistía en la capacitación del

modelo de T2T que se ejecuta en una pila de hardware de Intel de bajo nivel sin el uso de contenedores. La segunda

configuración utilizó el aprendizaje profundo completo con la pila de infraestructura de Intel y aprovechó Nauta para

ejecutar la capacitación del modelo T2T con Kubernetes y contenedores (en contenedores). Para cada configuración,

ejecutamos la capacitación varias veces, mediante uno, dos, cuatro, ocho y 16 nodos de procesamiento. En la Figura 2

y en la Tabla 1 se muestran los resultados.

https://github.com/tensorflow/tensor2tensor/



Figura 2. Resultados de la capacitación de Tensor2Tensor Big Transformer


Tabla 1. Resultados de la capacitación de Tensor2Tensor Big Transformer

Nodos de procesamiento Tokens

de bajo nivel por segundo Tokens en contenedores

de Nauta por segundo % Mejora

1 1115 1320 18 %

2 2181 2400 10 %

4 4302 4320 0 %

8 8478 8800 4 %

16 16 675 16 960 2 %


Qué significan los números

En cada caso de prueba, el uso de contenedores para el aprendizaje profundo no impuso ninguna pérdida

de rendimiento.

En la mayoría de los casos, aprovechar contenedores genera un aumento modesto en el rendimiento. Es muy

probable que esto sea el resultado de la minimización del cambio de contexto del kernel y de los algoritmos

de programación eficientes de Kubernetes.

Escalamiento de la infraestructura

ESG utilizó los resultados de la capacitación para comprender el rendimiento del escalamiento del aprendizaje

profundo con Intel. Figura 3 traza los resultados en contenedores de Nauta en función de una extrapolación

de escalamiento lineal, mediante la configuración de un nodo de procesamiento como el rendimiento básico

del sistema. El trazado utiliza ejes exponenciales, donde cada división representa una duplicación del valor de

la división anterior. Los resultados también se detallan en la Tabla 2



Figura 3. Aprendizaje profundo con escalamiento de Intel


Tabla 2. Aprendizaje profundo con escalamiento de Intel

Nodos de procesamiento Extrapolación de

escalamiento lineal Tokens por segundo

Nauta en contenedores Tokens por segundo

porcentaje de máximo teórico

1 1320 1320 0 %

2 2640 2400 91 %

4 5280 4320 82 %

8 10 560 8800 83 %

16 21 120 16 960 80 %



El aprendizaje profundo con Intel, con el aprovechamiento de Nauta, escaló casi de manera lineal, al lograr un

80 % o más de rendimiento teórico máximo a medida que la cantidad de nodos de procesamiento aumentaba

en un factor de 16.



Por qué es importante

El rendimiento y la escalabilidad son las preocupaciones clave de la capacitación de los científicos de datos modelos de IA. Las soluciones más rápidas permiten a los científicos de datos probar con conjuntos de datos más grandes y experimentar con más combinaciones de hiperparámetros que pueden producir modelos más precisos y una convergencia más rápida para los modelos de IA listos para la producción.

ESG validó que el aprendizaje profundo con Intel mejora el rendimiento mediante el aprovechamiento de la coordinación y la agrupación. La capacitación de modelo se ejecutó hasta un 18 % más rápido con Nauta y la solución procesó 16 960 tokens por segundo con 16 nodos de procesamiento que ejecutaban estudiantes en contenedores en paralelo.

El rendimiento del aprendizaje profundo con Intel escaló casi linealmente y la solución alcanzó el 80 % o más de rendimiento teórico máximo, ya que la capacitación escaló de uno a 16 nodos de procesamiento.



Mejora del TCO del programa de la IA

ESG evaluó el costo total de propiedad (TCO) del aprendizaje profundo con Intel. También evaluamos el TCO para la

ejecución de las mismas cargas de trabajo de IA mediante un servicio de IA de nube pública principal. En el caso de

las comparaciones de TCO, modelamos dos escenarios: capacitación de modelo de aprendizaje profundo e inferencia

de aprendizaje profundo. Sin embargo, el aprendizaje profundo con Intel no es ideal para la inferencia; la latencia

de inferencia será más grande que la deseada para la mayoría de los entornos de producción. La solución se puede

usar para probar y validar la inferencia de modelos. También comparamos el TCO para las infraestructuras en las

instalaciones usando solo las CPU y las infraestructuras en las instalaciones mediante aceleradores de GPU.

El modelo de TCO para el aprendizaje profundo con Intel utilizó precios de mercado con disponibilidad general

y hardware, software, servicios, administración de TI, alimentación y costos de enfriamiento modelados. Los costos

de hardware incluían el chasis de servidor, los racks, el cableado, los switches de red y el cableado de red. Los costos

de software incluían las tarifas de licencia anuales para todo el software con licencia instalado. La solución incluye

servicios profesionales que abarcan la instalación y la configuración de la solución en las instalaciones. Estimamos el

costo de la administración, la alimentación y el enfriamiento de la TI para que sea el 30 % del costo de los servidores

y los switches de red, y suponemos que los sistemas se ejecutarán 24 horas al día, siete días por semana.

El modelo de TCO para la ejecución de la misma carga de trabajo en un servicio de nube pública principal utilizó la lista

de precios publicada en marzo de 2019. El modelo incluye el costo del tiempo de procesamiento, el almacenamiento

de datos estáticos, la transferencia de datos dentro y fuera de la nube, y una conexión de red directa en el centro

de datos de nube pública. El tiempo de procesamiento fue modelado en 12 horas al día, siete días por semana.

El almacenamiento de datos se modelaba suponiendo 10 TB de almacenamiento estático, ingreso de 10 TB por

mes y salida de 10 TB por mes.

Capacitación sobre modelos

En primer lugar, evaluamos el TCO de tres años para la capacitación del modelo de aprendizaje profundo.

El modelo para el aprendizaje profundo con Intel modela una configuración de 16 nodos de procesamiento.

El servicio de nube pública separa los costos de la ejecución de laptops Jupyter a partir de los costos de capacitación en el

modelo. Modelamos diez instancias de laptops para admitir el trabajo simultáneo de diez científicos de datos. Modelamos

80 instancias de capacitación, donde cada instancia tiene ocho CPU virtuales (que equivalen a un núcleo de CPU físico),

para que coincidan con el aprendizaje profundo con los cores de CPU de 640 de Intel. Tabla 3 y la Figura 4 comparan

el TCO de tres años para la capacitación entre el aprendizaje profundo con Intel y el servicio de nube pública.

Tabla 3. Configuración de capacitación del modelo de aprendizaje profundo y TCO de tres años

Aprendizaje profundo con Intel Servicio de IA de nube pública

principal

Científicos de datos simultáneos 20 10

Tiempo de CPU 24 horas/día

7 días/semana 12 horas/día

7 días/semana

Cores de CPU (Dell EMC) CPU virtuales (servicio de nube

pública) 640 640

Memoria 2592 GB 2560 GB

Almacenamiento estático 100 TB 10 TB

Ingreso de datos por mes n/d 10 TB

Salida de datos por mes n/d 10 TB

TCO a tres años $748 893 $987 077




Figura 4. Capacitación sobre el modelo de aprendizaje profundo de tres años de TCO



Para la capacitación de aprendizaje profundo, el TCO de tres años para el aprendizaje profundo con Intel es de

$238 000 menos que la ejecución de la misma carga de trabajo en un servicio de IA de nube pública principal.

Para la capacitación de aprendizaje profundo, el TCO de tres años para el aprendizaje profundo con Intel es

un 24 % menor mientras proporciona servicios para el doble de científicos de datos con el doble de tiempo

de procesamiento (24 horas al día en lugar de 12 horas por día) y diez veces la capacidad de almacenamiento

(100 TB frente a 10 TB).

Inferencia

A continuación, modelamos el TCO de tres años para la inferencia de aprendizaje profundo, en el que los científicos

usan el modelo de aprendizaje profundo con nuevos datos para realizar inferencias. Los cálculos de TCO no incluían

consideraciones de latencia y escala que generan aprendizaje profundo con Intel, que no es adecuado para las

aplicaciones de inferencia.

El modelo de TCO para el aprendizaje profundo con Intel modeló una configuración de cuatro nodos de procesamiento

e incluyó los coprocesadores de hardware opcionales dedicados a la aceleración del procesamiento de inferencia.

Al igual que con el escenario de capacitación, nuestro modelo de TCO de tres años para el servicio de nube pública

modela diez instancias de laptop que admiten el trabajo simultáneo de diez científicos de datos El servicio de nube

pública no publica conteos de cores de CPU para su servicio de inferencia, en lugar publica el rendimiento de

matemáticas de punto flotante. Modelamos 80 instancias de inferencia, donde cada instancia tiene 2 GB de memoria

para mantener la paridad de potencia de procesamiento con un aprendizaje profundo con cores de CPU de 160 de

Intel. La Tabla 4 y la Figura 5 comparan el TCO de tres años para la inferencia entre el aprendizaje profundo con Intel

y el servicio de nube pública.



Tabla 4. Configuración de inferencia de modelos de aprendizaje profundo y TCO a tres años

Aprendizaje profundo con Intel Servicio de IA de nube pública

principal




7 días/semana

Cores de CPU (Dell EMC) CPU virtuales (servicio de nube

pública) 160 n/d



Ingreso de datos por mes n/d 10 TB

Salida de datos por mes n/d 10 TB

TCO a tres años $414 407 $475 308


Figura 5. Modelo de aprendizaje profundo inferencia de un TCO de tres años



Para la inferencia de aprendizaje profundo, el TCO de tres años para el aprendizaje profundo con Intel es casi $61

000 menos que la ejecución de la misma carga de trabajo en un servicio de IA de nube pública principal.

Para la inferencia de aprendizaje profundo, el TCO de tres años para el aprendizaje profundo con Intel es un 13 %

menor y, a la vez, proporciona el doble de tiempo de procesamiento (24 horas al día en lugar de 12 horas al día)

y 10 veces la capacidad de almacenamiento (100 TB frente a 10 TB).



Aprendizaje profundo acelerado en las instalaciones

Por último, comparamos el TCO de tres años de aprendizaje profundo con Intel con una configuración con aceleración de

GPU de una pila comparable como aprendizaje profundo con Intel. Esto nos permitió comprender el impacto de TCO de

la sustitución de GPU de las CPU en entornos de aprendizaje profundo en las instalaciones. Según la información de Intel

y las pruebas empíricas, configuramos tres veces la cantidad de CPU que los GPU para mantener la paridad de la potencia

de procesamiento entre las dos configuraciones. Modelamos una configuración de CPU de 12 nodos de procesamiento

y cuatro nodos de procesamiento con la configuración de aceleradores de GPU. La Tabla 5 y la Figura 6 comparan el TCO

de tres años para las dos configuraciones.

Tabla 5. Configuración de aprendizaje profundo acelerado en las instalaciones y TCO a tres años

Aprendizaje profundo con Intel Pila comparable de infraestructura

con aceleración de GPU




7 días/semana

Cores de CPU (Dell EMC) 480 80



TCO a tres años $567 938 $863 470


Figura 6. Aprendizaje profundo acelerado en las instalaciones con un TCO de tres años





La implementación de aceleradores de GPU para el aprendizaje profundo impone un costo adicional de $295 000

(34 % más) para un rendimiento comparable.

4 Fuente: Resultados de la encuesta maestra de ESG, la inteligencia artificial y el aprendizaje automático: Cómo determinar el valor de la infraestructura, marzo de 2019.


Según la investigación de ESG, el costo de la infraestructura es el reto de IA/ML citado más a menudo por las organizaciones.4 Por lo tanto, no sorprende que los servicios de IA de nube pública sean atractivos, ya que presentan bajos costos de inicio, y los servicios se categorizan como gastos operativos.

ESG validó que el TCO de tres años para el aprendizaje profundo con Intel, una solución en las instalaciones, es significativamente más económico que la utilización de servicios de IA de nube pública. Para el desarrollo de modelos de aprendizaje profundo, el aprendizaje profundo con Intel proporciona un ahorro de costos del 24 %, más de $238 000. Para la inferencia de aprendizaje profundo, la solución Dell EMC en las instalaciones proporciona un ahorro de costos del 13 %, casi $61 000.

Los costos de los servicios de IA de nube pública pueden variar en gran medida, y los costos mensuales pueden ser sorprendentemente altos cuando los errores involuntarios provienen de procesos incontrolables que consumen un tiempo de CPU excesivo y costoso, o genera enormes volúmenes de datos. La experimentación de los científicos de datos puede consumir más tiempo de procesamiento que el previsto originalmente, lo cual aumenta los costos y rompe las suposiciones presupuestarias. Por el contrario, el aprendizaje profundo con la solución de Intel en las instalaciones proporciona a los administradores y a los contadores financieros los gastos conocidos y predecibles.





Simplificación de la facilidad de uso

ESG evaluó la manera en que el aprendizaje profundo con Intel simplificó la implementación de la pila de la

infraestructura de la IA y el tiempo de obtención de resultados para el científico de datos. Las pilas de infraestructura

de la IA son complejas, incluyen una pila de hardware con potencia de procesamiento masiva, almacenamiento

y redes, y una pila de software que integra una combinación de software de código abierto y licencia. La selección,

integración y ajuste de los componentes adecuados en una solución completa de IA requiere conocimientos

y experiencia en integración de IA.

El aprendizaje profundo con Intel proporciona todo software, procesamiento, almacenamiento y hardware de

redes, y la solución incluye la instalación y la configuración en el sitio por medio de Dell EMC Professional Services.

El equipo de TI y los científicos de datos pueden evitar el trabajo lento y complejo de instalar y configurar los sistemas

operativos, las bibliotecas de IA, la orquestación y el software de administración, lo que permite ahorrar semanas

a meses de trabajo.

El aprendizaje profundo de Intel viene integrado con la plataforma Nauta, que simplifica el proceso para que el

científico de datos comience con el aprendizaje profundo. Como se muestra en la Figura 7, en lugar del proceso de

varios pasos que se utiliza en las infraestructuras de IA tradicionales, cuando se usa Nauta, el científico de datos inicia

sesión en el sistema, especifica los parámetros de plantilla y envía el trabajo de capacitación de aprendizaje profundo.

Nauta, que aprovecha Kubernetes para la automatización y la coordinación, ejecuta el trabajo de capacitación,

recopila la salida y proporciona los resultados al usuario en la GUI de Nauta o con TensorBoard. Las herramientas de

visualización facilitan que el científico de datos interprete la salida y perfeccione el modelo de aprendizaje profundo.

Figura 7. Nivel de esfuerzo para la infraestructura de IA tradicional y el aprendizaje profundo con Intel


Una tarea común para los científicos de datos es la optimización de los hiperparámetros: la elección de un conjunto de

hiperparámetros óptimos para el algoritmo de aprendizaje profundo. Un hiperparámetro es un parámetro cuyo valor

se utiliza para controlar el proceso de aprendizaje. El método tradicional de ajuste de hiperparámetro es un barrido de

parámetros, que es una búsqueda exhaustiva, donde se prueba cada combinación de parámetros y se elige el conjunto

de parámetros que genera el mejor modelo. Esta metodología requiere que el científico de datos cree un script de

trabajo para cada combinación, envíe los trabajos, recopile los resultados y determine la mejor combinación.

Nauta aprovecha Kubernetes para automatizar y coordinar la ardua tarea de optimización de hiperparámetro.

El científico de datos simplemente crea un único archivo que contiene los rangos deseados para cada hiperparámetro

y, a continuación, envía el trabajo. Nauta calcula automáticamente el conjunto completo de combinaciones de

hiperparámetros, ejecuta trabajos para cada combinación, recopila los resultados y presenta los resultados en

TensorBoard. Como se muestra en la Figura 8, esto permite el ajuste de los hiperparámetros con un solo toque,

de modo que el científico de datos dedique sus esfuerzos a otras tareas.



Figura 8. Optimización de hiperparámetro para la infraestructura de IA tradicional y aprendizaje profundo con Intel


En las infraestructuras de IA tradicionales, se requiere un promedio de cinco minutos para configurar un trabajo

y un minuto adicional para enviar el trabajo. Un experimento de ajuste de hiperparámetro con 300 trabajos

requeriría 30 horas de tiempo y esfuerzo de científico de datos.

El uso de Nauta tardaría 5 minutos en configurar y enviar los 300 trabajos, lo que libera al científico de datos para

que realice otras tareas. En función de los requisitos de trabajo, la Dell EMC Ready Solution para IA/DL con Intel

puede ejecutar hasta 16 trabajos de manera simultánea, lo que puede reducir el tiempo de ejecución total y mejorar

el tiempo de implementación.


El aprendizaje profundo es complejo y desafiante, y la dificultad de desarrollo de modelos se ve exacerbada por una falta de personal experimentado o capacitado y la complejidad de la pila de infraestructura. Los científicos de datos usan una gran combinación de herramientas con licencia y de código abierto que complican en gran medida el proceso de aprendizaje cíclico e iterativo que impulsa los ML. Esto genera problemas relacionados con el tiempo para el valor comercial. Se requiere una solución que simplifique la implementación de la infraestructura y automatice el proceso de desarrollo de modelos de DL.

La validación de ESG reveló que el aprendizaje profundo con la implementación simplificada de Intel: Dell EMC Professional Services llevará a cabo la implementación y la configuración iniciales. Nauta simplificó y automatizó la carga de trabajo del científico de datos y permitió el ajuste de los hiperparámetros sin supervisión. El aprendizaje profundo con Intel puede reducir el tiempo de ejecución de un experimento de ajuste de hiperparámetros de 300 trabajos de 30 horas a solo unos minutos, lo que permite que el científico de datos centre su esfuerzo en otras tareas no triviales.



La gran verdad

Los modernos procesadores multinúcleos y GPU han transformado la IA de ciencia ficción a realidad, y cualquier

organización puede ir más allá de la prueba de concepto para aprovechar los beneficios de los programas operacionales

de IA. Según la investigación de ESG, el 45 % de las organizaciones esperan ver el valor de sus iniciativas de IA/ML en

menos de seis meses.5 Sin embargo, estas organizaciones enfrentan retos importantes que abarcan desde el costo

y las funcionalidades de la infraestructura de la IA hasta entornos de desarrollo de aplicaciones deficientes y la falta

de personal experimentado y capacitado.

El aprendizaje profundo con Intel es una pila de infraestructura de IA estandarizada que incluye servidores, redes,

almacenamiento y software de IA. La solución incluye la plataforma Nauta para aprovechar la tecnología, la

automatización y la coordinación de contenedores. Esta solución de hardware y software validada e integrada está

ajustada y optimizada para las iniciativas de la IA, lo que reduce el tiempo de implementación, simplifica el flujo de

trabajo y la carga de trabajo de los científicos de datos, de modo que acelera el rendimiento y mejora el TCO.

ESG validó que el uso de Nauta mejora el rendimiento de la capacitación profunda en el aprendizaje profundo con la

solución Intel. Las cargas de trabajo de capacitación en contenedores se ejecutaron hasta un 18 % más rápido que las

mismas cargas de trabajo en un sistema de bajo nivel. Además, la solución logra un escalamiento casi lineal y logra un

80 % de rendimiento teórico máximo cuando la cantidad de nodos de procesamiento se escala de uno a 16.

Los sistemas de automatización y coordinación de la plataforma Nauta simplifican el desarrollo de modelos, lo que

reduce considerablemente el número de pasos en el flujo de trabajo. La automatización de Nauta permitió el ajuste

de hiperparámetro sin supervisión, lo que simplifica las arduas y las tediosas tareas y permite que el científico de

datos centre sus esfuerzos en otras tareas no triviales.

El aprendizaje profundo con Intel demostró ser más rentable que la ejecución de las mismas cargas de trabajo en la

nube pública. Durante tres años, una solución de 16 nodos de procesamiento fue un 24 % más económico que un

servicio de IA de nube pública principal para la capacitación de aprendizaje profundo. Una solución de 12 nodos de

procesamiento fue un 13 % más económico que un servicio de IA de nube pública principal para las cargas de trabajo

de inferencia de aprendizaje profundo. El TCO de tres años para el aprendizaje profundo con Intel proporcionó

disponibilidad de procesamiento de 24 horas al día y 100 TB de capacidad de almacenamiento en comparación con

solo 12 horas por día de procesamiento y un consumo de almacenamiento de 10 TB para el servicio de nube pública.

Las organizaciones que buscan una pila de infraestructura de IA/ML que sea fácil de usar y rentable, y que permita a los

profesionales de la IA y a los científicos de datos poner en funcionamiento de manera rápida y sencilla los programas

de IA, deben investigar cómo el aprendizaje profundo con Intel puede simplificar y acelerar su viaje a la IA.

5 ibid.



Apéndice

Tabla 6. Aprendizaje profundo con la configuración de Intel

Nodo principal/de inicio de sesión: 1 x Dell EMC R740xd

Procesador 2 x Intel Xeon Gold 6148 escalables (20 núcleos)

Memoria 12 x 2667 MHz DDR4 de 16 GB (192 GB en total)

Almacenamiento 12 x unidades de disco de 12 TB

Red Adaptador Ethernet Intel X710 de 10 Gb

Nodos de procesamiento: 16 x Dell EMC C6420 en cuatro chasis C6000

Procesador 2 x Intel Xeon Gold 6148 escalables (20 núcleos)

Memoria 12 x 2667 MHz DDR4 de 16 GB (192 GB en total)

Almacenamiento Disco SSD optimizado para el arranque de 250 GB M.2

Red Adaptador de tarjeta secundaria Ethernet de 10 Gb Intel X710



Todos los nombres de marcas comerciales son propiedad de sus respectivas empresas. La información incluida en esta publicación se obtuvo

por medio de fuentes que The Enterprise Strategy Group (ESG) considera confiables, pero no está garantizada por ESG. Esta publicación puede

contener opiniones de ESG que están sujetas a cambios periódicos. Los derechos de esta publicación pertenecen a The Enterprise Strategy Group,

Inc. Cualquier reproducción o redistribución de esta publicación, en su totalidad o en parte, ya sea en formato impreso, electrónico o de otro

tipo, a personas no autorizadas para recibirla sin el consentimiento expreso de The Enterprise Strategy Group, Inc., constituye una violación de

las leyes de derechos de autor de los Estados Unidos y estará sujeta a una acción por daños civiles y, en caso de ser pertinente, a un juicio penal.

Si tiene consultas, comuníquese con ESG Client Relations llamando al 508-482-0188.

www.esg-global.com [email protected] P. 508.482.0188

Enterprise Strategy Group es una empresa de análisis, investigación, validación y estrategia de TI que ofrece inteligencia del mercado e información útil a la comunidad mundial de TI.


www.esg-global.com

http://www.esg-global.com

dell emc ready solutions for ai: aprendizaje profundo con ... · artificial (ia) y los nuevos...

Documents