Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

A medida que las empresas se apresuraban a adoptar la inteligencia artificial generativa y lanzar nuevos servicios al mercado, las demandas sobre la infraestructura de los centros de datos nunca habían sido tan altas. Entrenar modelos de lenguaje de gran escala era solo un desafío, pero ofrecer servicios en tiempo real potenciados por LLM era otro.

Resultados destacados en benchmarks

En la última ronda de benchmarks de la industria MLPerf, Inference v4.1, las plataformas de NVIDIA ofrecieron un rendimiento líder en todas las pruebas de centros de datos. La primera presentación de la próxima plataforma NVIDIA Blackwell reveló hasta 4 veces más rendimiento que la NVIDIA H100 Tensor Core GPU en la carga de trabajo más grande de MLPerf, Llama 2 70B, gracias al uso de un motor de Transformer de segunda generación y Tensor Cores FP4.

La NVIDIA H200 Tensor Core GPU logró resultados impresionantes en cada benchmark de la categoría de centros de datos, incluyendo la última adición a la prueba, el Mixtral 8x7B mezcla de expertos (MoE) LLM, que presenta un total de 46.7 mil millones de parámetros, con 12.9 mil millones de parámetros activos por token.

Los modelos MoE han ganado popularidad como una forma de aportar más versatilidad a las implementaciones de LLM, ya que son capaces de responder a una amplia variedad de preguntas y realizar tareas más diversas en una sola implementación. Además, son más eficientes ya que solo activan unos pocos expertos por inferencia, lo que significa que entregan resultados mucho más rápido que los modelos densos de tamaño similar.

El crecimiento continuo de los LLM impulsa la necesidad de más capacidad de cómputo para procesar solicitudes de inferencia. Para cumplir con los requisitos de latencia en tiempo real para atender a los LLMs actuales, y hacerlo para el mayor número posible de usuarios, el cómputo multi-GPU es esencial. NVIDIA NVLink y NVSwitch proporcionan comunicación de alta banda ancha entre GPUs y ofrecen beneficios significativos para la inferencia de grandes modelos en tiempo real y rentables. La plataforma Blackwell ampliará las capacidades del NVLink Switch con dominios NVLink más grandes con 72 GPUs.

Diez socios de NVIDIA, incluidos ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise, Juniper Networks, Lenovo, Quanta Cloud Technology y Supermicro, también realizaron sólidas presentaciones de MLPerf Inference, subrayando la amplia disponibilidad de las plataformas de NVIDIA.

Innovación continua en software

Las plataformas de NVIDIA sufrieron un desarrollo continuo de software, acumulando mejoras de rendimiento y características mensualmente.

En la última ronda de inferencia, las ofertas de NVIDIA, incluida la arquitectura NVIDIA Hopper, vieron mejoras significativas en rendimiento. La GPU NVIDIA H200 ofreció hasta un 27% más de rendimiento en inferencia de IA generativa en comparación con la ronda anterior, lo que subraya el valor añadido que los clientes obtienen con el tiempo de su inversión en la plataforma NVIDIA.

El Triton Inference Server, parte de la plataforma de IA de NVIDIA, es un servidor de inferencia de código abierto totalmente equipado que ayuda a las organizaciones a consolidar servidores de inferencia específicos de framework en una única plataforma unificada. Esto ayuda a reducir el costo total de propiedad de servir modelos de IA en producción y acorta los tiempos de implementación de modelos de meses a minutos.

En esta ronda de MLPerf, el Triton Inference Server entregó un rendimiento casi igual al de las presentaciones en bare-metal de NVIDIA, mostrando que las organizaciones ya no tienen que elegir entre utilizar un servidor de inferencia de IA de producción rico en características y alcanzar el rendimiento máximo.

Transformación en el borde

Desplegados en el borde, los modelos de IA generativa pueden transformar datos de sensores, como imágenes y videos, en informes procesables en tiempo real con una fuerte conciencia contextual. La plataforma NVIDIA Jetson para IA en el borde y la robótica es capaz de ejecutar localmente cualquier tipo de modelo, incluyendo LLMs, transformadores de visión y Stable Diffusion.

En esta ronda de benchmarks de MLPerf, el sistema en módulo NVIDIA Jetson AGX Orin logró más de un 6.2x de mejora en rendimiento y una mejora de latencia de 2.4 veces en comparación con la ronda anterior en la carga de trabajo LLM GPT-J. En lugar de desarrollar para un caso de uso específico, los desarrolladores pueden utilizar ahora este modelo general de 6 mil millones de parámetros para interactuar sin problemas con el lenguaje humano, transformando la IA generativa en el borde.

Rendimiento líder en todas partes

Esta ronda de MLPerf Inference mostró la versatilidad y el rendimiento líder de las plataformas de NVIDIA, extendiéndose desde el centro de datos hasta el borde, en todas las cargas de trabajo del benchmark, potenciando las aplicaciones y servicios más innovadores impulsados por IA.

Los sistemas potenciado por la GPU H200 están disponibles actualmente de CoreWeave, el primer proveedor de servicios en la nube en anunciar disponibilidad general, y de fabricantes de servidores como ASUS, Dell Technologies, Hewlett Packard Enterprise, QTC y Supermicro.

- A word from our sposor -

spot_img

NVIDIA Blackwell establece un nuevo estándar para la inteligencia artificial generativa en su debut en MLPerf Inference