Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

NVIDIA anunció que el clúster de supercomputadoras Colossus de xAI, que comprende 100,000 GPUs NVIDIA Hopper Tensor Core, logró esta escala masiva gracias a la plataforma de red Ethernet Spectrum-X™, diseñada para ofrecer un rendimiento superior a fábricas de IA de hiperescala con múltiples inquilinos, utilizando Ethernet estándar para su red de Acceso Directo a Memoria Remota (RDMA).

Colossus, la supercomputadora más grande del mundo

Colossus está siendo utilizada para entrenar la familia de modelos de lenguaje de gran envergadura Grok de xAI, que incluye chatbots como una característica para sus suscriptores de X Premium. xAI estaba en proceso de doblar el tamaño de Colossus a un total combinado de 200,000 GPUs NVIDIA.

Construcción rápida e innovadora

La instalación de soporte y la supercomputadora de última tecnología fueron construidas por xAI y NVIDIA en solo 122 días, a diferencia del tiempo típico que puede tomar muchos meses o incluso años para sistemas de este tamaño. Pasaron 19 días desde que el primer rack llegó hasta que comenzó el entrenamiento.

Rendimiento sin precedentes

Durante el entrenamiento del extremadamente grande modelo Grok, Colossus logró un rendimiento de red sin precedentes. En los tres niveles de la estructura de red, el sistema no experimentó degradación de latencia de aplicaciones ni pérdida de paquetes debido a colisiones de flujo. Mantuvo un 95% de rendimiento de datos gracias al control de congestión de Spectrum-X.

Este nivel de rendimiento no se puede alcanzar a gran escala con Ethernet estándar, que genera miles de colisiones de flujo mientras solo entrega un 60% de rendimiento de datos.

Declaraciones sobre el futuro de la IA

“IA se está volviendo esencial y requiere un aumento en rendimiento, seguridad, escalabilidad y eficiencia en costos,” afirmó Gilad Shainer, vicepresidente senior de networking en NVIDIA. “La plataforma de red Ethernet Spectrum-X de NVIDIA está diseñada para proporcionar a innovadores como xAI un procesamiento, análisis y ejecución más rápidos de cargas de trabajo de IA, acelerando así el desarrollo, la implementación y el tiempo de comercialización de las soluciones de IA.”

“Colossus es el sistema de entrenamiento más poderoso del mundo,” comentó Elon Musk. “Buen trabajo del equipo de xAI, NVIDIA y nuestros muchos socios/proveedores.”

Innovaciones y rendimiento en la infraestructura de red

“xAI ha construido la supercomputadora más grande y poderosa del mundo,” declaró un portavoz de xAI. “Las GPUs Hopper de NVIDIA y Spectrum-X nos permiten empujar los límites para entrenar modelos de IA a gran escala, creando una fábrica de IA superacelerada y optimizada basada en el estándar Ethernet.”

En el corazón de la plataforma Spectrum-X se encuentra el switch Ethernet Spectrum SN5600, que soporta velocidades de puerto de hasta 800 Gb/s y se basa en el ASIC de switch Spectrum-4. xAI eligió combinar el switch Spectrum-X SN5600 con NVIDIA BlueField-3® SuperNICs para lograr un rendimiento sin precedentes.

La red Ethernet Spectrum-X para IA aporta características avanzadas que ofrecen un ancho de banda altamente efectivo y escalable, con baja latencia y corta latencia de cola, previamente exclusivas de InfiniBand. Estas características incluyen enrutamiento adaptativo con la tecnología de Colocación Directa de Datos de NVIDIA, control de congestión, así como visibilidad mejorada de la infraestructura de IA y aislamiento de rendimiento, todos requisitos clave para nubes de IA generativa de múltiples inquilinos y grandes entornos empresariales.

- A word from our sposor -

spot_img

NVIDIA impulsa la red de Ethernet del superordenador de IA más grande del mundo, desarrollado por xAI