Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

NVIDIA lanzó Cosmos, una plataforma para acelerar el desarrollo de IA física, que presenta una familia de modelos de fundación del mundo — redes neuronales que pueden predecir y generar videos con conciencia física del estado futuro de un entorno virtual — para ayudar a los desarrolladores en la creación de robots y vehículos autónomos de próxima generación.

Modelos de fundación del mundo para IA física

Los modelos de fundación del mundo, conocidos como WFMs, son tan fundamentales como los modelos de lenguaje grandes. Utilizan datos de entrada, incluyendo texto, imagen, video y movimiento, para generar y simular mundos virtuales de una forma que modela con precisión las relaciones espaciales de los objetos en la escena y sus interacciones físicas.

Anunciados en un evento destacado, NVIDIA pone a disposición la primera ola de WFMs de Cosmos para la simulación basada en física y la generación de datos sintéticos, además de tokenizadores de última generación, barandillas, un sistema acelerado de procesamiento y curación de datos, y un marco para la personalización y optimización de modelos.

Investigadores y desarrolladores, sin importar el tamaño de su empresa, pueden usar libremente los modelos de Cosmos bajo la licencia de modelo abierta permisiva de NVIDIA que permite su uso comercial. Además, las empresas que desarrollen agentes de IA también pueden utilizar los nuevos modelos abiertos de NVIDIA Llama Nemotron y Cosmos Nemotron, presentados en el evento.

La apertura de los modelos de última generación de Cosmos desbloquea el potencial para los desarrolladores de IA física que trabajan en tecnología de robótica y vehículos autónomos, y permite a empresas de todos los tamaños llevar más rápidamente sus aplicaciones de IA física al mercado. Los desarrolladores pueden usar los modelos de Cosmos directamente para generar datos sintéticos basados en física, o pueden aprovechar el marco NVIDIA NeMo para ajustar los modelos con sus propios videos para configuraciones específicas de IA física.

Líderes en IA física — incluyendo empresas de robótica como 1X, Agility Robotics y XPENG, así como desarrolladores de vehículos autónomos como Uber y Waabi — ya estaban trabajando con Cosmos para acelerar y mejorar el desarrollo de modelos.

Los desarrolladores podían previsualizar los primeros modelos autoregresivos y de difusión de Cosmos en el catálogo de API de NVIDIA, y descargar la familia de modelos y el marco de ajuste desde el catálogo de NGC y Hugging Face.

Avanzando en robótica y aplicaciones de vehículos autónomos

Los modelos de fundación del mundo de Cosmos podían habilitar la generación de datos sintéticos para aumentar conjuntos de datos de entrenamiento, simulaciones para probar y depurar modelos de IA física antes de su implementación en el mundo real, y aprendizaje por refuerzo en entornos virtuales para acelerar el aprendizaje de agentes de IA.

Los desarrolladores podían generar enormes volúmenes de datos sintéticos controlables, basados en física, al condicionar Cosmos con escenas 3D compuestas desde NVIDIA Omniverse.

Waabi, una empresa pionera en IA generativa para el mundo físico, que inicia con vehículos autónomos, estaba evaluando el uso de Cosmos para la búsqueda y curación de datos de video para el desarrollo de software de vehículos autónomos y simulación. Esto aceleraría aún más el enfoque líder en la industria de la empresa hacia la seguridad, que se basa en Waabi World, un simulador de IA generativa que puede crear cualquier situación que un vehículo podría encontrar con el mismo nivel de realismo que si ocurriera en el mundo real.

En el campo de la robótica, los WFMs podían generar entornos virtuales sintéticos para proporcionar un espacio más eficiente, controlado y menos costoso para el aprendizaje de robots. La startup de IA Embodied, Hillbot, estaba mejorando su canal de datos utilizando Cosmos para generar terabytes de entornos 3D de alta fidelidad. Estos datos generados por IA ayudarían a la empresa a refinar su entrenamiento y operaciones robóticas, permitiendo una capacitación robótica más rápida y eficiente y mejorando el rendimiento para tareas industriales y domésticas.

En ambas industrias, los desarrolladores podían utilizar NVIDIA Omniverse y Cosmos como un motor de simulación multiverso, permitiendo que un modelo de política de IA física simule cada posible camino futuro que podría tomar para ejecutar una tarea particular — lo que a su vez ayuda al modelo a seleccionar el mejor de estos caminos.

La curación de datos y el entrenamiento de modelos de Cosmos dependieron de miles de GPUs de NVIDIA a través de NVIDIA DGX Cloud, una plataforma de IA totalmente gestionada y de alto rendimiento que proporciona clusters de computación acelerada en cada nube líder.

Los desarrolladores que adopten Cosmos pueden utilizar DGX Cloud para desplegar modelos de manera sencilla, con soporte adicional disponible a través de la plataforma de software NVIDIA AI Enterprise.

Personaliza y despliega con NVIDIA Cosmos

Además de los modelos de fundación, la plataforma Cosmos incluye una línea de procesamiento y curación de datos impulsada por NVIDIA NeMo Curator y optimizada para las GPUs de data center de NVIDIA.

Los desarrolladores de robótica y vehículos autónomos recolectan millones o miles de millones de horas de video grabado en el mundo real, lo que resulta en petabytes de datos. Cosmos permite que los desarrolladores procesen 20 millones de horas de datos en solo 40 días en GPUs NVIDIA Hopper, o en tan solo 14 días en GPUs NVIDIA Blackwell. Usando tuberías no optimizadas que funcionan en un sistema de CPU con un consumo de energía equivalente, procesar la misma cantidad de datos llevaría más de tres años.

La plataforma también cuenta con una suite de potentes tokenizadores de video e imagen que pueden convertir videos en tokens a diferentes tasas de compresión para entrenar varios modelos de transformer.

Los tokenizadores de Cosmos ofrecen 8 veces más compresión total que los métodos más avanzados y 12 veces más velocidad de procesamiento, lo que ofrece calidad superior y costos computacionales reducidos tanto en entrenamiento como en inferencia. Los desarrolladores pueden acceder a estos tokenizadores, disponibles bajo la licencia de modelo abierta de NVIDIA.

Los desarrolladores que utilizan Cosmos también pueden aprovechar las capacidades de entrenamiento y ajuste de modelos ofrecidas por el marco NeMo, que permite un alto rendimiento en el entrenamiento de IA.

Desarrollando modelos de IA seguros y responsables

Ahora disponibles para desarrolladores bajo el Acuerdo de Licencia de Modelo Abierto de NVIDIA, Cosmos se desarrolló de acuerdo con los principios de IA confiable de NVIDIA, que incluyen la no discriminación, privacidad, seguridad y transparencia.

La plataforma Cosmos incluye Cosmos Guardrails, una suite dedicada de modelos que, entre otras capacidades, mitiga entradas de texto e imagen perjudiciales durante el preprocesamiento y filtra videos generados durante el posprocesamiento para garantizar la seguridad. Los desarrolladores pueden mejorar aún más estas barandillas para sus aplicaciones personalizadas.

Los modelos de Cosmos también cuentan con un sistema de marcado de agua incorporado que permite la identificación de secuencias generadas por IA.

NVIDIA Cosmos fue desarrollado por NVIDIA Research. Se pueden consultar trabajos de investigación y modelos adicionales para más detalles sobre el desarrollo y evaluaciones de modelos.

- A word from our sposor -

spot_img

Cosmos World Foundation pone a disposición modelos abiertos para desarrolladores de IA física