NVIDIA ha presentado nuevos modelos avanzados, tokenizadores de video y una acelerada canalización de procesamiento de datos, optimizados para las GPU del centro de datos de NVIDIA, diseñados especialmente para el desarrollo de robots y vehículos autónomos. La primera ola de modelos abiertos ya está disponible para la comunidad de desarrolladores. Los principales líderes globales en IA física, como 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi y XPENG, están entre los primeros en adoptarlos.
Anuncio de NVIDIA Cosmos
NVIDIA ha anunciado el lanzamiento de NVIDIA Cosmos™, una plataforma que incluye modelos de fundación generativos de última generación, tokenizadores avanzados, barandillas y una canalización de procesamiento de video acelerada, todos diseñados para avanzar en el desarrollo de sistemas de IA física como vehículos autónomos (AVs) y robots.
Modelos de fundación de IA física
Los modelos de IA física son costosos de desarrollar y requieren una gran cantidad de datos del mundo real y pruebas. Los modelos de fundación de Cosmos, o WFMs, ofrecen a los desarrolladores una manera sencilla de generar enormes cantidades de datos sintéticos fotorealistas y basados en la física para entrenar y evaluar sus modelos existentes. Además, los desarrolladores pueden construir modelos personalizados ajustando los WFMs de Cosmos.
Disponibilidad de modelos abiertos
Los modelos de Cosmos estarán disponibles bajo una licencia de modelo abierto para acelerar el trabajo de la comunidad de robótica y AV. Los desarrolladores pueden previsualizar los primeros modelos en el catálogo de API de NVIDIA o descargar la familia de modelos junto con el marco de ajuste desde el catálogo de NVIDIA NGC™.
Adopción por empresas líderes
Las principales compañías de robótica y automotriz, como 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi y XPENG, junto con el gigante de la movilidad compartida Uber, están entre las primeras en adoptar Cosmos.
Transformación en el desarrollo de robótica
“El momento de ChatGPT para la robótica se estaba acercando. Al igual que los modelos de lenguaje de gran tamaño, los modelos de fundación son fundamentales para avanzar en el desarrollo de robots y AV, pero no todos los desarrolladores tienen la experiencia y los recursos para entrenar los suyos”, mencionó Jensen Huang, fundador y CEO de NVIDIA. “Creamos Cosmos para democratizar la IA física y hacer que la robótica general esté al alcance de cada desarrollador.”
Modelos de fundación abiertos para la próxima ola de IA
La suite de modelos abiertos de NVIDIA Cosmos permite a los desarrolladores personalizar los WFMs con conjuntos de datos, como grabaciones de video de viajes en AV o robots navegando en un almacén, según las necesidades de su aplicación objetivo.
Herramientas avanzadas para el desarrollo de modelos
Construir modelos de IA física requiere petabytes de datos de video y decenas de miles de horas de cómputo para procesar, curar y etiquetar esos datos. Para ayudar a ahorrar costos enormes en la curación de datos, entrenamiento y personalización de modelos, Cosmos presenta:
- Una canalización de procesamiento de datos acelerada por NVIDIA AI y CUDA®, que permite a los desarrolladores procesar, curar y etiquetar 20 millones de horas de videos en 14 días utilizando la plataforma NVIDIA Blackwell, en lugar de más de tres años usando una canalización solo con CPU.
- NVIDIA Cosmos Tokenizer, un tokenizador visual de vanguardia para convertir imágenes y videos en tokens. Ofrece 8 veces más compresión total y 12 veces más velocidad de procesamiento que los tokenizadores actuales más utilizados.
- El marco NVIDIA NeMo para un entrenamiento, personalización y optimización de modelos altamente eficientes.
Industrias de IA física adoptan Cosmos
Pioneros de la industria de la IA física ya adoptaban las tecnologías de Cosmos.
1X, una empresa de robots humanoides, lanzó el conjunto de datos 1X World Model Challenge utilizando Cosmos Tokenizer. XPENG planeaba usar Cosmos para acelerar el desarrollo de su robot humanoide. Hillbot y Skild AI estaban utilizando Cosmos para agilizar el desarrollo de sus robots de propósito general.
“La escasez y variabilidad de datos son desafíos importantes para un aprendizaje exitoso en entornos robóticos”, dijo Pras Velagapudi, director de tecnología de Agility. “Las capacidades de Cosmos para convertir texto, imágenes y videos en mundos nos permiten generar y ampliar escenarios fotorealistas para una variedad de tareas que podemos usar para entrenar modelos sin necesitar tanta captura de datos del mundo real costosa.”
Liderazgo en transporte también adopta Cosmos
- Waabi, una empresa pionera en IA generativa para el mundo físico comenzando con los vehículos autónomos, estaba evaluando Cosmos en el contexto de la curación de datos para el desarrollo de software y simulación de AV.
- Wayve, que desarrolla modelos de fundación de IA para la conducción autónoma, evaluaba Cosmos como herramienta para buscar escenarios de conducción en condiciones extremas para garantizar la seguridad y validación.
- El proveedor de herramientas AV Foretellix planeaba usar Cosmos, junto con NVIDIA Omniverse Sensor RTX APIs, para evaluar y generar escenarios de prueba de alta fidelidad y datos de entrenamiento a gran escala.
- El gigante global de movilidad compartida Uber se asociaba con NVIDIA para acelerar la movilidad autónoma. Conjuntos de datos de conducción ricos de Uber, combinados con las características de la plataforma Cosmos y NVIDIA DGX Cloud™, podrían ayudar a sus socios de AV a construir modelos de IA más fuertes de manera más eficiente.
“La IA generativa impulsará el futuro de la movilidad, requiriendo tanto datos ricos como una capacidad computacional muy potente”, afirmó Dara Khosrowshahi, CEO de Uber. “Al trabajar con NVIDIA, confiamos en que podemos acelerar el cronograma para soluciones de conducción autónoma seguras y escalables para la industria.”
Desarrollo de una IA abierta, segura y responsable
NVIDIA Cosmos fue desarrollado de acuerdo con los principios de IA confiable de NVIDIA, que priorizan la privacidad, la seguridad, la transparencia y la reducción del sesgo no deseado.
La IA confiable es esencial para fomentar la innovación dentro de la comunidad de desarrolladores y mantener la confianza de los usuarios. NVIDIA está comprometida con una IA segura y confiable, en línea con los compromisos voluntarios de IA de la Casa Blanca y otras iniciativas de seguridad de IA a nivel global.
La plataforma abierta de Cosmos incluye barandillas diseñadas para mitigar textos e imágenes dañinas, y presenta una herramienta para mejorar la precisión de los mensajes de texto. Los videos generados con Cosmos incluyen marcas de agua invisibles que identifican el contenido generado por IA, ayudando a reducir las posibilidades de desinformación y atribución incorrecta.
NVIDIA alienta a los desarrolladores a adoptar prácticas de IA confiable y mejorar aún más las soluciones de barandillas y marcas de agua para sus aplicaciones.
Disponibilidad
Los WFMs de Cosmos están ahora disponibles bajo la licencia de modelo abierto de NVIDIA en Hugging Face y en el catálogo de NVIDIA NGC. Los modelos de Cosmos pronto estarán disponibles como microservicios completamente optimizados de NVIDIA NIM.
Los desarrolladores pueden acceder a NVIDIA NeMo Curator para un procesamiento de video acelerado y personalizar sus propios modelos de mundo con NVIDIA NeMo. NVIDIA DGX Cloud ofrece una forma rápida y fácil de implementar estos modelos, con soporte empresarial disponible a través de la plataforma de software NVIDIA AI Enterprise.
NVIDIA también ha anunciado nuevos modelos de lenguaje de gran tamaño NVIDIA Llama Nemotron y modelos de lenguaje de visión NVIDIA Cosmos Nemotron que los desarrolladores pueden utilizar para casos de uso de IA empresarial en sectores como la atención médica, servicios financieros, manufactura y más.