En el vertiginoso mundo de la inteligencia artificial, se ha vuelto cada vez más importante desarrollar modelos que puedan simular y predecir con precisión los resultados en entornos físicos del mundo real, lo que permitirá la próxima generación de sistemas de IA física.
Importancia de los modelos de fundación del mundo
Ming-Yu Liu, vicepresidente de investigación en NVIDIA y miembro del IEEE, participó en el podcast de NVIDIA AI para hablar sobre la relevancia de los modelos de fundación del mundo (WFM), que son poderosas redes neuronales capaces de simular entornos físicos. Los WFM pueden generar videos detallados a partir de datos de texto o imagen y predecir cómo evoluciona una escena al combinar su estado actual (imagen o video) con acciones (como señales de control).
“Los modelos de fundación del mundo son importantes para los desarrolladores de IA física”, declaró Liu. “Pueden imaginar muchos entornos diferentes y pueden simular el futuro, lo que nos permite tomar buenas decisiones basadas en esta simulación.” Esto es especialmente valioso para los sistemas de IA física, como robots y coches autónomos, que deben interactuar de manera segura y eficiente con el mundo real.
Por qué son importantes los modelos de fundación del mundo
Construir modelos de fundación a menudo requiere grandes cantidades de datos, que pueden ser difíciles y costosos de recopilar. Los WFM pueden generar datos sintéticos, proporcionando un conjunto de datos rico y variado que mejora el proceso de entrenamiento. Además, capacitar y probar sistemas de IA física en el mundo real puede ser intensivo en recursos. Los WFM ofrecen entornos virtuales en 3D donde los desarrolladores pueden simular y probar estos sistemas en un entorno controlado, evitando los riesgos y costos asociados con las pruebas en el mundo real.
Acceso abierto a modelos de fundación del mundo
Durante la feria comercial CES, NVIDIA anunció NVIDIA Cosmos, una plataforma de WFM generativos que acelera el desarrollo de sistemas de IA física como robots y coches autónomos. La plataforma está diseñada para ser abierta y accesible, e incluye WFM preentrenados basados en arquitecturas de difusión y auto-regresivas, junto con tokenizadores que pueden comprimir videos en tokens para los modelos de transformadores.
Liu explicó que con estos modelos abiertos, las empresas y desarrolladores tienen todos los ingredientes necesarios para construir modelos a gran escala. La plataforma abierta también brinda a los equipos la flexibilidad para explorar diversas opciones de entrenamiento y ajuste de modelos, o construir los suyos propios según necesidades específicas.
Mejorando flujos de trabajo de IA en diversas industrias
Se espera que los WFM mejoren los flujos de trabajo y el desarrollo de IA en varias industrias. Liu considera que los impactos más significativos se verán en dos áreas: “La industria de coches autónomos y la industria de robots humanoides se beneficiarán mucho del desarrollo de modelos del mundo”, afirmó Liu. “[Los WFM] pueden simular diferentes entornos que serían difíciles de recrear en el mundo real, para asegurarse de que el agente se comporte adecuadamente.”
Para los coches autónomos, estos modelos pueden simular entornos que permiten pruebas y optimización exhaustivas. Por ejemplo, se puede probar un coche autónomo en diversas condiciones climáticas simuladas y escenarios de tráfico para ayudar a asegurar que funcione de manera segura y eficiente antes de su despliegue en carreteras. En el ámbito de la robótica, los WFM pueden simular y verificar el comportamiento de los sistemas robóticos en diferentes entornos para garantizar que realicen tareas de forma segura y eficiente antes de su implementación.
NVIDIA colabora con empresas como 1X, Huobi y XPENG para ayudar a abordar desafíos en el desarrollo de IA física y avanzar sus sistemas. “Todavía estamos en la infancia del desarrollo de modelos de fundación del mundo —son útiles, pero necesitamos hacerlos más útiles”, concluyó Liu. “También necesitamos estudiar la mejor manera de integrar estos modelos de mundo en los sistemas de IA física de forma que realmente les beneficien.”