En una conferencia dedicada al aprendizaje de robots, Hugging Face y NVIDIA anunciaron una colaboración para acelerar la investigación y el desarrollo en robótica, uniendo sus comunidades de robótica de código abierto.
Robótica de código abierto para la era de la IA física
La era de la IA física — robots que comprenden las propiedades físicas de los entornos — ya estaba presente, y estaba transformando rápidamente las industrias en todo el mundo.
Para impulsar y mantener esta innovación acelerada, los investigadores y desarrolladores de robótica necesitaban acceso a marcos extensibles y de código abierto que abarcan el proceso de desarrollo de entrenamiento, simulación e inferencia de robots. Con modelos, conjuntos de datos y flujos de trabajo lanzados bajo marcos compartidos, los últimos avances estaban disponibles para su uso sin necesidad de recrear código.
La plataforma de IA abierta de Hugging Face servía a más de 5 millones de investigadores y desarrolladores en aprendizaje automático, ofreciendo herramientas y recursos para optimizar el desarrollo de IA. Los usuarios de Hugging Face podían acceder y ajustar finamente los modelos preentrenados más recientes y construir tuberías de IA en APIs comunes con más de 1.5 millones de modelos, conjuntos de datos y aplicaciones de acceso gratuito en el Hub de Hugging Face.
LeRobot, desarrollado por Hugging Face, extendía los paradigmas exitosos de sus bibliotecas Transformers y Diffusers al dominio de la robótica. LeRobot ofrecía un conjunto integral de herramientas para compartir la recolección de datos, el entrenamiento de modelos y los entornos de simulación, junto con diseños para kits de manipuladores de bajo costo.
La tecnología de IA de NVIDIA, la simulación y el marco modular de aprendizaje de robots de código abierto, como NVIDIA Isaac Lab, podían acelerar el flujo de trabajo de recolección de datos, entrenamiento y verificación de LeRobot. Investigadores y desarrolladores podían compartir sus modelos y conjuntos de datos construidos con LeRobot e Isaac Lab, creando un ciclo de retroalimentación de datos para la comunidad robótica.
Escalando el desarrollo de robots con simulación
Desarrollar IA física era un desafío. A diferencia de los modelos de lenguaje que usaban extensos datos textuales de internet, la robótica basada en física dependía de datos de interacción física junto con sensores de visión, lo que resultaba más difícil de reunir a gran escala. Recoger datos de robots del mundo real para manipulaciones hábiles en una amplia gama de tareas y entornos era un proceso que consumía tiempo y recursos.
Para facilitar esto, Isaac Lab, construido sobre NVIDIA Isaac Sim, habilitaba el entrenamiento de robots mediante demostraciones o prueba y error en simulaciones usando renderizado de alta fidelidad y simulaciones físicas para crear entornos y datos sintéticos realistas. Al combinar simulaciones de física aceleradas por GPU y la ejecución paralela de entornos, Isaac Lab permitía generar grandes cantidades de datos de entrenamiento — equivalentes a miles de experiencias del mundo real — a partir de una sola demostración.
Los datos de movimiento generados se utilizaban luego para entrenar una política mediante aprendizaje por imitación. Tras el entrenamiento y la validación exitosos en simulación, las políticas se desplegaban en un robot real, donde se probaban y ajustaban aún más para lograr un rendimiento óptimo.
Este proceso iterativo aprovechaba la precisión de los datos del mundo real y la escalabilidad de los datos sintéticos simulados, asegurando sistemas robóticos robustos y confiables.
Al compartir estos conjuntos de datos, políticas y modelos en Hugging Face, se creaba un ciclo de retroalimentación de datos de robots que habilitaba a desarrolladores e investigadores a construir sobre el trabajo de los demás, acelerando el progreso en el campo.
“La comunidad robótica prospera cuando construimos juntos”, comentó Animesh Garg, profesor asistente en Georgia Tech. “Al adoptar marcos de código abierto como LeRobot de Hugging Face y NVIDIA Isaac Lab, aceleramos el ritmo de la investigación y la innovación en la robótica impulsada por IA”.
Fomentando la colaboración y el compromiso comunitario
El flujo de trabajo colaborativo planeado involucraba la recolección de datos a través de teleoperación y simulación en Isaac Lab, almacenándolos en el formato estándar LeRobotDataset. Los datos generados con GR00T-Mimic se usarían luego para entrenar una política robótica mediante aprendizaje por imitación, que posteriormente se evaluaría en simulación. Finalmente, la política validada se desplegaría en robots del mundo real con NVIDIA Jetson para inferencia en tiempo real.
Los pasos iniciales en esta colaboración ya habían sido dados, mostrando una configuración de picking físico con LeRobot funcionando en NVIDIA Jetson Orin Nano, proporcionando una plataforma de computación compacta y potente para el despliegue.
“Combinar la comunidad de código abierto de Hugging Face con el hardware de NVIDIA y la simulación de Isaac Lab tiene el potencial de acelerar la innovación en IA para la robótica”, manifestó Remi Cadene, científico principal de investigación en LeRobot.
Este trabajo se apoyaba en las contribuciones comunitarias de NVIDIA en IA generativa en la periferia, respaldando los últimos modelos y bibliotecas abiertas, como Hugging Face Transformers, optimizando la inferencia para modelos de lenguaje grandes (LLMs), modelos de lenguaje pequeños (SLMs) y modelos de visión-lenguaje multimodal (VLMs), junto con variantes basadas en acciones de los modelos de acción visión-lenguaje (VLAs), políticas de difusión y modelos de voz — todo con un fuerte apoyo comunitario.
Juntos, Hugging Face y NVIDIA tenían como objetivo acelerar el trabajo del ecosistema global de investigadores y desarrolladores en robótica, transformando industrias que van desde el transporte hasta la manufactura y la logística.