ChatGPT marcó el momento decisivo de la inteligencia artificial generativa. Las respuestas pueden ser generadas en respuesta a casi cualquier consulta, ayudando a transformar el trabajo digital en áreas como la creación de contenido, el servicio al cliente, el desarrollo de software y las operaciones comerciales para los trabajadores del conocimiento.
La IA física, que representa la inteligencia artificial en humanoides, fábricas y otros dispositivos dentro de sistemas industriales, aún no había alcanzado su momento de auge.
Esto había limitado a industrias como el transporte y la movilidad, la fabricación, la logística y la robótica. Pero eso estaba a punto de cambiar gracias a tres computadoras que integran entrenamiento avanzado, simulación e inferencia.
El auge de la IA física multimodal
Durante 60 años, “Software 1.0” —código serial escrito por programadores humanos— funcionó en computadoras de propósito general impulsadas por CPUs.
Luego, en 2012, Alex Krizhevsky, bajo la tutela de Ilya Sutskever y Geoffrey Hinton, ganó la competencia de reconocimiento de imágenes ImageNet con AlexNet, un modelo de aprendizaje profundo revolucionario para la clasificación de imágenes.
Esto marcó el primer contacto de la industria con la IA. El avance del aprendizaje automático —redes neuronales que funcionan en GPUs— dio un impulso a la era del Software 2.0.
Hoy en día, el software escribe software. Las cargas de trabajo informáticas del mundo están cambiando de la computación de propósito general en CPUs a la computación acelerada en GPUs, dejando la ley de Moore muy atrás.
Con la IA generativa, modelos de transformadores multimodales y de difusión han sido entrenados para generar respuestas.
Los modelos de lenguaje grandes son unidimensionales, capaces de predecir el siguiente token, en modalidades como letras o palabras. Los modelos de generación de imágenes y videos son bidimensionales, capaces de predecir el siguiente píxel.
Ninguno de estos modelos puede comprender o interpretar el mundo tridimensional. Y ahí es donde entra la IA física.
Los modelos de IA física pueden percibir, comprender, interactuar con y navegar por el mundo físico gracias a la IA generativa. Con la computación acelerada, los avances en IA física multimodal y las simulaciones basadas en la física a gran escala están permitiendo al mundo reconocer el valor de la IA física a través de los robots.
Un robot es un sistema que puede percibir, razonar, planificar, actuar y aprender. Los robots a menudo se piensan como robots móviles autónomos (AMRs), brazos manipuladores o humanoides. Pero hay muchos más tipos de manifestaciones robóticas.
En un futuro cercano, todo lo que se mueva o que monitoree cosas que se mueven será sistemas robóticos autónomos. Estos sistemas serán capaces de sentir y reaccionar a sus entornos.
Desde salas de cirugía hasta centros de datos, pasando por almacenes y fábricas, incluso sistemas de control de tráfico o ciudades inteligentes completas, se transformarán de sistemas estáticos y operados manualmente a sistemas autónomos e interactivos encarnados por la IA física.
La próxima frontera: los robots humanoides
Los robots humanoides son una manifestación robótica ideal de propósito general porque pueden operar de manera eficiente en entornos diseñados para humanos, requiriendo ajustes mínimos para su despliegue y operación.
Se espera que el mercado global de robots humanoides alcance los 38 mil millones de dólares en el futuro, lo que representa más de seis veces el aumento desde los aproximadamente 6 mil millones pronosticados hace casi dos años, según Goldman Sachs.
Investigadores y desarrolladores de todo el mundo estaban compitiendo para construir esta próxima ola de robots.
Tres computadoras para desarrollar IA física
Para desarrollar robots humanoides, se requieren tres sistemas de computación acelerada que manejen la IA física, así como el entrenamiento de robots, la simulación y el tiempo de ejecución. Dos avances en la computación están acelerando el desarrollo de los robots humanoides: modelos básicos multimodales y simulaciones físicamente escalables de robots y sus mundos.
Los avances en IA generativa estaban aportando percepción 3D, control, planificación de habilidades e inteligencia a los robots. La simulación de robots a gran escala permitía a los desarrolladores refinar, probar y optimizar las habilidades de los robots en un mundo virtual que imitaba las leyes de la física, ayudando a reducir los costos de adquisición de datos del mundo real y asegurando que pudieran funcionar en entornos seguros y controlados.
NVIDIA había construido tres computadoras y plataformas de desarrollo aceleradas para permitir a los desarrolladores crear IA física.
Primero, los modelos se entrenan en una supercomputadora. Los desarrolladores pueden utilizar NVIDIA NeMo en la plataforma NVIDIA DGX para entrenar y ajustar modelos poderosos de IA de base y generativa. También pueden recurrir a NVIDIA Project GR00T, una iniciativa para desarrollar modelos de base de propósito general para robots humanoides que les permita comprender el lenguaje natural y emular movimientos mediante la observación de acciones humanas.
Segundo, NVIDIA Omniverse, ejecutándose en servidores NVIDIA OVX, proporciona la plataforma de desarrollo y el entorno de simulación para probar y optimizar la IA física con interfaces de programación de aplicaciones y marcos como NVIDIA Isaac Sim.
Los desarrolladores pueden utilizar Isaac Sim para simular y validar modelos de robots, o generar grandes cantidades de datos sintéticos basados en la física para iniciar el entrenamiento de modelos de robots. Los investigadores y desarrolladores también pueden usar NVIDIA Isaac Lab, un marco de aprendizaje robótico de código abierto que impulsa el aprendizaje por refuerzo y el aprendizaje por imitación de los robots, para ayudar a acelerar el entrenamiento y la mejora de políticas robóticas.
Por último, los modelos de IA entrenados se despliegan en una computadora de ejecución. Las computadoras robóticas NVIDIA Jetson Thor están diseñadas específicamente para necesidades de computación compacta a bordo. Un conjunto de modelos que consiste en política de control, visión y modelos de lenguaje compone el cerebro del robot y se despliega en un sistema de computación en el borde a bordo, eficiente en términos de energía.
Dependiendo de sus flujos de trabajo y áreas de desafío, los fabricantes de robots y desarrolladores de modelos de base pueden usar tantas plataformas y sistemas de computación acelerada como necesiten.
Construyendo la próxima ola de instalaciones autónomas
Las instalaciones robóticas son el resultado de la culminación de todas estas tecnologías.
Fabricantes como Foxconn o empresas de logística como Amazon Robotics pueden orquestar equipos de robots autónomos para trabajar junto a trabajadores humanos y monitorear las operaciones de la fábrica a través de cientos o miles de sensores.
Estas almacenes, plantas y fábricas autónomas contarán con gemelos digitales. Los gemelos digitales se utilizan para la planificación y optimización de diseños, simulación de operaciones y, lo más importante, pruebas de software de flotas de robots en bucle.
Construido sobre Omniverse, “Mega” es un plano para los gemelos digitales de fábricas que permite a las empresas industriales probar y optimizar sus flotas de robots en simulación antes de desplegarlos en fábricas físicas. Esto ayuda a garantizar una integración sin problemas, un rendimiento óptimo y una interrupción mínima.
Mega permite a los desarrolladores poblar sus gemelos digitales de fábricas con robots virtuales y sus modelos de IA, o los cerebros de los robots. Los robots en el gemelo digital ejecutan tareas percepcionando su entorno, razonando, planificando su siguiente movimiento y, finalmente, completando las acciones planeadas.
Estas acciones son simuladas en el entorno digital por el simulador del mundo en Omniverse, y los resultados son percibidos por los cerebros de los robots a través de la simulación de sensores de Omniverse.
Con simulaciones de sensores, los cerebros de los robots decidían la siguiente acción, y el ciclo continuaba, todo mientras Mega seguía de cerca el estado y la posición de cada elemento dentro del gemelo digital de la fábrica.
Esta avanzada metodología de pruebas de software en bucle permite a las empresas industriales simular y validar cambios dentro de los límites seguros del gemelo digital de Omniverse, ayudándoles a anticipar y mitigar problemas potenciales para reducir riesgos y costos durante el despliegue en el mundo real.
Empoderando el ecosistema de desarrolladores con la tecnología de NVIDIA
NVIDIA acelera el trabajo del ecosistema global de desarrolladores de robótica y constructores de modelos de base robótica con tres computadoras.
Universal Robots, una empresa de Teradyne Robotics, utilizó NVIDIA Isaac Manipulator, bibliotecas y modelos de IA acelerados, y NVIDIA Jetson Orin para construir UR AI Accelerator, un kit de herramientas de hardware y software listo para usar que permite a los desarrolladores de cobots construir aplicaciones, acelerar el desarrollo y reducir el tiempo de comercialización de productos de IA.
RGo Robotics utilizó NVIDIA Isaac Perceptor para ayudar a sus AMRs wheel.me a trabajar en todas partes, todo el tiempo, y tomar decisiones inteligentes dándoles percepción similar a la humana e información visual-espacial.
Los fabricantes de robots humanoides, incluidos 1X Technologies, Agility Robotics, Apptronik, Boston Dynamics, Fourier, Galbot, Mentee, Sanctuary AI, Unitree Robotics y XPENG Robotics, están adoptando la plataforma de desarrollo de robótica de NVIDIA.
Boston Dynamics está utilizando Isaac Sim e Isaac Lab para construir cuadrúpedos y robots humanoides que aumenten la productividad humana, aborden la escasez de mano de obra y prioricen la seguridad en los almacenes.
Fourier está aprovechando Isaac Sim para entrenar robots humanoides para operar en campos que demandan altos niveles de interacción y adaptabilidad, como la investigación científica, la atención médica y la fabricación.
Usando Isaac Lab e Isaac Sim, Galbot avanzó en el desarrollo de un conjunto de datos de agarre robótico hábil a gran escala llamado DexGraspNet que puede aplicarse a diferentes manos robóticas hábiles, así como un entorno de simulación para evaluar modelos de agarre hábil.
Field AI desarrolló modelos de base multitarea y multipropósito con límites de riesgo para que los robots operen de forma segura en entornos de campo al aire libre, utilizando la plataforma Isaac y Isaac Lab.
La era de la IA física ya había comenzado y estaba transformando las industrias pesadas y la robótica del mundo.
Comienza con NVIDIA Robotics.