Millones de personas ya utilizan IA generativa para ayudar en la escritura y el aprendizaje. Ahora, la tecnología también puede asistirles a navegar de manera más efectiva en el mundo físico.
NVIDIA anunció avances en IA física generativa en SIGGRAPH, incluyendo el flujo de trabajo de referencia Metropolis de NVIDIA para construir agentes de IA visual interactivos y nuevos microservicios NVIDIA NIM que ayudarán a los desarrolladores a entrenar máquinas físicas y mejorar su manejo de tareas complejas.
Estos incluyen tres microservicios fVDB NIM que respaldan el nuevo marco de aprendizaje profundo de NVIDIA para mundos 3D, así como los microservicios NIM USD Code, USD Search y USD Validate para trabajar con la Descripción de Escenas Universal (también conocida como OpenUSD).
Los microservicios NIM de NVIDIA OpenUSD trabajan junto con los primeros modelos de IA generativa del mundo para desarrollo de OpenUSD —también desarrollados por NVIDIA— para permitir a los desarrolladores incorporar copilotos y agentes de IA generativa en los flujos de trabajo de USD y ampliar las posibilidades de los mundos 3D.
NVIDIA NIM microservicios transforman los paisajes de IA física
La IA física utiliza simulaciones avanzadas y métodos de aprendizaje para ayudar a los robots y otras automatizaciones industriales a percibir, razonar y navegar sus entornos de manera más efectiva. La tecnología está transformando industrias como la manufactura y la atención médica, y avanzando espacios inteligentes con robots, tecnologías de fábricas y almacenes, agentes de IA quirúrgica y automóviles que pueden operar de manera más autónoma y precisa.
NVIDIA ofrece una amplia gama de microservicios NIM personalizados para modelos específicos y dominios industriales. La suite de microservicios NIM de NVIDIA diseñada para IA física soporta capacidades para habla y traducción, visión e inteligencia, así como animación y comportamiento realistas.
Convertir agentes de IA visual en visionarios con NVIDIA NIM
Los agentes de IA visual utilizan capacidades de visión por computadora para percibir e interactuar con el mundo físico y realizar tareas de razonamiento.
Agentes de IA visual altamente perceptivos e interactivos están impulsados por una nueva clase de modelos de IA generativa llamados modelos de lenguaje de visión (VLMs), que conectan la percepción digital y la interacción en el mundo real en cargas de trabajo de IA física para permitir una toma de decisiones mejorada, precisión, interactividad y rendimiento. Con los VLMs, los desarrolladores pueden crear agentes de IA visual que pueden manejar tareas desafiantes de manera más efectiva, incluso en entornos complejos.
Los agentes de IA visual impulsados por IA generativa se están implementando rápidamente en hospitales, fábricas, almacenes, tiendas minoristas, aeropuertos, intersecciones de tráfico y más.
Para ayudar a los desarrolladores de IA física a construir agentes de IA visual personalizados y de alto rendimiento, NVIDIA ofrece microservicios NIM y flujos de trabajo de referencia para IA física. El flujo de trabajo de referencia Metropolis de NVIDIA proporciona un enfoque simple y estructurado para personalizar, construir y desplegar agentes de IA visual, como se detalla en el blog.
NVIDIA NIM ayuda a K2K a hacer más eficiente, segura y segura a Palermo
Los administradores de tráfico de la ciudad en Palermo, Italia, desplegaron agentes de IA visual utilizando NVIDIA NIM para descubrir insights físicos que les ayudan a gestionar mejor las vías.
K2K, un socio de NVIDIA Metropolis, lidera el esfuerzo, integrando microservicios NIM de NVIDIA y VLMs en agentes de IA que analizan las cámaras de tráfico en vivo de la ciudad en tiempo real. Los funcionarios de la ciudad pueden hacer preguntas a los agentes en lenguaje natural y recibir insights rápidos y precisos sobre la actividad en las calles y sugerencias sobre cómo mejorar las operaciones de la ciudad, como ajustar el tiempo de los semáforos.
Gigantes globales de la electrónica como Foxconn y Pegatron han adoptado la IA física, los microservicios NIM y los flujos de trabajo de referencia Metropolis para diseñar y operar sus masivas operaciones de manufactura de manera más eficiente.
Las empresas están construyendo fábricas virtuales en simulación para ahorrar tiempo y costos significativos. También están realizando pruebas y mejoras más exhaustivas para su IA física —incluyendo agentes de IA multi-cámara e IA visual— en gemelos digitales antes del despliegue en el mundo real, mejorando la seguridad de los trabajadores y llevando a eficiencias operativas.
Cerrando la brecha entre simulación y realidad con generación de datos sintéticos
Muchas empresas impulsadas por IA están adoptando ahora un enfoque de «simulación primero» para proyectos de IA física generativa que involucran automatización industrial del mundo real.
Las empresas de manufactura, logística en fábricas y robótica necesitan gestionar interacciones complejas con los trabajadores, instalaciones avanzadas y equipos costosos. El software de IA física de NVIDIA, herramientas y plataformas —incluidos los microservicios NIM de IA física y VLM, flujos de trabajo de referencia y fVDB— pueden ayudarles a simplificar la ingeniería altamente compleja requerida para crear representaciones digitales o entornos virtuales que imiten de manera precisa las condiciones del mundo real.
Los VLMs están viendo una amplia adopción en las industrias debido a su capacidad para generar imágenes altamente realistas. Sin embargo, estos modelos pueden ser desafiantes de entrenar debido al inmenso volumen de datos necesarios para crear un modelo de IA física preciso.
Los datos sintéticos generados a partir de gemelos digitales utilizando simulaciones por computadora ofrecen una poderosa alternativa a los conjuntos de datos del mundo real, que pueden ser costosos —y a veces imposibles— de adquirir para el entrenamiento de modelos, dependiendo del caso de uso.
Herramientas como los microservicios NIM de NVIDIA y Omniverse Replicator permiten a los desarrolladores construir pipelines de datos sintéticos habilitados para IA generativa para acelerar la creación de conjuntos de datos robustos y diversos para entrenar IA física. Esto mejora la adaptabilidad y el rendimiento de modelos como los VLMs, permitiéndoles generalizar de manera más efectiva a través de industrias y casos de uso.
Disponibilidad
Los desarrolladores pueden acceder a modelos de IA de fundación de vanguardia, abiertos y construidos por NVIDIA, así como a microservicios NIM en ai.nvidia.com. El flujo de trabajo de referencia NIM Metropolis está disponible en el repositorio de GitHub, y los microservicios Metropolis VIA están disponibles para descarga en vista previa para desarrolladores.
Los microservicios NIM de OpenUSD están disponibles en vista previa a través del catálogo de API de NVIDIA.
Vea cómo la computación acelerada y la IA generativa están transformando industrias y creando nuevas oportunidades para la innovación y el crecimiento en charlas al calor de la fogata del fundador y CEO de NVIDIA, Jensen Huang, en SIGGRAPH.
Consulte aviso sobre la información del producto de software.