NVIDIA ha presentado recientemente una serie de innovaciones en el campo de la inteligencia artificial durante la Gamescom. Su última incorporación es NVIDIA ACE, una suite de tecnologías diseñada para dar vida a humanos digitales mediante inteligencia artificial generativa. Esta herramienta incluye el primer modelo pequeño de lenguaje en dispositivo (SLM) de la compañía, impulsado localmente por la inteligencia artificial de RTX.
Detalles del modelo Nemotron-4
El modelo, conocido como Nemotron-4 4B Instruct, ofrece mejores capacidades de juego de rol, generación aumentada y llamada a funciones, permitiendo a los personajes de los juegos comprender de manera más intuitiva las instrucciones de los jugadores, responder y realizar acciones más precisas y relevantes.
Disponible como un microservicio NVIDIA NIM para despliegue en la nube y en dispositivo, el modelo está optimizado para un bajo uso de memoria, lo que proporciona tiempos de respuesta más rápidos y permite a los desarrolladores aprovechar más de 100 millones de PCs y laptops impulsados por GeForce RTX y estaciones de trabajo NVIDIA RTX.
Ventajas del SLM
La precisión y el rendimiento de un modelo de IA dependen del tamaño y la calidad del conjunto de datos utilizado para el entrenamiento. Los modelos de lenguaje grandes se entrenan con cantidades masivas de datos, pero son generalmente de propósito general y contienen información excesiva para la mayoría de los usos.
Los SLM, en cambio, se enfocan en casos de uso específicos. Por lo tanto, incluso con menos datos, son capaces de proporcionar respuestas más precisas y rápidamente, elementos fundamentales para conversar de manera natural con humanos digitales.
El modelo Nemotron-4 4B fue destilado inicialmente del modelo más grande Nemotron-4 15B. Este proceso requiere que el modelo más pequeño, denominado «estudiante», imite las salidas del modelo más grande, apropiadamente llamado «maestro». Durante este proceso, las salidas no críticas del modelo estudiante son eliminadas para reducir el tamaño de parámetros del modelo. Luego, el SLM es cuantificado, lo que disminuye la precisión de los pesos del modelo.
Con menos parámetros y menor precisión, Nemotron-4 4B tiene una menor huella de memoria y un tiempo más rápido para el primer token —la rapidez con que comienza una respuesta— en comparación con el modelo más grande Nemotron-4 LLM, manteniendo todavía un alto nivel de precisión gracias a la destilación. Su menor huella de memoria también significa que los juegos y aplicaciones que integran el microservicio NIM pueden ejecutarse localmente en más de los PCs y laptops GeForce RTX AI y estaciones de trabajo NVIDIA RTX que los consumidores poseen actualmente.
Este nuevo SLM optimizado también está diseñado con ajuste de instrucciones, una técnica para afinar modelos en indicaciones formativas para desempeñar mejor tareas específicas. Esto se puede ver en Mecha BREAK, un videojuego en el que los jugadores pueden conversar con un personaje mecánico del juego y darle instrucciones para cambiar y personalizar mechs.
Microservicios ACE
Los microservicios ACE NIM permiten a los desarrolladores desplegar modelos generativos de IA de última generación a través de la nube o en PCs y estaciones de trabajo RTX AI para llevar la IA a sus juegos y aplicaciones. Con los microservicios ACE NIM, los personajes no jugables (NPCs) pueden interactuar y conversar de manera dinámica con los jugadores en tiempo real.
ACE consiste en modelos clave de IA para conversión de voz a texto, lenguaje, conversión de texto a voz y animación facial. También es modular, permitiendo a los desarrolladores elegir el microservicio NIM necesario para cada elemento en su proceso particular.
NVIDIA Riva, un sistema de reconocimiento de voz automático (ASR), procesa el lenguaje hablado de un usuario y utiliza IA para proporcionar una transcripción altamente precisa en tiempo real. La tecnología construye canales de IA conversacional totalmente personalizables utilizando microservicios multilingües de habla y traducción acelerados por GPU. Otros ASR soportados incluyen Whisper de OpenAI, una red neuronal de código abierto que se aproxima a la robustez y precisión del nivel humano en el reconocimiento de voz en inglés.
Una vez traducido a texto digital, la transcripción es ingresada en un LLM, como Gemma de Google, Llama 3 de Meta o ahora NVIDIA Nemotron-4 4B, para comenzar a generar una respuesta a la entrada de voz original del usuario.
A continuación, otra pieza de la tecnología Riva, la conversión de texto a voz, genera una respuesta de audio. La tecnología de voz y habla propietaria de ElevenLabs también es soportada y ha sido demostrada como parte de ACE, como se puede ver en la demostración anterior.
Finalmente, NVIDIA Audio2Face (A2F) genera expresiones faciales que pueden sincronizarse con el diálogo en varios idiomas. Con el microservicio, los avatares digitales pueden mostrar emociones dinámicas y realistas transmitidas en vivo o integradas durante la postproducción.
La red de IA anima automáticamente la cara, los ojos, la boca, la lengua y los movimientos de la cabeza para que coincidan con el rango emocional seleccionado y el nivel de intensidad. Y A2F puede inferir automáticamente la emoción directamente de un clip de audio.
Finalmente, el personaje completo o humano digital es animado en un renderizador, como Unreal Engine o la plataforma NVIDIA Omniverse.
IA flexible
Aparte de su soporte modular para varios modelos de IA de NVIDIA y de terceros, ACE permite a los desarrolladores ejecutar inferencias para cada modelo en la nube o localmente en PCs y estaciones de trabajo RTX AI.
El kit de desarrollo de software NVIDIA AI Inference Manager permite una inferencia híbrida basada en diversas necesidades como experiencia, carga de trabajo y costos. Facilita el despliegue e integración de modelos de IA para los desarrolladores de aplicaciones de PC al preconfigurar la PC con los modelos de IA, motores y dependencias necesarias. Las aplicaciones y juegos pueden orquestar la inferencia de manera fluida entre una PC o estación de trabajo y la nube.
Los microservicios ACE NIM se ejecutan localmente en PCs y estaciones de trabajo RTX AI, así como en la nube. Los actuales microservicios que se ejecutan localmente incluyen Audio2Face, en la demostración técnica Covert Protocol, y el nuevo Nemotron-4 4B Instruct y Whisper ASR en Mecha BREAK.
Hacia el futuro
Los humanos digitales van mucho más allá de los NPCs en los juegos. En la reciente conferencia SIGGRAPH, NVIDIA presentó a “James”, un humano digital interactivo que puede conectarse con las personas utilizando emociones, humor y más. James está basado en un flujo de trabajo de atención al cliente utilizando ACE.
Cambios en los métodos de comunicación entre humanos y tecnología a lo largo de las décadas eventualmente llevaron a la creación de humanos digitales. El futuro de la interfaz humano-computadora tendrá un rostro amigable y no requerirá entradas físicas.
Los humanos digitales fomentan interacciones más atractivas y naturales. Según Gartner, el 80% de las ofertas conversacionales contendrán IA generativa para 2025, y el 75% de las aplicaciones orientadas al cliente contarán con IA conversacional con emociones. Los humanos digitales transformarán múltiples industrias y casos de uso más allá de los juegos, incluyendo atención al cliente, salud, comercio minorista, telepresencia y robótica.
Los usuarios pueden vislumbrar este futuro ahora interactuando con James en tiempo real.
La IA generativa está transformando los juegos, videoconferencias y experiencias interactivas de todo tipo.