Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Generación de laptops y PCs impulsadas por IA están desbloqueando avances en gaming, creación de contenido, productividad y desarrollo. Actualmente, más de 600 aplicaciones y juegos de Windows ya están ejecutando IA localmente en más de 100 millones de PC con GeForce RTX AI en todo el mundo, ofreciendo un rendimiento rápido, fiable y de baja latencia.

Herramientas para el desarrollo de aplicaciones impulsadas por IA

Durante un evento, NVIDIA y Microsoft anunciaron herramientas para ayudar a los desarrolladores de Windows a construir y optimizar rápidamente aplicaciones impulsadas por IA en PC RTX AI, haciendo que la IA local sea más accesible. Estas nuevas herramientas permiten a los desarrolladores de aplicaciones y juegos aprovechar potentes GPUs RTX para acelerar flujos de trabajo complejos de IA, como agentes de IA, asistentes de aplicaciones y humanos digitales.

PCs RTX AI potencian humanos digitales con modelos de lenguaje multimodal

Conoce a James, un humano digital interactivo conocedor de NVIDIA y sus productos. James utiliza una colección de microservicios de NVIDIA NIM, NVIDIA ACE y tecnologías de humanos digitales de ElevenLabs para proporcionar respuestas naturales e inmersivas.

NVIDIA ACE es un conjunto de tecnologías de humanos digitales que da vida a agentes, asistentes y avatares. Para lograr un mayor nivel de comprensión y poder responder con mayor conciencia contextual, los humanos digitales deben ser capaces de percibir visualmente el mundo como lo hacen los humanos.

Mejorar las interacciones de los humanos digitales con un mayor realismo requiere tecnología que permita la percepción y comprensión de su entorno con mayor matiz. Para conseguirlo, NVIDIA desarrolló modelos de lenguaje multimodal pequeños que pueden procesar texto e imágenes, sobresaliendo en juegos de rol y optimizados para tiempos de respuesta rápidos.

El modelo NVIDIA Nemovision-4B-Instruct, que estaría disponible pronto, utiliza el último marco NVIDIA VILA y el marco NVIDIA NeMo para destilar, podar y cuantificar, haciéndolo lo suficientemente pequeño como para funcionar en GPUs RTX con la precisión que los desarrolladores necesitan.

Este modelo permite a los humanos digitales entender imágenes visuales en el mundo real y en la pantalla para ofrecer respuestas relevantes. La multimodalidad sirve como base para flujos de trabajo agentes y ofrece un avance hacia un futuro donde los humanos digitales pueden razonar y actuar con mínima asistencia de un usuario.

NVIDIA también está introduciendo la familia de modelos Mistral NeMo Minitron 128k Instruct, un conjunto de modelos de lenguaje pequeño de gran contexto diseñados para interacciones de humanos digitales optimizadas y eficientes, que llegarían pronto. Disponibles en versiones de 8B, 4B y 2B parámetros, estos modelos ofrecen opciones flexibles para equilibrar velocidad, uso de memoria y precisión en PCs RTX AI. Pueden manejar grandes conjuntos de datos en un solo paso, eliminando la necesidad de segmentación y reensamblaje de datos. Construidos en formato GGUF, estos modelos mejoran la eficiencia en dispositivos de bajo consumo y soportan compatibilidad con múltiples lenguajes de programación.

Acelera la IA generativa con NVIDIA TensorRT Model Optimizer para Windows

Al llevar modelos a entornos de PC, los desarrolladores enfrentan el desafío de recursos limitados de memoria y computación para ejecutar IA localmente. Además, buscan hacer que los modelos estén disponibles para tantas personas como sea posible, con una pérdida mínima de precisión.

NVIDIA anunció actualizaciones al NVIDIA TensorRT Model Optimizer (ModelOpt) para ofrecer a los desarrolladores de Windows una manera mejorada de optimizar modelos para el despliegue en ONNX Runtime.

Con las últimas actualizaciones, TensorRT ModelOpt permite que los modelos sean optimizados en un punto de control de ONNX para implementar el modelo dentro de entornos de ejecución de ONNX, utilizando proveedores de ejecución de GPU como CUDA, TensorRT y DirectML.

TensorRT-ModelOpt incluye algoritmos de cuantización avanzados, como la Cuantización de Peso Consciente de Activación INT4. En comparación con otras herramientas como Olive, el nuevo método reduce la huella de memoria del modelo y mejora el rendimiento de procesamiento en GPUs RTX.

Durante el despliegue, los modelos pueden tener hasta un 2.6x de reducción en la huella de memoria en comparación con modelos FP16. Esto resulta en un procesamiento más rápido, con una degradación mínima de la precisión, permitiendo que se ejecuten en una gama más amplia de PCs.

- A word from our sposor -

spot_img