Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

La era de la PC con IA ha llegado, y está impulsada por las tecnologías **NVIDIA RTX** y **GeForce RTX**. Con ella viene una nueva forma de evaluar el rendimiento para tareas aceleradas por IA y un nuevo lenguaje que puede ser intimidante al elegir entre los escritorios y portátiles disponibles.

Mientras que los jugadores de PC entienden los fotogramas por segundo (FPS) y estadísticas similares, medir el rendimiento de la IA requiere nuevas métricas.

Coming Out on TOPS

La primera referencia es TOPS, o billones de operaciones por segundo. La palabra importante aquí es billones: los números de procesamiento detrás de las tareas de IA generativa son absolutamente masivos. Piensa en TOPS como una métrica de rendimiento bruto, similar a la clasificación de caballos de fuerza de un motor. Más es mejor.

Compara, por ejemplo, la línea de PC Copilot+ recientemente anunciada por Microsoft, que incluye unidades de procesamiento neuronal (NPU) capaces de realizar más de 40 TOPS. Realizar 40 TOPS es suficiente para algunas tareas ligeras asistidas por IA, como preguntarle a un chatbot local dónde están las notas de ayer.

Pero muchas tareas de IA generativa son más exigentes. Las **GPUs NVIDIA RTX y GeForce RTX** ofrecen un rendimiento sin precedentes en todas las tareas generativas: la GPU GeForce RTX 4090 ofrece más de 1,300 TOPS. Este es el tipo de potencia necesaria para manejar la creación de contenido digital asistido por IA, superresolución en juegos de PC, generación de imágenes a partir de texto o video, consultas a modelos de lenguaje de gran tamaño (LLMs) locales y más.

Insert Tokens to Play

TOPS es solo el comienzo de la historia. El rendimiento de los LLM se mide en la cantidad de tokens generados por el modelo.

Los tokens son la salida del LLM. Un token puede ser una palabra en una oración o incluso un fragmento más pequeño como puntuación o espacios en blanco. El rendimiento para tareas aceleradas por IA se puede medir en «tokens por segundo».

Otro factor importante es el tamaño del lote, o la cantidad de entradas procesadas simultáneamente en una sola pasada de inferencia. Como un LLM estará en el núcleo de muchos sistemas modernos de IA, la capacidad de manejar múltiples entradas (por ejemplo, de una sola aplicación o de múltiples aplicaciones) será un diferenciador clave. Si bien los tamaños de lote más grandes mejoran el rendimiento para entradas concurrentes, también requieren más memoria, especialmente cuando se combinan con modelos más grandes.

The more you batch, the more (time) you save.

Las **GPUs RTX** son excepcionalmente adecuadas para los LLM debido a su gran cantidad de memoria de acceso aleatorio de video (VRAM) dedicada, Tensor Cores y software TensorRT-LLM.

Las **GPUs GeForce RTX** ofrecen hasta 24GB de VRAM de alta velocidad, y las **GPUs NVIDIA RTX** hasta 48GB, que pueden manejar modelos más grandes y permitir tamaños de lote más altos. Las GPUs RTX también aprovechan los Tensor Cores, aceleradores de IA dedicados que aceleran dramáticamente las operaciones computacionalmente intensivas requeridas para deep learning y modelos de IA generativa. Ese rendimiento máximo es fácilmente accesible cuando una aplicación utiliza el kit de desarrollo de software **NVIDIA TensorRT**, que desbloquea el mayor rendimiento de IA generativa en los más de 100 millones de PCs y estaciones de trabajo con Windows impulsadas por GPUs RTX.

La combinación de memoria, aceleradores de IA dedicados y software optimizado da a las GPUs RTX enormes ganancias de rendimiento, especialmente a medida que aumentan los tamaños de lote.

Text-to-Image, faster than ever

Medir la velocidad de generación de imágenes es otra forma de evaluar el rendimiento. Una de las formas más sencillas utiliza **Stable Diffusion**, un modelo de IA basado en imágenes que permite a los usuarios convertir fácilmente descripciones de texto en representaciones visuales complejas.

Con Stable Diffusion, los usuarios pueden crear y refinar imágenes rápidamente a partir de indicaciones de texto para lograr su salida deseada. Al usar una GPU RTX, estos resultados pueden generarse más rápido que procesar el modelo de IA en una CPU o NPU.

Ese rendimiento es aún mayor cuando se utiliza la **extensión TensorRT** para la popular interfaz Automatic1111. Los usuarios de RTX pueden generar imágenes a partir de indicaciones hasta 2 veces más rápido con el punto de control SDXL Base, lo que agiliza significativamente los flujos de trabajo de Stable Diffusion.

**ComfyUI**, otra interfaz de usuario popular de Stable Diffusion, agregó aceleración TensorRT recientemente. Los usuarios de RTX ahora pueden generar imágenes a partir de indicaciones hasta un 60% más rápido e incluso convertir estas imágenes en videos usando **Stable Video Diffusion** hasta un 70% más rápido con TensorRT.

La aceleración TensorRT puede ponerse a prueba en el nuevo UL Procyon AI Image Generation benchmark, que ofrece aceleraciones del 50% en una GPU GeForce RTX 4080 SUPER en comparación con la implementación más rápida no TensorRT.

La aceleración TensorRT se lanzará pronto para Stable Diffusion 3, el nuevo modelo de texto a imagen de alta anticipación de Stability AI, aumentando el rendimiento en un 50%. Además, el nuevo **TensorRT-Model Optimizer** permite acelerar aún más el rendimiento. Esto resulta en una aceleración del 70% en comparación con la implementación no TensorRT, junto con una reducción del 50% en el consumo de memoria.

Por supuesto, ver es creer: la verdadera prueba está en el caso de uso del mundo real de iterar en una indicación original. Los usuarios pueden refinar la generación de imágenes ajustando las indicaciones significativamente más rápido en GPUs RTX, tomando segundos por iteración en comparación con minutos en una Macbook Pro M3 Max. Además, los usuarios obtienen tanto velocidad como seguridad con todo permaneciendo privado cuando se ejecuta localmente en una PC o estación de trabajo con RTX.

The results are in and open sourced

Pero no solo tomes nuestra palabra. El equipo de investigadores y ingenieros de IA detrás de la aplicación de chatbot local **Jan.ai** recientemente integró TensorRT-LLM en su aplicación, luego probaron estas optimizaciones por sí mismos.

Revelando el rendimiento de la IA en PCs con RTX
Source: Jan.ai

Los investigadores probaron su implementación de TensorRT-LLM contra el motor de inferencia de código abierto llama.cpp en una variedad de GPU y CPU utilizadas por la comunidad. Descubrieron que TensorRT es “30-70% más rápido que llama.cpp en el mismo hardware”, así como más eficiente en ejecuciones de procesamiento consecutivas. El equipo también incluyó su metodología, invitando a otros a medir el rendimiento de la IA generativa por sí mismos.

Desde los juegos hasta la IA generativa, la velocidad gana. TOPS, imágenes por segundo, tokens por segundo y tamaño de lote son todas consideraciones al determinar los campeones de rendimiento.

La IA generativa está transformando los videojuegos, las videoconferencias y las experiencias interactivas de todo tipo. Entiende lo nuevo y lo próximo suscribiéndote al boletín AI Decoded.

- A word from our sposor -

spot_img

Revelando el rendimiento de la IA en PCs con RTX