Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Large language models están transformando la productividad. Son capaces de redactar documentos, resumir páginas web y, tras haber sido entrenados con grandes cantidades de datos, responder de manera precisa preguntas sobre casi cualquier tema.

Los LLM son fundamentales en muchos casos de uso emergentes de la inteligencia artificial generativa, incluyendo asistentes digitales, avatares conversacionales y agentes de servicio al cliente.

Muchos de los LLM más recientes pueden ejecutarse localmente en PCs o estaciones de trabajo. Esto es útil por varias razones: los usuarios pueden mantener las conversaciones y el contenido privados en el dispositivo, utilizar inteligencia artificial sin conexión a internet, o simplemente aprovechar los potentes NVIDIA GeForce RTX en su sistema. Otros modelos, debido a su tamaño y complejidad, no caben en la memoria de video (VRAM) de la GPU local y requieren hardware en grandes centros de datos.

Sin embargo, es posible acelerar parte de un prompt en un modelo de clase centro de datos localmente en PCs con tecnología RTX, usando una técnica llamada descarga de GPU. Esto permite a los usuarios beneficiarse de la aceleración de la GPU sin estar tan limitados por las restricciones de memoria de la GPU.

Tamaño y calidad frente a rendimiento

Existe una compensación entre el tamaño del modelo, la calidad de las respuestas y el rendimiento. En general, los modelos más grandes ofrecen respuestas de mayor calidad, pero funcionan más lentamente. Con modelos más pequeños, el rendimiento aumenta mientras que la calidad disminuye.

Esta compensación no siempre es sencilla. Hay casos en los que el rendimiento puede ser más importante que la calidad. Algunos usuarios pueden priorizar la precisión para casos de uso como la generación de contenido, ya que puede ejecutarse en segundo plano. Por otro lado, un asistente conversacional necesita ser rápido mientras ofrece respuestas precisas.

Los LLM más precisos, diseñados para ejecutarse en centros de datos, son de decenas de gigabytes de tamaño y pueden no caber en la memoria de una GPU. Esto tradicionalmente impediría que la aplicación se beneficiara de la aceleración de la GPU.

Sin embargo, la descarga de GPU utiliza parte del LLM en la GPU y parte en la CPU. Esto permite a los usuarios aprovechar al máximo la aceleración de la GPU sin importar el tamaño del modelo.

Optimizar la aceleración de IA con descarga de GPU y LM Studio

LM Studio es una aplicación que permite a los usuarios descargar y alojar LLM en su computadora de escritorio o portátil, con una interfaz fácil de usar que permite una amplia personalización en el funcionamiento de estos modelos. LM Studio se basa en llama.cpp, optimizada para su uso con las GPUs GeForce RTX y NVIDIA RTX.

LM Studio y la descarga de GPU aprovechan la aceleración de la GPU para aumentar el rendimiento de un LLM alojado localmente, incluso si el modelo no puede ser totalmente cargado en la VRAM.

Con la descarga de GPU, LM Studio divide el modelo en partes más pequeñas, o «subgráficas», que representan capas de la arquitectura del modelo. Las subgráficas no están fijadas permanentemente en la GPU, sino que se cargan y descargan según sea necesario. Con el control deslizante de descarga de GPU de LM Studio, los usuarios pueden decidir cuántas de estas capas son procesadas por la GPU.

Por ejemplo, imaginemos usar esta técnica de descarga de GPU con un modelo grande como Gemma-2-27B. «27B» se refiere al número de parámetros en el modelo, lo que indica una estimación de la memoria requerida para ejecutar el modelo.

Según la cuantización de 4 bits, una técnica para reducir el tamaño de un LLM sin disminuir significativamente la precisión, cada parámetro ocupa medio byte de memoria. Esto significa que el modelo debería requerir aproximadamente 13.5 mil millones de bytes, o 13.5GB, más algo de sobrecarga, que generalmente oscila entre 1-5GB.

Acelerar este modelo por completo en la GPU requiere 19GB de VRAM, disponibles en la GeForce RTX 4090. Con la descarga de GPU, el modelo puede ejecutarse en un sistema con una GPU de gama baja y aún beneficiarse de la aceleración.

En LM Studio, es posible evaluar el impacto en el rendimiento de diferentes niveles de descarga de GPU, en comparación con solo usar la CPU. La tabla a continuación muestra los resultados de ejecutar la misma consulta en diferentes niveles de descarga en una GPU de escritorio GeForce RTX 4090.

Logrando un equilibrio óptimo

La función de descarga de GPU de LM Studio es una herramienta poderosa para desbloquear el potencial total de los LLM diseñados para centros de datos, como Gemma-2-27B, localmente en PCs de IA RTX. Esto hace que modelos más grandes y complejos sean accesibles en toda la gama de PCs impulsados por GPUs GeForce RTX y NVIDIA RTX.

Descargue LM Studio para probar la descarga de GPU en modelos más grandes, o experimente con una variedad de LLM acelerados por RTX que se ejecuten localmente en PCs y estaciones de trabajo con IA RTX.

La inteligencia artificial generativa está transformando los videojuegos, las videoconferencias y experiencias interactivas de todo tipo. Entienda lo nuevo y lo siguiente suscribiéndose al boletín de AI Decoded.

- A word from our sposor -

spot_img

Impulsa modelos de lenguaje más grandes localmente en RTX con LM Studio