Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Los desarrolladores de inteligencia artificial generativa suelen enfrentar un dilema entre el tamaño del modelo y su precisión. Sin embargo, un nuevo modelo de lenguaje lanzado por NVIDIA ofrece lo mejor de ambos mundos, brindando una precisión de última generación en un formato compacto.

Nueva versión miniaturizada de Mistral NeMo

Mistral-NeMo-Minitron 8B, una versión miniaturizada del modelo abierto Mistral NeMo 12B, lanzada por Mistral AI y NVIDIA, es lo suficientemente pequeña como para operar en una estación de trabajo potenciada por NVIDIA RTX, al mismo tiempo que se destaca en múltiples benchmarks para chatbots impulsados por IA, asistentes virtuales, generadores de contenido y herramientas educativas. Los modelos Minitron son destilados por NVIDIA utilizando la plataforma NVIDIA NeMo, que permite desarrollar IA generativa personalizada.

Optimización mediante poda y destilación

«Combinamos dos métodos diferentes de optimización de IA: poda para reducir los 12 mil millones de parámetros de Mistral NeMo a 8 mil millones, y destilación para mejorar la precisión», comentó Bryan Catanzaro, vicepresidente de investigación en aprendizaje profundo aplicado en NVIDIA. «Al hacerlo, Mistral-NeMo-Minitron 8B ofrece una precisión comparable al modelo original a un menor costo computacional».

A diferencia de sus contrapartes más grandes, los modelos de lenguaje pequeños pueden operar en tiempo real en estaciones de trabajo y laptops. Esto facilita que las organizaciones con recursos limitados implementen capacidades de IA generativa en su infraestructura, optimizando costos, eficiencia operativa y consumo energético. Ejecutar modelos de lenguaje localmente en dispositivos de borde también proporciona beneficios de seguridad, ya que no es necesario enviar datos a un servidor desde el dispositivo.

Facilidad de implementación

Los desarrolladores pueden iniciar con Mistral-NeMo-Minitron 8B, empaquetado como un microservicio NVIDIA NIM con una interfaz estándar de programación de aplicaciones (API); o pueden descargar el modelo desde otra plataforma. Pronto estará disponible un NVIDIA NIM descargable, que podrá ser implementado en cualquier sistema acelerado por GPU en minutos.

Para un modelo de su tamaño, Mistral-NeMo-Minitron 8B lideraba en nueve benchmarks populares para modelos de lenguaje. Estos benchmarks abarcan una variedad de tareas que incluyen comprensión del lenguaje, razonamiento de sentido común, razonamiento matemático, resumen, codificación y capacidad para generar respuestas verídicas. Empaquetado como un microservicio NVIDIA NIM, el modelo está optimizado para baja latencia, lo que implica respuestas más rápidas para los usuarios, y alta capacidad de procesamiento, lo que se traduce en una mayor eficiencia computacional en producción.

Creación de modelos personalizados

En algunos casos, los desarrolladores pueden desear una versión aún más pequeña del modelo para ejecutarlo en un teléfono inteligente o un dispositivo empotrado como un robot. Para lograrlo, pueden descargar el modelo de 8 mil millones de parámetros y, utilizando una plataforma específica, podarlo y destilarlo en una red neuronal más pequeña y optimizada adaptada a aplicaciones empresariales.

La plataforma y servicio de AI Foundry ofrece a los desarrolladores una solución integral para crear un modelo base personalizado empaquetado como un microservicio NIM. Incluye modelos base populares, la plataforma NVIDIA NeMo y capacidad dedicada en NVIDIA DGX Cloud. Los desarrolladores que utilicen NVIDIA AI Foundry también pueden acceder a NVIDIA AI Enterprise, una plataforma de software que proporciona seguridad, estabilidad y soporte para implementaciones en producción.

Dado que el modelo original Mistral-NeMo-Minitron 8B partía de un nivel de precisión de última generación, las versiones reducidas utilizando AI Foundry seguían ofreciendo a los usuarios alta precisión con una fracción de los datos de entrenamiento y la infraestructura computacional.

Beneficios de la poda y destilación

Para lograr alta precisión con un modelo más pequeño, el equipo utilizó un proceso que combina poda y destilación. La poda reduce el tamaño de una red neuronal eliminando los pesos del modelo que menos contribuyen a la precisión. Durante la destilación, el equipo reentrenó este modelo podado en un conjunto de datos pequeño para aumentar significativamente la precisión, que había disminuido durante el proceso de poda.

El resultado final es un modelo más pequeño y eficiente, con la precisión predictiva de su contraparte más grande. Esta técnica significa que se requiere solo una fracción del conjunto de datos original para entrenar cada modelo adicional dentro de una familia de modelos relacionados, ahorrando hasta 40 veces el costo computacional al podar y destilar un modelo más grande en comparación con entrenar un modelo más pequeño desde cero.

- A word from our sposor -

spot_img