Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

El equipo de NVIDIA ha logrado un gran éxito en la competición de Amazon, obteniendo el primer lugar en las cinco categorías del evento.

Éxito en la competencia

El equipo, formado por NVIDIANs como Ahmet Erdem, Benedikt Schifferer, Chris Deotte, Gilberto Titericz, Ivan Sorokin y Simon Jegou, demostró su habilidad en la IA generativa, ganando en categorías que incluían generación de texto, preguntas de opción múltiple, reconocimiento de entidades, clasificación y recuperación.

Desafíos en la competencia

La competición, con el tema “Desafío de Compras en Línea Multitarea para Modelos de Lenguaje Grande”, solicitó a los participantes resolver varios retos utilizando conjuntos de datos limitados.

“La nueva tendencia en las competiciones de modelos de lenguaje grande es que no proporcionan datos de entrenamiento,” comentó Deotte, un destacado científico de datos en NVIDIA. “Solo recibimos 96 preguntas de ejemplo, que no eran suficientes para entrenar un modelo, por lo que generamos 500,000 preguntas por nuestra cuenta.”

Deotte explicó que el equipo de NVIDIA generó una variedad de preguntas creando algunas por sí mismos, utilizando un modelo de lenguaje grande para crear otras, y transformando conjuntos de datos de comercio electrónico existentes.

“Una vez que tuvimos nuestras preguntas, fue sencillo utilizar marcos existentes para afinar un modelo de lenguaje,” afirmó.

Los organizadores de la competición ocultaron las preguntas de prueba para asegurar que los participantes no pudieran usar respuestas previamente conocidas. Este enfoque favorece modelos que generalicen bien para cualquier pregunta relacionada con el comercio electrónico, demostrando la capacidad del modelo para manejar situaciones del mundo real de manera efectiva.

Metodología del equipo NVIDIA

A pesar de estas limitaciones, el enfoque innovador del equipo de NVIDIA superó a todos los competidores al usar Qwen2-72B, un modelo de lenguaje recién lanzado con 72 mil millones de parámetros, ajustado en ocho GPUs NVIDIA A100 Tensor Core y empleando QLoRA, una técnica para ajustar modelos con conjuntos de datos.

Acerca del KDD Cup 2024

El KDD Cup, organizado por el grupo de interés especial de la Asociación para la Maquinaria Computacional en Descubrimiento de Conocimiento y Minería de Datos, es una competencia anual prestigiosa que promueve la investigación y el desarrollo en el campo.

El desafío de este año, organizado por Amazon, se centró en imitar las complejidades de las compras en línea con el objetivo de mejorar la experiencia, haciéndola más intuitiva y satisfactoria utilizando modelos de lenguaje grandes. Los organizadores utilizaron el conjunto de datos de prueba ShopBench, un referente que replica el desafío masivo del comercio electrónico, evaluando los modelos de los participantes.

El referente ShopBench se enfocó en cuatro habilidades clave de compra, junto con un quinto desafío “todo en uno”:

  1. Comprensión de conceptos de compra: Descifrar conceptos y terminologías de compra complejas.
  2. Razonamiento de conocimiento de compra: Tomar decisiones informadas basadas en el conocimiento de compra.
  3. Alineación del comportamiento del usuario: Comprender el comportamiento dinámico del cliente.
  4. Habilidades multilingües: Realizar compras en diferentes idiomas.
  5. Todo en uno: Resolver todas las tareas de las categorías anteriores en una sola solución.

La solución ganadora de NVIDIA

La solución ganadora de NVIDIA implicó la creación de un único modelo para cada categoría.

El equipo ajustó el modelo Qwen2-72B, recién lanzado, utilizando ocho GPUs NVIDIA A100 Tensor Core durante aproximadamente 24 horas. Las GPUs proporcionaron un procesamiento rápido y eficiente, reduciendo significativamente el tiempo necesario para el ajuste.

Primero, el equipo generó conjuntos de datos de entrenamiento basados en los ejemplos proporcionados y sintetizó datos adicionales utilizando Llama 3 70B.

A continuación, emplearon QLoRA (Adaptación de Bajo Rango Cuantificado), un proceso de entrenamiento que utilizaba los datos creados. QLoRA modifica un subconjunto más pequeño de los pesos del modelo, permitiendo un entrenamiento y ajuste eficiente.

El modelo fue cuantizado, lo que lo hizo más pequeño y capaz de funcionar en un sistema con menos espacio en disco y menor memoria, utilizando AWQ de 4 bits y la biblioteca de inferencia vLLM para predecir los conjuntos de datos de prueba en cuatro GPUs NVIDIA T4 Tensor Core dentro de las limitaciones de tiempo.

Este enfoque aseguró el primer puesto en cada categoría individual y el primer lugar en la competencia general, logrando una victoria completa para NVIDIA por segundo año consecutivo.

El equipo planeaba presentar un documento detallado sobre su solución en el próximo mes y tiene la intención de exponer sus hallazgos en el KDD 2024.

- A word from our sposor -

spot_img

NVIDIA se lleva el primer lugar en la competencia de ciencia de datos KDD Cup 2024