Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

El reciente certamen de la AI Mathematical Olympiad, que tuvo lugar en Kaggle, culminó con un emocionante final protagonizado por el equipo de NVIDIA. En un esfuerzo transcontinental, sus integrantes, ubicados en diversas partes de Estados Unidos y Europa, colaboraron para presentar un modelo de razonamiento basado en inteligencia artificial (IA) en un evento que atrae a los mejores talentos en ciencia de datos y aprendizaje automático.

Cada tarde, dos miembros del equipo, distribuidos entre la costa este y oeste de EE.UU., enviaban su modelo a la plataforma, donde esperaban vislumbrar sus resultados tras cinco horas de intensa espera. El equipo de EE.UU. se pasaba el testigo a sus colegas en países como Armenia, Finlandia, Alemania y Norte de Irlanda, quienes trabajaban durante el día en pruebas y optimizaciones del modelo.

Los desafíos y motivaciones durante la competencia

“Cada noche terminaba decepcionado por nuestra puntuación, pero al despertar, leía los mensajes de mis compañeros en Europa y mis esperanzas volvían a aumentar”, compartió Igor Gitman, científico senior en NVIDIA. A pesar de sus frustraciones por no lograr mejoras significativas en los días finales de la competencia, el verdadero desafío de un modelo de IA es su capacidad para generalizar a datos no vistos. En esta prenda, el modelo de razonamiento de NVIDIA se posicionó en la cima del ranking, respondiendo correctamente a 34 de las 50 preguntas en un límite de cinco horas, gracias a un colaborador de cuatro NVIDIA L4 GPUs.

“Logramos lo extraordinario al final”, complementó Darragh Hanley, miembro del equipo y experto en tecnología de modelos de lenguaje de gran tamaño.

Construyendo una ecuación ganadora

Compitiendo como NemoSkills, el equipo de NVIDIA aprovechó la colección de NeMo-Skills para acelerar la capacitación y evaluación de sus modelos de lenguaje. Cada uno de los siete integrantes trajo al equipo conocimiento especializado en áreas como la optimización de inferencias y la destilación de modelos.

Durante la competencia, más de 2,200 equipos presentaron modelos de IA diseñados para resolver preguntas de matemáticas complejas, en un formato similar a las pruebas de la Olimpiada Nacional. El equipo NemoSkills empleó un modelo fundacional llamado Qwen2.5-14B-Base, que fue ajuste a partir de millones de soluciones generadas sintéticamente para problemas matemáticos.

Estas soluciones sintéticas, en su mayor parte generadas por modelos de razonamiento más grandes, fueron utilizadas para enseñar al modelo de base del equipo mediante un método de destilación de conocimiento. Como resultado, desarrollaron un modelo más ligero y ágil, capaz de resolver problemas complejos mediante una combinación de razonamiento en lenguaje natural y ejecución de código en Python.

Para mejorar el rendimiento, el equipo implementó técnicas innovadoras que permiten evaluar múltiples respuestas en paralelo antes de determinar la respuesta final. Además de esto, utilizaron un método de detención temprana que optimizó el proceso para cumplir con el límite de tiempo del certamen.

El modelo final no solo se desempeñó mejor en el conjunto de datos no visto de la competencia que en el conjunto público, evidenciando su capacidad para generalizar sin sobreajustar los datos de muestra.

“Sin importar la competencia de Kaggle, continuaríamos mejorando los modelos de razonamiento de IA para matemáticas", afirmó Gitman, destacando la importancia de estos desafíos para medir el desempeño real de sus modelos en conjuntos de datos externos.

Compartiendo el conocimiento

El equipo de NVIDIA planea publicar un informe técnico donde se detallen las técnicas empleadas en su victoria y tiene la intención de compartir conjuntos de datos y modelos en plataformas como Hugging Face. Las innovaciones desarrolladas durante la competencia ya han sido integradas en las canalizaciones de NeMo-Skills, disponibles en GitHub.

Además, información clave de esta experiencia se utilizó para entrenar el nuevo modelo NVIDIA Llama Nemotron Ultra, que promete un avance significativo en la precisión del razonamiento.

Christof Henkel, miembro del equipo y parte de los gran maestros de Kaggle, manifestó el impacto de esta colaboración: “Al trabajar en conjunto con los equipos de investigación y desarrollo de LLM de NVIDIA, logramos incorporar lo aprendido de la competencia en las bibliotecas de código abierto de la compañía”.

Tras la victoria, Henkel recuperó su título de Campeón Mundial de Kaggle, ocupando la primera posición entre más de 23 millones de usuarios de la plataforma. Su compañero, Ivan Sorokin, fue galardonado con el título de Gran Maestro de Kaggle, un reconocimiento que solo poseen unos 350 individuos en todo el mundo.

Por su triunfo, el equipo recibió un premio de $262,144, que destinarán a la NVIDIA Foundation en apoyo a organizaciones benéficas.

La formación del equipo incluye a Igor Gitman, Darragh Hanley, Christof Henkel, Ivan Moshkov, Benedikt Schifferer, Ivan Sorokin y Shubham Toshniwal.

- A word from our sposor -

spot_img

NVIDIA Domina la Olimpiada Matemática con un Modelo de IA Innovador