Well before OpenAI transformó la industria tecnológica con el lanzamiento de ChatGPT, Douwe Kiela ya había comprendido por qué los modelos de lenguaje de gran tamaño, por sí solos, solo podían ofrecer soluciones parciales para casos de uso clave en las empresas.
El joven CEO de Contextual AI había sido profundamente influenciado por dos trabajos fundamentales de Google y OpenAI, que delineaban la receta para crear modelos de IA generativa basados en transformadores y LLMs de manera rápida y eficiente. Poco después de que estos artículos se publicaran, Kiela y su equipo de investigadores de IA en Facebook se dieron cuenta de que los LLMs enfrentarían profundos problemas de frescura de datos.
Ellos sabían que cuando los modelos de base como los LLMs eran entrenados en conjuntos de datos masivos, el entrenamiento no solo dotaba al modelo de un «cerebro» metafórico para «razonar» sobre los datos. El conjunto de datos de entrenamiento también representaba la totalidad del conocimiento de un modelo que podía utilizar para generar respuestas a las preguntas de los usuarios.
El equipo de Kiela se dio cuenta de que, a menos que un LLM pudiera acceder a datos relevantes en tiempo real de manera eficiente y rentable, incluso el LLM más inteligente no sería muy útil para las necesidades de muchas empresas.
Innovación a través de la generación aumentada por recuperación
Así que, en 2020, Kiela y su equipo publicaron un trabajo seminal que presentó al mundo la generación aumentada por recuperación (RAG), un método para actualizar de manera continua y rentable los modelos de base con nueva información relevante, incluyendo archivos de los usuarios y datos de internet. Con RAG, el conocimiento de un LLM ya no estaba confinado a sus datos de entrenamiento, lo que hacía que los modelos fueran mucho más precisos, impactantes y relevantes para los usuarios empresariales.
Hoy en día, Kiela y Amanpreet Singh, un ex compañero en Facebook, son el CEO y el CTO de Contextual AI, una startup de Silicon Valley que cerró recientemente una ronda de financiación serie A de 80 millones de dólares, con la participación del brazo de inversiones de NVIDIA. Contextual AI también es miembro de un programa diseñado para nutrir startups. Con aproximadamente 50 empleados, la compañía planeaba duplicar su tamaño al final del año.
La plataforma que ofrece Contextual AI se llama RAG 2.0. En muchos aspectos, es una versión avanzada y productizada de la arquitectura RAG que Kiela y Singh describieron por primera vez en su trabajo de 2020.
RAG 2.0 podría alcanzar aproximadamente 10 veces mejor precisión y rendimiento en comparación con las ofertas competidoras, según Kiela. Esto significa, por ejemplo, que un modelo de 70 mil millones de parámetros que normalmente requeriría recursos de computación significativos podría ejecutarse en una infraestructura mucho más pequeña, diseñada para manejar solo 7 mil millones de parámetros sin sacrificar la precisión. Este tipo de optimización abre casos de uso en la edge con computadoras más pequeñas que pueden desempeñarse a niveles significativamente más altos de lo esperado.
Integración de recuperadores y modelos de lenguaje proporciona grandes mejoras de rendimiento
La clave de las soluciones de Contextual AI es su integración cercana de su arquitectura de recuperador, la «R» en RAG, con la arquitectura de un LLM, que es el generador, o «G», en el término. La forma en que funciona RAG consiste en que un recuperador interpreta la consulta del usuario, verifica diversas fuentes para identificar documentos o datos relevantes y luego devuelve esa información a un LLM, que razona sobre esta nueva información para generar una respuesta.
Desde alrededor de 2020, RAG se ha convertido en el enfoque dominante para las empresas que despliegan chatbots potenciados por LLM. Como resultado, se ha formado un ecosistema vibrante de startups centradas en RAG.
Una de las formas en que Contextual AI se diferencia de sus competidores es mediante la mejora de sus recuperadores a través de la retropropagación, un proceso de ajuste de algoritmos subyacentes a su arquitectura de red neuronal. Y, en lugar de entrenar y ajustar dos redes neuronales distintas, es decir, el recuperador y el LLM, Contextual AI ofrece una plataforma de última generación, que alinea el recuperador y el modelo de lenguaje, y luego los ajusta a través de la retropropagación.
Sincronizar y ajustar pesos y sesgos en redes neuronales distintas es complicado, pero el resultado, dice Kiela, conduce a enormes mejoras en precisión, calidad de respuesta y optimización. Y debido a que el recuperador y el generador están tan estrechamente alineados, las respuestas que crean están fundamentadas en datos comunes, lo que significa que sus respuestas son mucho menos propensas que otras arquitecturas RAG a incluir datos inventados o «alucinados», que un modelo podría ofrecer cuando no «sabe» la respuesta.
Enfrentando casos de uso difíciles con innovaciones de vanguardia
RAG 2.0 es esencialmente agnóstico de LLM, lo que significa que funciona con diferentes modelos de lenguaje de código abierto, como Mistral o Llama, y puede adaptarse a las preferencias de los modelos de los clientes. Los recuperadores de la startup fueron desarrollados utilizando NVIDIA’s Megatron LM en una combinación de NVIDIA H100 y A100 Tensor Core GPUs alojadas en Google Cloud.
Uno de los desafíos significativos que enfrenta cada solución RAG es cómo identificar la información más relevante para responder a la consulta de un usuario cuando esa información puede estar almacenada en una variedad de formatos, como texto, video o PDF.
Contextual AI supera este desafío a través de un enfoque de «mezcla de recuperadores», que alinea las subespecialidades de diferentes recuperadores con los diferentes formatos en los que se guarda la información. Implementa una combinación de tipos de RAG, más un algoritmo de reordenación neuronal, para identificar información almacenada en diferentes formatos que, en conjunto, son óptimamente receptivas a la consulta del usuario.
Por ejemplo, si parte de la información relevante para una consulta está almacenada en un formato de archivo de video, uno de los RAG desplegados para identificar datos relevantes sería un Graph RAG, que es muy eficaz para comprender relaciones temporales en datos no estructurados como el video. Si otros datos estaban almacenados en un formato de texto o PDF, entonces se desplegaría simultáneamente un RAG basado en vectores.
El reordenador neuronal ayudaría a organizar los datos recuperados y la información priorizada se enviaría al LLM para generar una respuesta a la consulta inicial.
“Para maximizar el rendimiento, casi nunca utilizamos un único enfoque de recuperación; normalmente es un híbrido porque tienen fortalezas diferentes y complementarias”, dijo Kiela. “La mezcla exacta correcta depende del caso de uso, los datos subyacentes y la consulta del usuario.”
Al fusionar esencialmente las arquitecturas RAG y LLM, y ofrecer múltiples rutas para encontrar información relevante, Contextual AI proporciona a los clientes un rendimiento significativamente mejorado. Además de una mayor precisión, su oferta reduce la latencia gracias a la disminución de llamadas a las API entre las redes neuronales del RAG y del LLM.
Debido a su arquitectura altamente optimizada y a sus menores demandas de computación, RAG 2.0 podía ejecutarse en la nube, localmente o completamente desconectado. Esto lo hacía relevante para una amplia gama de industrias, desde fintech y manufactura hasta dispositivos médicos y robótica.
“Los casos de uso en los que nos estamos enfocando son realmente difíciles”, afirmó Kiela. “Más allá de leer una transcripción, responder preguntas básicas o resumir, estamos trabajando en roles de alto valor y gran carga de conocimiento que ahorrarán mucho dinero a las empresas o las harán mucho más productivas.”