Innovación a través de la generación aumentada por recuperación

Así que, en 2020, Kiela y su equipo publicaron un trabajo seminal que presentó al mundo la generación aumentada por recuperación (RAG), un método para actualizar de manera continua y rentable los modelos de base con nueva información relevante, incluyendo archivos de los usuarios y datos de internet. Con RAG, el conocimiento de un LLM ya no estaba confinado a sus datos de entrenamiento, lo que hacía que los modelos fueran mucho más precisos, impactantes y relevantes para los usuarios empresariales.

Hoy en día, Kiela y Amanpreet Singh, un ex compañero en Facebook, son el CEO y el CTO de Contextual AI, una startup de Silicon Valley que cerró recientemente una ronda de financiación serie A de 80 millones de dólares, con la participación del brazo de inversiones de NVIDIA. Contextual AI también es miembro de un programa diseñado para nutrir startups. Con aproximadamente 50 empleados, la compañía planeaba duplicar su tamaño al final del año.

La plataforma que ofrece Contextual AI se llama RAG 2.0. En muchos aspectos, es una versión avanzada y productizada de la arquitectura RAG que Kiela y Singh describieron por primera vez en su trabajo de 2020.

RAG 2.0 podría alcanzar aproximadamente 10 veces mejor precisión y rendimiento en comparación con las ofertas competidoras, según Kiela. Esto significa, por ejemplo, que un modelo de 70 mil millones de parámetros que normalmente requeriría recursos de computación significativos podría ejecutarse en una infraestructura mucho más pequeña, diseñada para manejar solo 7 mil millones de parámetros sin sacrificar la precisión. Este tipo de optimización abre casos de uso en la edge con computadoras más pequeñas que pueden desempeñarse a niveles significativamente más altos de lo esperado.

Integración de recuperadores y modelos de lenguaje proporciona grandes mejoras de rendimiento

La clave de las soluciones de Contextual AI es su integración cercana de su arquitectura de recuperador, la «R» en RAG, con la arquitectura de un LLM, que es el generador, o «G», en el término. La forma en que funciona RAG consiste en que un recuperador interpreta la consulta del usuario, verifica diversas fuentes para identificar documentos o datos relevantes y luego devuelve esa información a un LLM, que razona sobre esta nueva información para generar una respuesta.

Desde alrededor de 2020, RAG se ha convertido en el enfoque dominante para las empresas que despliegan chatbots potenciados por LLM. Como resultado, se ha formado un ecosistema vibrante de startups centradas en RAG.

Una de las formas en que Contextual AI se diferencia de sus competidores es mediante la mejora de sus recuperadores a través de la retropropagación, un proceso de ajuste de algoritmos subyacentes a su arquitectura de red neuronal. Y, en lugar de entrenar y ajustar dos redes neuronales distintas, es decir, el recuperador y el LLM, Contextual AI ofrece una plataforma de última generación, que alinea el recuperador y el modelo de lenguaje, y luego los ajusta a través de la retropropagación.

Sincronizar y ajustar pesos y sesgos en redes neuronales distintas es complicado, pero el resultado, dice Kiela, conduce a enormes mejoras en precisión, calidad de respuesta y optimización. Y debido a que el recuperador y el generador están tan estrechamente alineados, las respuestas que crean están fundamentadas en datos comunes, lo que significa que sus respuestas son mucho menos propensas que otras arquitecturas RAG a incluir datos inventados o «alucinados», que un modelo podría ofrecer cuando no «sabe» la respuesta.

Enfrentando casos de uso difíciles con innovaciones de vanguardia

RAG 2.0 es esencialmente agnóstico de LLM, lo que significa que funciona con diferentes modelos de lenguaje de código abierto, como Mistral o Llama, y puede adaptarse a las preferencias de los modelos de los clientes. Los recuperadores de la startup fueron desarrollados utilizando NVIDIA’s Megatron LM en una combinación de NVIDIA H100 y A100 Tensor Core GPUs alojadas en Google Cloud.

Uno de los desafíos significativos que enfrenta cada solución RAG es cómo identificar la información más relevante para responder a la consulta de un usuario cuando esa información puede estar almacenada en una variedad de formatos, como texto, video o PDF.

Contextual AI supera este desafío a través de un enfoque de «mezcla de recuperadores», que alinea las subespecialidades de diferentes recuperadores con los diferentes formatos en los que se guarda la información. Implementa una combinación de tipos de RAG, más un algoritmo de reordenación neuronal, para identificar información almacenada en diferentes formatos que, en conjunto, son óptimamente receptivas a la consulta del usuario.

Por ejemplo, si parte de la información relevante para una consulta está almacenada en un formato de archivo de video, uno de los RAG desplegados para identificar datos relevantes sería un Graph RAG, que es muy eficaz para comprender relaciones temporales en datos no estructurados como el video. Si otros datos estaban almacenados en un formato de texto o PDF, entonces se desplegaría simultáneamente un RAG basado en vectores.

El reordenador neuronal ayudaría a organizar los datos recuperados y la información priorizada se enviaría al LLM para generar una respuesta a la consulta inicial.

“Para maximizar el rendimiento, casi nunca utilizamos un único enfoque de recuperación; normalmente es un híbrido porque tienen fortalezas diferentes y complementarias”, dijo Kiela. “La mezcla exacta correcta depende del caso de uso, los datos subyacentes y la consulta del usuario.”

Al fusionar esencialmente las arquitecturas RAG y LLM, y ofrecer múltiples rutas para encontrar información relevante, Contextual AI proporciona a los clientes un rendimiento significativamente mejorado. Además de una mayor precisión, su oferta reduce la latencia gracias a la disminución de llamadas a las API entre las redes neuronales del RAG y del LLM.

Debido a su arquitectura altamente optimizada y a sus menores demandas de computación, RAG 2.0 podía ejecutarse en la nube, localmente o completamente desconectado. Esto lo hacía relevante para una amplia gama de industrias, desde fintech y manufactura hasta dispositivos médicos y robótica.

“Los casos de uso en los que nos estamos enfocando son realmente difíciles”, afirmó Kiela. “Más allá de leer una transcripción, responder preguntas básicas o resumir, estamos trabajando en roles de alto valor y gran carga de conocimiento que ahorrarán mucho dinero a las empresas o las harán mucho más productivas.”

- A word from our sposor -

Startup Uplevels la generación aumentada por recuperación de AI contextual para las empresas

12

29/08/2024

Artículo anterior

Gobierno firma acuerdos con Mauritania, Gambia y Senegal para proteger derechos de trabajadores migrantes

Artículo siguiente

Importante nota informativa sobre los últimos acontecimientos mundiales

IHG Expande su Marca Voco con Seis Nuevos Hoteles en México

Kimpton KAFD Riyadh: Un vistazo al primer hotel de lujo en el Medio Oriente

Volkswagen revela su emocionante futuro eléctrico en IAA MOBILITY 2025