Las aplicaciones de IA generativa tienen poco o a veces un valor negativo sin precisión, y la precisión se basa en los datos. Para ayudar a los desarrolladores a obtener de manera eficiente los mejores datos patentados y generar respuestas informadas para sus aplicaciones de IA, NVIDIA anunció cuatro nuevos microservicios de inferencia de NVIDIA NeMo Retriever NIM.
Nuevos microservicios de NeMo Retriever
Combinados con los microservicios de inferencia NIM para la colección del modelo Llama 3.1, también anunciados, los microservicios NeMo Retriever NIM permiten a las empresas escalar hacia flujos de trabajo de IA autónoma, donde las aplicaciones de IA operan con precisión y requieren mínima intervención o supervisión, mientras ofrecen la más alta precisión en la generación aumentada por recuperación (RAG).
NeMo Retriever permite a las organizaciones conectar de manera fluida modelos personalizados con diversos datos empresariales y ofrecer respuestas altamente precisas para aplicaciones de IA utilizando RAG. En esencia, los microservicios listos para producción posibilitan la recuperación de información precisa para construir aplicaciones de IA altamente efectivas.
Por ejemplo, NeMo Retriever puede mejorar la precisión y el rendimiento del modelo para desarrolladores que crean agentes de IA y chatbots de servicio al cliente, analizan vulnerabilidades de seguridad o extraen información de complejos datos de la cadena de suministro.
Los microservicios de inferencia NIM permiten un inferencia de alto rendimiento, fácil de usar y de nivel empresarial. Y con los microservicios de NeMo Retriever NIM, los desarrolladores pueden beneficiarse de todo esto, impulsado por sus datos.
Estos nuevos microservicios de NeMo Retriever para embedding y reranking ya están disponibles:
- NV-EmbedQA-E5-v5, un popular modelo de embedding base optimizado para la recuperación de preguntas y respuestas textuales.
- NV-EmbedQA-Mistral7B-v2, un modelo base multilingüe popular afinado para embedding textual para respuestas de alta precisión.
- Snowflake-Arctic-Embed-L, un modelo optimizado comunitario, y
- NV-RerankQA-Mistral4B-v3, un modelo base popular afinado para reranking textual para respuestas de alta precisión.
Modelos de embedding y reranking
Los microservicios NeMo Retriever NIM comprenden dos tipos de modelos: embedding y reranking, con ofertas tanto abiertas como comerciales que garantizan transparencia y fiabilidad.
Un modelo de embedding transforma datos diversos, como texto, imágenes, gráficos y video, en vectores numéricos, almacenados en una base de datos vectorial, capturando su significado y matices. Los modelos de embedding son rápidos y computacionalmente menos costosos que los modelos de lenguaje grandes tradicionales (LLMs).
Un modelo de reranking ingesta datos y una consulta, y luego puntúa los datos según su relevancia para la consulta. Estos modelos ofrecen mejoras significativas en precisión, aunque son computacionalmente más complejos y lentos que los modelos de embedding.
NeMo Retriever combina lo mejor de ambos mundos. Al lanzar una red amplia de datos a recuperar utilizando un embedding NIM y luego aplicar un reranking NIM para filtrar los resultados por relevancia, los desarrolladores que utilizan NeMo Retriever pueden construir un pipeline que asegura los resultados más útiles y precisos para sus empresas.
Con NeMo Retriever, los desarrolladores accedieron a modelos abiertos y comerciales de vanguardia para construir pipelines de recuperación de preguntas y respuestas textuales que ofrecieron la mayor precisión. En comparación con modelos alternativos, los microservicios NeMo Retriever NIM proporcionaron un 30% menos de respuestas inexactas para las consultas empresariales.
Principales casos de uso
Desde soluciones RAG y agentes de IA hasta análisis impulsados por datos y más, NeMo Retriever potencia una amplia gama de aplicaciones de IA.
Los microservicios se pueden usar para construir chatbots inteligentes que proporcionen respuestas precisas y contextualizadas. Pueden ayudar a analizar grandes cantidades de datos para identificar vulnerabilidades de seguridad. Pueden asistir en la extracción de información de complejos datos de la cadena de suministro. Y pueden mejorar los asistentes de compra habilitados por IA que ofrecen experiencias de compra naturales y personalizadas, entre otras tareas.
Los flujos de trabajo de IA de NVIDIA para estos casos de uso proporcionaron un punto de partida fácil y respaldado para desarrollar tecnologías impulsadas por IA generativa.
Decenas de socios de la plataforma de datos de NVIDIA trabajaron con los microservicios NeMo Retriever NIM para mejorar la precisión y rendimiento de sus modelos de IA.
DataStax integró los microservicios de embedding NeMo Retriever NIM en su Astra DB y plataformas convergidas, permitiendo a la empresa brindar capacidades de RAG precisas y mejoradas por IA generativa a sus clientes con un tiempo de comercialización más rápido.
Cohesity integrará los microservicios NeMo Retriever de NVIDIA en su producto de IA, Cohesity Gaia, para ayudar a los clientes a utilizar sus datos y potenciar aplicaciones de IA generativa transformadoras a través de RAG.
Kinetica utilizará NVIDIA NeMo Retriever para desarrollar agentes LLM que puedan interactuar con redes complejas en lenguaje natural, respondiendo más rápidamente a caídas o brechas, convirtiendo los datos en acción inmediata.
NetApp colaborará con NVIDIA para conectar los microservicios NeMo Retriever a exabytes de datos en su infraestructura de datos inteligente. Cada cliente de NetApp ONTAP podrá «hablar con sus datos» para acceder a información empresarial patentada sin comprometer la seguridad o la privacidad de sus datos.
Los socios integradores de sistemas globales de NVIDIA, incluyendo Accenture, Deloitte, Infosys, LTTS, Tata Consultancy Services, Tech Mahindra y Wipro, así como los socios de entrega de servicios como Data Monsters, EXLService, Latentview, Quantiphi, Slalom, SoftServe y Tredence, están desarrollando servicios para ayudar a las empresas a añadir los microservicios NeMo Retriever NIM en sus pipelines de IA.
Uso con otros microservicios NIM
Los microservicios NeMo Retriever NIM se pueden utilizar con los microservicios Riva NIM de NVIDIA, que potencian las aplicaciones de IA de voz en diversas industrias, mejorando el servicio al cliente y dando vida a humanos digitales.
Próximamente estarán disponibles nuevos modelos como microservicios Riva NIM, incluido FastPitch y HiFi-GAN para aplicaciones de texto a voz; Megatron para traducción automática multilingüe; y la familia de modelos NVIDIA Parakeet, que estableció récords en reconocimiento automático de voz.
Los microservicios NIM de NVIDIA se pueden utilizar todos juntos o por separado, ofreciendo a los desarrolladores un enfoque modular para construir aplicaciones de IA. Además, los microservicios pueden integrarse con modelos comunitarios, modelos de NVIDIA o modelos personalizados de los usuarios, ya sea en la nube, en las instalaciones o en entornos híbridos, brindando mayor flexibilidad a los desarrolladores.
Los microservicios NIM de NVIDIA están disponibles en ai.nvidia.com. Las empresas pueden implementar aplicaciones de IA en producción con NIM a través de la plataforma de software NVIDIA AI Enterprise.
Los microservicios NIM pueden ejecutarse en la infraestructura acelerada preferida de los clientes, incluyendo instancias en la nube de Amazon Web Services, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure, así como en sistemas certificados por NVIDIA de socios globales de fabricación de servidores, incluyendo Cisco, Dell Technologies, Hewlett Packard Enterprise, Lenovo y Supermicro.
Los miembros del Programa de Desarrolladores de NVIDIA pronto podrán acceder a NIM de forma gratuita para investigación, desarrollo y pruebas en su infraestructura preferida.