Editor’s note: Este artículo es parte de la serie AI Decoded, que desmitifica la IA al hacer la tecnología más accesible, y muestra nuevo hardware, software, herramientas y aceleraciones para usuarios de GeForce RTX PC y estaciones de trabajo NVIDIA RTX.
La integración de la IA en aplicaciones
Desde videojuegos y aplicaciones de creación de contenido hasta herramientas de desarrollo de software y productividad, la IA se estaba integrando cada vez más en las aplicaciones para mejorar la experiencia del usuario y aumentar la eficiencia. Estos aumentos de eficiencia se extendieron a tareas diarias, como la navegación web. Brave, un navegador centrado en la privacidad, lanzó recientemente un asistente inteligente de IA llamado Leo AI que, además de proporcionar resultados de búsqueda, ayuda a los usuarios a resumir artículos y videos, extraer información de documentos, responder preguntas y más.
La tecnología detrás de Brave y otros herramientas de IA
La tecnología detrás de Brave y otras herramientas impulsadas por IA es una combinación de hardware, bibliotecas y software del ecosistema optimizados para las necesidades únicas de la IA.
Importancia del software
Los GPU de NVIDIA alimentan la IA en todo el mundo, ya sea en un centro de datos o en una PC local. Cuentan con Tensor Cores, que están específicamente diseñados para acelerar aplicaciones de IA como Leo AI mediante cálculos paralelos masivos, procesando rápidamente la gran cantidad de cálculos necesarios para la IA de manera simultánea. Pero el buen hardware solo es relevante si las aplicaciones pueden hacer un uso eficiente del mismo. El software que se ejecuta sobre los GPU es igual de importante para ofrecer la experiencia de IA más rápida y sensible.
La primera capa es la biblioteca de inferencia de IA, que actúa como un traductor que toma solicitudes para tareas comunes de IA y las convierte en instrucciones específicas para que el hardware las ejecute. Las bibliotecas de inferencia populares incluyen NVIDIA TensorRT, DirectML de Microsoft y la utilizada por Brave y Leo AI a través de Ollama, llamada llama.cpp. Llama.cpp es una biblioteca y marco de código abierto. A través de CUDA, la interfaz de programación de aplicaciones de NVIDIA que permite a los desarrolladores optimizar para los GPU GeForce RTX y NVIDIA RTX, se proporciona aceleración de Tensor Core para cientos de modelos, incluidos modelos de lenguaje grandes (LLM) populares como Gemma, Llama 3, Mistral y Phi.
Uso de servidores de inferencia locales
Además de la biblioteca de inferencia, las aplicaciones a menudo utilizan un servidor de inferencia local para simplificar la integración. El servidor de inferencia maneja tareas como la descarga y configuración de modelos de IA específicos para que la aplicación no tenga que hacerlo. Ollama es un proyecto de código abierto que se basa en llama.cpp y proporciona acceso a las características de la biblioteca. Soporta un ecosistema de aplicaciones que ofrecen capacidades de IA local. A través de toda la pila tecnológica, NVIDIA trabaja para optimizar herramientas como Ollama para hardware NVIDIA y ofrecer experiencias de IA más rápidas y sensibles en RTX.
Local vs. Nube
Leo AI de Brave puede ejecutarse en la nube o localmente en una PC a través de Ollama. Procesar la inferencia utilizando un modelo local tiene muchos beneficios. Al no enviar solicitudes a un servidor externo para su procesamiento, la experiencia es privada y siempre está disponible. Por ejemplo, los usuarios de Brave pueden obtener ayuda con sus finanzas o preguntas médicas sin enviar nada a la nube. Ejecutar localmente también elimina la necesidad de pagar por acceso a la nube sin restricciones. Con Ollama, los usuarios pueden aprovechar una mayor variedad de modelos de código abierto que la mayoría de los servicios alojados, que a menudo solo admiten una o dos variedades del mismo modelo de IA.
Los usuarios también pueden interactuar con modelos que tienen diferentes especializaciones, como modelos bilingües, modelos de tamaño compacto, modelos de generación de código y más. RTX permite una experiencia rápida y sensible al ejecutar IA localmente. Usando el modelo Llama 3 8B con llama.cpp, los usuarios pueden esperar respuestas de hasta 149 tokens por segundo, o aproximadamente 110 palabras por segundo. Cuando se usa Brave con Leo AI y Ollama, esto significa respuestas más rápidas a preguntas, solicitudes de resúmenes de contenido y más.
Cómo comenzar con Brave, Leo AI y Ollama
Instalar Ollama es fácil: descarga el instalador desde el sitio web del proyecto y déjalo correr en segundo plano. Desde un símbolo del sistema, los usuarios pueden descargar e instalar una amplia variedad de modelos soportados, y luego interactuar con el modelo local desde la línea de comandos. Para obtener instrucciones sencillas sobre cómo agregar soporte LLM local a través de Ollama, se puede consultar el blog de la empresa. Una vez configurado para apuntar a Ollama, Leo AI utilizará el LLM alojado localmente para las solicitudes y consultas. Los usuarios también pueden cambiar entre modelos en la nube y locales en cualquier momento.
Brave con Leo AI ejecutándose en Ollama y acelerado por RTX es una excelente manera de mejorar la experiencia de navegación. ¡Incluso puedes resumir y hacer preguntas sobre blogs de AI Decoded! Los desarrolladores pueden aprender más sobre cómo utilizar Ollama y llama.cpp en el blog técnico de NVIDIA.
La IA generativa está transformando los videojuegos, videoconferencias y experiencias interactivas de todo tipo. Comprende lo que es nuevo y lo que vendrá suscribiéndote al boletín de AI Decoded.