Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

AI impulsa la innovación en diversos sectores

A medida que la inteligencia artificial (IA) avanza en diferentes industrias, se está convirtiendo en un motor de innovación y eficiencia. Sin embargo, para liberar todo su potencial, es necesario entrenar esta tecnología con grandes volúmenes de datos de alta calidad.

El papel de los científicos de datos

Los científicos de datos desempeñan un papel fundamental en la preparación de estos datos, especialmente en campos específicos donde se necesita información especializada, a menudo de propiedad exclusiva, para mejorar las capacidades de la IA. Con el fin de ayudar a los científicos de datos ante el aumento de la carga de trabajo, NVIDIA anunció que RAPIDS cuDF es una biblioteca que permite a los usuarios trabajar más fácilmente con datos, acelerando la biblioteca de software pandas sin necesidad de cambios en el código. Pandas es una biblioteca flexible, potente y popular para el análisis y manipulación de datos en el lenguaje de programación Python. Con cuDF, los científicos de datos pueden utilizar su código preferido sin comprometer la velocidad de procesamiento de datos.

Tecnologías de hardware y software de NVIDIA para la IA

Las tecnologías y el hardware de IA de NVIDIA RTX también pueden ofrecer aceleraciones en el procesamiento de datos. Incluyen potentes GPU que proporcionan el rendimiento computacional necesario para acelerar rápida y eficientemente la IA en todos los niveles, desde flujos de trabajo de ciencia de datos hasta el entrenamiento y personalización de modelos en PCs y estaciones de trabajo.

El cuello de botella de la ciencia de datos

El formato de datos más común es el tabular, organizado en filas y columnas. Los conjuntos de datos más pequeños se pueden gestionar con herramientas de hojas de cálculo como Excel; sin embargo, conjuntos de datos y tuberías de modelado con decenas de millones de filas suelen depender de bibliotecas de marcos de datos en lenguajes de programación como Python.

Python es una opción popular para el análisis de datos, principalmente debido a la biblioteca pandas, que cuenta con una interfaz de programación de aplicaciones (API) fácil de usar. Sin embargo, a medida que crecen los tamaños de los conjuntos de datos, pandas enfrenta problemas con la velocidad de procesamiento y la eficiencia en sistemas solo con CPU. Además, la biblioteca lucha con conjuntos de datos que contienen mucho texto, lo que es un tipo importante de dato para modelos de lenguaje grandes.

Cuando los requisitos de datos superan las capacidades de pandas, los científicos de datos enfrentan un dilema: soportar tiempos de procesamiento lentos o dar el paso complejo y costoso de cambiar a herramientas más eficientes, pero menos amigables para el usuario.

Acelerando tuberías de preprocesamiento con RAPIDS cuDF

Con RAPIDS cuDF, los científicos de datos pueden utilizar su código preferido sin sacrificar la velocidad de procesamiento. RAPIDS es un conjunto de bibliotecas de Python aceleradas por GPU de código abierto, diseñado para mejorar las tuberías de ciencia de datos y análisis. cuDF es una biblioteca de DataFrame para GPU que proporciona una API similar a pandas para cargar, filtrar y manipular datos.

Utilizando el «modo acelerador de pandas» de cuDF, los científicos de datos pueden ejecutar su código existente de pandas en GPUs para aprovechar el potente procesamiento paralelo, con la seguridad de que el código se cambiará a CPUs según sea necesario. Esta interoperabilidad ofrece un rendimiento avanzado y confiable.

La última versión de cuDF soporta conjuntos de datos más grandes y miles de millones de filas de datos tabulares de texto. Esto permite a los científicos de datos utilizar código de pandas para preprocesar datos para casos de uso de IA generativa.

Acelerando la ciencia de datos en estaciones de trabajo y PCs NVIDIA RTX

Según un estudio reciente, el 57% de los científicos de datos utilizan recursos locales como PCs, escritorios o estaciones de trabajo para la ciencia de datos. Pueden lograr mejoras significativas comenzando con la NVIDIA GeForce RTX 4090 GPU. A medida que los conjuntos de datos crecen y el procesamiento se vuelve más intensivo en memoria, pueden usar cuDF para ofrecer hasta 100x mejor rendimiento con las NVIDIA RTX 6000 GPUs de Ada Generation en estaciones de trabajo, en comparación con soluciones tradicionales basadas en CPU.

La facilidad de inicio con RAPIDS cuDF es alta en NVIDIA AI Workbench, un gestor de entorno para desarrolladores gratuito impulsado por contenedores que permite a los científicos de datos y desarrolladores crear, colaborar y migrar cargas de trabajo de IA y ciencia de datos a través de sistemas de GPU. Los usuarios pueden comenzar con varios proyectos de ejemplo disponibles.

Los beneficios de cuDF en PCs y estaciones de trabajo de IA alimentadas por RTX van más allá de las simples aceleraciones de velocidad. También:

  • Ahorra tiempo y dinero con un desarrollo local de costo fijo en GPUs potentes que se replica sin problemas en servidores locales o instancias en la nube.
  • Facilita un procesamiento de datos más rápido para iteraciones más rápidas, permitiendo a los científicos de datos experimentar, refinar y derivar información de conjuntos de datos a velocidades interactivas.
  • Ofrece un procesamiento de datos más impactante para mejores resultados en los modelos más adelante en la tubería.

Una nueva era para la ciencia de datos

A medida que la IA y la ciencia de datos continúan evolucionando, la capacidad para procesar y analizar rápidamente grandes conjuntos de datos se convierte en un diferenciador clave que puede facilitar avances en diversas industrias. Ya sea para desarrollar modelos de aprendizaje automático sofisticados, realizar análisis estadísticos complejos o explorar la IA generativa, RAPIDS cuDF proporciona la base para el procesamiento de datos de próxima generación.

NVIDIA está ampliando esa base al añadir soporte para las herramientas de dataframe más populares, incluyendo Polars, una de las bibliotecas de Python de más rápido crecimiento, que acelera significativamente el procesamiento de datos en comparación con otras herramientas que solo utilizan CPU.

Polars anunció la beta abierta de su Polars GPU Engine, impulsado por RAPIDS cuDF, permitiendo a los usuarios de Polars aumentar el rendimiento de esta ya rápida biblioteca de marcos de datos hasta en 13x.

Posibilidades infinitas para los ingenieros del mañana con RTX AI

Las GPUs de NVIDIA, ya sea en centros de datos universitarios, laptops GeForce RTX o estaciones de trabajo NVIDIA RTX, están acelerando los estudios. Los estudiantes en campos de ciencia de datos y otros están mejorando su experiencia de aprendizaje y obteniendo experiencia práctica con hardware ampliamente utilizado en aplicaciones del mundo real.

- A word from our sposor -

spot_img