La generación de imágenes impulsada por inteligencia artificial ha avanzado significativamente, pasando de producir imágenes de personas con rasgos inusuales a crear visuales fotorealistas. Sin embargo, a pesar de estas mejoras, uno de los principales retos es lograr un control creativo preciso sobre el proceso de generación.
El uso de textos para crear escenas ya no requiere descripciones complicadas, ya que los modelos han mejorado en su alineación con las indicaciones. No obstante, describir detalles más complejos como la composición, los ángulos de la cámara y la colocación de objetos sigue siendo complicado, y realizar ajustes añade más complejidad. Existen herramientas avanzadas, como ControlNets, que mejoran la generación de imágenes, pero su complejidad en la configuración limita su accesibilidad.
Controla imágenes generadas por IA con 3D
Durante la reciente feria CES, NVIDIA presentó el NVIDIA AI Blueprint para IA generativa guiada por 3D en PCs RTX. Este conjunto de herramientas incluye todo lo necesario para comenzar a generar imágenes con control total sobre la composición. Los usuarios pueden descargar este nuevo blueprint de forma inmediata.
Este blueprint utiliza una escena 3D básica creada en Blender que provee un mapa de profundidad al generador de imágenes FLUX.1-dev, permitiendo generar visuales conforme a las solicitudes del usuario. Esta técnica aporta la ventaja de no necesitar objetos altamente detallados o texturas de calidad, ya que se convierten a escala de grises. Además, la naturaleza 3D de las escenas permite mover fácilmente los elementos y cambiar los ángulos de cámara.
Detrás de este blueprint se encuentra ComfyUI, una herramienta poderosa que permite a los creadores encadenar modelos de IA generativa de maneras innovadoras. Por ejemplo, el complemento de ComfyUI para Blender facilita la conexión entre ambos programas. Asimismo, un microservicio NVIDIA NIM permite optimizar el rendimiento de FLUX.1-dev en GPUs GeForce RTX, utilizando el kit de desarrollo de software TensorRT y formatos optimizados.
Fundamento preconstruido para flujos de trabajo de IA generativa
El blueprint incluye todos los elementos esenciales para comenzar un flujo de trabajo avanzado en la generación de imágenes: Blender, ComfyUI, complementos para conectar ambos y el microservicio FLUX.1-dev. Para artistas de IA, se ofrece un instalador con instrucciones detalladas de configuración.
Este blueprint proporciona una forma estructurada de adentrarse en la generación de imágenes, estableciendo un pipeline funcional que puede ser adaptado según necesidades específicas. Documentación paso a paso, activos de ejemplo y un entorno preconfigurado hacen que el proceso creativo sea más accesible y los resultados, más impactantes.
Para los desarrolladores de IA, el blueprint también serve como un cimiento para crear pipelines similares o expandir los ya existentes, incluyendo código fuente, datos de ejemplo y documentación para facilitar el inicio.
Generación en tiempo real con IA RTX
Los AI Blueprints funcionan en PCs y estaciones de trabajo NVIDIA RTX, aprovechando los recientes avances en rendimiento de la arquitectura NVIDIA Blackwell. El microservicio FLUX.1-dev está optimizado con TensorRT y cuantificado a precisión FP4 para GPUs Blackwell, lo que permite velocidades de inferencia más de dos veces superiores a las de PyTorch nativo en FP16.
Para los usuarios con GPUs de la generación Ada Lovelace de NVIDIA, el microservicio FLUX.1-dev también incluye variantes en FP8, igualmente aceleradas por TensorRT. Estas mejoras hacen que los flujos de trabajo de alto rendimiento sean más accesibles para iteraciones rápidas y experimentación, permitiendo ejecutar modelos con menos VRAM, reduciendo así el tamaño de los modelos más de dos veces al trasladarse de FP16 a FP4.
Personaliza y crea con IA RTX
Actualmente, hay diez microservicios NIM disponibles para RTX, abarcando casos de uso que incluyen generación de imágenes, lenguaje, voz y visión por computadora, con más blueprints y servicios en desarrollo. AI Blueprints y microservicios NIM están disponibles para quienes deseen crear, personalizar y explorar los límites de la IA generativa en PCs y estaciones de trabajo RTX.
Cada semana, la serie de blogs RTX AI Garage presenta innovaciones y contenido impulsados por la comunidad, ideales para aquellos interesados en conocer más sobre microservicios NIM y AI Blueprints, así como en desarrollar agentes de IA, flujos de trabajo creativos y aplicaciones de productividad.
¿Qué es el NVIDIA AI Blueprint?
Es un conjunto de herramientas que permite a los usuarios generar imágenes con control total sobre la composición utilizando tecnología de inteligencia artificial guiada por 3D.
¿Qué hardware necesito para utilizar el AI Blueprint?
Se requiere una GPU NVIDIA GeForce RTX 4080 o superior para un rendimiento óptimo.
¿Cuáles son las ventajas de usar un mapa de profundidad?
Los mapas de profundidad mejoran la colocación de objetos en las escenas y no exigen texturas de alta calidad, facilitando la manipulación y ajuste de elementos.
¿Qué programas son parte del flujo de trabajo recomendado?
El flujo incluye Blender, ComfyUI y el microservicio FLUX.1-dev para la generación de imágenes.