Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Content streaming y compromiso están entrando en una nueva dimensión con QUEEN, un modelo de IA desarrollado por NVIDIA Research y la Universidad de Maryland que permite transmitir video de punto de vista libre, lo que permite a los espectadores experimentar una escena 3D desde cualquier ángulo.

Aplicaciones inmersivas de QUEEN

QUEEN podría utilizarse para crear aplicaciones de streaming inmersivas que enseñen habilidades como la cocina, permitir que los aficionados al deporte estén en el campo para ver a sus equipos favoritos jugar desde cualquier ángulo, o aportar un nivel adicional de profundidad a las videoconferencias en el lugar de trabajo. También podría emplearse en entornos industriales para ayudar a teleoperar robots en un almacén o en una planta de fabricación.

El sistema optimizado para streaming

“Para transmitir videos de punto de vista libre en casi tiempo real, debemos reconstruir y comprimir la escena 3D simultáneamente”, afirmó Shalini De Mello, directora de investigación y científica investigadora distinguida en NVIDIA. “QUEEN equilibra factores como la tasa de compresión, la calidad visual, el tiempo de codificación y el tiempo de renderizado para crear un pipeline optimizado que establece un nuevo estándar para la calidad visual y la capacidad de transmisión”.

Reduce, reutiliza y recicla para streaming eficiente

Los videos de punto de vista libre se crean normalmente utilizando grabaciones de video capturadas desde diferentes ángulos de cámara, como en un estudio de filmación multicámara, un conjunto de cámaras de seguridad en un almacén o un sistema de cámaras de videoconferencia en una oficina.

Métodos previos de IA para generar videos de punto de vista libre o requerían demasiada memoria para la transmisión en vivo o sacrificaban la calidad visual para obtener tamaños de archivo más pequeños. QUEEN equilibra ambos aspectos para ofrecer gráficos de alta calidad, incluso en escenas dinámicas con chispas, llamas o animales peludos, que pueden ser transmitidos fácilmente desde un servidor host al dispositivo del cliente. Además, renderiza visuales más rápido que los métodos anteriores, apoyando casos de uso de streaming.

En la mayoría de los entornos del mundo real, varios elementos de una escena permanecen estáticos. En un video, eso significa que una gran parte de los píxeles no cambian de un fotograma a otro. Para ahorrar tiempo de computación, QUEEN rastrea y reutiliza los renders de estas regiones estáticas, enfocándose en reconstruir el contenido que cambia con el tiempo.

Usando una GPU NVIDIA Tensor Core, los investigadores evaluaron el rendimiento de QUEEN en varios benchmarks y encontraron que el modelo superó a los métodos más avanzados para video de punto de vista libre en línea en una variedad de métricas. Dado videos 2D de la misma escena capturados desde diferentes ángulos, típicamente toma menos de cinco segundos de tiempo de entrenamiento para renderizar videos de punto de vista libre a alrededor de 350 fotogramas por segundo.

Esta combinación de velocidad y calidad visual puede respaldar las transmisiones de conciertos y partidos deportivos al ofrecer experiencias inmersivas de realidad virtual o repeticiones instantáneas de momentos clave en una competencia.

En entornos de almacén, los operadores de robots podrían usar QUEEN para medir mejor la profundidad al maniobrar objetos físicos. Y en una aplicación de videoconferencia, podría ayudar a los presentadores a demostrar tareas como cocinar u origami mientras permite a los espectadores elegir el ángulo visual que mejor apoye su aprendizaje.

Disponibilidad del código y futuro de QUEEN

El código de QUEEN se liberará pronto como software de código abierto y será compartido en la página del proyecto. QUEEN es uno de más de 50 trabajos de NVIDIA presentados en NeurIPS que destacan investigaciones innovadoras en IA, con aplicaciones potenciales en campos como la simulación, la robótica y la atención médica.

Un trabajo anterior sobre Redes Generativas Antagónicas, que introdujo por primera vez los modelos GAN, ganó el Premio Test of Time de NeurIPS. Esta publicación ha sido citada más de 85,000 veces y fue coescrita por un ingeniero distinguido de NVIDIA.

- A word from our sposor -

spot_img

NVIDIA presenta un modelo de investigación que permite la reconstrucción dinámica de escenas