NVIDIA anunció NVIDIA Omniverse Avatar

NVIDIA Omniverse está construido desde cero para ser fácilmente extensible y personalizable con un marco de desarrollo modular . Mientras que los usuarios finales y los creadores de contenido aprovechan la plataforma Omniverse para conectarse y acelerar sus flujos de trabajo 3D, los desarrolladores pueden conectarse a la capa de plataforma de la pila Omniverse para crear fácilmente nuevas herramientas y servicios.

NVIDIA anunció NVIDIA Omniverse Avatar, una plataforma tecnológica para generar avatares interactivos de IA. Omniverse Avatar conecta las tecnologías de la empresa en IA de voz, visión artificial, comprensión del lenguaje natural, motores de recomendación y tecnologías de simulación. Los avatares creados en la plataforma son personajes interactivos con gráficos 3D con trazado de rayos que pueden ver, hablar, conversar sobre una amplia gama de temas y comprender la intención hablada de forma natural.
Omniverse Avatar abre la puerta a la creación de asistentes de IA que se pueden personalizar fácilmente para prácticamente cualquier industria. Estos podrían ayudar con los miles de millones de interacciones diarias de servicio al cliente (pedidos en restaurantes, transacciones bancarias, hacer citas y reservas personales, y más), lo que genera mayores oportunidades comerciales y una mayor satisfacción del cliente. «Ha llegado el amanecer de los asistentes virtuales inteligentes», dijo Jensen Huang, fundador y director ejecutivo de NVIDIA. «Omniverse Avatar combina las tecnologías de IA, simulación y gráficos fundamentales de NVIDIA para crear algunas de las aplicaciones en tiempo real más complejas jamás creadas. Los casos de uso de robots colaborativos y asistentes virtuales son increíbles y de gran alcance».
Omniverse Avatar es parte de NVIDIA Omniverse, una plataforma de colaboración y simulación de mundo virtual para flujos de trabajo 3D actualmente en versión beta abierta con más de 70 000 usuarios. En su discurso de apertura en NVIDIA GTC, Huang compartió varios ejemplos de Omniverse Avatar: Project Tokkio para atención al cliente, NVIDIA DRIVE Concierge para servicios inteligentes siempre activos en vehículos y Project Maxine para videoconferencias.
En la primera demostración del Proyecto Tokkio, Huang mostró a sus colegas entablando una conversación en tiempo real con un avatar diseñado como una réplica de juguete de sí mismo, conversando sobre temas como biología y climatología.
En una segunda demostración de Project Tokkio, destacó un avatar de servicio al cliente en un quiosco de restaurante, capaz de ver, conversar y comprender a dos clientes mientras pedían hamburguesas vegetarianas, papas fritas y bebidas. Las demostraciones fueron impulsadas por el software NVIDIA AI y Megatron 530B, que actualmente es el modelo de lenguaje personalizable más grande del mundo.
En una demostración de la plataforma DRIVE Concierge AI, un asistente digital en la pantalla del tablero central ayuda al conductor a seleccionar el mejor modo de conducción para llegar a su destino a tiempo y luego sigue su solicitud para establecer un recordatorio una vez que el alcance del automóvil cae por debajo de las 100 millas. .
Por separado, Huang mostró la capacidad del Proyecto Maxine para agregar funciones de video y audio de vanguardia a las aplicaciones de creación de contenido y colaboración virtual. Se muestra a un hablante de inglés en una videollamada en un café ruidoso, pero se puede escuchar claramente sin ruido de fondo. Mientras habla, sus palabras se transcriben y se traducen en tiempo real al alemán, francés y español con su misma voz y entonación.
Elementos clave de Omniverse Avatar
Omniverse Avatar utiliza elementos de IA de voz, visión por computadora, comprensión del lenguaje natural, motores de recomendación, animación facial y gráficos entregados a través de las siguientes tecnologías: Su reconocimiento de voz se basa en NVIDIA Riva, un kit de desarrollo de software que reconoce el habla en varios idiomas. Riva también se usa para generar respuestas de voz similares a las humanas usando capacidades de texto a voz. Su comprensión del lenguaje natural se basa en el modelo de lenguaje grande Megatron 530B que puede reconocer, comprender y generar lenguaje humano. Megatron 530B es un modelo preentrenado que puede, con poca o ninguna capacitación, completar oraciones, responder preguntas de un amplio dominio de temas, resumir historias largas y complejas, traducir a otros idiomas y manejar muchos dominios para los que no está específicamente capacitado. . Su motor de recomendación lo proporciona NVIDIA Merlin, un marco que permite a las empresas crear sistemas de recomendación de aprendizaje profundo capaces de manejar grandes cantidades de datos para hacer sugerencias más inteligentes. Sus capacidades de percepción están habilitadas por NVIDIA Metropolis, un marco de visión por computadora para análisis de video. Su animación de avatar está impulsada por NVIDIA Video2Face y Audio2Face, tecnologías de renderizado y animación facial 2D y 3D impulsadas por IA. Estas tecnologías se integran en una aplicación y se procesan en tiempo real mediante NVIDIA Unified Compute Framework. Empaquetadas como microservicios escalables y personalizables, NVIDIA Fleet Command puede implementar, administrar y orquestar las habilidades de manera segura en varias ubicaciones. Fuente: Nvidia