Tags: Multimodal Video Generation - Paper Library

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

Published:12/9/2025

Multimodal Video GenerationWorld-Aware Video GenerationDynamic Noising IntegrationUnified Dataset ConstructionCross-Modal Learning Framework

UnityVideo is a unified framework that enhances worldaware video generation by jointly learning from multiple modalities. It employs dynamic noising and a modality switcher, leveraging a largescale dataset of 1.3M samples to improve video quality and physical consistency.

Papers