[CV]《SANA-WM: Efficient Minute-Scale Wor

[CV]《SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer》H Zhu, H Liu, Y Zhao, T Ye… [NVIDIA] (2026)

在长视频世界模型中，一分钟720p生成既要记住场景，又要跟随6-DoF相机轨迹。过去方法受困于模型大、数据贵、多卡推理，本质是长上下文与精确控制同时爆炸。

本文的核心洞见是：把一分钟视频重新看作可压缩的逐帧状态流。由此，GDN线性记忆负责长程演化，少量softmax注意力校准远距细节，双分支相机控制补回压缩丢失的运动。

这项工作真正留下的遗产是：分钟级世界生成开始接近单卡可用。它打开的新门是低成本可控模拟，但尚未跨过的门槛是显式3D记忆与更长动态场景稳定性。

arxiv.org/abs/2605.15178 机器学习人工智能论文 AI创造营

昊梵体育网