[CV]《SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer》H Zhu, H Liu, Y Zhao, T Ye… [NVIDIA] (2026)
在长视频世界模型中,一分钟720p生成既要记住场景,又要跟随6-DoF相机轨迹。过去方法受困于模型大、数据贵、多卡推理,本质是长上下文与精确控制同时爆炸。
本文的核心洞见是:把一分钟视频重新看作可压缩的逐帧状态流。由此,GDN线性记忆负责长程演化,少量softmax注意力校准远距细节,双分支相机控制补回压缩丢失的运动。
这项工作真正留下的遗产是:分钟级世界生成开始接近单卡可用。它打开的新门是低成本可控模拟,但尚未跨过的门槛是显式3D记忆与更长动态场景稳定性。
arxiv.org/abs/2605.15178 机器学习 人工智能 论文 AI创造营








