[RO]《Learning Versatile Humanoid Manipulation with Touch Dreaming》Y Niu, Z Fang, B Chen, S Zhou… [CMU] (2026)
在人形机器人操作领域,"如何让机器人真正感知接触"是一个悬而未决的难题。过去的方法受困于触觉信号的稀疏与噪声,以及视觉与触觉的割裂建模,本质原因是触觉被当作辅助输入而非核心认知模态。
本文的核心洞见是:把"预测未来触感"重新看作一种表征学习的正则化手段,而非独立的世界模型模块。由此,在单阶段行为克隆中引入EMA教师编码器监督的潜空间触觉预测,这一关键操作使策略主干自发学会了接触感知的动态表示。
这项工作真正留下的遗产是:证明了触觉潜空间预测可以无缝嵌入端到端模仿学习,无需预训练也无需多阶段推理。它为后来者打开的新门是将"梦见触觉"作为通用辅助目标迁移至更广泛的接触密集型任务,但尚未跨过的门槛是:系统仍依赖大量特定硬件(分布式触觉传感器、VR遥操),以及开环触觉预测在突变接触时的鲁棒性不足。
arxiv.org/abs/2604.13015
机器学习 人工智能 论文 AI创造营








