[CL]《Fast Byte Latent Transformer》J Kall

[CL]《Fast Byte Latent Transformer》J Kallini, A Pagnoni, T Limisiewicz, G Ghosh, L Zettlemoyer, C Potts, X Han… [FAIR at Meta] (2026)

在字节级语言模型中，免 tokenizer 与快速生成难以兼得。过去 BLT 虽用动态 patch 降低计算，但仍逐字节解码，本质原因是未来字节不能并行生成。

本文的核心洞见是：把 BLT 解码重新看作块级补全。由此，扩散目标让 decoder 一次草拟多字节，再用自推测或自回归校验在速度与质量间调节。

这项工作真正留下的遗产是让字节模型接近实用推理。它打开的新门是 tokenizer-free 的并行生成，但尚未跨过的门槛是真实系统延迟仍只用 NFE 与带宽估计。

arxiv.org/abs/2605.08044 机器学习人工智能论文 AI创造营

阅读：0 点赞：0

昊梵体育网