🔸 StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation (arXiv:2511.07399)
实时流式视频扩散系统,结合 SLO 感知调度、pipeline 并行、动态 KV/sink 和运动感知噪声控制,实现低延迟、高一致性直播视频生成。(这篇论文有投稿到机器之心官方,有详细解读论文过程,可检索查阅)
🔸 BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding (arXiv:2512.12087)
训练-free 动态块稀疏注意力,通过在线 softmax 阈值实时跳过无关块,同时加速 prefill+decode,长上下文 LLM 推理提速显著。
🔸 LEANN: A Low-Storage Overhead Vector Index (arXiv:2506.08276)
极低存储向量索引,查询时动态重计算 embedding + 高阶节点保留图剪枝,索引大小降至原数据 ~5%,适合设备端和大规 RAG。
🔸 ExecuTorch: A Unified PyTorch Solution to Run ML Models On-Device (arXiv:2605.08195)
PyTorch 原生统一边缘部署框架,支持从微控制器到手机/SoC 的无缝运行,无需模型转换,实现实验到生产的完美一致性。
推荐搞高效 AI 系统、LLM 推理优化、实时视频生成、边缘部署 / on-device ML、向量检索 / RAG 的同学和研究者们一定要看一看这四篇工作 —— 它们从不同维度共同推动了 AI 系统向更高效、更实时、更易部署的方向迈进,极具实用价值!
如果你觉得对你有用的话 ~ 欢迎点赞收藏并分享给你的朋友们~




