SU-01：从普通推理模型到奥赛金牌

一个 30B 级开源模型达到了 IMO 和物理奥林匹克金牌水平，还在 USAMO 2026 上超过金牌线 10 分，追平了人类最高得分。

上海人工智能实验室联合香港中文大学、清华等团队推出的 SU-01，用一个简单且统一的配方，把一个普通的后训练推理模型，成功升级为高水平奥赛求解器。

过去，能达到金牌表现的系统要么方案保密，要么流程极其复杂，缺少一条清晰可复现的路径。而 SU-01 真正把这件事「说清楚、讲明白了」。

他们的三步配方非常简洁：
第一步：Reverse-Perplexity SFT（反困惑度课程微调）
不按常规随机顺序训练，而是根据模型对样本的初始困惑度从高到低排序。先喂最难预测、最不熟悉的严谨证明轨迹，再逐步过渡到熟悉样本。
这样既让模型学会了系统性的证明搜索、自查自纠习惯，又最大程度保留了原有 backbone 的能力。

第二步：两阶段强化学习（RL）
第一阶段（Coarse RL）：用答案正确性作为可验证奖励，重点提升模型的搜索能力和难题直接求解率。
第二阶段（Refined RL）：切换到证明质量的生成式奖励，加入自我精炼和经验回放，专门打磨证明的严谨性和完整度。

第三步：Test-Time Scaling（测试时缩放）
推理时允许模型「多想一会儿」。通过「求解 → 验证找 bug → 修正」的循环迭代，让模型生成超过 10 万 token 的长思考轨迹，把算力重点用在最难的问题上。

整个过程只用了约 34 万条 SFT 轨迹 + 200 步 RL，效率很高，而且不绑定特定模型，容易迁移。

它证明了不需要海量数据和极其复杂的系统，只需「行为重塑 + 可扩展反馈 + 测试时计算」的闭环，就能让中小规模模型在高难度长时序证明任务上达到专家水平。为开源社区提供了一条清晰、可落地的从「通用推理模型」到「严谨奥赛求解器」的路径，也为更广泛的科学推理研究打开了新思路。

模型和代码据已经公开，推荐感兴趣的朋友去读原文或尝试复现。如果你觉得对你有用的话 ~ 欢迎点赞收藏并分享给你的朋友们~

昊梵体育网

SU-01：从普通推理模型到奥赛金牌

热门分类