MiniMax开源MaxProof：大模型数学证明进入“验证驱动推理”阶段_okex交易所官网-OKX官网-全球领先加密货币交易所登录入口

当前位置：首页币圈资讯详情

MiniMax开源MaxProof：大模型数学证明进入“验证驱动推理”阶段

数学证明一直是大模型能力边界里最硬的一块骨头。不是不会算，而是很难稳定地“算对”。

MiniMax这次开源的MaxProof，切入点不在模型规模，也不在训练数据扩展，而是把推理阶段本身改写成了一种演化过程。换句话说，不再把“答案生成”当作一次性输出，而是拆成搜索、验证、修复，再筛选的循环系统。

这个框架的结构并不复杂，但思路更接近工程化重构：生成多个候选证明路径，由验证器逐条筛查，再把错误路径送回修复模块，最后在迭代中筛出最优解。它本质上是在推理阶段引入一个“进化淘汰机制”。

在传统LLM里，推理通常是线性的，一次生成、一次结束。MaxProof则更像把推理变成了一个带反馈回路的系统，类似蒙特卡洛树搜索在语言模型里的变体，只不过评价标准从概率变成了严格数学验证。

MiniMax-M3在IMO 2025和USAMO 2026测试集上的结果是35分和36分（满分42）。这个分数本身并不只是“高”，而是踩在金牌线附近稳定输出。对数学证明任务来说，稳定性往往比峰值能力更关键，因为一个能偶尔做对的模型，在工程应用中几乎不可用。

MaxProof的关键变化在于，把“生成正确答案”转移成“控制错误分布”。生成模块负责提出可能路径，验证模块负责裁剪低质量推理，修复模块则试图纠正局部逻辑断裂。这种结构更像一个三方博弈系统，而不是单一模型输出。

在这个过程中，模型能力被重新定义了。不是谁能一次性写出正确证明，而是谁能在多轮生成中更高效地收敛到正确解。

数学证明任务本身有一个特点：错误往往不是随机的，而是结构性的。一旦推理链条某一环断裂，后面再复杂的生成也只是“更精致的错误”。MaxProof试图解决的，正是这个问题——通过持续验证，把错误压缩在早期阶段。

从工程角度看，这种方法其实在向搜索系统靠拢，而不是单纯的生成模型优化。生成模型提供候选空间，验证器负责约束边界，修复模块降低路径浪费。三者组合之后，模型行为更像一个不断自我筛选的系统，而不是一次性输出器。

开源的意义在于，这种“推理时扩展”框架开始从内部实验走向外部复用。尤其是在数学证明这种高约束任务中，一旦验证机制成熟，后续可能迁移到代码生成、复杂决策规划甚至科学推理场景。

不过也有一个隐含前提：验证本身必须足够可靠。如果验证器出现偏差，整个演化系统会把错误当成正确路径不断放大，反而形成稳定的误判循环。

MaxProof目前更像一个结构验证器，而不是终极解法。它没有消除大模型的幻觉问题，只是把幻觉变成了可筛选对象。

某种意义上，这类框架正在改变一个隐含假设：大模型的能力上限不再完全取决于“生成能力”，而开始取决于“筛选能力”。生成只是入口，真正决定结果的，是系统如何处理错误。