欧易是世界领先的数字货币交易平台,你可以放心购买比特币、以太币、莱特币、狗狗币等数字货币,也可以探索Web3、投资DeFi 和NFT。欧易是您数字货币之旅的得力助手,下载欧易APP客户端安装包将助您轻松赚币.
数学证明一直是大模型能力边界里最硬的一块骨头。不是不会算,而是很难稳定地“算对”。
MiniMax这次开源的MaxProof,切入点不在模型规模,也不在训练数据扩展,而是把推理阶段本身改写成了一种演化过程。换句话说,不再把“答案生成”当作一次性输出,而是拆成搜索、验证、修复,再筛选的循环系统。
这个框架的结构并不复杂,但思路更接近工程化重构:生成多个候选证明路径,由验证器逐条筛查,再把错误路径送回修复模块,最后在迭代中筛出最优解。它本质上是在推理阶段引入一个“进化淘汰机制”。
在传统LLM里,推理通常是线性的,一次生成、一次结束。MaxProof则更像把推理变成了一个带反馈回路的系统,类似蒙特卡洛树搜索在语言模型里的变体,只不过评价标准从概率变成了严格数学验证。
MiniMax-M3在IMO 2025和USAMO 2026测试集上的结果是35分和36分(满分42)。这个分数本身并不只是“高”,而是踩在金牌线附近稳定输出。对数学证明任务来说,稳定性往往比峰值能力更关键,因为一个能偶尔做对的模型,在工程应用中几乎不可用。
MaxProof的关键变化在于,把“生成正确答案”转移成“控制错误分布”。生成模块负责提出可能路径,验证模块负责裁剪低质量推理,修复模块则试图纠正局部逻辑断裂。这种结构更像一个三方博弈系统,而不是单一模型输出。
在这个过程中,模型能力被重新定义了。不是谁能一次性写出正确证明,而是谁能在多轮生成中更高效地收敛到正确解。
数学证明任务本身有一个特点:错误往往不是随机的,而是结构性的。一旦推理链条某一环断裂,后面再复杂的生成也只是“更精致的错误”。MaxProof试图解决的,正是这个问题——通过持续验证,把错误压缩在早期阶段。
从工程角度看,这种方法其实在向搜索系统靠拢,而不是单纯的生成模型优化。生成模型提供候选空间,验证器负责约束边界,修复模块降低路径浪费。三者组合之后,模型行为更像一个不断自我筛选的系统,而不是一次性输出器。
开源的意义在于,这种“推理时扩展”框架开始从内部实验走向外部复用。尤其是在数学证明这种高约束任务中,一旦验证机制成熟,后续可能迁移到代码生成、复杂决策规划甚至科学推理场景。
不过也有一个隐含前提:验证本身必须足够可靠。如果验证器出现偏差,整个演化系统会把错误当成正确路径不断放大,反而形成稳定的误判循环。
MaxProof目前更像一个结构验证器,而不是终极解法。它没有消除大模型的幻觉问题,只是把幻觉变成了可筛选对象。
某种意义上,这类框架正在改变一个隐含假设:大模型的能力上限不再完全取决于“生成能力”,而开始取决于“筛选能力”。生成只是入口,真正决定结果的,是系统如何处理错误。