当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

3个月前 (05-01)热点关注79

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

震惊!酒店机器人3年亏了8个亿 20亿负债压顶 酒店:不能为酒店节约人工成本!

   酒店机器人3年亏了8个亿    【酒店机器人3年亏了8个亿】近日,北京云迹科技股份有限公司(以下简称“云迹科技...

一女子戴面具电梯内恐吓两幼童,物业配合警方调查

一女子戴面具电梯内恐吓两幼童,物业配合警方调查

   4月28日,福建龙岩,网曝龙地华庭小区两个小女孩在电梯内被一戴面具的女孩阻止关电梯门并多次恐吓。视频显示,两个小女孩在电梯内,按好楼层后,一戴着面具的女孩出现,多次阻止关门并突然恐吓...

面具女电梯内恐吓两幼童:物业已报警寻人

面具女电梯内恐吓两幼童:物业已报警寻人

   4月28日,在福建龙岩的龙地华庭小区,两个小女孩在电梯内遭遇了一名戴面具的女孩恐吓。视频显示,两个小女孩按好楼层后,这名戴着面具的女孩突然出现,多次阻止电梯关门并恐吓她们,导致两个小...

女子买彩票中945万上完班才领奖 意外之喜悄然降临

女子买彩票中945万上完班才领奖 意外之喜悄然降临

   4月27日晚,双色球第2025046期开奖,江北区的吕女士凭借一张10元的机选单式票,成功斩获当期1注一等奖,奖金945万元,这是重庆今年的第5注双色球一等奖。  ...

从经济一季报看高质量发展的确定性 工业利润由降转增

   国家统计局4月27日发布的数据显示,今年一季度,随着政策效应持续释放,工业企业利润由降转增。装备制造业和高技术制造业的利润支撑作用明显,工业经济发展质效持续提升。一季度,全国规模以上...

蔚来4月交付新车23900台 同比增53% 双品牌齐发力

   5月1日,蔚来公司公布了2025年4月的交付数据。当月,蔚来共交付新车23900台,同比增长53%,环比增长58.9%。具体来看,蔚来品牌交付了19269台新车,而乐道品牌则交付了4...