当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

3个月前 (05-01)热点关注64

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

“美人鱼”溺水真实原因公布 设备故障致意外

“美人鱼”溺水真实原因公布 设备故障致意外

   近日,太原海洋大世界“美人鱼”表演时发生溺水事件,引起广泛关注。4月28日,太原海洋大世界在其官方账号上发布了一封公开道歉信,解释称“美人鱼”冯女士在表演过程中因护目镜和脚蹼脱落导致...

美乌矿产协议预计最早于今日签署 最终细节敲定中

   4月30日,乌克兰第一副总理兼经济部长尤利娅·斯维里登科在美国华盛顿与美方商讨矿产资源协议的技术细节。双方预计最早可能在当天签署该协议。...

山西男篮拉拉队被处以严重警告 干扰比赛受罚

山西男篮拉拉队被处以严重警告 干扰比赛受罚

   北京时间4月30日,CBA官方发布公告,山西男篮拉拉队因在比赛中干扰北京首钢队罚球,且经劝阻后仍未改正,被严重警告,并取消其优秀拉拉队评选资格。此外,拉拉队负责人刘晶因在个人抖音账号...

爱彼迎Q1营收23亿美元 高于市场预期 净利润超预期

   当地时间5月1日,爱彼迎发布了第一季度财报。财报显示,该公司每股收益为0.24美元,高于预期的0.23美元;营收达到23亿美元,超出预期的22.5亿美元;净利润为1.54亿美元,也高...

宋英杰:科普应该是双向科普 要有文化感

   来源:央视网 更新时间:2025年05月02日 07:44 视频简介 宋英杰:科普应该是双向科普,同时要有文化感。 更多 > “现在全国高速路上有超过4500万辆车”00:0...

南宁动物园“丢那猩”上狠活 网红猩猩扔石砸伤游客

   5月1日,广西南宁动物园发生一起意外事件。一只名为“丢那猩”的黑猩猩向游客投掷石块,导致一名游客受伤。其他游客见状纷纷躲避,受伤游客随后被急救车送往医院治疗。   ...