当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

5个月前 (05-01)热点关注162

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

5月起这些新规将施行 涉及多领域生活变化

   随着5月的到来,一系列新规即将生效,涵盖住宅标准、婚姻登记和售后服务等多个方面。其中,《住宅项目规范》国家标准将于5月正式实施。新标准不仅规定新建住宅建筑的层高不得低于3.00米,还...

申京9中6拿到15分9板 全面表现助力火箭胜勇士

申京9中6拿到15分9板 全面表现助力火箭胜勇士

   北京时间今日,在季后赛首轮G5中,火箭队在主场击败勇士队,总比分扳成2-3。本场比赛,申京出战30分51秒,9中6得到15分9篮板9助攻2抢断2盖帽,罚球4中3,出现1次失误,正负值...

广州越秀今年小学一年级减少44个班 招生计划调整

   4月28日,广州市越秀区教育局发布2025年义务教育学校招生计划。2025年,越秀区计划开设小学一年级313个教学班...

假期建议不要大吃大喝过度补觉 警惕越休息越累

   假期本应是放松身心的时光,但很多人假期归来后却感到更加疲惫。有些休息方式不仅不能恢复精力,反而让人越休息越累。      ...

五一假期余额还剩两天 多地景区限流售罄

五一假期余额还剩两天 多地景区限流售罄

   “五一”假期文旅活动十分火热,各地景区迎来了大量游客。随着假期进入尾声,多个景区发布公告称已达到最大接待量,门票售罄或预约已满。   ...

《动画大放映》 20250503 16:30

   本期节目主要内容:1.《棉花糖和云朵妈妈 爱的点心盒子》 第17集 酸甜的善意;2.《棉花糖和云朵妈妈 爱的点心盒子》 第18集 爱问问题的棉花糖;3.《棉花糖和云朵妈妈 爱的点心盒...