当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

6个月前 (05-01)热点关注197

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

孙颖莎发言 身旁小朋友探头看 萌态十足引关注

孙颖莎发言 身旁小朋友探头看 萌态十足引关注

   近日,在五四青年颁奖典礼上,孙颖莎与小学生站在一起,显得非常和谐,画面十分可爱。当孙颖莎发言时,小朋友们纷纷探头注视她,网友们戏称这场景就像是自己见到孙颖莎一样。...

神舟十九号航天员平安抵京 进入隔离恢复期

   今天,圆满完成神舟十九号载人飞行任务的航天员乘组,已平安抵达北京。3名航天员抵京后将进入隔离恢复期,进行全面的医学检查和健康评估,并安排休养。...

“最高层级”医政调查启动 回应公众质疑

   医生肖某出轨事件及对董某学历的质疑、协和“4+4”模式公正性的讨论引起了广泛关注。5月1日,国家卫生健康委宣布成立调查组,将联合有关方面对涉及的肖某、董某及相关机构进行认真调查核查,...

女子整理发霉衣柜后高烧40度 曲霉菌感染肺部

女子整理发霉衣柜后高烧40度 曲霉菌感染肺部

   近日,家住杭州萧山的沈大姐因在家整理衣柜后住进了医院。她没想到简单的换季衣物整理竟让她高烧至40℃,肺部出现菌斑。沈大姐见天气渐暖,便开始整理衣柜。过程中,她发现衣柜里有霉斑,于是进...

他正在为我国最新一代战机调试零件!

   来源:央视网 更新时间:2025年05月02日 20:54 视频简介 80后装配工钱得顺首创的操作法,使国产战机压缩机的加工精度提升了4倍。 更多 > 他正在为我国最新一代战...

刘诗诗“先秦淑女步”火出圈 古风美学惊艳重生

刘诗诗“先秦淑女步”火出圈 古风美学惊艳重生

   最近,刘诗诗一段古风步态视频在网络上广为流传。视频中,她身穿素雅长裙,步伐轻盈,腰间的步摇随着节奏轻轻晃动,每一步都仿佛触动了观众的心弦。网友纷纷赞叹:“这就是传说中的‘先秦淑女步’...