爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

换装全新设计...

三星电子市值...

北京门店全关...

孔帕尼：我们...

产检时一切正...

2026款丰...

万科三季度净利润亏损160.69亿，深铁今年第十次“输血”

美国德州仪器与优必选达成战略合作

丁威迪考虑去海外联赛淘金拜仁和奥林匹亚科斯成为热门候选

2026款firefly萤火虫上市售11.98-12.58万

白宫附近国民警卫队员遭枪击：500名士兵将增派华盛顿

特朗普称美将管理委直至安全过渡

10套不重样出游穿搭，国庆照着穿又美又撩人！

特朗普称与北约达成格陵兰合作框架吕特：没提丹麦

上海交大突破：单一AI模型实现全视觉创作任务

亲历茅台打假办鉴酒翻车，线上的飞天还敢买吗？

22个州经济正在萎缩，消费者信心持续下跌，多家机构警告美国经济衰退

女子回门宴放父母34年前结婚录像现场8成宾客曾参加

西蒙尼获第60场欧冠胜利，与克洛普并列主教练胜场榜单第7

伊朗军队总司令：“我们的手始终放在扳机上”

女人到了三四十岁穿衣要显贵，这些穿搭值得借鉴，大方又好看

神舟二十号飞船以无人状态安全顺利返回，面对新挑战，更多任务细节公布

购置税从“免征”到“减半”，新能源车企将迎来一场考验！

小红书社区公约2.0里的「UGC社区进化史」

一年连关两厂，风靡全国的顶流养乐多为啥没人买了？

《余生有涯》：就算原生家庭烂，也别劝我投降

宝马新世代领衔16款首发车型史上最强阵容亮相北京车展

AI图像检测器＂视觉盲区＂：中科院揭示现有技术如何被轻松＂欺骗＂

美媒称马杜罗请求普京提供导弹等援助佩斯科夫回应

贵州本地人都不知道的动物园意外走红仅一位老人看守