关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者866人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 659

拿11亿买空壳公司后,前妻一夜套现22亿,还有更离谱的!

金角财经 浏览 15559

黄子韬徐艺洋“尼克朱迪”模仿秀

今古深日报 浏览 229

奇瑞集团前11月销量256万辆 新能源突破80万辆

网易汽车 浏览 285

徐濠萦染满头绿发好前卫,与女儿河边遛狗

扒虾侃娱 浏览 16007

写字楼大量空置成欧美“定时炸弹”,美媒:像贯穿全球经济的黑暗裂缝

环球网资讯 浏览 15679

英媒:时隔15年 美国欲在英再次部署核武器

参考消息 浏览 12661

谁吃掉了那块蛋糕?2023时尚圈黑马盘点

VogueMe 浏览 13885

巴基斯坦总理在联大敲桌子强调"自卫权"

北京日报 浏览 1275

美国电动汽车遭遇“断崖式”下跌

电动知家 浏览 739

媒体:想拉拢印度在俄乌问题上倒向西方 岸田或放大招

直新闻 浏览 113135

朝鲜发射巡航导弹,拜登上台后首次进行武器试验

趣看热点 浏览 25951

NBA碎碎念合集(2)

静易墨 浏览 783

吉利共同富裕计划细则发布 首批向员工授予1.67亿股

网易汽车 浏览 21135

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 363

刘欢,早已走上另一条大道

奥字侃剧 浏览 834

3年半亏损289亿,华侨城A换帅,人均薪酬15.5万元

华美财经 浏览 1674

6位星二代大变样,有人名媛范十足,有人长残了

不八卦会死星人 浏览 12839

修杰楷承认造假!逃役失败因贾静雯怀孕提前退伍,面临牢狱之灾

萌神木木 浏览 891

小法:温格和瓜帅最符合我的足球基因 如今也研究德泽尔比等教练

直播吧 浏览 12895

前央视主持人水均益直播 额头顶"中国人"纸条否认移民

极目新闻 浏览 6258
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1