关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro752人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

意乙巴里队球迷诅咒自家球员全家得癌症,球员妻子已报警

懂球帝 浏览 2831

郭爸曝郭碧婷家庭花销全靠她,嫁入"假豪门"?

代军哥哥谈娱乐 浏览 3737

2025自主四强全年销量成绩单出炉

大象新闻 浏览 2715

高芙输球后更衣室摔拍遭外界批评,萨巴一句女人比男人耐热惹争议

网球之家 浏览 2494

前桑德兰队友:阿马德和我在场上很默契,未来他还会更出色

懂球帝 浏览 1098

决胜盘落后顽强逆转!奇纳四进挑战赛决赛终夺冠,迎生涯新突破

网球之家 浏览 1959

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 4100

随着广东+上海+广厦全赢球,CBA最新积分榜如下:2队全胜+2队全败

侃球熊弟 浏览 3005

针对其父可能被“身边人”出卖的传言 马杜罗之子回应

上观新闻 浏览 2711

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 3196

中国机器人组团出征CES,加速进化首日售出数十台,魔法原子海外收入占比过半

红星资本局 浏览 2637

《offer7》求职修罗场,满级人类怎么打逆风局?

仙女事件簿 浏览 4485

倪萍又说大实话,感叹李施嬅爱情里像“当妈”

疯说时尚 浏览 3533

致敬,齐达内送给法国10000米冠军格雷西耶一件签名皇马球衣

懂球帝 浏览 4262

“看好中国新经济!” 渣打集团行政总裁温拓思最新发声

券商中国 浏览 3941

餐馆称免费加面游客二次续面却被要求付3元 官方通报

封面新闻 浏览 22002

22个州经济正在萎缩,消费者信心持续下跌,多家机构警告美国经济衰退

环球网资讯 浏览 3786

全球首款飞行汽车来了!售价222万元,可以飞177公里

象视汽车 浏览 2867

现场:马竞绝杀国米6连胜!甘当替补的格子同样出色

体坛周报 浏览 3250

蔡依林《PLEASURE》巡回演唱会首站启幕

环球网资讯 浏览 2703

曾经的环球小姐冠军,却一手好牌打得稀烂

历来纵横 浏览 3674
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1