关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1737人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蓄发哥开始重新等待五连胜,阿莫林:希望他能尽快剪掉头发

懂球帝 浏览 4311

关于李湘为什么总披着外套?

甜柠聊史 浏览 4500

同样是悼念亡妻,把具俊晔和辛柏青放一起比较,差别怎么这么大!

娱乐圈笔娱君 浏览 4509

特朗普称将审查伊朗提出的结束冲突新方案

极目新闻 浏览 1328

王楚钦抵达海口参加亚洲杯,不愧是穿搭博主

可乐谈情感 浏览 3465

车企“偷换”电池背后:产能不足还是另有隐情

经观汽车 浏览 4500

卡里克三天激活曼联新帝星,提醒其仍需成长!拉爵或省钱少买中场

罗米的曼联博客 浏览 3602

今年最好的大银幕电影,没有之一

电影最TOP 浏览 3608

特朗普大规模换大使:涉及30多国 均在拜登时期上任

齐鲁壹点 浏览 9009

“疲惫脸”太丑了!有这些特征的女生怎么救?

Yuki女人故事 浏览 5028

奕境首款大六座SUV寒测图发布 满配华为智能科技

三个司机 浏览 3438

苹果首款低价MacBook来了!搭载iPhone处理器 对标入门Windows PC

快科技 浏览 4328

冬天别只穿厚重的羽绒服,看看这些大衣穿搭,高级大方又有质感

静儿时尚达人 浏览 3498

量子位「MEET2026智能未来大会」启动!年度榜单征集中

量子位 浏览 4655

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 3994

郑永刚:八天四赛强度确实太大,但大家都坚持了下来拼到最后

懂球帝 浏览 3463

携程涉嫌垄断被立案调查 尾盘跳水大跌超6%

Daily每日财报 浏览 3605

锦缎观察:AI应用、储能与机器人在2026年的预期差

锦缎研究院 浏览 3514

苏超常州队主帅:明年队伍要年轻化,希望能让球迷场场都开心

懂球帝 浏览 5208

北京爆冷输天津3人败笔!许利民糟糕执教,三宁狂铁,方硕引丢分

篮球资讯达人 浏览 4428

上年纪的女人穿衣别焦虑,试试这几个搭配套路,优雅还减龄

静儿时尚达人 浏览 4434
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1