关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1351人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

埃里克:对上赛季4-3赢皇马印象最深;弗里克总会激励球队

懂球帝 浏览 3176

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 4178

阳光电源:前三季度净利润119亿元 同比增长56%

网易财经 浏览 3366

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

环球网资讯 浏览 33922

德切利:尤文永远是我的家,我40年人生中有30年都在尤文

懂球帝 浏览 1162

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 32524

艾弗森怒斥轮休:让我轮休?那xx是一场比赛,有种训练也让我休息好了

懂球帝 浏览 4376

从轿车变成MPV? 雷克萨斯LS概念车正式发布

网易汽车 浏览 4068

英媒:热刺希望能在冬窗签下马尔穆什,维拉也对他感兴趣

懂球帝 浏览 3194

测Manus 1.5:丝滑,超预期,Manus独特上下文工程的一次关键展示

硅星人 浏览 4324

工业设计软件逆势活跃 华大九天等创年内新高

第一财经资讯 浏览 4380

全运会男足:上海U20 3-2新疆U20,刘诚宇、蒯纪闻破门,李新翔绝杀

懂球帝 浏览 3896

媒体:日本和菲律宾一个装无辜一个装可怜 中国不惯着

新民周刊 浏览 12423

NBA碎碎念合集(2)

静易墨 浏览 4122

时光相册| 一生逐梦蓝天,缅怀顾诵芬院士

新华社 浏览 113

百亿私募一站式出海!招商证券打造跨境服务生态

券商中国 浏览 3434

葡媒:穆里尼奥保留了前任拉热教练组里的两名成员

懂球帝 浏览 4976

AI的“相变”时刻:为什么我们现在的想象力都太贫乏了?

澎湃新闻 浏览 3093

李亚鹏与哥哥和解 只有一条真心话短信

温柔娱公子 浏览 2480

凯斯因病退赛,小米辣放弃泼天富贵,压力娃登场即可稳拿百万巨奖

网球之家 浏览 4013

AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼

新智元 浏览 4305
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1