关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1349人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI大战打到太空!前脚H100入轨,TPU后脚上天,中国玩家笑而不语

量子位 浏览 3892

NBA战报:凯尔特人146-101狂胜奇才取NBA3连胜,德里克-怀特30+7+9

懂球帝 浏览 3558

贝克汉姆晒14岁哈珀滑雪照,眉眼精致美人胚子

译言 浏览 2635

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2557

魅族Flyme Auto新增生态用户数在11月首次突破20万

IT之家 浏览 3578

Noble M10:从车库诞生的英国跑车梦想

老爷车 浏览 3365

11.99至15.99万元 长安启源A06开启预售

网易汽车 浏览 4753

官方:田玉达加盟辽宁铁人

懂球帝 浏览 3116

连赢王曼昱+陈熠 42岁华裔掀翻世界第2+结束5连败 球迷:想念莎莎

风过乡 浏览 3232

海信CES发布全新一代RGB-Mini LED电视,搭载“玲珑4芯”真彩背光

IT之家 浏览 3241

当年霍震霆给儿子霍启刚挑儿媳妇,眼光多毒啊

小光侃娱乐 浏览 3731

中国核聚变技术获国际原子能机构肯定,“环流三号”亮相聚变能国际大会

上观新闻 浏览 4190

112名“中国留学生”被韩国调查

中国新闻周刊 浏览 33311

21.99万起 极狐问道V9开启预售 定义东方科技旗舰MPV新标准

网易汽车 浏览 1152

真我售后网点增至 815 家,GT8 Pro 将是同档“最香”旗舰机

IT之家 浏览 4180

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 3158

瓜帅:我一直尊重裁判从未批评他们,但我必须捍卫我的俱乐部

懂球帝 浏览 3001

欧摩威展示单雷达AEB方案!已获国内头部主机厂定点,明年将量产

车东西 浏览 4073

罗马仕违反强制认证规定、虚假宣传 被罚没124万

南方都市报 浏览 3505

法兰克福的六号位仍是敏感话题

绿茵情报局 浏览 3189

贾国龙服软了!

数字财经智库 浏览 3045
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1