关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4514人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

理想i6“涨价”:现金减免从1万元调整为5000元

电动知家 浏览 4151

四季度机构调研显著加快!人工智能景气延续

券商中国 浏览 3536

neueHCT再获2亿美元融资 地平线合资模式拓全球版图

网易汽车 浏览 3292

18.99万起,智享大六座旗舰SUV风云T11上市,又要卖爆?

电车通 浏览 3632

《重影》:高叶的这场被侵犯戏,被扇耳光,让人看了扎心的痛

娱乐圈笔娱君 浏览 4253

夏天别总穿黑色和白色,试试这几款红色单品,高级养眼显气色

静儿时尚达人 浏览 112

陈思诚新片定档!五一档终于有救了

陈意小可爱 浏览 1345

腾讯元宝接入微信支付

观察者网 浏览 4004

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 4138

美国一"深红"选区爆冷翻蓝 特朗普选后立即撇清关系

上观新闻 浏览 9782

双红会3亿强援替补!维尔茨谢什科遭弃用,媒体人:斯洛特真大胆

奥拜尔 浏览 4252

北京自闭症男童苍山走失身亡 父亲1周7天扎在单位加班

红星新闻 浏览 9033

内塔尼亚胡:加沙非军事化前 不会允许重建

新京报 浏览 3010

AI闭环交易再引争议:OpenAI入股Thrive Holdings,或瞄准更多私募

华尔街见闻官方 浏览 3746

专家:特朗普对中国无牌可打了 没想到蠢到打起波音牌

澎湃新闻 浏览 4220

星空有约|冬夜焰火!双子座流星雨即将迎来极大

新华社 浏览 3667

特朗普回应前助理被起诉:这是个卑鄙的家伙

参考消息 浏览 9157

美伊协议草案或将在数小时内公布

财联社 浏览 245

中国游客到迪拜参加婚礼被困:目睹导弹从上空飞过

极目新闻 浏览 2466

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

LinkFashion 浏览 3160

本-福斯特谈C罗:他的确是弗格森的宠儿,因为他实在太出色了

懂球帝 浏览 4271
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1