关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4514人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

8样回购N次宝藏零食！送礼/自己吃都合适！

Yuki女人故事浏览 6165

邹市明两亿家产被败光，冉莹颖深夜哭诉？

苏甩甩浏览 3708

躲在流量后面的人，被监管点名了

钛媒体APP 浏览 3614

精彩推荐

理想i6“涨价”：现金减免从1万元调整为5000元

电动知家浏览 4151

四季度机构调研显著加快！人工智能景气延续

券商中国浏览 3536

neueHCT再获2亿美元融资地平线合资模式拓全球版图

网易汽车浏览 3292

18.99万起，智享大六座旗舰SUV风云T11上市，又要卖爆？

电车通浏览 3632

《重影》：高叶的这场被侵犯戏，被扇耳光，让人看了扎心的痛

娱乐圈笔娱君浏览 4253

夏天别总穿黑色和白色，试试这几款红色单品，高级养眼显气色

静儿时尚达人浏览 112

陈思诚新片定档！五一档终于有救了

陈意小可爱浏览 1345

腾讯元宝接入微信支付

观察者网浏览 4004

新增车道级导航与全向记录仪腾势N9迎重磅OTA升级

网易汽车浏览 4138

美国一＂深红＂选区爆冷翻蓝特朗普选后立即撇清关系

上观新闻浏览 9782

双红会3亿强援替补！维尔茨谢什科遭弃用，媒体人：斯洛特真大胆

奥拜尔浏览 4252

北京自闭症男童苍山走失身亡父亲1周7天扎在单位加班

红星新闻浏览 9033

内塔尼亚胡：加沙非军事化前不会允许重建

新京报浏览 3010

AI闭环交易再引争议：OpenAI入股Thrive Holdings，或瞄准更多私募

华尔街见闻官方浏览 3746

专家：特朗普对中国无牌可打了没想到蠢到打起波音牌

澎湃新闻浏览 4220

星空有约|冬夜焰火！双子座流星雨即将迎来极大

新华社浏览 3667

特朗普回应前助理被起诉：这是个卑鄙的家伙

参考消息浏览 9157

美伊协议草案或将在数小时内公布

财联社浏览 245

中国游客到迪拜参加婚礼被困：目睹导弹从上空飞过

极目新闻浏览 2466

绿色+棕色、蓝色+棕色，这3组配色高级又好看！

LinkFashion 浏览 3160

本-福斯特谈C罗：他的确是弗格森的宠儿，因为他实在太出色了

懂球帝浏览 4271

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1