关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4511人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

多巴胺“粉”，赫本是这样穿的！

Yuki女人故事浏览 240

青创人才说 | 柒色莲生物汪会兵：当好iPSC细胞疗域“铺路人”

上观新闻浏览 3757

交锋升级，贝弗利再diss特雷-杨：你是擅长得分助攻，但你是数据刷子

懂球帝浏览 5015

精彩推荐

左手并购芬兰Dispelix，右手合作全球头部大厂瑞声科技加速XR布局

爱集微浏览 3801

刘强东“10年1元年薪”之约到期，律师解构高净值人群如何妥善处理财产

红星资本局浏览 4824

新款享界S9将于11月7日正式开启预订

车质网浏览 3289

父母先后失联兄弟流浪4岁弟弟又失踪 36年后母子团圆

红星新闻浏览 8494

美2027财年国防预算恐创纪录五角大楼查女兵＂有效性＂

红星新闻浏览 13906

口袋 AI 设备 Rabbit R1 更新，引入全新堆栈式卡片界面

IT之家浏览 4970

球迷态度：颜王刘三人均已34+，李昊今年能否接班国足一门？

懂球帝浏览 3184

歼-20战机首次进行静态展示

新京报浏览 4088

泽连斯基：乌克兰计划2027年加入欧盟

财联社浏览 6807

皮耶罗儿子被意丁俱乐部解约，俱乐部主席：我们不看他的姓氏

懂球帝浏览 3527

曼奇尼自曝若阿莫林下课其可执教曼联！失业一年，在法国遇到拉爵

罗米的曼联博客浏览 4225

外套里面穿什么？这8件“姐感内搭”高级又好看

LinkFashion 浏览 4138

抗衰赛道持续扩容，Swisse PLUS能否成为健合集团（01112）的增长引擎？

猛犸资本局浏览 3909

半个娱乐圈为肖战包场，《得闲谨制》票房走俏，侯鸿亮鞠躬致谢

娱乐圈笔娱君浏览 3614

理想汽车2025年12月交付44,246辆累计交付量突破150万

网易汽车浏览 3395

夫妻欠债2.45亿移居海外被跨境追索南京法院判了

扬子晚报浏览 115350

AI杀入美股，DeepSeek又是第一！港大90后开源，AI股神人人都能造

新智元浏览 4079

布朗复出27+7绿军19分逆转双杀热火西蒙斯39+7三分赛季新高

醉卧浮生浏览 3243

安踏强势反腐背后毛利率下滑营销、采购是重灾区

21世纪经济报道浏览 4863

新版《重案六组》来袭！张一山加盟

可乐谈情感浏览 2192

电讯报：西汉姆考虑任命一位短期主帅，接替波特

直播吧浏览 5008

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1