关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3945人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

意外去世，破产重组，宁波老厂长的悲歌

诗与星空浏览 3729

球迷态度：CBA第一阶段结束，你对你的主队表现满意吗？

懂球帝浏览 2401

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端浏览 15728

精彩推荐

＂震荡＂之后中美传来好消息李成钢的表态意味深长

中国新闻周刊浏览 8967

女孩引产遭拒生女婴被医生＂送人＂抱养方称捡弃婴露馅

澎湃新闻浏览 10119

历史首次，“三桶油”收盘全部涨停！

红星资本局浏览 1952

联合精密拟斥资近2亿元控股成都迈特航空，三年对赌5600万元净利润

红星资本局浏览 2975

31岁女护士提分手遭男友割喉生前日记称像活在地狱中

中国新闻周刊浏览 9142

卡希尔：我确实替罗塞尼尔感到难受，我觉得球员们让他失望了

懂球帝浏览 742

北京降雪来袭多家超市保供稳价进行时

中国商报浏览 2678

带着理想出发：理想汽车携手易烊千玺为时代青年发声

三言科技浏览 4343

何超莲窦骁，婚变风波后首次同框

喜欢历史的阿繁浏览 3467

蔚来李斌：“降低事故率”和“使用时长”是衡量智驾能力的核心指标

澎湃新闻浏览 4342

荷兰限制与美国情报共享：我们的情报被政治化了

澎湃新闻浏览 9052

杭州银行年薪252万副行长获提拔，行长空缺大半年后终于敲定

湘财Plus 浏览 2749

华东智能无人系统试验测试认证基地全面完工占地76亩

财闻浏览 3702

沪漂外国网红包丢了报警警察到现场后发现＂神秘字条＂

新闻晨报浏览 16518

豆瓣逆天9.6，世间再无如此大师云集的神作！

幕味儿浏览 2893

媒体：不客气地说荷兰是在全球面前抢劫中国企业

环球网资讯浏览 8745

美联储主席鲍威尔回应遭刑事调查：将继续履行职责

国际金融报浏览 2649

配华为舱内激光视觉技术华境S明年上半年上市

网易汽车浏览 2604

中印巴令人意外地站在了同一边反对美方举措

澎湃新闻浏览 5312

伊姐周日热推：电视剧《吴邪私家笔记》；电视剧《灼灼韶华》......

伊周潮流浏览 4595

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻浏览 8648

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1