关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4119人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

鲁中晨报 浏览 13232

斯坦福大学团队推出「许可证神谕」:让AI学会说「我不知道」

科技行者 浏览 3117

大S逝世一周年!S妈现身雕像揭幕,生前最后时光曝光,自曝没遗憾

萌神木木 浏览 2946

广西国资9.42亿入局,黑芝麻这回能“胡”一把?

野马财经 浏览 3600

电池技术取得重要突破,新能源车续航里程有望翻倍

环球网资讯 浏览 4312

俄罗斯终于发现 福建舰服役后做中国的朋友很有面子

现代小青青慕慕 浏览 8548

比亚迪王朝“饭票”曝光,可吃四菜一汤

IT之家 浏览 3513

“胡润富豪”扎堆的“家族办公室”是啥?

野马财经 浏览 2442

岁月不败美人,50岁银发的她们也太会穿了

LinkFashion 浏览 3533

6名中国男子日本滑雪被困获救 救援费为每人100万日元

极目新闻 浏览 7296

特朗普发登岛图片 上面写着"格陵兰岛2026年成美领土"

鲁中晨报 浏览 12791

王诗龄放假回北京了,照片曝光很漂亮

瞻史 浏览 4133

男子强奸大嫂出狱再杀人案启动再审 高院披露详情

南国今报 浏览 14918

纯电续航215km 全新阿尔法T5增程版10月底将上市

网易汽车 浏览 4493

湖人惨败尼克斯!双核轰52分喜忧参半,艾顿无球权,防守真拉胯!

篮球资讯达人 浏览 2974

特朗普:以色列与哈马斯签署"20点计划"第一阶段协议

央视新闻客户端 浏览 3540

特斯拉陶琳:印度首批Model Y交付,全部来自特斯拉上海工厂

盖世汽车 浏览 4840

赖清德宣布追加400亿美元用于对美军购 提及2个时间点

经济观察报 浏览 32693

斯图里奇:阿森纳踢得非常老练,他们传球精准&决策出色

懂球帝 浏览 3522

阿森纳欧冠100胜分布:对西班牙球队16胜最多,对德法各11胜

懂球帝 浏览 4115

今年最强阵容的大片,杀疯了

独立鱼 浏览 3849
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1