关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4121人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年冬天一定要有“格纹单品”,复古又时髦

LinkFashion 浏览 2846

售9.98万起 2026款极狐考拉S正式上市

网易汽车 浏览 3177

入秋第一条裤子就买它!时髦显瘦,巨好看!

Yuki女人故事 浏览 4760

数智惠闽企,展车进福州|华为坤灵中国行2025·福建站成功举办,推动闽企智能化发展新征程

环球网资讯 浏览 4019

三元锂和磷酸铁锂二合一?揭开零跑D19超混电池黑科技

吴佩频道 浏览 4287

土耳其下令拘捕内塔尼亚胡 以色列外长公开回应

新京报评论 浏览 9917

兹维炮轰巴黎场地速度:太慢,弹跳忽高忽低,阿卡出局或与此有关

网球之家 浏览 3974

美乌柏林两日会谈后 特朗普、泽连斯基同日发声

环球时报国际 浏览 18479

巴以冲突两周年 加沙“仿佛已从地图上被抹去”

环球网资讯 浏览 4248

上汽大众首款“9系旗舰” ID. ERA 9X实车曝光

网易汽车 浏览 3188

国产药械对外授权交易再现新进展,创下多个“首个”

第一财经资讯 浏览 4465

医药新股闹涨“A+H市场”

北京商报 浏览 3559

“这条围巾”才是今年的顶流单品,时髦的女人都有它

LinkFashion 浏览 4014

阿特金森:艾伦犯规多打乱了乱换布置,我会鼓励米切尔多冲筐

懂球帝 浏览 919

又一位难得的好演员,突然走了

独立鱼 浏览 3916

贝拉尔多辟谣离队传闻:在巴黎非常开心,会全力以赴实现目标

懂球帝 浏览 3984

曝卡塞米罗续约曼联条款,一条件可保35万周薪!卖齐尔克泽恐已定

罗米的曼联博客 浏览 3171

乔-科尔:波特根本就没得到足够的支持,西汉姆对他有所怀疑

懂球帝 浏览 4681

尼昂:外界没帮莱奥,他需要帮助

懂球帝 浏览 265

媒体:高市早苗被批"日本之耻" 特朗普一来人设绷不住

澎湃新闻 浏览 10618

英伟达发布Alpamayo汽车大模型平台 黄仁勋:这是机器理解现实世界的转折点

快科技 浏览 3252
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1