关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro891人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

佟丽娅最新古装近照曝光!比李沁还漂亮,42岁第一次演仙侠剧

温柔娱公子 浏览 831

小伙用"摇一摇"睡了多名女子 还在车上与多人发生关系

胖胖侃咖 浏览 74207

多邻国大裁员,翻译也要被AI取代了?

刺猬公社 浏览 13100

"希腊船王"继承人战胜癌症 被虫子咬一口莫名其妙死了

新民晚报 浏览 20161

万项:距离理想中的球员还差很多;最后两场比赛不会放松

懂球帝 浏览 363

杨紫起诉拉夏贝尔子品牌,法院判赔25万

网易娱乐 浏览 19443

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 648

超模“辣妈”米兰达可儿罕见素颜亮相

时尚丽人风行 浏览 19457

郭晶晶指挥全家滑雪孩子像奶奶 78岁霍震霆成跟班

扒圈818 浏览 12745

大动作!科技巨头,摊牌了!

米筐投资 浏览 203

温州85后接棒,百亿企业大“换血”

中国企业家杂志 浏览 690

王灿频繁探班宣誓主权 杜淳不顾危害当女儿面抽烟

娱絮 浏览 18909

魔咒!曼联8战利物浦不胜1-18 穆鸟被打下课 滕哈赫最后1场?

念洲 浏览 12979

“90后”业务员骗走上海一独居老太980万挥霍一空,大部分用于直播打赏

上观新闻 浏览 14777

混动系统为内燃机续命 沃尔沃最新消息曝光

乐选爱车 浏览 732

罗马诺:阿森纳正全力敲定赖斯,之后会加紧签廷伯

直播吧 浏览 15590

这顶级尤物,也凉了

独立鱼 浏览 912

再看万茜的采访,觉得易立竞太残忍

江湖人称艾掌门 浏览 10753

长安林肯航海家燃油 SUV 新增“启航版”上市,24.59 万元

IT之家 浏览 1478

主播摆拍被拘留:在凉山给老人发3000元收回2800元

红星新闻 浏览 95562

《向往》收视创新低!仅剩0.19%越看越丧气,节目氛围遭吐槽

萌神木木 浏览 1061
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1