关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4480人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

韩残疾人福利院院长性虐待19名女性 受害者称其"爸爸"

扬子晚报 浏览 8083

聚焦精准营养!英氏控股以科研创新引领婴幼儿辅食产业升级

时代周报 浏览 3883

47岁刘烨老来俏,让儿子诺一尴尬了?

草莓解说体育 浏览 3995

【原声】阿韦洛亚,最后一个穆里尼奥主义者

体坛周报 浏览 3436

FBI逮捕CIA高官:家中搜出303根金条 200万美元现金

红星新闻 浏览 22547

聚焦第五届上海知识产权创新奖——中国科学院上海微系统与信息技术研究所成果转化处

上观新闻 浏览 4506

科技感爆棚 大众ID. ERA 9X内饰官图发布

车质网 浏览 2845

媒体人:国足主帅应让中青年土帅担纲,说不定杀出一位霍去病

懂球帝 浏览 5341

1.78万亿宁德时代牵手“张雪”,造出电摩给谁骑?

野马财经 浏览 2020

海信CES发布全新一代RGB-Mini LED电视,搭载“玲珑4芯”真彩背光

IT之家 浏览 3623

主力车增配降价,丰田销量明显上涨,能带动日系车反攻吗?

路咖汽车 浏览 5140

广东晋级四强4利好!胡明轩杜润旺难得暴走,王睿泽+内线状态极佳

篮球资讯达人 浏览 4343

唐嫣客串新剧遭群嘲!戴假发被吐槽像女装大佬,疑和马思纯抢番位

萌神木木 浏览 3778

福建一摄影大赛一等奖作品被质疑用AI生成 主办方回应

环球网资讯 浏览 25610

女喜人也太难了,但也太棒了!

时尚COSMO 浏览 3144

三战全胜,巴列卡诺主帅伊尼戈-佩雷斯当选西甲10月最佳教练

懂球帝 浏览 4526

媒体:路透社"爆料"中国建造出极紫外光刻机 充满焦虑

环球网资讯 浏览 14417

郭芙蓉自由了,我却还留在同福客栈

时尚COSMO 浏览 2804

携手华为!横琴基地每年将培养3000名“数智人才”

海外网 浏览 3489

31省份去年人口出生率数据公布:哪些省份生娃多?

第一财经资讯 浏览 4654

排除乌欧参与引发解读 普京与美特使谈了5小时

环球网资讯 浏览 4040
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1