关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3608人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026“乐购新春”盛宴开启,这三只浙股或迎最强“红包”行情

览富财经网 浏览 2437

科技大佬话AI未来:手机消失、工作消失、全民富有?

帮宁工作室 浏览 2728

加沙停火协议生效后的48小时:人质释放、民众返乡

澎湃新闻 浏览 3831

邱泽妈妈没想到 这个女人竟把她儿子狠狠“拿捏”

黄小仙的搞笑视频 浏览 3080

脑机接口再迎政策利好,50只核心概念股“抢跑”

览富财经网 浏览 2497

国产车在英国被“警告”了,还是安全问题,但这回我真憋不住笑了

小李车评李建红 浏览 4523

伊朗向美军舰发射的导弹上写了句话 特朗普再发威胁

每日经济新闻 浏览 29737

阶段性企稳?飞天茅台价格普涨,经销商称“过节需求出货量大”

澎湃新闻 浏览 2475

张雨绮爆雷丢工作!省媒确认她不会上春晚

FancyMusic 浏览 2451

腾讯元宝回应AI辱骂用户:小概率下的模型异常输出

中新经纬 浏览 2168

斯坦福大学团队推出「许可证神谕」:让AI学会说「我不知道」

科技行者 浏览 2597

恰20:今天我们运气不错,我们要努力达到我们应得的位置

懂球帝 浏览 3438

芒米Pocket Max掌机:模块化设计、大容量电池与强芯片的结合

IT之家 浏览 2631

不务正业? 理想汽车发布AI眼镜 长续航还能控车

网易汽车 浏览 2973

66岁安帅径直离场!发布会暴怒:首负日本无法接受,点名狠批1人

我爱英超 浏览 3803

沙特大幅下调旗舰原油溢价至五年低点,全球供应过剩压力显现

华尔街见闻官方 浏览 3158

芯片制造的终极范式:原子级制造

钛媒体APP 浏览 3631

中国人聊"美国斩杀线" 居然让新加坡主流媒体彻底破防

沙盘上的战争 浏览 24174

“咨询行业的黄埔军校”,又被罚了

财通社 浏览 2605

鸿蒙智行L3,从架构革命到出行方式重构

汽车公社 浏览 2944

抵达意大利,拉斯帕多里:很高兴能回来,我很激动且充满动力

懂球帝 浏览 2593
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1