关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4118人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Meta被曝靠诈骗广告赚取巨额利润

北京商报 浏览 4003

AI教育机器人首秀广交会!西班牙客商:科技水平太惊艳了

南方都市报 浏览 4444

自称窦骁前女友发声!内涵他目的性极强爱交富家女,很理解何超莲

萌神木木 浏览 4044

U23国足战越南官方阵型: 4-4-2!鲍盛鑫中场,蒯纪闻搭档向余望,胡荷韬可落位边后卫>>

懂球帝 浏览 3182

拼多多“千亿扶持”落地半年,“包邮区”持续扩大,更多地区享受便利网购服务

雷峰网 浏览 3965

质疑公牛集团广告语存误导被索赔420万 涉事公司反诉

澎湃新闻 浏览 21245

新加坡主权基金起诉蔚来,股价迎中、美、新“三国杀”!

野马财经 浏览 4183

媒体:高市早苗当选首相 对华采取挑衅措施的可能提升

界面新闻 浏览 8882

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 4112

这个意外走红的风格,冬天穿真的很加分!

黎贝卡的异想世界 浏览 3512

“科技界春晚”启幕,今年的CES有哪些故事?

国际金融报 浏览 3205

拉波尔塔:23年巴萨为梅西准备一份5年合同,但他选择迈阿密

懂球帝 浏览 2406

“50%汽车芯片由格力产品替代”?广汽回应

第一财经资讯 浏览 3099

美国国务院要求美国公民立即离开伊朗

新华社 浏览 2854

A股进入“两会”时间,16大热门投资赛道出炉

览富财经网 浏览 2441

东南大学突破:AI学会情境化拒绝能力

科技行者 浏览 4245

1.5亿利润与12亿负债,祥源文旅为何景区造血,债务“起飞”?

华夏时报 浏览 4019

记者:U21联赛和U19中青赛合并为U20联赛,只是超龄球员数额不同

懂球帝 浏览 3012

Word再见!华为和WPS联手攻克难题:一句话生成PPT、PDF/Excel大文件秒开

快科技 浏览 2969

4399元 一图读懂OPPO Find X9 刘作虎:严重超标的标准版

快科技 浏览 4213

伊拉克国防部:已全面接管阿萨德空军基地

极目新闻 浏览 3172
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1