关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro851人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

抖音重点打击泄露隐私、P图公开辱骂等网暴言论

网易科技报道 浏览 10876

为何林心如被誉为国内演艺界无可挑剔的典范?

小椰的奶奶 浏览 327

倾家荡产120万上星光大道,她如今怎样了

青橘罐头 浏览 941

写了10年流行色,今年这个真的很适合亚洲人

黎贝卡的异想世界 浏览 62

河南鹅首曲颈青铜壶,内装可以止血消炎的药酒

趣看热点 浏览 26148

津媒:女足面对韩国有强大心理优势;右后卫刘艳秋身体不适

懂球帝 浏览 13712

上海楼市,再传大消息!

中国基金报 浏览 12332

戴向宇曾单方面通知家人要和陈紫函离婚

乡野小珥 浏览 1658

蓝佛安:财政工作要统筹国内与国际、发展与安全 政策制定要更有国际视野、更具前瞻性

财政部 浏览 10946

中国驻美大使谢锋向拜登总统递交国书 拜登欢迎其履新

新京报 浏览 90549

惠州4A景区改造遭抵制 旅居业主:站阳台看海变看商铺

每日经济新闻 浏览 5024

还能怎么吹?球迷盛赞梅西:GOAT效应,让其他人赢一赢吧

直播吧 浏览 14059

草根出身的“苦命女星”,41岁怀孕,落子无悔却人人替她冤屈

娱乐白名单 浏览 12773

欧美媒体唱衰福建舰仅6成战力 赖岳谦:他们开心就好

看看新闻Knews 浏览 6782

深夜,全线崩跌!发生了什么?

券商中国 浏览 236

男子救人后发现场视频遭被救女子举报"侵权" 网友吵翻

新民晚报 浏览 6048

罗伯逊谈萨拉赫:我们都屏蔽了转会传闻,俱乐部也表明了立场

直播吧 浏览 14377

比尔·盖茨:人工智能会给每人创造个人代理,科技市场将重新洗牌

澎湃新闻 浏览 19167

易三方/云辇-A/2.0T 腾势N8L售29.98万元起

网易汽车 浏览 727

乐摩科技八成设备“躺”在影院

北京商报 浏览 354

今年流行“一刀切”发型 好打理又轻盈

成铭聊发型 浏览 19727
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1