关闭广告

7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题

智东西11380人阅读


智东西
作者 徐珊
编辑 云鹏

智东西3月11日消息,近日微软和俄亥俄州立大学的研究人员发布论文,提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法,即模拟试错(STE)法,并将其开源。

该方法协调了试错、想象和记忆三个关键机制。具体而言,STE通过大模型的“想象力”来模拟使用工具的一些合理场景,从而尝试适配不同的大模型,随后从新的反馈中,获得反馈不断优化。

ToolBench实验结果显示,STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力,让Mistral-Instruct-7B实现了46.7%的性能提升,使其成绩超过了GPT-4。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

钟嘉欣一家越南度假!父母长相曝光,果然中基因彩票,两女也很美

文艺圈娱乐号 浏览 12549

中国算力进入拐点:“用多了就有生态,用少了生态就跑了”

第一财经资讯 浏览 1530

认为电动车不过是四轮iPhone的富士康终于意识到造车比造手机更难

界面新闻 浏览 19194

外媒称全球可用核武库增长 炒作中国核弹数量大增

环球网资讯 浏览 16170

BLACKPINK成员LISA晒泳装照 疑和绯闻男友在约会

韩娱明星趣闻 浏览 14600

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro 浏览 1096

陈伟霆何穗官宣当爸妈!圈内仅5位明星送祝福,女方为爱放弃事业

萌神木木 浏览 963

月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机

雷峰网 浏览 261

国防部表态中国必定实现完全统一,绝不容忍台独势力分裂祖国

趣看热点 浏览 25921

时隔23年,国米和罗马再次在意甲至少10轮过后同分领跑

懂球帝 浏览 633

2024龙年春晚效果难评!对比之下,还是这个节目口碑屹立不倒!

娱乐白名单 浏览 13056

第78届金球奖采用虚拟颁奖 颁奖嘉宾名单公布

网易娱乐 浏览 26821

乌官员:修复卡霍夫卡水电站大坝至少需要5年时间

央视新闻客户端 浏览 92595

创造历史! 金球奖首位华人最佳女导演:赵婷

网易娱乐 浏览 26704

刚放行中欧班列波兰又来找事 中方接下挑战书强硬反击

文雅笔墨 浏览 36113

新势力中考|理想上半年销量超去年全年,小鹏月销仍未过万辆

澎湃新闻 浏览 14968

E句话 | 《奥本海默》横扫奥斯卡!

仙女事件簿 浏览 12331

​迪丽热巴穿渔网薄纱冻到抖 怕冷就多穿点吧

娱舆规划局 浏览 19622

失去眉毛的刘雯,脸更值钱了

新氧 浏览 14890

普京回应普里戈任空难:他是一个命运多舛的人

观察者网 浏览 14465

大众20亿美元建的充电网络,美国排名倒数第一

汽车商业评论杂志 浏览 12981
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1