关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12493人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球最大稳定币遭质疑 标普将评级降至“最差一档”

财联社 浏览 367

OpenAI首席执行官Sam Altman:不希望使用《纽约时报》的数据进行训练

财联社 浏览 12911

AI教父辛顿:假设青蛙创造人类,现在占主动权的是人还是青蛙?

澎湃新闻 浏览 16345

连帽卫衣+牛仔裤,初春穿搭撩爆了!

Yuki女人故事 浏览 12694

美军大兵压境 委内瑞拉发现一邻国与中情局勾结

上观新闻 浏览 748

北京门店全关!狂揽千亿的小火锅开始洗牌了

餐饮老板内参 浏览 628

8亿买入5%股份!四川国资战略入股湖南百亿锂电龙头,标的前三季度净利大增118.85%

红星资本局 浏览 691

俄石油贸易商要求印度简化流程:直接付人民币

澎湃新闻 浏览 1431

美媒:美国曾以为贸易战能改变中国经济 但它错了

环球时报国际 浏览 11794

AMD ROCm 软件堆栈更新至 7.0.2 版本,支持 Radeon RX 9060 显卡

IT之家 浏览 1049

网传投总被带走,华泰柏瑞辟谣!

21世纪经济报道 浏览 15499

让新能源汽车“出得了城、下得了乡”,浙江将建成至少230万个充电桩

银柿财经 浏览 14405

发明折叠屏的人,难受,想哭!

华商韬略 浏览 14483

揭秘曾经的中国全民内衣品牌造假:股价闪崩

清流Plus 浏览 27016

外媒:以色列总理恢复加兰特国防部长职务

海外网 浏览 19377

媒体:美军进驻芬兰基地 俄北方舰队受严重威胁

环球网资讯 浏览 13048

湖人附加赛103-100击败勇士锁定西部第七,詹姆斯得到22分11板10次助攻

趣看热点 浏览 25393

全国人大代表、58同城董事长姚劲波:上门经济需跨越数字鸿沟

经济观察报 浏览 12537

热火将奥拉迪波+x选秀权送至雷霆 创造一个交易特例

直播吧 浏览 15230

男明星与女明星回应绯闻对比,主打一个反差

传媒一班 浏览 15395

美国国会最新AI规则:除付费版ChatGPT外 不得使用其他产品

财联社 浏览 15161
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1