关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12513人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陈乔恩老公首公开真实家境

小先生笔记 浏览 754

北约和俄罗斯空中对峙升级 推高爆发军事冲突风险

澎湃新闻 浏览 1499

白百何七百字长文控诉导演

不八卦会死星人 浏览 638

从2499到3299:Rokid还要收割几次信任?

蓝鲸新闻 浏览 1567

苏纳克:拜登对中国的外交经验 对我来说特别有价值

环球网 浏览 90622

日本"全球最大"反导战舰露真容 被称为新版"大和"号

中国青年报 浏览 84907

乌全境拉响防空警报 俄称击中乌方一前线指挥所

每日经济新闻 浏览 14731

AI 接连翻车的 Google,要变天了

爱范儿 浏览 11332

每公里仅需1毛钱 福田祥菱Q双排座纯电微卡实拍

提加商用车网 浏览 12950

极石汽车回应“1月销量为0”:假消息,累产2586辆/销量2357辆

IT之家 浏览 11282

车圈拼多多,困于性价比

远川研究所 浏览 19382

学者:以色列前总理揭俄乌冲突一内幕 欧洲成"冤大头"

直新闻 浏览 101180

坦克队喜剧的内核是悲剧?

静易墨 浏览 948

保暖和颜值兼备,你太需要它了 | 好物

LinkFashion 浏览 14050

计划3年完成200个AI项目 川影联动人工智能协会打造“AI影视工业梦工厂”

封面新闻 浏览 1064

福建省女足比赛因染发球员过多被判负头发不够黑不能出场

趣看热点 浏览 26272

媒体:理想合并零售与交付两大部门 全力卖车

网易财经 浏览 11105

定义豪华越野中国标准,2025纵横之夜暨G700预售发布会盛大开启

梅卿快车道 浏览 1683

舒淇、张小斐都爱穿的职业套裙到 底有什么魅力?

新氧 浏览 16680

NVIDIA团队发明超高效视频生成黑科技:让4K视频制作速度提升15倍

科技行者 浏览 849

日本歌手滨崎步成为新冠密切接触者,跨年演唱会宣布紧急取消

趣看热点 浏览 26740
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1