关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12515人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美财长挑拨中阿关系称"米莱要将中国赶走" 阿根廷回应

澎湃新闻 浏览 5050

全智贤遭多国网友抵制!迪士尼评论区沦陷,全剧凉凉被要求下架

萌神木木 浏览 1627

德章泰-穆雷、吹羊、杰伦-约翰逊同砍至少25分5助 老鹰队史首次

直播吧 浏览 12503

赚翻了!刘建宏力挺李铁后续,开直播数万人观看:挂小黄车

天涯沦落人 浏览 12658

美日通电话后欧洲集体变脸 日本对华提出一个新要求

博览历史 浏览 28839

南亚苍穹上演电子迷雾与心理博弈样本

浏览 5025

赵本山儿子和美女打闹太亲昵,瘦身成功被指般配

盖饭娱乐官方号 浏览 16403

外交部:如加方不听劝告 中方必将坚决有力回击

环球网 浏览 116790

更快的Model 3要来,加速2.78秒的小米SU7,可能会慢0.4秒?

路咖汽车 浏览 12210

毒品被混入饼干身体乳试图入境,被海关连续查获毒品走私

趣看热点 浏览 945874

高市早苗当选首相 日本史上首名"第一先生"信息披露

环球网资讯 浏览 4993

今年秋冬最流行的穿法:靴子+裙子,好看又减龄!

LinkFashion 浏览 763

得州与美联邦政府陷入武装对峙

环球时报国际 浏览 12718

人类50年消灭世界三分之二动植物,我们已经走上了命运的十字路口

趣看热点 浏览 25673

天空:德里赫特希望加盟曼联,而滕哈赫也想要他

直播吧 浏览 10757

销量持续回暖,谁说燃油车不行了?

汽车公社 浏览 983

豪森智能联手中科院沈自所,深化AI+制造业创新合作

财闻 浏览 886

默多克五婚妻子是分子生物学家 前夫女儿都是亿万富豪

红星新闻 浏览 68190

快讯|喜茶发布宣言倡导科学控糖

网易科技报道 浏览 10765

从纪存希到“周处”,阮经天,你真的是新造的人!

时尚COSMO 浏览 12931

特朗普在科罗拉多州不具备总统选举党内初选资格

财联社 浏览 74196
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1