爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

日赚超1.1...

美媒：美国即...

罗志恒：三季...

刘谦时隔五年...

XREAL ...

刘越：申花最...

红布林618升级用户体验：回收加价17%、零手续费

肖战杨紫空降热搜第一，网传两人一起吃饭，疑似恋情引热议

劝中国原谅日本的黄循财被扒出家族史祖父靠日军吃饭

美财长挑拨中阿关系称＂米莱要将中国赶走＂阿根廷回应

全智贤遭多国网友抵制！迪士尼评论区沦陷，全剧凉凉被要求下架

德章泰-穆雷、吹羊、杰伦-约翰逊同砍至少25分5助老鹰队史首次

赚翻了！刘建宏力挺李铁后续，开直播数万人观看：挂小黄车

美日通电话后欧洲集体变脸日本对华提出一个新要求

南亚苍穹上演电子迷雾与心理博弈样本

赵本山儿子和美女打闹太亲昵，瘦身成功被指般配

外交部：如加方不听劝告中方必将坚决有力回击

更快的Model 3要来，加速2.78秒的小米SU7，可能会慢0.4秒？

毒品被混入饼干身体乳试图入境，被海关连续查获毒品走私

高市早苗当选首相日本史上首名＂第一先生＂信息披露

今年秋冬最流行的穿法：靴子+裙子，好看又减龄！

得州与美联邦政府陷入武装对峙

人类50年消灭世界三分之二动植物，我们已经走上了命运的十字路口

天空：德里赫特希望加盟曼联，而滕哈赫也想要他

销量持续回暖，谁说燃油车不行了？

豪森智能联手中科院沈自所，深化AI+制造业创新合作

默多克五婚妻子是分子生物学家前夫女儿都是亿万富豪

快讯｜喜茶发布宣言倡导科学控糖

从纪存希到“周处”，阮经天，你真的是新造的人！

特朗普在科罗拉多州不具备总统选举党内初选资格