爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

记者：海港抵...

安踏儿童「纤...

司马懿伐辽东...

T恤搭半身裙...

小个子秋季穿...

浦发银行业绩...

英国前首相特拉斯将窜台曾叫嚣北约要供台武器

50多名女性被＂完美老公＂骗数千万女子：还发生了关系

RMC：皇马球员获赠宝马车使用，姆巴佩因无驾照仅象征性领车

全球最大稳定币遭质疑标普将评级降至“最差一档”

OpenAI首席执行官Sam Altman：不希望使用《纽约时报》的数据进行训练

AI教父辛顿：假设青蛙创造人类，现在占主动权的是人还是青蛙？

连帽卫衣+牛仔裤，初春穿搭撩爆了！

美军大兵压境委内瑞拉发现一邻国与中情局勾结

北京门店全关！狂揽千亿的小火锅开始洗牌了

8亿买入5%股份！四川国资战略入股湖南百亿锂电龙头，标的前三季度净利大增118.85%

俄石油贸易商要求印度简化流程：直接付人民币

美媒：美国曾以为贸易战能改变中国经济但它错了

AMD ROCm 软件堆栈更新至 7.0.2 版本，支持 Radeon RX 9060 显卡

网传投总被带走，华泰柏瑞辟谣！

让新能源汽车“出得了城、下得了乡”，浙江将建成至少230万个充电桩

发明折叠屏的人，难受，想哭！

揭秘曾经的中国全民内衣品牌造假：股价闪崩

外媒：以色列总理恢复加兰特国防部长职务

媒体：美军进驻芬兰基地俄北方舰队受严重威胁

湖人附加赛103-100击败勇士锁定西部第七，詹姆斯得到22分11板10次助攻

全国人大代表、58同城董事长姚劲波：上门经济需跨越数字鸿沟

热火将奥拉迪波+x选秀权送至雷霆创造一个交易特例

男明星与女明星回应绯闻对比，主打一个反差

美国国会最新AI规则：除付费版ChatGPT外不得使用其他产品