爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

港媒:在涉中...

徐璐身材瘦了...

盘点季后赛三...

“六小龙”齐...

加拿大留学7...

上任仅一周，...

镁信健康将亮相第八届进博会，发布三大产业级AI应用方案｜进距离

新越王？努涅斯本赛季联赛中已越位23次，英超球员中最多

双双备战！马斯克请格斗冠军陪练，扎克伯格也开始练柔术

年过40的女人，都懂得服装在精不在多，早春备好这些单品时髦显瘦

潘玮柏45岁官宣减肥，承诺退出美食界

犹太裔富豪索罗斯被指向亲哈马斯组织提供巨额资金

凌晨！全线大涨！美联储宣布：降息！鲍威尔重磅发声！

阚清子与一神秘男子牵手约会，疑似阚清子新恋情曝光

四川又有一家四口误食＂白罗伞＂中毒住进ICU 家属求助

美国拉拢越南对抗中国，解放军早就把话说透

OpenAI的iPhone时刻到了？

美股周二：英伟达再创历史新高，拼多多逆势涨近2%

俄方：摩尔多瓦驱逐俄外交官将对双边关系产生影响

卡帕西8000行代码手搓ChatGPT，成本仅100美元，手把手教程来了

黄子韬婚礼险翻车！许艺洋喊错男朋友

王玉雯激动发合照，评论区林一破防

清华团队提出药物相互作用预测方法，预测准确率提升近三成

突发闪崩！最新回应来了

郑丽文第二波人事公布:张荣恭、萧旭岑任国民党副主席

齐沃：意大利足球不以进球多著称；恩里克和迪乌夫终会迎来闪耀时刻

程晓玥曝产后身材妊娠线赘肉颈纹全来

辛纳2-0德米纳尔，12连胜对手晋级ATP500维也纳站决赛

网红用特警训练做背景蹭流量，被训诫并道歉

王传福一统天下，分封十八路诸侯？