关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101728人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

年过40的女人,都懂得服装在精不在多,早春备好这些单品时髦显瘦

Yuki时尚酱 浏览 11688

潘玮柏45岁官宣减肥,承诺退出美食界

仙味少女心 浏览 961

犹太裔富豪索罗斯被指向亲哈马斯组织提供巨额资金

红星新闻 浏览 80708

凌晨!全线大涨!美联储宣布:降息!鲍威尔重磅发声!

券商中国 浏览 61

阚清子与一神秘男子牵手约会,疑似阚清子新恋情曝光

趣看热点 浏览 28018

四川又有一家四口误食"白罗伞"中毒住进ICU 家属求助

红星新闻 浏览 63895

美国拉拢越南对抗中国,解放军早就把话说透

浏览 10532

OpenAI的iPhone时刻到了?

北京商报 浏览 12649

美股周二:英伟达再创历史新高,拼多多逆势涨近2%

网易科技报道 浏览 12802

俄方:摩尔多瓦驱逐俄外交官将对双边关系产生影响

界面新闻 浏览 14443

卡帕西8000行代码手搓ChatGPT,成本仅100美元,手把手教程来了

量子位 浏览 991

黄子韬婚礼险翻车!许艺洋喊错男朋友

林木体育解说 浏览 970

王玉雯激动发合照,评论区林一破防

鲁中晨报 浏览 780

清华团队提出药物相互作用预测方法,预测准确率提升近三成

DeepTech深科技 浏览 1625

突发闪崩!最新回应来了

中国基金报 浏览 10666

郑丽文第二波人事公布:张荣恭、萧旭岑任国民党副主席

海峡导报社 浏览 6136

齐沃:意大利足球不以进球多著称;恩里克和迪乌夫终会迎来闪耀时刻

懂球帝 浏览 829

程晓玥曝产后身材 妊娠线赘肉颈纹全来

娱絮 浏览 18610

辛纳2-0德米纳尔,12连胜对手晋级ATP500维也纳站决赛

懂球帝 浏览 775

网红用特警训练做背景蹭流量,被训诫并道歉

趣看热点 浏览 25386

王传福一统天下,分封十八路诸侯?

态℃ 浏览 15027
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1