关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者661人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夏季100套好看显瘦的泳衣造型 看完就出发去海边

In风尚 浏览 15230

离婚14年,宁静汪峰再传绯闻,前夫儿子为她争光

枫尘余往逝 浏览 754

占地三千亩 安徽一号称投资百亿"明星项目"烂尾十多年

环球网资讯 浏览 119918

影后再不努力,名气就被13岁帅儿子赶超了

Yuki女人故事 浏览 1860

18岁男青年被控猥亵5岁女童获刑5年半 家属:证据不足

红星新闻 浏览 96250

雷军在京喊话:共同抵制网络水军、黑公关

大象新闻 浏览 950

"亚洲最帅王子"结婚:婚礼长达10天 李显龙到场观礼

环球人物杂志 浏览 77795

从9月伤缺至今 TA:伯恩茅斯中场亚当斯本周可能进入球队大名单

直播吧 浏览 11962

孔德昕:太阳输了最不该输的比赛之一 三巨头不敌无莫熊

直播吧 浏览 12663

最前线|TikTok鼓励美国用户向国会抗议,多方利益将因关停引发蝴蝶效应

36氪 浏览 12082

吴恩达:美国芯片出口限制之下,中国仍有创新

观察者网 浏览 12920

票房破13亿,只是个开始

皮皮电影 浏览 1418

全智贤新剧跌破平台下线,迪士尼2亿投资亏本,业内直言堪称灾难

萌神木木 浏览 1003

90后女孩25岁时被清华拒绝 27岁成最具潜力女科学家

鬼谷子思维 浏览 98556

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 989

朝鲜举行宴会欢迎中国大使到任 朝方女外相出席致辞

环球网资讯 浏览 111868

拜登在华沙发表言辞尖锐演讲 普京的名字提了10次

环球网资讯 浏览 35999

余承东、何小鹏等人在李想朋友圈下留言支持:用光明反击黑暗

IT之家 浏览 10780

美媒:特朗普敲打高市 要求日本在台海问题上降调

观察者网 浏览 27557

在奶茶里面发现有牙签?外卖骑手与商家有矛盾在奶茶中放牙签

趣看热点 浏览 997151

2024,当中国开始“卷”民营火箭

观察者网 浏览 12965
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1