关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4068人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郑爽在美国越混越差!打官司诉讼费都掏不起,前夫张恒比她还沦落

萌神木木 浏览 3004

金价暴跌 不少上海人跑外地买黄金:就像在抢大白菜

极目新闻 浏览 7152

国内牛肉价格稳健背后

北京商报 浏览 3831

国米本赛季11粒进球中4粒来自角球,身高超1.88米的球员有10位

直播吧 浏览 4913

穿出巴黎女人的姿态,要几步?

时尚COSMO 浏览 2345

伊姐周六热推:电视剧《枭起青壤》;电视剧《毒舌家庭》......

伊周潮流 浏览 3826

中美欧大市场带动,全球车市1-9月销量涨5%

汽车公社 浏览 4028

为新能源再投10亿,苹果为何还不造车?

BT财经 浏览 4421

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 3900

搭载1.5T插混系统 探岳L PHEV申报图曝光

网易汽车 浏览 3173

世体:霍安-加西亚恢复顺利,不排除入选本周末联赛大名单

懂球帝 浏览 4069

美国政府联手苹果、微软、OpenAI等公司,招募1000名工程师打造"科技力量"

华尔街见闻官方 浏览 3470

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

南京零距离 浏览 57405

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2558

海信电视 E8S Pro 开售:RGB-Mini LED 显示,16599 元起

IT之家 浏览 4072

杨蓉右脸烫伤后晒自拍:“带疤的脸很酷”

今古深日报 浏览 1398

“十五五”规划建议:共有15个部分、61条,分为三大板块

国是直通车 浏览 4103

王楚钦抵达海口参加亚洲杯,不愧是穿搭博主

可乐谈情感 浏览 3080

高市早苗被喊话:向中国道歉并且辞职

环球时报新闻 浏览 46578

置换抢购价9.99万元起 捷途X70L正式上市

网易汽车 浏览 4778

E句话| 爱马仕继承人被曝坐廉航,150亿美元下落不明?

仙女事件簿 浏览 2866
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1