关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4416人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广汽丰田双向突围,是疯了吗?

汽车K线 浏览 4108

球员是否因阿森纳输球更有动力?瓜帅:我建议他们专注于自己

懂球帝 浏览 3429

咖啡万店新王诞生:挪瓦如何以“寄生模式”隐秘扩张?

虎嗅APP 浏览 3906

21岁女生患白血病寻亲 有人主动认亲后表示年份不符

潇湘晨报 浏览 7364

“比特币富婆”钱志敏在英国认罪,6.1万枚比特币市价已达493亿元,赃款归谁?

红星新闻 浏览 4422

晚点独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

晚点LatePost 浏览 3649

北汽集团10月整车销量160133辆 同比增长11%

网易汽车 浏览 4437

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 4604

速度提高62.5%!中国科学家突破世界难题

环球网资讯 浏览 3535

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 4523

NYU研究揭示:模型宽度与能力非线性相关

科技行者 浏览 4449

一斤豆芽28.8元,杨国福的天价麻辣烫到底卖给谁?

江瀚视野 浏览 4375

历史首次,“三桶油”收盘全部涨停!

红星资本局 浏览 2841

雅达利复刻“前竞争对手”Mattel Intellivision Sprint 游戏机

IT之家 浏览 4521

贡多齐:尤文目前的状态并不理想,我们有足够的实力击败他们

懂球帝 浏览 4510

乌克兰称扎波罗热市遭俄军袭击 多人死伤

每日经济新闻 浏览 3362

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

环球网资讯 浏览 9251

OpenAI完成重组!微软持股缩减至27%,市值再超4万亿美元

澎湃新闻 浏览 4339

纯电移动"游戏机" 索尼本田合资AFEELA 1亮相CES

网易汽车 浏览 3578

“锂王”炒股,赚了111万,赔掉2000亿

大猫财经Pro 浏览 2928

女子新房装玫红色入户门贴大花壁纸 称总花费近100万

极目新闻 浏览 9000
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1