关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3209人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港三天两夜,满载而归(附攻略)

黎贝卡的异想世界 浏览 2204

法尔克:皇马和切尔西将争夺于帕,签字费是他与拜仁续约障碍

懂球帝 浏览 4200

直瀑式格栅/3种座椅布局 第三代豪越L正式亮相

网易汽车 浏览 3973

春天的衣服没必要买太多,准备几件"卫衣",舒适减龄又大方

静儿时尚达人 浏览 1648

恩佐:对凯塞多只有钦佩之情,能在切尔西和他并肩作战很开心

懂球帝 浏览 4015

女人不管多大都可以这样穿衣搭配,不花哨、不臃肿,优雅舒适

静儿时尚达人 浏览 3800

《堡垒之夜》放弃日本iOS,Epic硬刚苹果指控违法

环球网资讯 浏览 3487

全市首家!杨浦区新江湾城社区卫生服务中心上线美团团购

上观新闻 浏览 2653

空姐穿毛衣上班,被吐槽“很土”?

正解局 浏览 3182

塔帅:若顺利哈弗茨未来几天能进名单;我们想赢得重要奖杯

懂球帝 浏览 3190

上汽集团1-5月累计销售165.1万辆 继续领跑中国汽车行业

网易汽车 浏览 109

消息称荣耀Magic V6折叠屏手机内屏用上UTG玻璃,黑边更窄

IT之家 浏览 2604

欧尔班:乌克兰和欧盟认为匈牙利很碍事 企图更迭政府

文汇报 浏览 4183

注射后48小时有知觉,6人重新行走!巴西科学家破解脊髓损伤难题

DeepTech深科技 浏览 2878

越遮越高级,搞穿搭原来真不看脸?

时尚COSMO 浏览 3215

苹果发布iPhone 17e与新款iPad Air,定价不变主打中端市场

华尔街见闻官方 浏览 2499

关键时刻委少将为美军"敞开大门" 美压制委军手段披露

澎湃新闻 浏览 7297

美国女子被ICE特工枪杀 曾被定性为“国内恐怖分子”

红星新闻 浏览 7838

范戴克:我们不想在主场取得平局,有势头后就应该全力以赴

懂球帝 浏览 4161

媒体:美军或捅破一个巨大的马蜂窝 与俄军在伊朗硬刚

新民周刊 浏览 7517

从“贝塔躺赢”到“阿尔法精选”!公募2026年南下新打法曝光

券商中国 浏览 3263
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1