关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者3574人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大搞权钱交易和家族式腐败 湖北省委原书记蒋超良被诉

扬子晚报 浏览 110133

60+女人,秋天穿衣“上紧下宽”,不紧绷、不暴露优雅显年轻

静儿时尚达人 浏览 4636

E句话| 路行退出《再见爱人》?

仙女事件簿 浏览 4228

47岁余皑磊演戏多年无人问,一演特务众人知

可乐谈情感 浏览 4674

中年女人想穿得时髦,少穿羽绒服+紧身裤,换成这些好看保暖

静儿时尚达人 浏览 4156

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 4590

这些才是最适合普通人的穿搭!上衣修身、一衣多穿,大方简约

静儿时尚达人 浏览 1721

阿维塔概念车重庆车展亮相 阿维塔07L将于三季度发布

网易汽车 浏览 148

张柏芝又飞澳洲陪Lucas读书,独自拿八九件行李

八斗小先生 浏览 3420

会化妆的女生都很“假”!

Yuki女人故事 浏览 3767

零跑销量相当于小米与理想之和——属于老实人的胜利

DearAuto 浏览 4309

萨顿力挺凯恩:英格兰从未有过几个比他更好的球员

懂球帝 浏览 4610

德转为金球奖竞争评级:登贝莱最被看好,亚马尔为最大竞争对手

直播吧 浏览 5466

朱元璋变脸 研究学者:"鞋拔子脸"异像并非其真实面容

环球网资讯 浏览 21206

女子结婚14年被丈夫打了13年 丈夫:我才是受害者

中国新闻周刊 浏览 14936

携手华为!横琴基地每年将培养3000名“数智人才”

海外网 浏览 3489

董忠云:保持战略定力,增强必胜信心,A股有望恢复震荡上行趋势

首席经济学家论坛 浏览 4408

“10亿只是入场券”:资本疯狂抢筹具身智能,今年还没过半,融资已翻番|深度

红星资本局 浏览 1288

太猛了!保险巨头炒股竟大赚300多亿

财通社 浏览 4677

商务部公告附件首次改为wps格式 此前多为doc或pdf

上游新闻 浏览 4741

“看好中国新经济!” 渣打集团行政总裁温拓思最新发声

券商中国 浏览 4881
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1