爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

夏天最经典的...

RedPla...

荣耀“既Pr...

万亿美元豪赌...

NVIDIA...

五旬老人上综...

小米米家空气净化器6发布：双滤芯架构+双扇叶设计，1399元

买黄金，要大变了！

岚图卢放：打破百年成见重构豪华轿车价值标准

告别关税围城，中欧和解为国产电车赢得战略缓冲

脱口秀演员杨笠清空社交账号她到底经历了什么？

限制赎回风波后，当红PE Blue Owl为数据中心专项基金募资17亿美元

杨鸣：广东三外援轮番冲击让我们顾此失彼；今晚年轻人的表现值得表扬

超450亿元！603906，锂电大单

特朗普称如需要美将发动更大规模袭击

维尔茨：能庆祝自己的成就时很不错，我喜欢在安菲尔德踢球

迪士尼将对OpenAI进行10亿美元股权投资

最牛退休女工，靠卖易拉罐，纳税100亿

时代峰峻每代人都是绝对忠诚的食物信徒

《树影迷宫》给10位演员演技排个名

足协官宣 45岁邵佳一出任国足新主帅

张嘉译西安别墅庆生，染完头发直接年轻10岁

三幅字画涉刑被拍卖其中徐悲鸿＂奔马图＂起拍价4762万

iPhone手机半夜“自动给陌生人打电话” 苹果客服回应

医院人满为患加沙患者焦急等待救治

德国央行行长扬言：得想想如何报复中国

特朗普：泰柬同意全面停火

三年三倍！现货黄金触及5300美元高位

荣梓衫工作室回应偏轨事件，暴力行径揭露阴暗面

隐退4年后，张一鸣久违现身！互联网大佬正集体杀回