爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

网红抓银环蛇...

以军称打死哈...

福建舰入列消...

“1元买壳”...

这小车也有辅...

外媒披露美国...

全国人大代表梁伟：用AI打通中国芯片弯道超车的 “任督二脉” | 代表在这里

StereoAdapter：北大首提自监督，适配水下双目深度估计

郑智化发声道歉！坦言自己情绪上头用词不当

特朗普证实：已授权中情局行动

8.88万起终身质保威麟R08把皮卡玩成“理财产品”

“合肥系”国资出手，投入超29亿元现金，要拿下显示屏巨头控制权！

梁靖崑一脸沮丧令人心疼！10-6手握赛点被逆转腰伤困扰他9个月

上映27天被观众赶出院线！网播也救不了它，事实证明烂片已无市场

关于大姨妈，这10个真相女孩必须知道！别再被这些谣言骗了

富勒姆怒斥曼联第一球不应存在，炮轰天大误判！英超官方解释原因

冬天的毛衣，越“大”越好看！

中科大团队发布Agent-R1：让AI智能体像人类一样学习和成长的框架

前央视主持人水均益直播额头顶＂中国人＂纸条否认移民

国羽包揽韩国公开赛混双冠亚军

WTT总决赛男单决赛前，张本智和接受采访时引用高市早苗言论

周二非农拯救美股？大摩首席：就业疲软或助股市走高

金建希案法官身亡:其此前给金建希加刑对方脸色难看

伊朗最高领袖重申“将向敌人索赔”

杨振宁和她的53年婚姻，是这样的

干货！拆解欧阳娜娜“美商开挂”的3个核心思路

号称追星不用背相机：OPPO官宣哈苏专业影像套装，含增距镜、手柄

从港股GPU第一股看壁仞科技的价值新论

短短5天国乒完成复仇 3-0横扫韩国队晋级4强 2王牌复苏剑指12连冠

10月工信部新车合集：合资车企还在发力