关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014299人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵丽颖坦白自己近期“消失”的原因

湘村大余 浏览 4431

佩德里:我们没参与抗议,开场也静默15秒是出于对同行的尊重

懂球帝 浏览 4704

王浩然三分绝杀,深圳95-92险胜山东,克里斯空砍30分

懂球帝 浏览 3859

舒淇,东亚女孩的恨海情天

时尚COSMO 浏览 3534

哈梅内伊次子接任伊朗最高领袖:一直身居幕后

极目新闻 浏览 2677

蔚来官宣再融资11.6亿美元!

电动知家 浏览 5316

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

环球网资讯 浏览 4666

满配华为全家桶 岚图追光L将上市

网易汽车 浏览 4014

解放军突然亮出大量东风17 竹林起竖画面被央视公开

小涛叨叨 浏览 10058

9月MPV销量榜大洗牌,魏牌高山首夺魁,新能源车型主导市场格局

玩车专家1 浏览 4674

首播6集热度高达9100!好评如潮,观众直呼:“看完不敢上厕所”

娱乐圈笔娱君 浏览 4608

拍完被雪藏3年,小沈阳新片观众不买账,成本超1亿,预售仅6万

靠谱电影君 浏览 4460

从头部驱动到生态共建,初瑞雪重构直播团队新范式

时代周报 浏览 3831

天越冷社交欲望越低,是我的问题吗?

时尚COSMO 浏览 3995

皇马TV显示,贝林厄姆将在国家德比中担任首发右边锋

懂球帝 浏览 4538

江铃旗下羿驰 05S 纯电紧凑型 SUV 将于10月16日上市

IT之家 浏览 4518

美国贸易代表:想和中国再谈谈 但不谈稀土

澎湃新闻 浏览 20744

30.98万起交个朋友!2026款小鹏X9纯电版首搭第二代VLA上市

网易汽车 浏览 2911

特斯拉Model3/ModelY Standard正式发布

网易汽车 浏览 4620

中印巴令人意外地站在了同一边 反对美方举措

澎湃新闻 浏览 6409

两种容量、最高纯电续航超320公里,极氪8X电池信息揭晓

IT之家 浏览 3635
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1