爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

迪士尼将对O...

首开先例！波...

万达谜局:高...

乔欣、章若楠...

俄乌冲突一周...

瑟尔斯基被任...

米体：米兰今夏本想租借戴维带最终失败已将他视为明年首选目标

累计交付323.6万辆，大众汽车集团2023销量成绩公布

网友晒贾玲杨紫错位图仿佛贾玲坐在杨紫腿上

苹果的大屏可折叠 iPad 可能因开发问题而延期到 2029 年

赌王长孙女近况曝光，定居澳门买下2300平海景房，悲惨人生终逆袭

梅斯1-0克莱蒙，米卡塔泽点射制胜

零跑不是小米，胜似小米

还能怎么吹？球迷盛赞梅西：GOAT效应，让其他人赢一赢吧

鲁梅尼格：一旦有了新的体育总监，我和赫内斯将稍微退居幕后

阿的江：赛前有球员去医院了参加比赛的队员有3名发高烧

媒体:敏感时刻和地点伊朗连环爆炸案令人细思恐极

上海海港官宣克甲联赛中卫加盟本赛季欧联打进1球

“充值款去哪了”背后的行业隐患

智能座舱也能“深度思考”？荣威M7 DMH做到了

扎克伯格和华裔妻带仨闺女过节玩魔法学院风好嗨

连续三个月创历史新高蔚来公司10月新车交付首超4万台

宁波象山沿海进行军事演练禁止驶入

蔚来手机负责人更换，是因为产品不达预期？

柬埔寨拒引渡3名韩国籍＂杀猪盘＂头目回韩国：就地审判

加速推进！机器人板块传出大消息！

户外赛道竞速，坦博尔、伯希和冲刺港股突围

乌军批准3千多名囚犯从军：他们希望以英雄的身份回家

狗仔曝黄景瑜和热巴年初还在恋爱，两人同游欧洲

医生手术时涉诈停机 20多天未能复机无法与病人联系