关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12537人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果的大屏可折叠 iPad 可能因开发问题而延期到 2029 年

威锋网 浏览 934

赌王长孙女近况曝光,定居澳门买下2300平海景房,悲惨人生终逆袭

萌神木木 浏览 921

梅斯1-0克莱蒙,米卡塔泽点射制胜

懂球帝 浏览 11792

零跑不是小米,胜似小米

路咖汽车 浏览 12941

还能怎么吹?球迷盛赞梅西:GOAT效应,让其他人赢一赢吧

直播吧 浏览 14091

鲁梅尼格:一旦有了新的体育总监,我和赫内斯将稍微退居幕后

直播吧 浏览 16466

阿的江:赛前有球员去医院了 参加比赛的队员有3名发高烧

直播吧 浏览 19482

媒体:敏感时刻和地点 伊朗连环爆炸案令人细思恐极

新京报评论 浏览 12793

上海海港官宣克甲联赛中卫加盟 本赛季欧联打进1球

网易体育 浏览 26251

“充值款去哪了”背后的行业隐患

南方都市报 浏览 12654

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 601

扎克伯格和华裔妻带仨闺女过节 玩魔法学院风好嗨

译言 浏览 13561

连续三个月创历史新高 蔚来公司10月新车交付首超4万台

网易汽车 浏览 755

宁波象山沿海进行军事演练 禁止驶入

极目新闻 浏览 1701

蔚来手机负责人更换,是因为产品不达预期?

钛媒体APP 浏览 12626

柬埔寨拒引渡3名韩国籍"杀猪盘"头目回韩国:就地审判

红星新闻 浏览 6213

加速推进!机器人板块传出大消息!

扬子晚报 浏览 222

户外赛道竞速,坦博尔、伯希和冲刺港股突围

斑马消费 浏览 1061

乌军批准3千多名囚犯从军:他们希望以英雄的身份回家

澎湃新闻 浏览 64332

狗仔曝黄景瑜和热巴年初还在恋爱,两人同游欧洲

不八卦会死星人 浏览 15933

医生手术时涉诈停机 20多天未能复机无法与病人联系

中国新闻周刊 浏览 7530
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1