关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12532人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黑芝麻控制权转让新进展:尽职调查10月底前收尾,国资注入能否解 “冲饮困局”?

时代周报 浏览 1043

DNA双螺旋结构发现者詹姆斯・沃森去世

第一财经资讯 浏览 679

双红会3亿强援替补!维尔茨谢什科遭弃用,媒体人:斯洛特真大胆

奥拜尔 浏览 949

权力重构?泽连斯基亲信部队高层遭反腐

浏览 4593

岁末车市促销战开打,蔚来现款车型推限时优惠,展车最高达4万

时代财经 浏览 12628

比亚迪2022年年度股东大会:王传福谈了行业竞争、产能、车险和智能驾驶

界面新闻 浏览 16887

召集全球高级将领开会前 美军试射4枚导弹

新民晚报 浏览 1509

台湾省金钟奖成了“照妖镜”,小S拿奖后,破防人算是照明白了

娱乐圈笔娱君 浏览 931

跃下12米高大桥救人小哥骨折住院:我知道溺水的绝望

澎湃新闻 浏览 92423

郑丽文再次公布人事任命朱立伦尴尬了 洪秀柱罕见喊话

策略述 浏览 6754

秦海璐直言不敢再和张嘉译合作,藏着什么真相

星创文化 浏览 1028

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 1049

因生不出孩子被踢出豪门,二婚后却儿女双全,这次她终于扬眉吐气

娱乐白名单 浏览 10890

中山大学突破:AI实现精准图像语义搜索

科技行者 浏览 857

这样的微醺纯欲热恋,就爱看他俩谈!

吐槽电影院 浏览 12760

朝中社:朝鲜进行“核反击假想综合战术训练”

环球网资讯 浏览 19117

创新不止步,可变形的数智新汽车长安E07来了!

DearAuto 浏览 12670

林俊杰跟七七又被偶遇了!贴心帮女友提包,曝女方父亲是经济犯

萌神木木 浏览 373

拜登瞒天过海秘访基辅 行程以"高尔夫锦标赛"为掩护

红星新闻 浏览 95878

前10月规模以上高技术制造业利润同比增长8.0%

北京商报 浏览 368

百果园,崩了!

斑马消费 浏览 12692
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1