关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19097人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

越涨越买,奢侈品巨头赚翻

环球网产经 浏览 19154

德天空记者:虽然凯塞多续约到了2027年,仍有可能在夏天离队

直播吧 浏览 19236

短上衣的最佳搭配当然是高腰裤了

In风尚 浏览 19113

阳光保险,让人们拥有更多的阳光

网易财经 浏览 19011

福建舰更多细节公布 一组动图全方位看清楚

央视新闻客户端 浏览 640

德天空:戴尔确定将加盟拜仁,他已经抵达慕尼黑

懂球帝 浏览 12774

法国被枪杀少年的家人就暴乱发声 呼吁人们保持冷静

澎湃新闻 浏览 94256

以军多次袭击加沙 哈马斯谴责其违反停火协议

环球网资讯 浏览 378

车贷“高息高返”被叫停后:提前还贷需排队,有银行违约金比例最高达15%

时代周报 浏览 754

拥抱变局!2025外滩年会揭幕,聚焦新秩序、新科技

国际金融报 浏览 887

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 6850

点读机女孩评论区沦陷!被扒模糊患病时间线炒作,网友呼吁彻查

萌神木木 浏览 11874

长城突发!欧洲总部解散、解雇所有员工

电动知家 浏览 11338

再看万茜的采访,觉得易立竞太残忍

江湖人称艾掌门 浏览 10754

杠杆资金流入 北方铜业股价创28年新高

21世纪经济报道 浏览 1613

7万+再创造车新势力月销纪录 零跑或成下一个中国前十

道哥说车 浏览 709

今年秋天最流行的6条半裙,怎么搭都好看!

LinkFashion 浏览 1924

快狗打车董事长辞职 市值蒸发已超九成

阿尔法工场 浏览 12744

马克龙寻求赴南非出席金砖峰会 俄方:法国应解释原因

环球网资讯 浏览 92471

林心如揭秘:霍建华宠女无度,对自己超抠?

科学发掘 浏览 389

新华社权威快报|中国第42次南极考察队从上海起航

新华社 浏览 777
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1