关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19096人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄媒:遭无人机袭击后 克宫将在莫斯科中央临床医院建防空洞

参考消息 浏览 16689

官方:马来西亚裁判组将执法成都客战首尔,纳西鲁丁担任主裁

懂球帝 浏览 764

这四种风格的裙子 千万不要轻易尝试

潮人方法论 浏览 16158

费兰-托雷斯谈未来:希望有一天我能够回到瓦伦西亚

直播吧 浏览 18456

在马来西亚失联男子姐姐:不知道弟弟是跟女生一起出游

极目新闻 浏览 1498

中国电商霸榜西班牙,阿里Miravia、Shein、速卖通成购物APP前三

网易科技报道 浏览 19622

女子称13岁时被继父强奸 继父称"被冤枉" 警方介入

奔流新闻 浏览 74491

今年春天流行气质卷发 时髦高级好打理

成铭聊发型 浏览 19975

七月开始!穿上最好看的衣服享受风景

LinkFashion 浏览 16058

曝货拉拉司机不充会员每天只能接两单,平台对割韭菜行为毫不避讳

趣看热点 浏览 552438

宁德时代第三季营收1042亿:同比增12.9% 净利185亿斥资800亿理财

雷递 浏览 943

美联储降息、买短债,鲍威尔偏鸽,美股、短期美债、黄金涨,美元跌,比特币震荡

华尔街见闻官方 浏览 87

《庆余年2》徐志胜惊喜登场,本色出演喜感十足!

电和影 浏览 10928

57岁陈法蓉与男演员热吻,观众:鸡皮疙瘩都起来了

不八卦会死星人 浏览 16630

库克:詹姆斯是我的兄弟 8年前和我的handshake他如今仍然记得

直播吧 浏览 18790

放大招!香港“抢人”:内地9所大学毕业生可落户

中国基金报 浏览 19324

爱妻朱媛媛离世5月后,辛柏青又传来坏消息

阿废冷眼观察所 浏览 1031

2021NBA全明星第一轮投票结果出炉,杜兰特力压詹姆斯成票王

趣看热点 浏览 25516

媒体:美方28点计划引全球哗然 泽连斯基将背负骂名

经济观察报 浏览 12405

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 552

梅州众将:不管未来怎样都要打好最后一场,拼出个保级机会

懂球帝 浏览 529
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1