关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19071人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军对黎巴嫩真主党多个目标发动空袭

环球网资讯 浏览 12720

港媒:蔡英文一举杯敬酒 台商心里直打哆嗦

直新闻 浏览 81157

巩俐与75岁老公在法国南部度假,搂腰牵手好恩爱

雪琪侃娱乐 浏览 14993

光伏产业链最强分支!光伏玻璃龙头四连板,A股上市公司名单及相关产能一览

科创板日报 浏览 12375

百亿资产转让频现 银行加速甩包袱

北京商报 浏览 1000

恩里克:球队今天展现的态度我很喜欢,赛季结束前我们不能放松

直播吧 浏览 11893

瓦格纳潜在继任领导人特罗舍夫不在坠毁飞机上

界面新闻 浏览 14800

以军缩小在拉法以东部队规模

新华社 浏览 10677

炸坝事件将俄乌带入“未知领域”

环球网资讯 浏览 16312

助力本土CGM厂商崛起 昂瑞微重磅发布超低功耗蓝牙SoC OM6626

爱集微 浏览 12418

女人过了60岁打扮要得体!看这些穿搭就有灵感,简约不老气

静儿时尚达人 浏览 930

YouTube服务出现“宕机”:正在修复中

界面新闻 浏览 4551

女子网购“仅退款”后取走快递 律师解读

央广网 浏览 12676

奔四女人也要穿得漂亮!冬天拒绝“一身黑”,这么搭时髦优雅

静儿时尚达人 浏览 13257

霍启刚夫妇带儿子看舞剧,朱玲玲一同前往

娱乐团长 浏览 13068

3岁女童16楼走道坠亡 父母起诉开发商、物业索赔51万

红星新闻 浏览 12244

娜扎穿牛仔外套配白色内搭 造型元气满满

学霸情报局 浏览 19542

没有柜姐也不会出错 经常买错色号的快进来

《瑞丽服饰美容》 浏览 15722

乌拉圭世预赛名单:努涅斯、巴尔韦德、佩利斯特里在列

直播吧 浏览 14322

引用《道德经》,谈大国分歧,Sam Altman:AI安全始于足下

极客公园 浏览 16644

热巴工作室再发无效声明 评论区大失控

萌神木木 浏览 15279
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1