关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19036人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一级演员李春来表演时突然倒地,后抢救无效去世

可乐谈情感 浏览 573

特斯拉申报Model Y长续航后驱版 又是一个走量款

网易汽车 浏览 1011

复古拉力风 firefly萤火虫project glow改装车亮相

网易汽车 浏览 361

问界销量首超理想 余承东:这只是一个开始

车市红点 浏览 12538

杨紫连续七年为李现庆生,没有避嫌只有坦荡

娱乐寡姐 浏览 942

我来抢戏!格雷森-阿伦三分5中4&罚球4中4 得到16分4板2助1帽

直播吧 浏览 13373

CES 2026见:摩托罗拉有望推出Razr品牌首款大折叠手机

IT之家 浏览 46

巴黎客战布雷斯特:阿什拉夫、KK7首发, 登贝莱替补

懂球帝 浏览 786

俄称打击乌军多处目标 乌称击退俄进攻

国际在线 浏览 713

标普将全球最大稳定币运营商Tether资产评级下调至最低等,质疑挂钩美元能力

华尔街见闻官方 浏览 324

最近流行的4件针织 这样搭配最好看

小西的穿搭日记 浏览 15269

瘦百斤后的贾玲算不算大美女,看看她和张小斐谢楠的合照就知道了

不八卦会死星人 浏览 12564

当你沉睡时,TA还在工作

学申论的谈妹 浏览 977

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 911

助力本土CGM厂商崛起 昂瑞微重磅发布超低功耗蓝牙SoC OM6626

爱集微 浏览 12388

汪建民回应性侵指控:她的叙述没印象 愿跟她对质

网易娱乐 浏览 16261

小川航基:没赢下巴拉圭心有不甘;对阵巴西的机会肯定会更少

懂球帝 浏览 955

30套品位慵懒系穿搭,美到秋天!

In风尚 浏览 14949

爆笑佳作入围戛纳,这是真正属于影迷的电影

幕味儿 浏览 679

以军频繁袭击 加沙"黄线"附近居民被迫再度离开家园

海外网 浏览 780

意媒:德佬准备续约K77是想避开转会传闻,经纪人正等待与其接触

直播吧 浏览 14162
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1