关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者891人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

微软官方确认:Windows 11任务管理器出问题了!

快科技 浏览 732

前女友曝19岁荣梓杉出轨打人,男方评论区沦陷,网友喊话道歉退圈

扒虾侃娱 浏览 1021

申万宏源:2025年科技牛只是小菜,2026年下半年将迎来全面牛

金石随笔 浏览 554

油头粉面别演穷人!《命悬一生》几个镜头告诉你,真穷人是什么样

娱乐圈笔娱君 浏览 1037

当中国出口全看汽车 你是喜欢哭来还是喜欢笑?

水皮M0RE 浏览 16427

博时资本红利增强策略&波动增利策略:一边收息一边薅波动

私募排排网 浏览 1007

西贝的新考题:如何券后留客

北京商报 浏览 217

印度被“揍”服!莫迪放话认怂,背后另有隐情

浏览 4466

解放军演习期间蔡英文发图称都有掌握 国台办回应

环球网资讯 浏览 18882

杜克大学开创新型物联网控制语言,手机就能对话所有智能设备

科技行者 浏览 821

澳P-8A军机侵闯中国西沙领空 解放军驱离

界面新闻 浏览 964

央行重磅会议释放新信号!下半年行情开门红可期?

每日经济新闻 浏览 15661

女孩在高铁遭掌掴后还击被认定为"互殴" 司法部发声

都市快报橙柿互动 浏览 116532

特斯拉成简配“鲶鱼”,中国品牌如何应对?

百姓评车 浏览 721

特朗普完成自首登记被拍摄大头照,在监狱逗留20分钟获保释

澎湃新闻 浏览 14842

曙光宣布启动智慧工业战略

网易科技报道 浏览 16841

部分苹果 iPhone 17 Pro/Max 用户反馈机身褪色

IT之家 浏览 971

换装全新设计语言 北京EU8申报图曝光

车质网 浏览 1046

Linux之父Linus配新电脑了!特别要求Intel锐炫B580显卡

快科技 浏览 270

朱桢二胎得子取名Jerry朱桢发文官宣Jerry的到来,晒甜蜜合照

趣看热点 浏览 26344

两名国民党民代遭起诉 郑丽文:民进党想团灭在野党

海峡导报社 浏览 11684
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1