关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1065人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

外观内饰升级/六项权益全新哈弗H6开启预售

网易汽车浏览 11159

苹果团队造访股价涨停！恒信东方澄清

网易财经浏览 12766

大带宽+低时延！F5G如何撑起城域“毫秒用算”？

览富财经网浏览 904

精彩推荐

B站、小红书“崩了”冲上热搜！什么原因？阿里云回应

21世纪经济报道浏览 10546

宋代变法名臣王安石为何会一直刁难苏轼？

趣看热点浏览 26077

计划对菲律宾出口防空导弹日本危险动作引担忧

上观新闻浏览 181

沪广VS深渝，冰火两重天

博闻财经浏览 10707

上月7只新基金有效认购仅为1户

每日经济新闻浏览 12679

有多少新中产，偷偷把＂西太后＂当转运法宝？

INSIGHT视界浏览 18244

蔚来阿尔卑斯有望10月交付上市成败在此一举?

1号车盟浏览 12431

二十大后仍特权思想严重廊坊原市委书记赵世洪被双开

上观新闻浏览 88041

40岁女人的简约精致美，简单单品搭出高级感，变美如此轻松

静儿时尚达人浏览 10890

《纽约时报》更新服务条款，禁止将新闻报道用于AI开发

澎湃新闻浏览 14286

中年男子在儿子自杀后潜入＂约死群＂多次碰到＂劝死者＂

剥洋葱people 浏览 123117

台湾5万吨菠萝卖不出去，民进党当局上上下下急得跳脚

趣看热点浏览 178517

男子租车遇划痕被车主索赔900元报警后赔偿立减400元

大风新闻浏览 33120

玻利维亚决定与以色列断绝外交关系以色列外交部回应

环球网浏览 80183

多项功能优化，护卫舰07将开启新一轮OTA升级

天天汽车浏览 12334

媒体：河南农民苦夏天大旱中救活的玉米现在都泡烂了

南风窗浏览 6374

教师住院时输痰热清死亡医院：对法医鉴定结果存疑

中国新闻周刊浏览 81378

世纪美少女被曝出轨后退圈，曾经的她有多火？

毒舌电影浏览 15354

70后女性最有效的减龄打扮，不显老不花哨，老了也是一枝花

静儿时尚达人浏览 11188

关晓彤最新生图暴露真实状态 25岁一脸疲惫

萌神木木浏览 16639

或2027年发布全新丰田凌放Harrier谍照曝光

车质网浏览 804

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1