爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

高盛：人工智...

以色列24小...

上了年纪的女...

曾遭遇心脏骤...

盒马不吃回头...

博主：高准翼...

谁说何老师老了？！

思辨之夏|丁磊、史喆：训练1个ChatGPT要多少钱？

也门新一轮换俘开始两架换俘飞机起飞

瑞泰人寿任期超六年总经理离职！前三季净亏0.39亿，稳住局面靠什么

今日热点：张学友上海演唱会取消3场；林书豪老婆怀孕......

“1元买壳”10个月后，北大医药新老板徐晰人突遭刑拘！

以军装甲部队进入加沙地带南部城市拉法市中心

礼来和诺和诺德的“网红减肥药”有望进美国医保！千元减肥药或降价85%

这个吴邪，还真不是谁演都能火的。

开发商未批先建楼盘烂尾5年 13次专题会督促解决未果

精致穷，我们在为“符号消费”买单

米体：米兰今夏本想租借戴维带最终失败已将他视为明年首选目标

显瘦显高又时髦还得靠这条裙子

捷途梁海明：“四个坚持”破局用户共创+战略深化启新程

美国政府新规下，特斯拉车型续航里程普遍下调

消息称华为 WATCH Ultimate 2 手表明日露出，预估 6000~7000 元

549分241板182助！约基奇三数据均为联盟第一：又要成历史首人？

上新 || 降温了！几套实用保暖穿搭请收好

全球牛肉“通胀”，中国市场价格为何“独稳”

花数千元与逝者“对话”　“AI复活”带来慰藉也有不安

张学友被曝因病进ICU，8个月演100次太辛苦，曝罗美薇4年亏20亿

黄磊17岁女儿大变样多多穿吊带化浓妆

美英空袭胡塞武装专家：此番行动主要以震慑为主

网攻武汉地震监测中心事件发现境外情报机构特征