强化学习被高估！清华上交RL不能提升推理能力，新知识得靠蒸馏

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏
新智元报道编辑：编辑部 NXs【新智元导读】一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高了采样效率，而非真正赋予模型全新推理能力
强化学习被高估！清华上交RL不能提升推理能力，新知识得靠蒸馏
admin4小时前
20