过程奖励模型也可以测试时扩展清华上海AI Lab 23K数据让1

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT
赵俭，北京邮电大学本科三年级，研究方向为大语言模型。刘润泽，清华大学硕士二年级，师从李秀教授，研究方向为大语言模型与强化学习，特别关注大模型推理能力增强与测试时间扩展，在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇
过程奖励模型也可以测试时扩展清华上海AI Lab 23K数据让15B小模型逆袭GPT
admin4小时前
00