首页
运维笔记
SEO心得
软件程序
网站源码
旗下网站
programmer
登录
标签
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多个学术
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
admin
14小时前
1
0