科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始
  •  首页
  •  运维笔记
  •  SEO心得
  •  软件程序
  •  网站源码
  •  旗下网站
  •  programmer
  •  登录
  1. 标签
  2. 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

    钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多个学术
    首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
    admin14小时前
    10
CopyRight © 2022 All Rights Reserved 豫ICP备2021025688号-21
Processed: 0.067, SQL: 15