首页
运维笔记
SEO心得
软件程序
网站源码
旗下网站
programmer
登录
标签
字节Seed团队PHD
字节Seed团队PHD
编辑:杜伟最近,DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务
字节Seed团队PHD
admin
15小时前
4
0