• 编辑:杜伟最近,DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务
    admin15小时前
    40