地平线提出AlphaDrive，首个基于GRPO强化学习和规划推

地平线提出AlphaDrive，首个基于GRPO强化学习和规划推理实现自动驾驶大模型
OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学，科学等复杂领域达到甚至超过了人类专家的水平，强化学习训练和推理技术是其中的关键。而在自动驾驶，近年来端到端模型大幅提升了规划控车的效果，但是由于端到端模型缺乏常识和推理能力
地平线提出AlphaDrive，首个基于GRPO强化学习和规划推理实现自动驾驶大模型
admin5小时前
40