突破传统限制!全新端到端开放词汇多目标跟踪框架OVTR,开启视觉追踪新纪元
在自动驾驶和智能监控等场景中,多目标跟踪(MOT)技术需要应对现实世界中层出不穷的新物体类别。传统方法依赖预定义类别,面对“无人机配件”“新型宠物”等未知目标时往往失效。上海人工智能实验室团队提出的OVTR(Open-Vocabulary Multiple Object Tracking with Transformer),通过端到端架构与视觉-语言模型结合,首次实现了无需后处理、支持动态类别扩展的开放词汇跟踪,成为该领域的重要突破。
论文链接:.10616 代码链接:
一、为何需要开放词汇跟踪?
多目标跟踪(MOT)作为视频感知的核心技术,在自动驾驶、智能监控等领域广泛应用。传统方法(如YOLO系列、SORT算法)基于闭合词汇(closed-vocabulary),仅能跟踪训练集中预定义的类别(如“人”“车”),但现实场景中常出现训练时未见过的新类别(如“临时路障”“新型无人机”),传统模型在此类情况下易失效。例如,自动驾驶需动态识别突发障碍物,零售场景需实时追踪新上架商品,这些需求暴露了传统方法的局限性:泛化能力不足、场景适应性差。
现有开放词汇跟踪(OVMOT)的三大痛点
- 分类与跟踪割裂:传统方法逐帧独立预测类别,缺乏跨帧信息融合,导致分类结果不稳定。例如,目标在遮挡后重现时可能被误判为新实例,破坏跟踪连续性。
- 框架复杂低效:依赖手工设计的锚框生成和后处理(如非极大值抑制),推理速度受限(通常低于20 FPS),难以应对开放场景的多样性需求。
- 预处理负担重:需预训练视觉编码器提取海量物体嵌入(涵盖未见过类别),耗时且性能提升有限。例如,部分方法需生成伪标签,引入数据噪声。
OVTR的技术革新
针对上述问题,OVTR(Open-Vocabulary Multiple Object Tracking with Transformer)首次实现端到端的开放词汇跟踪,核心突破包括:
- 跨帧信息融合:通过“轨迹查询”动态建模目标的时空特征,联合优化检测与关联,避免逐帧独立分类的割裂问题。
- 简化流程:摒弃传统两阶段流程,直接通过集合预测输出唯一轨迹,无需后处理(如NMS),在1080p视频下实现30 FPS实时推理。
- 零样本能力:融合CLIP等视觉-语言模型,支持自然语言指令扩展类别(如“手持滑板的儿童”),无需预训练嵌入或伪标签生成。
二、核心技术突破
1. 端到端Transformer架构:告别手工关联
传统方法依赖“检测-关联”两阶段流程,需手动设计相似性度量(如IoU或外观特征匹配)。OVTR基于Transformer构建端到端框架,核心创新在于:
- 轨迹查询(Track Query):每个目标对应一个动态更新的查询向量,隐式编码时空信息,实现检测与跟踪的联合优化。
- 双分支解码器:
- OFA分支:对齐CLIP视觉特征,提升未见过类别的泛化能力。
- CTI分支:通过文本交叉注意力提取语义信息,支持开放词汇分类。 该设计在TAO数据集上TETA指标超越OVTrack 12.9%,验证了多模态融合的有效性。
在这里插入图片描述
2. 开放词汇能力:零样本识别新类别
- 语言引导分类头:利用CLIP文本编码器生成类别特征,与检测框视觉特征计算相似度,实现动态类别扩展。
- 类别信息传播(CIP):将当前帧的类别信息传递至下一帧,形成跨帧的“记忆流”,解决传统方法分类不稳定的问题。
3. 运动与外观协同建模
针对遮挡与复杂运动场景,OVTR提出:
- 运动路径:通过光流估计与轨迹查询的注意力机制,预测短期轨迹。
- 外观路径:结合SAM分割模型提取局部细节特征,提升遮挡鲁棒性。实验显示,长时遮挡下ID切换次数减少90%。
三、性能表现:刷新多项记录
OVTR 在多个基准数据集上表现出色,验证了其技术优势。在TAO数据集上的实验表明,OVTR在TETA指标上优于现有方法,验证集和测试集上分别超过OVTrack 12.9%和12.4%。此外,在KITTI迁移实验中,OVTR在MOTA指标上也超过了OVTrack 2.9%。
四、应用场景与开源生态
1. 场景落地
- 智能交通:追踪特种车辆、无人机等罕见目标,提升道路安全。
- 零售分析:实时统计货架商品动态,支持“即插即用”品类更新。
- 机器人交互:通过自然语言指令定位目标(如“红色手柄工具”)。
2. 开源与部署
团队已公开代码及预训练模型(GitHub链接),支持自定义类别扩展。开发者可通过简单指令(如添加“工地警示牌”)调整模型,无需标注数据。
五、未来展望
OVTR为开放世界感知提供了新范式,但其在极端遮挡和小目标跟踪上仍有优化空间。未来方向包括:
- 视频级语义理解:融合属性识别(如颜色、材质)与关系检测(如“人拿杯子”)。
- 多模态提示:结合文本、语音等多维度输入,提升交互灵活性。
结语 OVTR通过端到端架构与开放词汇能力的结合,打破了传统MOT的类别限制。随着视觉-语言模型的进化,这类技术将推动机器真正“理解”动态世界,为智能系统赋予人类般的场景适应力。正如研究者所言:“未来的跟踪模型不应局限于看见,而应学会认知。”
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-04,如有侵权请联系 cloudcommunity@tencent 删除视频数据架构框架模型