咨询热线

HASHKFK

新闻资讯
您当前的位置: 首页 > 新闻资讯 > OD SPORTS
OD体育新闻 OD SPORTS

OD体育官方网站- OD体育APP下载- 世界杯指定投注平台顶刊TPAMI 2025!一个模型搞定所有!多模态跟踪“全能王”UM-Track横空出世

时间:2025-12-05 14:06:09
更多
  

  od体育官方网站注册网址,od体育app官网下载,od体育最新登录网址,od体育平台,od体育app,od体育app下载,od体育靠谱吗,od体育,od体育下载,od体育官方网站,od体育官网,od体育投注,od体育下注,od体育买球,od体育世界杯,od体育欧洲杯,od体育赛事,od体育开户,od体育注册,od体育登录,od体育入口大多数现有通常在一个短时间间隔内(例如50、100或200帧间隔)对单模态图像对进行采样。然而,这种采样方法带来了一个潜在的限制,因为这些无法捕捉被跟踪目标的长期运动变化,从而限制了跟踪算法在长期场景中的鲁棒性。同时,它们无法从多个模态的视角感知目标的实时状态。 为了从长期视频序列中获取更丰富的目标实例的多模态时空轨迹信息,我们偏离了传统的短期图像对采样方法,并提出了一种新的视频序列采样策略。具体来说,在训练阶段,我们建立一个更大的采样间隔,并在该间隔内随机提取多个视频帧,以形成任何模态和任何长度的视频片段(,)。尽管这种采样方法可能看起来简单,但它使我们能够近似整个视频序列的内容。这对于视频级多模态跟踪建模至关重要。

  。GOT10K 是一个大规模跟踪数据集,包含超过 10,000 个视频序列。GOT10K 基准提出了一个协议,要求仅使用其训练集进行训练。我们遵循该协议来训练我们的框架。结果记录在表 I 中。在先前的方法中,未采用视频级采样策略的 ARTrack384 在 AO(平均重叠率)、SR0.5 和 SR0.75(阈值为 0.5 和 0.75 时的成功率)指标上分别达到了 SOTA 性能。受益于提出的新视频级采样策略,我们的 ODTrack384 取得了新的最先进水平,在 AO、SR0.5 和 SR0.75 指标上分别达到了 77.0%、87.9% 和 75.1%。结果表明,我们 ODTrack 的一个优势来自于旨在释放模型潜力的视频级采样策略。

  。LaSOT 是一个大规模长期跟踪基准,包含 1120 个训练序列和 280 个测试序列。如表 I 所示,可以看到我们的 ODTrack384 通过有趣的时序令牌注意力机制取得了良好的跟踪结果。与最新的 ARTrack 性能相比,我们的 ODTrack384 在 AUC、P Norm 和 P 分数方面分别实现了 0.6%、1.5% 和 1.5% 的提升。结果表明,学习到的具有目标关联依赖关系的时空特征可以提供可靠的目标定位。此外,由于我们的时序令牌旨在关联目标实例以提高在多种跟踪挑战(即快速运动、背景干扰、视角变化和尺度变化等)下的鲁棒性和准确性。因此,如图 5 所示,展示了 LaSOT 数据集的属性评估,以说明我们的令牌关联机制如何帮助学习关于目标实例的时空轨迹信息,显著增强长期跟踪场景中的目标定位。

  。TrackingNet 是一个大规模短期数据集,提供了一个包含 511 个视频序列的测试集。如下表 I 报告,通过实现目标实例的跨帧关联,ODTrack384 取得了 85.1% 的成功分数(AUC)、90.1% 的归一化精度分数(P Norm)和 84.9% 的精度分数(P),分别优于先前没有令牌关联的高性能 SeqTrack 1.2%、1.3% 和 1.3%。同时,与最近没有时序令牌关联的视频级 VideoTrack 相比,ODTrack 在 AUC、P Norm 和 P 指标上分别优于 1.3%、1.4% 和 1.8%。这表明我们的时序令牌可以有效地跨搜索帧关联目标对象,并且这种新颖的关联方式可以增强我们 ODTrack 在多个跟踪场景中的泛化能力。

  。DepthTrack包含 150 个训练和 50 个测试 RGB-D 长期视频序列。如下表 IV 所示,我们在其上将我们的模型与现有的 SOTA RGB-D 进行了比较。在相同的图像分辨率设置下,我们的 UM-ODTrack256 在跟踪精度(Pr)、召回率(Re)和 F-score 上分别优于 ViPT 1.1%、2.6% 和 1.8%。此外,由于提出的高效门控注意力机制,我们的 UM-ODTrack384 在 RGB-D 跟踪领域取得了 SOTA 性能。值得注意的是,当输入尺寸从 256 增加到 384 时,UM-ODTrack 在性能上取得了大幅提升。这表明我们结合大输入分辨率的时序关联方法在多模态长期跟踪场景中尤为重要。

  。LasHeR 是一个大规模 RGB-T 跟踪数据集,包含 245 个短期测试视频序列。结果报告在下图 7 中,我们的 UM-ODTrack 取得了令人惊讶的结果,显著优于先前的 SOTA RGB-T 跟踪算法,在成功图和精度图上分别超过第二名 4.5% 和 6.3%。这些结果符合我们的预期,即基于门控注意力机制的特征学习可以自适应地提取和融合不同模态的特征,以提高多模态跟踪性能。同时,为了验证我们的门控感知器能够有效解决包括遮挡(NO)、部分遮挡(PO)、完全遮挡(TO)、低光照(LI)、低分辨率(LR)、形变(DEF)、背景干扰(BC)、运动模糊(MB)、热交叉(TC)、相机移动(CM)、快速运动(FM)、尺度变化(SV)、透明遮挡(HO)、高光照(HI)、突然光照变化(AIV)、相似外观(SA)、纵横比变化(ARC)、出视野(OV)和帧丢失(FL)在内的多种挑战,我们展示了 LasHeR 数据集的属性评估结果。如图 6 所示,我们的 UM-ODTrack 在每个属性上都表现良好。因此,可以表明我们带有门控感知器的视频级多模态建模方案能够有效地统一和融合多模态特征,从而使我们的能够很好地解决复杂的跟踪场景。

  。如下表 VIII 所示,消融了搜索视频序列长度对跟踪性能的影响。当视频片段长度从 2 增加到 3 时,AUC 指标提高了 0.3%。然而,序列长度的持续增加并未带来性能提升,表明过长的搜索视频片段会给模型带来学习负担。因此,我们应选择适当的搜索视频片段长度。此外,为了评估序列长度对多模态跟踪性能的影响,在 LasHeR, DepthTrack和 VisEvent 基准上进行了对比实验,如表 XVI 所示。视频序列长度的选择对于利用时序信息至关重要。当序列长度从 2 增加到 3 时,我们的在 LasHeR, DepthTrack 和 VisEvent 基准上的 SR 和 F-score 分别提高了 0.7%, 0.2% 和 1.6%。这些增益来自于通过多帧信息有效建模目标外观变化和运动轨迹。然而,当序列长度超过 3 时,由于跨模态时序噪声的积累,性能趋于稳定或略有下降。这证实了适当选择的序列长度可以提供互补信息,而过长的序列更可能引入冗余或有噪声的上下文信号。因此,我们的 UM-ODTrack 采用序列长度 3 作为最佳设置,以在合适的时间跨度内捕获上下文信息。

  。我们进行实验以验证在通用模态感知跟踪框架下提出的两个组件,即条件门控和门控模态可扩展感知器(GMP)的有效性,如下表 X 所示。基线方法指的是 ODTrack 的双流版本。通过将条件门控模块添加到基线中,我们的在三个下游跟踪数据集上的性能得到了改善。例如,配备条件门控的在 DepthTrack 基准上的 F-score 指标实现了 1.3% 的提升。此外,通过将 GMP 纳入我们的模型,其性能得到进一步改善。这证明了我们提出的两个门控模块的有效性。此外,为了研究门控激活函数的效果,在表 XIII 中使用了不同的门控激活函数进行实验。与 ReLU 和 sigmoid 相比,tanh 激活函数表现最佳。这一结果表明,在我们的门控感知器中,tanh 门控函数更适合学习和表示通用的多模态跟踪任务,可能提供更好的泛化能力。

  。如图 12 所示,探索了使用不同训练策略(例如适配器微调和完全微调)来训练我们模型的实验。实验结果记录在表 XIV (#3和#5) 中。可以观察到,适配器微调和完全微调策略都取得了良好的性能提升,其中完全微调显示出稍好的结果。理论上,具有较少学习参数的适配器微调可以节省更多 GPU 资源。然而,在实践中,由于其他模型参数在训练期间保留了梯度,其训练资源并未显著减少,这与完全微调方案相当。因此,我们选择具有更多学习参数的完全微调作为我们的训练策略。多任务一次性训练 vs. 单任务独立训练。为了评估多任务统一(一次性)训练对我们最终模型的好处,我们为三个子跟踪任务独立训练了专家模型,如表 XIV 所示。#4和#5的比较结果表明,我们的一次性训练方案带来了显著的性能提升。例如,仅在 DepthTrack 数据集上训练的模型达到了 67.8% 的 F-score,而在 DepthTrack, LasHeR 和 VisEvent 上联合训练的模型则达到了 69.3% 的更高 F-score,提升了 1.5%。将此改进归因于每个模态跟踪任务可用训练数据数量和多样性的增加,以及设计的门控感知器在聚合多模态特征方面的有效性。这些因素共同增强了我们统一多模态跟踪模型在各种跟踪场景中的鲁棒性和泛化能力。

  。对于 RGB 跟踪任务,为了直观展示我们方法的有效性,特别是在包含相似干扰物的复杂场景中,在 LaSOT 上可视化了ODTrack 和三个先进的跟踪结果。如图 9 所示,由于其能够密集传播目标的轨迹信息,我们的在这些序列上远远优于最新的 SeqTrack。对于多模态跟踪任务,我们分别在 LasHeR, DepthTrack 和 VisEvent 数据集上可视化了我们的 UM-ODTrack 和其他 SOTA 的多模态跟踪结果,如图 11 所示。受益于门控感知器对任意模态的通用感知能力,与其他多模态相比,我们的 UM-ODTrack 能够在复杂序列中准确定位目标。同时,我们比较了带有和不带门控模态可扩展感知器(GMP)的特征表示。如图 13 所示,在没有 GMP 模块的情况下,模型缺乏捕捉模态间相关性的能力,导致学习到的表示常常关注与目标相似的干扰物。相比之下,当配备包含基于注意力的门控机制的 GMP 模块时,本文的在复杂的多模态跟踪场景中有效抑制了此类干扰,使模型能够更准确地聚焦于目标对象。

  。将视觉跟踪重新定义为一个令牌传播任务,以自回归的方式密集关联跨视频帧的上下文关系。此外,为了从单模态感知扩展到多模态感知,提出了 UM-ODTrack,一个通用的视频级模态感知视觉跟踪框架,通过设计门控注意力机制有效聚合目标实例的多模态时序信息。具体来说,设计了一种视频序列采样策略和两种时序令牌传播注意力机制,使得所提出的框架能够简化视频级时空建模并避免复杂的在线更新策略。此外,提出了两个门控模态可扩展感知器来聚合来自各种模态的目标时空信息。最后,本模型可以通过一次性训练方案,使用同一套模型参数同时推理不同的多模态跟踪任务。大量实验表明,UM-ODTrack 在七个可见光跟踪和五个多模态跟踪基准上取得了优异的结果。期望 ODTrack 和 UM-ODTrack 能成为通用视频级模态感知跟踪的强大基线,激发可见光跟踪和多模态跟踪领域的进一步研究。参考文献

地址:OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司   电话:HASHKFK
传真:0896-98589990
ICP备案编号:
Copyright © 2012-2024 OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司 版权所有 非商用版本