研究前沿 · 点头研究院

CAT-CPR-TODAFrameworkfor Context-AwareTrainingwithClue-Guided Prompt ReasoninginTask-Oriented Diaogue

2026-05-08

对话生成是人类-机器交互领域的一项关键研究内容，在对话系:统的开发中发挥着基础性的作用。然而，当前的方法往往难以捕捉关键实体，且容易因缺乏句法多样性而受到影响，尤其是在应用于复杂场景时。为解决这些问题，我们提出了一种全新的学习框架，即面向任务导向对话的“语境感知训练与基于清晰引导提示推理”(CAT-CPR-TOD)。在训练阶段，CAT-CPR-TOD中引入了自适应的语境感知优化策略，充分利用对话响应的句法特征。该策略采用隐式上下文门控机制，有效捕捉对话的核心语义信息和句法结构。在推理阶段，采用线索引导的优化提示生成方法，通过检索语义相关的示例、生成上下文摘要并融合核心语义信息，构建示例提示数据库。

CMINet an improved RGBT tracking via crossmodalityinteraction

2026-05-08

可见光与热红外(RGGBT)数据包含了关于目标的不同层次信息，而如何有效利用这些信息对于在RGGBT跟踪中呈现目标的真实面貌起着至关重要的作用。现有研究主要侧重于整合来自模态共享特征和模态特有特征的信息。这些方法能够有效利用模态共享线索和模态特有属性，但却忽视了不同模态间多层级共享线索的潜在价值。为此，我们提出了一种基于多特征提取的红外与可见目标追踪新算法。该追踪算法由多层共享融合网络、模态互补网络和目标回归网络组成，可实现多层模态共享、模态特定性及目标概率预测特征学习。我们已在RGBT追踪基准数据集上进行了大量实验，以实现在追踪速度方面的实时追踪，并展现出优于其他先进RGB和RGBT追踪算法的性能。

CIRNet An improved RGBT tracking via crossmodality interaction and re-identification

2026-05-08

RGBT跟踪技术正因其在全天气候环境下的真实跟踪潜力而日益受到重视。RGB和热源数据分别包含了关于目标的不同程度的信息。利用不同信息层次的互补优势可以有效提高跟踪性能。现有研究主要集中在多模态特征的提取与融合方面。尽管这些方法有效实现了多模态信息的融合，但它们忽视了不同模态中多级共享线索的潜在价值。此外，这些系统在跟踪漂移后无法提供有效的候选框信息，从而导致跟踪器性能受限。本文提出了一种跨模态交互与再识别网络，该网络可进行多层次模态共享、模态特定以及目标概率预测学习。我们设计了两个特征提取子网络，即多层次模态共享融合网络和模态互补子网络。具体而言，这两个子网络分别提取并融合多层次模态共享信息与模态特定信息。为优化跟踪流程，我们设计了能够预测以物体为中心的当前状态的物体感知分支。我们的物体感知分支设计简洁、整洁且高效。

MKFTracker: An RGBT tracker via multimodalknowledge embedding and feature interaction

2026-05-08

当前的RGBT跟踪算法能够在各种天气条件下跟踪目标。然而，存在边界框模糊和跟踪漂移的问题。为解决这些问题，我们提出了一种名为MKFTracker的跟踪器:它利用多模态语义信息，包括文本和视觉数据，并通过探索不同模态之间的潜在相互依赖性来提高准确性。MKFTracker包含多级模态交互(MMI)模块和语义感知细化(SAR)机制，这些模块有助于实现多模态知识的迁移。通过自适应挖掘和多模态特征融合来实现准确的目标跟踪。具体而言，MMI通过强调通过双向方法为图像生成区分性特征来增强图像中的实例表示。与其他跟踪算法不同，MKPTracker考虑了图像-文本对中固有的丰富语义信息。此外，SAR机制基于视觉和语言预训练(VLP)模型进行设计，以有机地连接异质的多模态数据。SAR将来自图像-文本对的高级语义信息与不同图像的特定优势相结合，从而提升目标回归准确性并细化尺度估计。针对四:个公开的RGBT基准数据集进行的广泛实验表明，MKFTracker能够有效解决边界框歧义和跟踪漂移问题，其性能水平可与当前最先进的算法相媲美。