Concept-Centric Learning for Weakly-Supervised Temporal Sentence Grounding
IEEE International Conference on Multimedia and Expo 2025 2025.03.21,
Yaru Zhang, Haichao Shi and Xiao-Yu Zhang
Abstract
弱监督时序语句定位任务在根据给定查询定位视频中事件边界时仍存在显着挑战。传统依赖查询全局监督方法存在关键缺陷(如局部视频查询表征间不足交互)。为此,本文提出ConceptNet框架,通过概念中心化学习实现细粒度。具体来说,我们针对问题提出了动词与术语等核心概念,并设计双网络架构:相互动态网络(TDNet),该网络通过提示引导的自回归任务学习密切相关,使模型对事件演变得更加敏感;视觉网络(VSNet)则通过从批量概念池中补全掩码查询模板来实现语义对准。在Charades-STA和ActivityNet Captions数据集上的实验表明,本方法与现有的最先进方案具有显着优势。