论文部分内容阅读
现有的大多数视频事件检测方法首先从视频帧或视频快照中提取特征,然后对特征进行量化和汇集,进而为整个视频生成一个向量表示。最后的汇集步骤虽然简单高效,但是可能丢失时间局部信息,而这些信息对于确定长视频中事件发生的位置具有重要作用,从而削弱了事件检测的准确性。为此,本文首先将每个视频表示为多个"实例",并将其定义为不同时间间隔的视频段。然后,针对每个视频的正实例比例已知和未知两种情况,提出基于多尺度实例学习的检测算法,在将实例标签看成隐藏潜在变量的同时推断出实例标签以及实例尺度的事件检测模型。最后,利用