论文部分内容阅读
概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息,将无监督概率主题建模拓展成为监督概率主题建模,是概率主题建模的一个重要的研究方向,其在文本挖掘和计算机视觉等领域有着广泛的应用。本文重点研究了面向跨媒体数据的监督概率主题建模方法,其能针对来源不同和类型不同的数据进行主题建模,取得了如下研究成果: 在传统监督隐狄利克雷分配中引入“概率单词选择机制”,提出了选择监督隐狄利克雷分配方法(selective supervised Latent Dirichlet Allocation,ssLDA)。与传统主题模型将所挖掘主题作为文档特征描述(主题袋,bag-of-topics)不同,ssLDA仍然用单词作为文档的特征描述,并可对文档形成选择单词词袋描述(bag-of-selective-words),其机理为ssLDA根据文档单词的归属主题来调整和学习每个单词在文档表达中的权重。事实上,通过文档单词在归属主题中的鉴别力,ssLDA对单词在后续预测或分类中的强鉴别性或者弱鉴别性进行选择(甄别),形成文档的选择单词词袋描述。由于考虑到了单词的在文档隐藏结构(即主题)下的鉴别力,ssLDA能形成文档更有预测力的表达。在文本和图像上的实验表明,ssLDA不仅在分类任务中取得比传统主题模型方法更好的效果,也能自动地发现文档单词相对于主题的鉴别力。 提出了基于多来源或者多域(domains or collections)数据的监督跨域隐狄利克雷分配(supervised cross-collection Latent Dirichlet Allocation,scLDA)。在主题建模中,scLDA将主题分为三类:跨越所有域的公共主题、各个域的背景主题以及各个域的特有主题。然后,scLDA在一个统一的主题模型中对该三类主题进行联合建模。最后,scLDA不仅挖掘得到体现“域之间相似性”的跨域公共主题,而且可甄别体现“域之间差异性”的每个域各自相关的主题。同时,由于利用了文档的类别信息,scLDA模型明显提升了传统无监督跨域主题模型的分类能力。在新闻文章和图像上的量化实验表明:相对于其他几种传统主题模型,scLDA能够获得更高的检索精确度。 提出了针对异构数据的空间多标签隐狄利克雷分配(Spatial Multi-label LatentDirichlet Allocation,SML2DA),将SML2DA用于分别包含了视觉线索(visual cues)和标签两种异构数据的标注图像。在实现标注图像这种异构数据的主题建模中,SML2DA不仅保证图像区域子块中异构视觉特征在表达隐含主题时的区域一致性,而且也保证蕴含主题与图像标签之间的语义一致性。在SML2DA中,图像每个区域由区域内所有基于关键点的视觉单词(visual words)和基于整个区域的外在特征(appearance features)来表达,区域一致性要求每个区域内所有视觉单词和外在特征都属于同一个主题;同时,语义一致性要求每个区域所蕴含的主题或者与图像标注标签对应,或者是标签无关(tag-free)的。这样,SML2DA能够让图像区域中视觉单词和外在特征相互影响和保持一致,而且也能把图像层级的标签传递到合适的区域子块,实现区域标注。与其他方法相比,SML2DA在图像标注和区域标注都取得了一定的进步,这就直接验证了SML2DA中引入的图像区域一致性和语义一致性的合理性。