跨媒体监督概率主题建模研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wucaixia303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息,将无监督概率主题建模拓展成为监督概率主题建模,是概率主题建模的一个重要的研究方向,其在文本挖掘和计算机视觉等领域有着广泛的应用。本文重点研究了面向跨媒体数据的监督概率主题建模方法,其能针对来源不同和类型不同的数据进行主题建模,取得了如下研究成果:  在传统监督隐狄利克雷分配中引入“概率单词选择机制”,提出了选择监督隐狄利克雷分配方法(selective supervised Latent Dirichlet Allocation,ssLDA)。与传统主题模型将所挖掘主题作为文档特征描述(主题袋,bag-of-topics)不同,ssLDA仍然用单词作为文档的特征描述,并可对文档形成选择单词词袋描述(bag-of-selective-words),其机理为ssLDA根据文档单词的归属主题来调整和学习每个单词在文档表达中的权重。事实上,通过文档单词在归属主题中的鉴别力,ssLDA对单词在后续预测或分类中的强鉴别性或者弱鉴别性进行选择(甄别),形成文档的选择单词词袋描述。由于考虑到了单词的在文档隐藏结构(即主题)下的鉴别力,ssLDA能形成文档更有预测力的表达。在文本和图像上的实验表明,ssLDA不仅在分类任务中取得比传统主题模型方法更好的效果,也能自动地发现文档单词相对于主题的鉴别力。  提出了基于多来源或者多域(domains or collections)数据的监督跨域隐狄利克雷分配(supervised cross-collection Latent Dirichlet Allocation,scLDA)。在主题建模中,scLDA将主题分为三类:跨越所有域的公共主题、各个域的背景主题以及各个域的特有主题。然后,scLDA在一个统一的主题模型中对该三类主题进行联合建模。最后,scLDA不仅挖掘得到体现“域之间相似性”的跨域公共主题,而且可甄别体现“域之间差异性”的每个域各自相关的主题。同时,由于利用了文档的类别信息,scLDA模型明显提升了传统无监督跨域主题模型的分类能力。在新闻文章和图像上的量化实验表明:相对于其他几种传统主题模型,scLDA能够获得更高的检索精确度。  提出了针对异构数据的空间多标签隐狄利克雷分配(Spatial Multi-label LatentDirichlet Allocation,SML2DA),将SML2DA用于分别包含了视觉线索(visual cues)和标签两种异构数据的标注图像。在实现标注图像这种异构数据的主题建模中,SML2DA不仅保证图像区域子块中异构视觉特征在表达隐含主题时的区域一致性,而且也保证蕴含主题与图像标签之间的语义一致性。在SML2DA中,图像每个区域由区域内所有基于关键点的视觉单词(visual words)和基于整个区域的外在特征(appearance features)来表达,区域一致性要求每个区域内所有视觉单词和外在特征都属于同一个主题;同时,语义一致性要求每个区域所蕴含的主题或者与图像标注标签对应,或者是标签无关(tag-free)的。这样,SML2DA能够让图像区域中视觉单词和外在特征相互影响和保持一致,而且也能把图像层级的标签传递到合适的区域子块,实现区域标注。与其他方法相比,SML2DA在图像标注和区域标注都取得了一定的进步,这就直接验证了SML2DA中引入的图像区域一致性和语义一致性的合理性。
其他文献
现场可编程门阵列(Field Programmable Gate Arrays,FPGA)以其可编程、高并行性、高集成度等优点,被广泛应用于通信、控制等领域。  然而,随着FPGA器件日益复杂和设计规模日益
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着通讯技术的发
随着网络技术和网络应用的发展,Internet的正常运转受到多种威胁。现有的网络安全防护技术和产品不能完全保证网络安全和信息安全。因此,安全审计作为一种事后技术,成为网络安全
随着硬盘成本的降低和容量的增大,用户开始在个人计算机中存放大量文件。虽然大部分操作系统提供了文件搜索工具,但是它们单一、固定的功能难以满足用户对个人计算机中丰富信息
服务组合作为面向服务的计算(Service-Oriented Computing,SOC)和面向服务的体系架构(Service-Oriented Architecture,SOA)中的关键技术,一直以来都是服务计算领域倍受关注的焦
目前,随着互联网络的飞速发展,分布式拒绝服务(DDOS)攻击的危害日益严重,已达到泛滥的程度,DDOS攻击已成为互联网上最具威胁的恶意攻击之一。因此,DDOS攻击的检测和防御是当前安全
随着软件设计结构和代码的复杂化,在软件开发过程中,调试技术越来越重要。调试器,特别是源代码级调试器是目前最方便的调试方式,它可以提供程序源代码、栈、反汇编代码、断点、寄
Web服务具有松散耦合,互操行性强和平台无关等特点,是面向服务体系架构SOA的主要实现方式。基于XML的SOAP协议是Web服务的核心协议之一,它是独立于特定编程语言和平台的可扩展消
本文研究目的是在计算机和手持工具之间或者计算机之间实现数据信息同步时,对数据进行保护。为了验证此目的,运用两台计算机,其中一台配置成SyncML服务器,另一台配置成SyncML客户
随着计算机技术的不断发展,Web已成为人们获取信息的一个重要途径。由于信息技术的高速发展,Internet上的信息资源呈指数膨胀,面对海量数据人们不得不花费大量的时间去搜索、浏