论文部分内容阅读
近年来,随着互联网上各种信息的爆炸式增长,人们往往淹没于大量可获取的信息当中。为了帮助用户有效地管理,获取和检索这些庞大的信息,信息抽取技术自然而然地成为了解决问题的途径。文档摘要技术通过将文档压缩成一小段包含中心思想的文字来抽取文档信息。视频摘要技术则通过定义最重要的关键帧图片来压缩处理整段视频流,从而抽取视频信息。而半监督的多标签传播技术则通过将图片检索转化为文字检索来抽取图片信息。 传统的信息抽取研究都没有从数据重构的角度考虑问题,而后者却恰好解决了信息抽取中信息鸿沟和信息冗余这两大挑战。在本文中,我们从数据重构的角度出发,针对信息抽取中的文档摘要技术,视频摘要技术和图片标注技术这三个方面的内容,设计了一系列有效的算法及其优化方法。具体来说,本文的主要研究工作包括: 首先,基于其在信息检索中的广泛应用,文档摘要技术已经在自然语言处理领域中引起了越来越多的关注。大部分传统方法都通过抽取那些既包含文档中心思想又具有最小信息冗余的句子,来实现文档摘要的过程。在本文中,我们从数据重构的角度出发,提出了一个全新的无监督框架,基于数据重构的文档摘要(DocumentSummarization based on Data Reconstruction,DSDR)。具体地来说,我们的方法产生的摘要包含那些能够最好地重构原文档的句子。为了建模句子之间的关系,我们首先提出了线性重构模型。该模型利用摘要句子之间的线性重构来近似原文档。然后我们将线性重构模型拓展成为只允许正向叠加的非负线性重构模型。最后,为了解决非线性问题并表达出句子空间的几何结构,我们在基于流行的自适应核空间中拓展了线性重构模型,并利用图拉普拉斯的特性发掘了句子空间的流形结构。在文档摘要的标准数据集上的验证实验表明我们提出的框架能够有效提高文档摘要的质量。 其次,互联网上大量充斥的视频信息使得视频摘要技术成为了管理和浏览这些数据的必要手段。自动关键帧抽取是一种简单而有效的视频摘要方法。而不同于传统的基于聚类的方法,我们提出了一种全新的视频摘要算法,近邻保持重构(LocalityPreserving Reconstruction, LPR),该算法抽取那些能够最佳重构原视频的关键帧图片作为视频的摘要。我们通过保持视频帧图片之间的近邻结构来重构原视频,并利用了内嵌流形结构的拉普拉斯算子。当重构误差最小时,LPR算法将找到最优的视频帧图片子集合来作为最后的视频摘要。文本中,我们同时提出了一种前向逐步优化算法来选择关键帧。在视频摘要数据集上的验证试验表明我们提出的算法能够有效提高关键帧视频摘要的质量。 最后,多视图学习和多标签传播是图片标注中的两个常用方法。传统的多视图方法通常忽视了不同视图之间的关联关系,而传统的多标签传播方法则往往忽视了不同标签之间的关联关系。在本文中,我们提出了一种全新的图片标签算法,同时发掘了视图层面和标签层面的关联关系。对于同一个标签而言,它在某个视图上的传播应该要和其在其他视图上的传播相似。类似的,对于同一个视图而言,有关联的标签在它上面的传播应该要类似。因此,我们提出了一种全新的基于多视图的多标签传播方法(Multi-view based Multi-label Propagation,MMP)。该方法通过保证不同视图产生相似的标注结果以保持视图间的关联关系,并通过类似的方式保持标签间的关联关系。通过充分利用视图和标签这两个方面的关联关系,MMP算法能够得到比传统方法更好的图片标注结果。此外,我们还提出了一种循环算法来解决优化问题。在真实的图片数据集上的验证实验表明我们提出的框架能够有效提高图片标注的效果。