基于数据重构的信息抽取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wxj1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网上各种信息的爆炸式增长,人们往往淹没于大量可获取的信息当中。为了帮助用户有效地管理,获取和检索这些庞大的信息,信息抽取技术自然而然地成为了解决问题的途径。文档摘要技术通过将文档压缩成一小段包含中心思想的文字来抽取文档信息。视频摘要技术则通过定义最重要的关键帧图片来压缩处理整段视频流,从而抽取视频信息。而半监督的多标签传播技术则通过将图片检索转化为文字检索来抽取图片信息。  传统的信息抽取研究都没有从数据重构的角度考虑问题,而后者却恰好解决了信息抽取中信息鸿沟和信息冗余这两大挑战。在本文中,我们从数据重构的角度出发,针对信息抽取中的文档摘要技术,视频摘要技术和图片标注技术这三个方面的内容,设计了一系列有效的算法及其优化方法。具体来说,本文的主要研究工作包括:  首先,基于其在信息检索中的广泛应用,文档摘要技术已经在自然语言处理领域中引起了越来越多的关注。大部分传统方法都通过抽取那些既包含文档中心思想又具有最小信息冗余的句子,来实现文档摘要的过程。在本文中,我们从数据重构的角度出发,提出了一个全新的无监督框架,基于数据重构的文档摘要(DocumentSummarization based on Data Reconstruction,DSDR)。具体地来说,我们的方法产生的摘要包含那些能够最好地重构原文档的句子。为了建模句子之间的关系,我们首先提出了线性重构模型。该模型利用摘要句子之间的线性重构来近似原文档。然后我们将线性重构模型拓展成为只允许正向叠加的非负线性重构模型。最后,为了解决非线性问题并表达出句子空间的几何结构,我们在基于流行的自适应核空间中拓展了线性重构模型,并利用图拉普拉斯的特性发掘了句子空间的流形结构。在文档摘要的标准数据集上的验证实验表明我们提出的框架能够有效提高文档摘要的质量。  其次,互联网上大量充斥的视频信息使得视频摘要技术成为了管理和浏览这些数据的必要手段。自动关键帧抽取是一种简单而有效的视频摘要方法。而不同于传统的基于聚类的方法,我们提出了一种全新的视频摘要算法,近邻保持重构(LocalityPreserving Reconstruction, LPR),该算法抽取那些能够最佳重构原视频的关键帧图片作为视频的摘要。我们通过保持视频帧图片之间的近邻结构来重构原视频,并利用了内嵌流形结构的拉普拉斯算子。当重构误差最小时,LPR算法将找到最优的视频帧图片子集合来作为最后的视频摘要。文本中,我们同时提出了一种前向逐步优化算法来选择关键帧。在视频摘要数据集上的验证试验表明我们提出的算法能够有效提高关键帧视频摘要的质量。  最后,多视图学习和多标签传播是图片标注中的两个常用方法。传统的多视图方法通常忽视了不同视图之间的关联关系,而传统的多标签传播方法则往往忽视了不同标签之间的关联关系。在本文中,我们提出了一种全新的图片标签算法,同时发掘了视图层面和标签层面的关联关系。对于同一个标签而言,它在某个视图上的传播应该要和其在其他视图上的传播相似。类似的,对于同一个视图而言,有关联的标签在它上面的传播应该要类似。因此,我们提出了一种全新的基于多视图的多标签传播方法(Multi-view based Multi-label Propagation,MMP)。该方法通过保证不同视图产生相似的标注结果以保持视图间的关联关系,并通过类似的方式保持标签间的关联关系。通过充分利用视图和标签这两个方面的关联关系,MMP算法能够得到比传统方法更好的图片标注结果。此外,我们还提出了一种循环算法来解决优化问题。在真实的图片数据集上的验证实验表明我们提出的框架能够有效提高图片标注的效果。
其他文献
车牌识别系统(LPR)是智能交通管理系统中的重要组成部分,从车牌图像中迅速、准确的分割出车牌区域的定位问题是实现车牌识别的一个关键环节。本论文针对车牌定位算法的研究,提
在现代信息化社会里,专利信息是一种具有极高价值的一种知识库,包含了很高的人类智慧,不仅有很高的实用价值,而且对于人们继续进行新的创新具有极大的启发作用。本课题从专利的文
DoBuilder是国家九五重点科技攻关项目“石化应用软件集成平台及公共服务软件”的组成部分,原名DapBuilder,开发于2000年,目前最新的版本是2005年1月发布的DoBuilder V3.0。  
度量在软件工程中有着举足轻重的地位。作为软件组织中度量工作的一项重要内容,对开发人员进行效率评价有利于开发人员的个人能力改进,有利于管理人员进行项目管理,有助于形成软
不可分离二维小波(滤波器)由于有设计上的更多自由度和更好的频率可选择性,成为当前小波理论及应用领域的热点。尽管目前已有了一些二维不可分离小波滤波器构造的方法,但在实际
JSP是目前主流的Web数据库访问技术,具有访问效率高,开发方便,独立于平台等渚多优点,是未来最有发展前景的Web数据库访问技术。Struts是目前非常流行的Web应用框架,Hiberante是目
随着面向服务计算技术的发展和应用,服务的非功能属性(即服务质量,QoS)保障能力成为Web服务能否在企业应用中获得成功的关键因素。基于策略的方式是当前Web服务质量保障的主流
本文的目标是设计一个用于多集合成员快速查询的紧凑型数据结构。多集合成员查询是计算机系统和网络应用的基本操作。例如,二层交换机会把MAC地址映射到某个端口,能够根据MAC
计算机硬件技术的持续提高和无线宽带网的出现,推动了移动通信业务,尤其是移动电子商务的高速发展。目前,数字电路的集成度越来越高,移动设备的性能不断提高,为移动通信业务提供了
在金融领域中,许多需要处理大量字符信息录入的场合,在很大程度上要依赖数据信息的输入。发票上的号码是发票印刷数量的标识,每张没有重复,因此可以用来标识发票的身份,如果