论文部分内容阅读
随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,以互联网属性抽取技术为核心的研究正是在这样的背景下发展起来的。属性抽取技术具有非常广泛的应用。它可以应用于信息检索之后对相关的实体进行指定属性信息的抽取,使信息查找过程变成信息理解过程,从而把传统的信息检索系统变成智能系统,以用户更满意的方式输出信息。也可以将信息抽取技术应用于数据挖掘、自动问答系统等研究领域,和这些领域相辅相成,共同发展。本文介绍了基于属性标签映射的互联网实体属性抽取的概念、架构与关键技术。针对某些特定类型的实体,即产品,从网页文本中抽取有价值的实体属性信息,提供给用户。由于网页实体属性标签呈现出语义同义性现象,找出属性和标签之间的映射关系是研究的重点,本文提出了SALmap方法,利用正则表达式定义数据格式规则,使用seed方法生成常用候选属性标签集合,对标签集合使用最大熵模型构建属性标签映射,同时,基于得到的属性标签映射,对实体实例数据源区域进行属性标注,最后应用隐马尔可夫模型对实体的相关属性进行抽取。在实验中,针对本系统,对隐马尔可夫模型的相关算法进行了改进,提高了模型的输入参数精度、学习能力和属性抽取的准确度。为了评估互联网实体属性抽取系统及各部分组件的性能,实验改进过程中的性能变化,本文在Java、Eclipse的架构上,进行了基于构建属性标签映射的互联网实体属性抽取的研究,建立了以属性标签模型为基础的领域无关的无监督学习性能评价框架,提高了系统框架的可移植性。最后,本文结合实际应用,使用SALmap方法,搭建了一个属性抽取系统,通过评价系统的性能指标,证实SALmap方法是有效的,能够显著提高页面实体属性的抽取性能。