垂直搜索中信息抽取方法的研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jianghong_jones
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的逐渐增长,要找到某一方面的信息变得越来越困难。人们逐渐希望得到一种有效的方法来查找对自己有用的信息。使用搜索引擎进行搜索就成了检索信息的有效的方式。当前使用得比较多的搜索引擎,例如:Google,Baidu以及Sogou等,统称为“通用搜索引擎”。对于一般文档的检索,通用搜索引擎通常能够满足要求。然而对于特定专业领域的信息,通用搜索引擎并不能很好地找到有用的信息。   如果对互联网上的信息按类别进行细分,然后再根据各个类别的信息根据其特点分别进行检索,则得到的检索结果就更加准确。基于这个思想实现的搜索引擎称为“垂直搜索引擎”。由于垂直搜索引擎只关注于某一类信息,在这一专业领域的搜索效果比通用搜索引擎效果更好。   信息抽取作为搜索引擎的一项关键技术,在垂直搜索引擎中也起着至关重要的作用。当前垂直搜索引擎中信息抽取主要技术为:固定一些专业网站作为数据源网站,针对每一个数据源网站,制订不同的抽取策略。由于数据抽取方法是订制的,抽取的效率及准确度都比较高,然而这样高的效率和准确度是以很高的人工维护成本为代价的。比如需要针对不同的网站制订不同的抽取策略及抽取模板。当有较多新的数据源网站增加的时候,这种工作量就会变得非常的大。另外,当某些有用的信息并没有出现在数据源网站上的时候,就不能被检索到。   针对前面所提到的不足之处,本文提出了自动化的抽取方法来抽取新加入的数据源,智能化的抽取方法来处理不在数据源网站上或者没有格式的信息,从而弥补以上缺陷。   (1)本文提出了基于DOM树的自动化信息抽取的方法,使用这种方法在不降低准确度的前提下,不管有多少新的数据源网站加入,都可以实现自动生成模板并对新的数据源网站中的信息进行抽取,大大降低了垂直搜索引擎的开发与维护成本。   (2)针对某些数据源网站中的半结构化文本或者数据源网站之外的有用信息,本文提出了一种基于Bayes分类和句式匹配的方法分别识别与抽取其中的信息,从而可以实现扩大垂直搜索的数据源,使垂直搜索得到的结果更加全面。   为了实现上述两个方法,本文主要做了如下工作:   (1)基于开源搜索引擎Nutch,以本文的理论替代Nutch的信息抽取部分,把Nutch改造成一个垂直搜索引擎从而实现并验证信息抽取的自动化。   (2)基于概念词库系统,首先对要抽取的页面进行智能分类,然后再使用句式匹配的方法对半结构文档进行信息抽取。   本文所提出的理论在以上两个项目中得以验证并取得了良好的效果。   本文创新点为:   (1)实现自动建立模板并针对网页进行信息抽取,减少了垂直搜索引擎的开发与维护的工作量。   (2)实现基于Bayes分类理论的文本智能识别以及基于句式匹配的信息抽取,增加了垂直搜索引擎的数据来源,从而增加了查全率。
其他文献
随着网络技术的飞速发展和嵌入式处理器能力的不断提升,基于嵌入式Linux的网络视频监控系统逐渐成为了监控设备中的主流,因为嵌入式Linux功能强大且费用较低。但是直接移植Linu