论文部分内容阅读
随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web的信息抽取技术在近年来引起了越来越多的研究者的关注。由于Web页面的内容缺乏严格规范的语法结构,尤其是半结构化页面,所以传统的自然语言处理技术并不能很好地适用于Web信息抽取,另外Web页面被浏览器识别、解释和显示并供用户查看和理解,其中包含了大量的视觉特征,如果把Web页面的这种视觉信息应用于信息抽取,就可以避免使用复杂的语言学知识。因此,如何将基于自然语言理解方式和Web页面的视觉特征有效地结合起来克服各自的缺点,混合使用各种方法进行信息抽取是本文研究的重点。本文结合自然语言处理技术和HTML页面视觉特征在信息抽取中的应用,进行了以下研究工作:1.提出了一种基于视觉特征的数据区域抽取(DREV:Data Region Extractionbased on Vision)算法。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的语义信息,然后在此基础上根据网页的视觉特征规则,使用对块的实体密度(Entity Density)分析,确定待抽取的数据区域。2.提出了一种基于约束满足的记录抽取(RECS:Records Extraction based onConstraint Satisfaction)算法。该方法对数据区域内的实体进行进一步分析,并借鉴约束满足问题(CSP:Constraint Satisfaction Problem)的思想,提出针对半结构化页面的信息抽取的约束规则,对实体进行分类和提取。3.研究了Sheffield大学的自然语言处理平台Gate,并在此基础上设计和实现了一个基于上述原理的数据抽取原型系统VisonWebIE。经验证该系统达到了预期的效果,提高了召回率、准确率和对页面变化的适应能力。