论文部分内容阅读
随着Web的快速发展,如何从Web网站中获得想要的信息成为亟待解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一个研究热点。Web信息抽取需要解决的问题是:如何使信息抽取免受页面结构差异和页面结构变化的影响,并尽可能地减少人为参与。
针对上述问题,目前出现了一种全新的基于分块的Web信息抽取技术,即先将Web页面分成若干个相互独立的语义块,再根据不同的应用,从中选取具有相应语义特征的语义块进行信息抽取。新的抽取方式不仅有效降低了信息抽取问题的复杂度,而且大幅度提高了信息抽取的精确度。
本文的研究重点是如何设计并实现一种准确、自动、智能、高效、简单的Web页面分块算法,以及该算法在Web信息抽取中的应用。首先本文提出了一种基于HTML标签分布统计的Web页面分块算法MDSPS,详细描述了MDSPS的基本原理、实现过程,并与现有的两种经典Web页面分块算法:HTML分块解析方法和VIPS分块算法进行分析比较。其次,本文提出了块层次结构获取算法,能够根据MDSPS分块算法的分块结果,得到Web页面的块层次结构。本文同时给出了块语义特征分析方法,能够简单有效地提取块的语义特征。利用块语义特征分析方法,以块结构层次为基础,针对不同的Web应用,能够从大量的语义块中快速准确选取相应的特定语义块,提高Web信息抽取的准确度。最后,通过展示MDSPS在本课题组所实现的基于分类本体的Web信息集成系统NEU-WIIS中的具体应用,详细描述Web页面分块在Web信息抽取中的作用,由此证明MDSPS分块算法和基于分块的Web信息抽取方式具有良好的性能,能够满足实际应用的需求。