论文部分内容阅读
World Wide Web是一个庞大和重要的信息来源,而且其规模还在飞速增长。随着Internet技术的普及和应用,人们越来越依赖Web以获取信息。
现有的Web网页大部分是以HTML进行编码。然而不幸的是,HTML并没有严格的语法约束和语义说明,其自身的设计目标只是为了说明如何对网页进行显示以提供人们浏览,而不是让机器能够直接理解和交换。所以,大量数据也就湮没于这种半结构化的文档当中,无法得到有效的处理。而Web数据抽取技术就是为了自动地发现半结构化的Web数据并将其转化成为结构化的形式,提供给其他Web智能应用程序使用。
尽管对于HTML本身而言,其并没有明显的数据模式,而且常常含有噪声内容。但考虑到HTML文档比一般文本文档具有更多的结构信息,即HTML通过tag的嵌套使用,能够形成一定的层次结构。而网页中的数据对象,往往在这种层次结构中得到有规律地组织和显示。当数据记录是来自于某种数据源,并通过模板形成HTML页面的时候,这种特征尤为明显。也就是说,这类网页的层次结构中隐含着一定的模式,总是以相似的HTML结构形成同类型的数据记录,进而呈现出一致的显示效果。
本文研究了Web数据抽取领域的相关工作以及主要的技术方法。在此基础之上,使用分析HTML结构特征的方法进行Web数据抽取。主要工作如下:
(1)针对网页中同类数据记录往往存在一致的HTML结构这一特点,将数据抽取的问题转化为比较和查找相似的DOM子树的问题。
(2)由于网页对应的DOM树往往构造复杂,结构冗余,本文通过构造DOM树所对应的有向无关图DAG来分析网页的结构特征。利用DAG能够压缩DOM树中所有同构子树的特点,自动地比较和查找所有的相似DOM子树,进而对应到发现同类型的数据记录;
(3)为了衡量子树之间的相似程度,本文结合Top-Down Mapping和Bottom-Up Mapping两种树的映射方式来进行子树之间相似性的判断;根据符合相似条件的DOM子树对相同类型数据记录进行抽取,再利用树之间的映射对数据项进行匹配;
(4)本文描述了这一数据抽取方案在新闻RSS自动生成中的应用。系统通过对日期时间格式的匹配识别出新闻网页中时间信息的出现,结合相似子树的查找,从而确定网页中目标数据记录的分布,通过一定的启发式规则抽取相关的数据项,并生成RSS类型的文件。系统基本上形成了自动的数据抽取工作方式,实现了HTML格式的新闻目录页面向RSS文件的自动转换,在实际应用中,取得了良好的效果。