基于HTML结构特征的Web数据抽取

来源 :南京大学 | 被引量 : 0次 | 上传用户:tangweichao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
World Wide Web是一个庞大和重要的信息来源,而且其规模还在飞速增长。随着Internet技术的普及和应用,人们越来越依赖Web以获取信息。 现有的Web网页大部分是以HTML进行编码。然而不幸的是,HTML并没有严格的语法约束和语义说明,其自身的设计目标只是为了说明如何对网页进行显示以提供人们浏览,而不是让机器能够直接理解和交换。所以,大量数据也就湮没于这种半结构化的文档当中,无法得到有效的处理。而Web数据抽取技术就是为了自动地发现半结构化的Web数据并将其转化成为结构化的形式,提供给其他Web智能应用程序使用。 尽管对于HTML本身而言,其并没有明显的数据模式,而且常常含有噪声内容。但考虑到HTML文档比一般文本文档具有更多的结构信息,即HTML通过tag的嵌套使用,能够形成一定的层次结构。而网页中的数据对象,往往在这种层次结构中得到有规律地组织和显示。当数据记录是来自于某种数据源,并通过模板形成HTML页面的时候,这种特征尤为明显。也就是说,这类网页的层次结构中隐含着一定的模式,总是以相似的HTML结构形成同类型的数据记录,进而呈现出一致的显示效果。 本文研究了Web数据抽取领域的相关工作以及主要的技术方法。在此基础之上,使用分析HTML结构特征的方法进行Web数据抽取。主要工作如下: (1)针对网页中同类数据记录往往存在一致的HTML结构这一特点,将数据抽取的问题转化为比较和查找相似的DOM子树的问题。 (2)由于网页对应的DOM树往往构造复杂,结构冗余,本文通过构造DOM树所对应的有向无关图DAG来分析网页的结构特征。利用DAG能够压缩DOM树中所有同构子树的特点,自动地比较和查找所有的相似DOM子树,进而对应到发现同类型的数据记录; (3)为了衡量子树之间的相似程度,本文结合Top-Down Mapping和Bottom-Up Mapping两种树的映射方式来进行子树之间相似性的判断;根据符合相似条件的DOM子树对相同类型数据记录进行抽取,再利用树之间的映射对数据项进行匹配; (4)本文描述了这一数据抽取方案在新闻RSS自动生成中的应用。系统通过对日期时间格式的匹配识别出新闻网页中时间信息的出现,结合相似子树的查找,从而确定网页中目标数据记录的分布,通过一定的启发式规则抽取相关的数据项,并生成RSS类型的文件。系统基本上形成了自动的数据抽取工作方式,实现了HTML格式的新闻目录页面向RSS文件的自动转换,在实际应用中,取得了良好的效果。
其他文献
地图是地理信息可视化的信息载体之一。地图整饰需要点、线、面符号和图例、比例尺、指北针等可视化要素,良好的可视化要素风格能使地图使用者迅速、准确的判读地理信息。本文
近年来,随着网络应用的快速发展,大型的分布式环境下的网络应用需求增加。而在分布式环境下出现的访问控制和授权管理问题作为网络安全服务的一个重要研究领域得到了众多学者的
信息技术投资是20世纪90年代企业界和学术界最热门的话题之一。许多大型跨国企业都把对信息技术的投入放在企业的战略位置上。经济学家认为,企业对信息技术的巨额投入必将对全
工作流时间管理是工作流领域的重要研究内容。开展工作流时间管理的研究,对于增强工作流管理系统的柔性、提高工作流各活动执行实体的协作效率、确保工作流计划的高效执行、提
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方
数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按照决策主题的需要重新进行组织,以达到有效决策支持的目标。 数据仓库是多个分布
学位
随着国家科技基础条件平台的建设,各项科技资源不断丰富。科技工作者如何有效地使用这些资源,是网络科技环境必须解决的问题,也是资源整合与共享的关键。在使用资源的同时,科研人
随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C(business-to-customer)发展到B2B(business-to-business),从集中式发展到分布式,Web服务
随着市场经济的飞速发展,税务在社会经济中的作用越来越重要,如何提高税收工作的效率,降低税收成本,更好地服务于广大纳税人,成为税收工作的关键。税务信息化正是在这种背景下应运