基于分块的网页信息提取算法研究及应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:danrushui_80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的快速发展,如何从Web网站中获得需要的信息成为急需解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一个研究热点。Web信息抽取需要解决的问题是:如何在复杂的页面结构中准确抽取有用的信息,并尽可能地减少人为参与。  针对上述问题,目前出现了一种基于分块的Web信息抽取技术,即先将Web页面分成若干个相互独立的语义块,再根据不同的应用,从中选取具有相应语义特征的语义块进行信息抽取。新的抽取方式不仅有效降低了信息抽取问题的复杂度,而且大幅度提高了信息抽取的精确度。  本文分析了目前网页分块的各种算法,包括HTML标签分析方法,VIPS分块算法,DOM树分块算法,重点研究了基于统计的Web页面分块算法,以及该算法在Web信息抽取中的应用。首先本文提出了一种基于HTML标签分布统计的Web页面分块算法MDSPS,详细描述了MDSPS的基本原理、实现过程,并与现有的两种经典Web页面分块算法:HTML分块解析方法和VIPS分块算法进行分析比较。其次,本文提出了块层次结构获取算法,能够根据MDSPS分块算法的分块结果,得到Web页面的块层次结构。本文同时给出了块语义特征分析方法,能够简单有效地提取块的语义特征。利用块语义特征分析方法,以块结构层次为基础,针对不同的Web应用,能够从大量的语义块中快速准确选取相应的特定语义块,提高Web信息抽取的准确度。最后,介绍上述分块算法在信息提取和网页分类中的应用。
其他文献
随着信息技术的发展,软件规模不断扩大,如何保证和提高软件质量成为软件工程最为关心的问题之一。软件测试作为保证软件质量的关键技术之一,能够有效地发现软件中的故障。但
随着互联网网页数量的日益增多,如何提高搜索引擎的效率是近些年学术界及工业界都在极力解决的问题。搜索引擎的基本检索数据结构是倒排索引,近几年,许多研究都专注于提升倒排索
运动目标的分割是计算机视觉领域里一个重要的研究方向,它是一个应用基础研究并富于挑战性。它不限于某个特定问题,而是应用了多学科的理论,对该领域的研究具有重要的理论价
随着我军武器装备建设由机械化向信息化、数字化的跨越,软件在军事装备领域得到了更加广泛的使用,在一些先进的复杂武器系统中,软件已成为了武器系统作战能力和系统性能提升的关
目前随着系统复杂度的增大和电子设计自动化技术的提高,验证过程在整个集成电路系统设计中所占的份量也越来越大,验证工作需要大量的人力资源和财力资源,并逐渐演变成设计工
自从20世纪60年代集成电路技术问世以来,芯片的集成度便一直按照摩尔定律保持着指数量级的增长,虽然由此带来了性能的巨大提升,但也使得计算机系统的功耗越来越大,并由此引发了一
近年来,数据挖掘己经引起了信息产业界的极大关注,这是快速增长的数据量和相对贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球
Web已经融入到现代人类生活的各个方面,然而网站在可用性方面却存在诸多的问题,导致那些既非计算机专家,又非领域专家的普通用户无法正确理解和使用。为了提高Web可用性,设计
计算机图形学和虚拟现实技术的巨大进步,为数字奥运博物馆(DigitalOlympic Museum,简称DOM)原型系统提供了强大的理论指导和技术支持。本文描述了DOM原型系统的设计与实现,以
随着超级计算需求的扩大,人们把高性能计算更多的应用于数据挖掘应用、图像处理业务、基因测序比对处理等数据处理领域。科学计算的规模迅速膨胀,使得传统的串行计算已经不能满