Web页面分块算法MDSPS及其在Web信息抽取中的应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:jieean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的快速发展,如何从Web网站中获得想要的信息成为亟待解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一个研究热点。Web信息抽取需要解决的问题是:如何使信息抽取免受页面结构差异和页面结构变化的影响,并尽可能地减少人为参与。 针对上述问题,目前出现了一种全新的基于分块的Web信息抽取技术,即先将Web页面分成若干个相互独立的语义块,再根据不同的应用,从中选取具有相应语义特征的语义块进行信息抽取。新的抽取方式不仅有效降低了信息抽取问题的复杂度,而且大幅度提高了信息抽取的精确度。 本文的研究重点是如何设计并实现一种准确、自动、智能、高效、简单的Web页面分块算法,以及该算法在Web信息抽取中的应用。首先本文提出了一种基于HTML标签分布统计的Web页面分块算法MDSPS,详细描述了MDSPS的基本原理、实现过程,并与现有的两种经典Web页面分块算法:HTML分块解析方法和VIPS分块算法进行分析比较。其次,本文提出了块层次结构获取算法,能够根据MDSPS分块算法的分块结果,得到Web页面的块层次结构。本文同时给出了块语义特征分析方法,能够简单有效地提取块的语义特征。利用块语义特征分析方法,以块结构层次为基础,针对不同的Web应用,能够从大量的语义块中快速准确选取相应的特定语义块,提高Web信息抽取的准确度。最后,通过展示MDSPS在本课题组所实现的基于分类本体的Web信息集成系统NEU-WIIS中的具体应用,详细描述Web页面分块在Web信息抽取中的作用,由此证明MDSPS分块算法和基于分块的Web信息抽取方式具有良好的性能,能够满足实际应用的需求。
其他文献
特征提取是模式识别中的一个关键步骤。提取包含丰富判别信息的特征对于模式识别系统来说,具有非常重要的意义。而且,近年来,随着生物特征识别技术和相关应用的发展,对特征提取算
电子选举是采用电子化手段进行注册、投票和计票的选举形式。电子选举方案的研究主要包括Mix-net方案、盲签名方案、同态加密方案和各种特殊形式的电子选举方案。这些方案各
互联网的飞速发展使人与人之间的交流超越了时间和空间的限制,打破了国家与地区间有形和无形的壁垒,实现了全球性的资源共享,但同时也对网络安全提出了新的挑战。 入侵检测系
企业生产过程中产生的各种数据是企业进行生产管理、实施生产控制、乃至生产决策的重要依据。因而,数据采集已经成为企业生产过程中不可或缺的重要环节,成为企业科学管理,安
在20世纪90年代中期,Shor量子因子分解算法和Grover量子搜索算法的相继提出,引起了人们对量子计算与量子信息的极大兴趣,这是因为这两个算法充分展示了量子计算机在某些方面能够
随着IP(Internet Protocol)技术的日益成熟,光靠降低通信价格和提高话音质量的IP终端已经无法满足人们日益增长的个性化需求,也很难在日渐白热化的市场竞争中占有一席之地,电信
学位
可靠性是机电产品的重要质量指标,本文依据机电产品的特点详细介绍了可靠性试验、可靠性特征量、寿命分布类型和失效分析等可靠性理论,为信息管理系统和寿命数据解析系统的开
计算机的普及以及计算机网络技术的成熟与发展,为基于Web的远程教育提供了发展的契机。Internet上多媒体通信的发展引发了对传统教育模式的新一轮革命,以网络为特征的多媒体
嵌入式图形用户界面通常具有空间占用小、运行速度快、控件丰富、开发周期短、稳定可靠等特征。X Window(通称X)作为Linux系统领域最为成熟的窗口系统,可支持多种风格的用户
近几年,大规模开放网络课程MOOC引发全球的关注和参与。自动答疑是MOOC平台中重要的辅助教学模式,采用问答系统实现自动答疑是目前研究的热点内容。目前国内多数教学问答系统对