Web挖掘中信息采集技术研究与实现

来源 :北京物资学院 | 被引量 : 8次 | 上传用户:qnmdmn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(Web)是世界上规模最大的公共数据源,但Web上信息资源的有效利用是一个难点。Web信息资源大多以HTML文档形式存在,HTML文档的特点决定了它无法作为有效的数据源供目前流行的数据挖掘软件直接使用。因此,如何有效采集Web信息是Web挖掘重点要解决的问题。本文研究如何将Web中的信息采集到结构化数据库中,对Web信息采集的三个过程:网页爬取,页面净化和信息抽取展开了详细论述。网页爬取要解决的问题是通过程序将具有相似结构的网页自动下载到本地,页面净化是对Web页面中无效内容进行清除的过程,信息抽取的任务是编写抽取规则并利用这些规则从具有类似结构的网页中将目标数据项提取出来后存储在结构化数据库中。在网页爬取方面,论文实现了一个自动下载网页的程序MyCrawler,详细阐述了程序实现需要解决的HTTP协议解析、URL提取、页面存储、URL去重与过滤等细节问题,对如何提高程序性能、表单验证、URL搜集策略等关键技术进行了探讨,并在网页相似性规律的基础上提出通过与网页内容无关的URL来指导程序下载与用户兴趣相关的结构相似网页。在网页净化方面,提出利用HTML容器标签对网页进行分块并通过文本密度来识别网页的正文内容块这一简单可行的方法。在信息抽取方面,提出将网页解析成DOM树后使用XPath抽取规则从具有相似结构的网页中提取数据的方法,同时实现了一个信息抽取平台,利用该平台可以很方便的生成XPath信息抽取规则。在文章的最后,结合具体例子(从一个招聘网站采集信息)进行了信息采集实验并取得了良好的效果。
其他文献
孝是古代宗法制度的产物,其最初含义主要表现在宗教祭祀方面,其目的在于维护社会的等级秩序。随生产力的发展,权力的再分配提上日程,与此相关,礼崩乐坏,父子相残。孔子鉴于这
随着社会经济的飞速发展,人们的生活水平得以快速提升,但随之而来的却是土壤严重污染,我国又是农业大国,土壤污染严重影响着农业发展。近些年,我国城市化、工业化进程持续加深,环境污染状况亦是逐渐严峻,土壤污染与水污染、大气污染等事件更是不断涌现,环境污染治理急需解决,尤其土壤污染治理十分必要。本文探讨了污染产业转移背景下的农村环保制度创新,并提出了实用性应用措施,为农村环保水平的提升提供参考依据。
近年来,滨州畜牧业有了长足的发展,市政府提出了实现畜牧大市向畜牧强市转变的目标。但是,滨州畜牧业在发展过程中存在的矛盾和问题,面临严峻的挑战。面对挑战和存在的问题,
当下党和国家对职业教育的重视程度与日俱增,但是职业教育体系仍存在不可忽视的弊端,阻碍了职业教育的广泛开展,而国家适时出台了《关于发展现代职业教育的决定》(以下简称《
本文主要涉及化学科职前教师教育的理论、课程设置现状、中国化学科职前教师教育课程设置的改革策略等三个问题。一是化学科职前教师教育的理论问题。职前教师教育首先是高等
目的:本研究针对盆腔炎反复发作这一临床治疗亟待解决的难点问题,开展盆腔炎反复发作中医证候分布规律的研究,初步探讨盆腔炎反复发作的中医证候分布规律及证候学特征,以逐步