论文部分内容阅读
万维网(Web)是世界上规模最大的公共数据源,但Web上信息资源的有效利用是一个难点。Web信息资源大多以HTML文档形式存在,HTML文档的特点决定了它无法作为有效的数据源供目前流行的数据挖掘软件直接使用。因此,如何有效采集Web信息是Web挖掘重点要解决的问题。本文研究如何将Web中的信息采集到结构化数据库中,对Web信息采集的三个过程:网页爬取,页面净化和信息抽取展开了详细论述。网页爬取要解决的问题是通过程序将具有相似结构的网页自动下载到本地,页面净化是对Web页面中无效内容进行清除的过程,信息抽取的任务是编写抽取规则并利用这些规则从具有类似结构的网页中将目标数据项提取出来后存储在结构化数据库中。在网页爬取方面,论文实现了一个自动下载网页的程序MyCrawler,详细阐述了程序实现需要解决的HTTP协议解析、URL提取、页面存储、URL去重与过滤等细节问题,对如何提高程序性能、表单验证、URL搜集策略等关键技术进行了探讨,并在网页相似性规律的基础上提出通过与网页内容无关的URL来指导程序下载与用户兴趣相关的结构相似网页。在网页净化方面,提出利用HTML容器标签对网页进行分块并通过文本密度来识别网页的正文内容块这一简单可行的方法。在信息抽取方面,提出将网页解析成DOM树后使用XPath抽取规则从具有相似结构的网页中提取数据的方法,同时实现了一个信息抽取平台,利用该平台可以很方便的生成XPath信息抽取规则。在文章的最后,结合具体例子(从一个招聘网站采集信息)进行了信息采集实验并取得了良好的效果。