深度web采集系统的设计与实现

被引量 : 3次 | 上传用户:bobo20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展以及互联网内容的爆炸式增长,人们开始关注这些海量信息背后隐藏的内容,也就是对web信息的数据挖掘,作为数据挖掘的基础----数据采集,则直接决定了数据挖掘的质量。然而,已有的信息采集系统,在某些方面还不够完善,如对使用AJAX技术的动态页面支持较差,以及没有有效应对服务器的反抓取措施等。本文提出一种使用JAVA语言开发的深度web信息采集方案,该方案包括采集策略配置、一般/深度采集、自动代理技术,以及采集内容的索引和后续处理等一系列技术,初步实现了一个简要的深度web信息采集系统;并以百度搜索、网易新闻(包括评论)、京东商城作为测试网站,完成了该系统测试工作。本系统基于现有的web信息采集技术,首先将深度采集所涉及的各种策略和行为整合为对应的网络模板,再基于开源的HtmlUnit模块实现相关行为,完成深度采集,最终将得到的数据进行字段提取、构建索引并写入数据库,完成整个采集过程。同时,系统提供了友好的用户界面,方便用户创建、管理采集任务,以及实现对已采集内容的检索。在介绍深度web信息采集系统设计的基础上,本文详细阐述了网站模板编辑/管理模块、一般页面下载模块、深度页面采集模块、网页去重模块、自动代理模块、网页索引模块以及字段抽取模块的设计和实现。由于本系统使用Java语言开发,在保证界面友好的前提下,整个系统具有良好的跨平台性,既可以在Windows下运行,也可以在Linux下运行。该系统将轻量级无界面web测试引擎HtmlUnit引入到信息采集中,使得系统可以支持更多网站的动态页面采集。同时,系统的插件化设计使得其具有良好的可扩展性和二次开发性,用户可以通过添加模板以采集所需的信息,也可以通过加载其他功能模块(数据库接口、采集引擎)来支持更大规模的数据采集,或者对动态页面的更好解析,真正实现了系统的易用性、高效性、扩展性。
其他文献
产业规制作为政府规范产业发展、提高资源配置效率和增进公共福利的重要手段,是政府实现其必要的社会和经济目标的重要途径。然而,越来越多的政策实践表明,政策在从政策目标
长期以来,我国公共空间作为客观的、实体的、容纳人及其活动的物质空间属性以及视觉和审美的价值受到了学者与规划设计者更多、更广泛的重视,而其物质空间实体同抽象的社会、
西方现代主义的源头及重要流派象征主义,五四前后登陆中国就对中国新诗的建设、发展生了深远的影 响。从李金发的象征诗歌开始,象征主义逐渐为中国新诗坛所接纳,并被探索中
白玉蟾是南宋时道教内丹南宗第五代祖师,他不但道行很高,对内丹南宗理论发展做出了巨大贡献,而且才华横溢,有不少诗词作品传世。其中既有文学性很强的、“脱尽方外习气”的文
珠江三角洲地区是我国水资源极为丰富的地区之一,然而,20 a余的经济快速发展,加上急剧的城市化,正在使这一优势环境条件变为劣势,区域水环境问题日益突出,已经成为区域可持续
分配涉及各行为主体的权益实现,关系到企业效率、社会公平与国家的可持续发展能力。企业的要素使用权交易性质决定利润性质与分配公平性,缺乏公平交易产生的企业利润是收益而
改革开放以来,我国在转变经济发展战略和改变二元经济结构方面取得了显著成效。但我国的城乡差距仍然在不断拉大,农村经济社会发展仍然严重滞后。统筹城乡经济社会发展,逐步
高层建筑、地铁工程等随着城市建设的发展大量涌现,使得超深基坑大量出现,因此承压水对基坑工程的影响凸显。本文围绕杭州庆春路过江隧道工程中遇到的承压水问题,对杭州地区
在我国大型连锁企业的公司高层会议的议程中,税务问题越来越频繁地出现,大型连锁企业面临着前所未有的税务压力。为了加强大企业税收管理及纳税服务工作,指导大企业开展税务风险