支持JavaScript解析的网页采集系统设计与实现

被引量 : 0次 | 上传用户:ajianginger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(Coherent with Users’Vision Information, CUVI)的页面,这一概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面内JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上解决采集CUVI页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷;在实现上,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IP FIFO (Fist In FistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。
其他文献
热喷涂碳化钨(WC)涂层被广泛应用在各种需要抗强烈的磨粒磨损的场合,爆炸喷涂以其优良的耐磨性能成为热喷涂领域的重要分支。由于成本较高、生产率较低,一般应用在军事与航天
引言造血干细胞是目前研究较为深入的成体干细胞,具有向髓系、淋巴系及其下游细胞多向分化的潜能,是极富应用前景的研究领域。血细胞形成是生物体发育和生命维持的重要环节之
研究目的本研究对广州市某三甲医院试行单病种定额、限额结算的病种住院费用进行分析,与非定额、限额结算的医保病人住院费用进行对比,分析医保政策的费用控制效果,按单病种
椎间盘突出的过程不仅表现为形态学上的变化。同时也伴随有椎间盘的组织学与生化性质的一系列改变。细胞因子在椎间盘退行性变的病理过程中及由此所引起的临床症状。如轴性颈
铜合金由于其优异的导热、导电性能和一定的强度,因而在国民工业中应用越来越广泛,而随着工业技术的发展,制备性能更优异的铜合金也成为了一个重要研究方向。对于高强度高电
第一部分:垂体柄相关膜性结构的解剖组织学研究一、研究背景人们对神经系统膜性结构的发现较早,但认识较晚。Vinas曾将人们对蛛网膜和脑池的认识归纳为解剖学、神经放射学和显
目的:糖尿病视网膜病变(diabetic retinopathy DR )是糖尿病常见微血管并发症之一,也是使人致盲的眼病之一,如何及早正确的防治DR成为亟待解决的问题。但是其发病机制尚不十
目的通过在我国西部农村地区开展饮水与环境卫生健康教育干预活动,改善群众生活的环境状况,提高群众卫生知识水平并形成正确的卫生行为;通过开展效果评价分析健康教育干预的效
急性冠脉综合征(acute coronary syndrome, ACS)是一类严重威胁人类健康的疾病,早期再灌注治疗可使闭塞的冠状动脉再通,濒临坏死的心肌得以存活或使坏死范围缩小,因此是一种
大批量定制结合了定制生产和大规模生产的优势,在保持低成本的同时,以较短的交货期满足客户的个性化需求。产品族技术是实现大批量定制生产方式的重要手段。为解决产品族规划