分布式链接提取及DNS缓存技术研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:chenanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS正负向缓存结构使用层次树保存正向缓存映射,对于异常解析域名单独建立负向缓存映射并用哈希表实现,各节点共享DNS缓存映射队列。缓存策略通过对域名预解析,并将解析的IP存入正向缓存结构,并用异步非阻塞方式并发处理DNS的查询请求,有效加快了DNS的解析速率。经仿真实验验证表明,提高了分布式茶产品爬虫系统的DNS解析效率。通过选取茶产品网站为研究对象,优化提高茶产品主题相关链接提取的准确率和分布式茶产品爬虫的DNS解析效率两个关键技术点,经过实际系统测试表明,分布式茶产品比价爬虫系统的性能得到了一定程度的提升。
其他文献
目的 探讨降钙素原(PCT)对化脓性关节炎的临床诊断价值.方法 根据诊断标准将36例关节炎患者分为化脓性关节炎18例纳入实验组,其它类性关节炎18例纳入对照组,分别进行血清PCT
在魏德圣执导的电影《赛德克·巴莱》中,莫那·鲁道等人清晰地区分了"异族"(日本人)、汉人、蕃人、马赫坡部落和其他部落之间的关系,并以"差等之爱"的儒家原则进行区别对待
清季国难日亟,地学关系军国大事,朝野纷纷办会讲求。甲午战后,邹代钧自承学问不足以办学会,遂创建地图公会译印图籍以为国用。庚子后地方自治主义兴起,福建地学调查会倡言调
本文从新技术的发展与应用及课程体系需求的角度出发,重新构建产品模型制作课程的教学模式,探索项目化教学的实践方式。建立丰富的课程特色实践环节,同时使学生能够熟练掌握模型
IMS技术作为引领未来全IP网络实践中最为重要的技术,其发端于客户中心的经营服务理念。本文对IMS技术的概念以及特点进行了简要的介绍,进而重点分析了IMS技术在电力系统中的
一、新建商品住宅(不含保障性住房)价格变动情况 (一)与上月相比,70个大中城市中,价格下降的城市有16个,上涨的城市有51个,持平的城市有3个。环比价格变动中,最高涨幅为4.6%,最低为下降1.1
目的:Vogt-小柳原田综合征(Vogt-Koyanagi-Harada,VKH)是一种多系统性的自身免疫性疾病,常伴发葡萄膜炎而致盲。为了更好地了解它的发病机制,我们用VKH病人的汗液进行了蛋白质组学和代谢组学的研究。方法:本研究纳入30例VKH患者的汗液样本作为疾病组和30例正常人的汗液样本作为对照组。分别采用了label-free和超高效液相色谱与四级杆-飞行时间(UHPLC-Q-TOF M
【正】 当前,在企业经营机制转换过程中,国营大中型批发企业仍然摆脱不了三角债和效益滑坡的阴影,陷入了巨额亏损的困境,步履维艰。为卸掉这一包袱,极大部分商业批发企业的经
机载液晶显示模块要求重量轻,厚度薄。背光方式逐渐由底背光方式向侧背光方式转变。本文主要介绍了双面侧背光机载液晶显示模块中涉及到的一些相关技术,如液晶屏原屏加固、背光
本文以中职焊接专业为载体,侧重于数字化教学资源实践方面的研究,即现代教育技术在应用中如何做,探讨了在社会需求及信息技术进步有力支撑的大背景下,数字化教学资源实施、推广中