分布式链接提取及DNS缓存技术研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:chenanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS正负向缓存结构使用层次树保存正向缓存映射,对于异常解析域名单独建立负向缓存映射并用哈希表实现,各节点共享DNS缓存映射队列。缓存策略通过对域名预解析,并将解析的IP存入正向缓存结构,并用异步非阻塞方式并发处理DNS的查询请求,有效加快了DNS的解析速率。经仿真实验验证表明,提高了分布式茶产品爬虫系统的DNS解析效率。通过选取茶产品网站为研究对象,优化提高茶产品主题相关链接提取的准确率和分布式茶产品爬虫的DNS解析效率两个关键技术点,经过实际系统测试表明,分布式茶产品比价爬虫系统的性能得到了一定程度的提升。
其他文献
目的:Vogt-小柳原田综合征(Vogt-Koyanagi-Harada,VKH)是一种多系统性的自身免疫性疾病,常伴发葡萄膜炎而致盲。为了更好地了解它的发病机制,我们用VKH病人的汗液进行了蛋白质组学和代谢组学的研究。方法:本研究纳入30例VKH患者的汗液样本作为疾病组和30例正常人的汗液样本作为对照组。分别采用了label-free和超高效液相色谱与四级杆-飞行时间(UHPLC-Q-TOF M
机载液晶显示模块要求重量轻,厚度薄。背光方式逐渐由底背光方式向侧背光方式转变。本文主要介绍了双面侧背光机载液晶显示模块中涉及到的一些相关技术,如液晶屏原屏加固、背光