论文部分内容阅读
随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS正负向缓存结构使用层次树保存正向缓存映射,对于异常解析域名单独建立负向缓存映射并用哈希表实现,各节点共享DNS缓存映射队列。缓存策略通过对域名预解析,并将解析的IP存入正向缓存结构,并用异步非阻塞方式并发处理DNS的查询请求,有效加快了DNS的解析速率。经仿真实验验证表明,提高了分布式茶产品爬虫系统的DNS解析效率。通过选取茶产品网站为研究对象,优化提高茶产品主题相关链接提取的准确率和分布式茶产品爬虫的DNS解析效率两个关键技术点,经过实际系统测试表明,分布式茶产品比价爬虫系统的性能得到了一定程度的提升。