论文部分内容阅读
随着互联网的不断发展,手机应用商店越来越多,出现了很多恶意的应用,商店的监管成为一个很大的问题。开发针对手机应用商店的爬虫系统,并且对恶意信息进一步的筛选,提供数据用于相关部门的检测非常必要。首先介绍了系统的研究背景,对搜索爬虫等相关知识做了简单的介绍。再对本分布式爬虫系统所用到的关键技术进行了研究,包括分布式任务分配策略、生产网和办公网通信、JS信息的获取。在分布式任务分配策略中提出了适合本系统的任务分配策略,在JS信息的获取提出了一种基于IDA逆向分析技术,在生产网和办公网之间通信使用了rabbitmq消息队列服务器完成信息交互。基于前面研究的关键技术,以互联网上的手机应用商店为基础,开发出分布式手机软件应用搜索爬虫系统。本系统主要包括以下几个模块,控制管理服务器模块、爬虫服务器模块、生产网和办公网通信模块、数据库模块、下载上传模块和检索服务器模块。对这几个模块进行了详细的设计研究,给出了设计流程图。根据设计流程图编码实现了具体的模块,最后对整个系统运行,得到了运行结果。通过对整个系统运行结果统计分析,本系统的分布式爬虫设计实现对比单台爬虫服务器的爬取效率高一些;爬取网页的覆盖率、可靠性、页面更新情况都比较理想;解决了一些含有JS信息的动态网页信息获取问题,包括下载链接不能获取、下拉显示等问题,使页面信息、的爬取更加完整;使用rabbitmq服务器能够比较好的解决生产网和办公网之间的通信问题;对在手机应用商店的恶意应用具有一定的发掘能力,为后续相关人员检测做了初步的筛选;检索模块不但提供查询功能,对相关的模块可以进行增删改查操作,使用户体验更好。本分布式手机软件应用搜索爬虫系统能够比较好的满足用户的个性化需求,具有比较大的实际意义。本文主要工作有以下几点:1.为了满足系统高效性、可扩展性:做了分布式爬虫系统,其中对分布式任务下发策略做了研究,对分布式中控制管理服务器和爬虫服务器之间的通信机制进行了设计实现。2.为了满足系统覆盖率、可靠性:对网页中的动态网页爬取做了详细研究,使用了网络抓包、模拟浏览器方法和基于IDA逆向技术的方法对动态网页爬取做了设计实现。3.为了满足系统的及时性:对爬取网页的机制做了研究,根据本文设计的更新策略,爬取手机应用软件商店。4.为了满足系统数据安全性:在生产网和办公网之间使用了物理隔离,对生产网和办公网信息交互做了研究,使用了rabbitmq服务器传输生产网和办公网信息。