分布式手机软件应用搜索爬虫系统设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:francis123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,手机应用商店越来越多,出现了很多恶意的应用,商店的监管成为一个很大的问题。开发针对手机应用商店的爬虫系统,并且对恶意信息进一步的筛选,提供数据用于相关部门的检测非常必要。首先介绍了系统的研究背景,对搜索爬虫等相关知识做了简单的介绍。再对本分布式爬虫系统所用到的关键技术进行了研究,包括分布式任务分配策略、生产网和办公网通信、JS信息的获取。在分布式任务分配策略中提出了适合本系统的任务分配策略,在JS信息的获取提出了一种基于IDA逆向分析技术,在生产网和办公网之间通信使用了rabbitmq消息队列服务器完成信息交互。基于前面研究的关键技术,以互联网上的手机应用商店为基础,开发出分布式手机软件应用搜索爬虫系统。本系统主要包括以下几个模块,控制管理服务器模块、爬虫服务器模块、生产网和办公网通信模块、数据库模块、下载上传模块和检索服务器模块。对这几个模块进行了详细的设计研究,给出了设计流程图。根据设计流程图编码实现了具体的模块,最后对整个系统运行,得到了运行结果。通过对整个系统运行结果统计分析,本系统的分布式爬虫设计实现对比单台爬虫服务器的爬取效率高一些;爬取网页的覆盖率、可靠性、页面更新情况都比较理想;解决了一些含有JS信息的动态网页信息获取问题,包括下载链接不能获取、下拉显示等问题,使页面信息、的爬取更加完整;使用rabbitmq服务器能够比较好的解决生产网和办公网之间的通信问题;对在手机应用商店的恶意应用具有一定的发掘能力,为后续相关人员检测做了初步的筛选;检索模块不但提供查询功能,对相关的模块可以进行增删改查操作,使用户体验更好。本分布式手机软件应用搜索爬虫系统能够比较好的满足用户的个性化需求,具有比较大的实际意义。本文主要工作有以下几点:1.为了满足系统高效性、可扩展性:做了分布式爬虫系统,其中对分布式任务下发策略做了研究,对分布式中控制管理服务器和爬虫服务器之间的通信机制进行了设计实现。2.为了满足系统覆盖率、可靠性:对网页中的动态网页爬取做了详细研究,使用了网络抓包、模拟浏览器方法和基于IDA逆向技术的方法对动态网页爬取做了设计实现。3.为了满足系统的及时性:对爬取网页的机制做了研究,根据本文设计的更新策略,爬取手机应用软件商店。4.为了满足系统数据安全性:在生产网和办公网之间使用了物理隔离,对生产网和办公网信息交互做了研究,使用了rabbitmq服务器传输生产网和办公网信息。
其他文献
兴趣对初中生数学学习的影响是显著而久远的,对学生学习兴趣的研究也一直是学者们关注的领域,及一线教师关注的焦点。目前关于学生数学学习兴趣的研究更多是从教学模式、教师
文章以知识服务及相关理论为研究基础,引入"能力理论"并将其嵌入到数字图书馆知识服务能力的研究中,系统分析了数字图书馆知识服务能力的现存问题、研究的重要性和知识服务能
<正>中国社会科学出版社2013年10月出版,全书约43万字。该书从自下而上和自上而下相结合的视角,同时借鉴环境科学、政治学、经济学和社会学等跨学科研究成果和方法,综合考察