论文部分内容阅读
近年来,随着互联网的飞速发展,网络已成为人们获取信息、传递信息的重要途径,随之而来的是网络信息呈指数级的爆炸性增长。互联网的发展虽然极大地方便了人们的生活,但由于其资源广,范围大,发布信息成本低,监管难等特点,使得许多在有形市场上受到有关执法部门强有力的打击的制假售假者逐渐将售假的平台转移到了网络上来,大量假冒侵权商品在网络上肆无忌惮地出现,一个新的“售假天堂”正在形成。为了打击日益猖獗的网络兜售假冒药品的犯罪行为,减轻工作人员的工作强度,需要对网上药品交易信息进行监测,药品信息监测的关键就是要对浩瀚的网络资源进行主题搜索,而实现主题搜索的就是聚焦爬虫。聚焦爬虫针对某个领域或面向特定主题,以获得较为理想的准确率和召回率。但大多数搜索算法都是用于大主题搜索,而专门用于特定小主题(比如药品交易监测)的搜索效果却不理想。为此,本文主要做的工作包括:1.针对论坛网站和普通网站的网络结构特点的不同,分别提出了不同的页面搜索算法。2.针对小主题搜索效果不佳的问题,在分析现有聚焦爬虫搜索方法的基础上,提出了一种对互联网特定主题进行信息搜索的组合策略。这种组合搜索策略包括页面搜索、相关度分析两部分。页面搜索算法采用了改进型的Fish-Search算法;相关度分析采用了分步算法,其中第一步采用向量空间模型。搜索算法,粗选出大主题;第二步分别采用改进型的朴素贝叶斯分类算法与k最近邻算法,从粗选结果中再精选出相关的小主题。3.在此研究基础上,开发了一套面向网上药品的信息监测系统。通过采集多个网站和论坛页面数据,结果表明,这种组合式搜索策略能有效提高爬虫的运行效率及小主题搜索的查准率。