论文部分内容阅读
                            
                            
                                随着因特网规模的不断扩大,网络用户越来越依靠搜索引擎等网络工具来从网络上获取他们想要的信息。然而,通用搜索引擎面对日益增长的网络规模以及人们对个性化信息检索的需要往往力不从心。主题搜索引擎,亦称垂直搜索引擎通过把搜索应用限制在特定的主题上,提供个性化,专业化的搜索服务,提高了服务质量,同时也节约了计算及网络资源。论文围绕网页和主题的特征提取方法、特征权重计算方法以及链接上下文长度对主题网络爬虫性能影响的问题开展了以下的研究工作:针对经典的MI互信息方法倾向于选择低频词条而CHI统计方法倾向于选择高频词条的问题,提出一种新的EXM方法,该方法加入类内词频和分散度因素,把两者结合。实验结果表明新方法能有效提升文本分类的准确率达5%至12%,可用于网络爬虫主题特征提取。针对二元特征提取优势率算法OR由于忽视词频因素而在中低维数情况下性能较差的问题,提出EOR算法。该算法引入了类内词频及分散度因素,提升了中低维数下文本分类的准确度5%左右,可以有效降低文本向量的维数。把EOR特征提取过程中计算得到的词条EOR分值与词频TF结合得到特征词权重计算方法TF-EOR。实验表明,该方法比传统TF-IDF能提升网络爬虫抓取精确度4%左右,与同类型的TF-MI和TF-CHI相比也略有优势。应用EOR特征提取方法和TF-EOR权重计算方法改造通用网络爬虫Larbin,使其成为主题网络爬虫Tlarbin。性能评测表明Tlarbin能有效地抓取主题相关网页,其抓取准确率优于朴素最佳优先搜索、Shark Search及Larbin原型。在Tlarbin平台上,对URL上下文作为URL相关度预测因子对爬虫性能的影响做了定量分析。实验结果表明,URL上下文在考虑父网页相关度因素的情况下对爬虫性能基本没有影响,而在不考虑父网页相关度时随着长度增加能不断改进爬虫的抓取准确率。