论文部分内容阅读
搜索质量是搜索服务的核心,决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面,同时也要针对低质量,甚至是人为“高质量”的作弊页面进行甄别和处理。本文主要针对页面作弊分类检测中基于内容的作弊分类检测技术方法进行了研究,并将文本分类中朴素文本分类和KNN分类方法应用于页面的二值分类检测上。论文将作弊页面的甄别看作是正常和作弊的二值分类过程。首先论文将页面的四个组成元素(标题、关键字、描述和正文)之间的相似度作为网页的文本特征并构建向量空间,然后应用朴素文本分类方法,在相似度的计算和阈值的确定上分别采用余弦值及欧式距离和迭代取值的方式,来达到最好的分类效果,实验结果说明采用类朴素文本分类方法正负样本无法同时取得较理想的召回率。为解决上述问题,论文分析了样本中部分特征之间的2维散列图,发现正负样本的局部交错分布导致无法根据某一个阈值来明确页面的类别归属,为此采用基于有监督的KNN分类方法,并增加了页面的特征维度,而且对页面特征进行了标准化,以降低特征度量单位差异化导致的分类偏差问题,最终通过实验结果表明该分类方法相比于类朴素文本分类方法在正负样本召回率上能够同时取得更满意的效果。应用上述分类方法,论文构建了一个新闻类的垂直搜索作弊分类检测原型系统,并针对系统的各个模块,如页面爬取模块、页面特征抽取模块、二值分类模块等的设计和实现进行了简略性的叙述。并对系统在使用分类检测前后,spam页面比例差异性情况,以及不同的页面元素,如标题、关键字等激励权重大小情况下的spam比例,进行了相关测试和分析。结果表明使用分类检测搜索质量明显好于不使用分类检测。论文最后对研究工作做了简要性的总结,并对文中未充分考虑的问题进行了讨论和展望。