搜索引擎排名算法及作弊检测技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ZSMJ_AYA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网成为人们获取信息的重要来源。搜索引擎作为互联网信息检索的入口,在信息获取的过程中扮演着举足轻重的角色。搜索引擎排名算法负责将最有价值的网页优先推荐给用户,它在提高检索服务质量方面起着重要作用。基于链接分析的排名算法(如PageRank)在今天的搜索引擎中取得了巨大的成功,这种排名思想可以应用到很多其他的信息检索系统中。然而搜索引擎排名算法目前面临着一个严重问题,那就是搜索引擎作弊。搜索引擎作弊是指通过不正当的手段,使某些网页在搜索结果中获得高于其实际价值的排名的欺骗行为。搜索引擎作弊不但会增加搜索引擎运行成本、降低搜索性能,而且严重影响用户体验。因此进行搜索引擎作弊检测、剔除互联网上的作弊内容,不论对搜索引擎还是对搜索用户都具有重要意义。本文工作主要包括两个方面:1.将链接分析思想应用到文献检索系统中,提出了一个基于PageRank的文献质量评价算法;2.提出了一个利用扩展策略和链接相似度检测搜索引擎作弊的方法。主要内容概括如下:1.首先对搜索引擎排名算法做了详细的总结分析。在深入研究了搜索引擎排名算法的相关理论和技术的基础上,我们提出了搜索引擎排名算法在文献检索系统中的一个应用:基于PageRank的科技文献质量评价算法。该算法将PageRank思想引入到引文分析中,并综合考虑科技文献发表机构、作者、被引次数、发表时间等因素,改进了传统的文献质量评价方法。实验证实,该算法的评价结果比传统方法更符合人们的期望。2.在对各类搜索引擎作弊技术及目前各种作弊检测技术作了研究综述的基础上,提出了一个基于扩展策略和链接相似度的链接作弊检测方法。我们的方法从一个较小的作弊网页种子集合开始,利用网页间的链接相似关系扩展种子集合,逐步发现更多的作弊网页。目前网页间的链接相似度直接沿用引文分析中的度量指标:Cocitation、Bibcoupling和Amsler。由于忽视了网页间链接关系与论文间引文关系的区别,用这些指标度量网页间链接相似度会出现问题。我们对这些指标进行了修正,提出了三种适用于Web网页的新链接相似度,并将这三种新链接相似度应用到基于扩展策略的链接作弊检测方法中。3.通过实验验证了提出的机遇扩展策略和链接相似度的作弊检测方法。我们在一个公开数据集WEBSPAM-UK2006上测试了我们的方法,对结果进行了比较分析,并与其他检测方法做了对比。首先比较了在基于扩展的方法中新提出的链接相似度与旧链接相似度的检测效果,我们发现新链接相似度的检测准确率更高,但检测结果数量相对较少。其次比较了三种新链接相似度的检测效果,结果显示三种新链接相似度的检测性能各有所长。最后我们将我们的检测方法与两种优秀的检测算法ATR和BRW做了对比,结果表明我们的方法在检测准确率和检测结果数量方面均优于ATR和BRW。
其他文献
随着机动车数量的不断增加,交通拥挤、交通堵塞、交通事故等问题长期困扰着人们。为改善目前恶劣的交通环境,人们对智能交通系统加大了研究力度。而运动车辆的检测和识别算法
3G网络的应用越来越广泛,UMTS移动通信系统是3G的标准体制之一,核心网的安全性决定了整个网络及用户数据的安全,GTP协议是核心网中的核心协议,对它进行研究具有重要的意义。
随着电子商务的快速兴起,人们越来越倾向于网络购物。一方面由于网购交易双方信息的不对称性,使网购用户鉴定商品质量的困难加大,降低电子商务市场的交易效率;另一方面,用户
深度摄像头的出现,大大推动了人体动作识别的发展。深度摄像头的深度图像能提供拍摄目标的深度信息,这些信息可以使研究者高效可靠地提取出人体的骨骼数据。由于骨骼数据能很
传统二胡作为中国最具代表性的民族乐器,是中国民族乐器复兴与发展的良好载体,被广大群众接受。但是传统二胡存在制作工艺复杂,成本高,耗费蟒皮、红木等珍贵动植物资源等特点
随着云计算技术的发展,为了减轻数据存储和管理负担,越来越多的企业或个人选择将数据文件外包存储在云端服务器上。为了保护数据隐私,用户需要在数据外包之前对数据进行加密,
随着社会经济的高速发展和网络的迅速普及,网站作为一种通讯工具已经成为企业、个人发布信息或提供网络服务的主要工具。目前很多企业都拥有自己的网站,他们利用网站来宣传企
近年来我国制造行业飞速发展,钣金、制衣、玻璃、造纸等行业均涉及到切割工艺。排样问题是在有限的原材料上寻求科学、有效的方法切割出更多的零件。优化设计排样可以降低企
随着计算机技术的发展和CAD的广泛应用,类似于PDM(Product Data Management,产品数据管理)系统的信息管理系统不断涌现,BOM系统作为ERP系统的一个重要环节,由于其使用周期长,
数据挖掘是从大量数据中发现潜在的有价值的知识,其主要任务包括回归分析(Regression)、关联分析(Association rule learning)、分类分析(Classification)、聚类分析(Cluster