论文部分内容阅读
随着信息时代的蓬勃发展,互联网在带给人们方便的同时,也带来了许多安全问题,其中,以网页欺诈为核心的网络诈骗行为肆意横行。欺诈网页通过各种伪装手段欺骗搜索引擎,提高自身网页排名,从而达到广告、非法传销等目的。在网页欺诈与反欺诈的博弈里,如何快速有效、低成本地检测出欺诈网页,加速构建和谐、安全的互联网环境,成了刻不容缓的问题。在欺诈网页检测的研究中存在两个挑战:一方面,网页基本特征的高维、冗余增加了欺诈网页检测的计算消耗和计算代价,影响检测效率;另一方面,挖掘欺诈网页的过程中可能会泄露敏感数据的隐私。为了应对上述两个挑战,提出了多种有效的特征选择算法,并在此基础上进一步提出一种兼顾数据隐私保护和检测性能的特征选择算法,以及一个高效安全的欺诈网页检测模型。本文首先深入研究了欺诈网页的基本分类以及对应的网页基本特征,并将研究重点放在网页基本特征的优选上,通过分析多种特征选择算法,提出一种基于信息增益(Information Gain,IG)和遗传算法(Genetic Algorithm,GA)的改进特征选择算法IFS-BIGGA,并且得到了最佳最小的特征子集(OMFS)。为了分析对比IFS-BIGGA算法的有效性,本文另外实现了三种基于随机森林和邻域粗糙集的高效的特征选择算法,实验结果证明了IFS-BIGGA算法优于其他特征选择算法。考虑到欺诈网页挖掘中数据隐私保护的重要性,本文结合网页特征选择,在IFSBIGGA的基础上,加入基于条件熵的隐私度和置信度,实现了基于隐私保护的级联特征选择算法PPGAFS,解决了欺诈网页挖掘中提高欺诈网页检测性能和保护数据隐私之间的矛盾,并在此基础上提出了一个高效安全的欺诈网页检测模型WSDM,主要包括数据离散化、数据平衡化、特征选择和分类检测四个阶段。为了验证提出算法和模型的有效性,在WEBSPAM-UK2007数据集上进行了多组对比实验,实验结果表明了提出的基于PPGAFS的欺诈网页检测模型优于其他多种新提出的检测方案,有效保护了数据隐私,并且提高了欺诈网页检测性能。