论文部分内容阅读
钓鱼攻击的频繁出现威胁了社交平台的安全与稳定,钓鱼网页检测己成为维护网络空间安全的一项重要研究任务。随着钓鱼攻击技术的升级,传统的检测方法提取的内容特征不再适用于新网页,同时计算代价较高。于是,在总结已有研究的基础上,将网页类型判别看作网页间比较与聚类的问题,利用基于DOM(Document Object Model)结构的聚类方法检测钓鱼网页。主要工作有以下两方面。
(1)针对网页文本特征分析过程中复杂度高、相似度计算准确度较低的问题,完全利用结构信息构建网页特征向量,提出改进的TCDC(Tag Class Difference Calcuiation)算法,以标签向量与样式属性向量差异的综合值来衡量网页相似度。该方法弥补了传统方法中忽略网页标签顺序、重要度的缺陷。同时提出了DSC(DOM Structure Clustering)聚类算法,通过ICPS(Initial Center Point Selection)算法解决初始中心集选取问题,利用优化后的相似度迭代地对训练网页划分直至聚类结果稳定。未知网页的归类通过其与类簇中心比较结构相似度来完成,最终根据类标签确定未知网页类型。实验结果表明,所提算法计算的相似度更为准确,检测具有较高的TPR(True Positive Rate)与较低的FPR(False Positive Rate)值。
(2)针对网页比较过程中的耗时问题,将压缩算法应用到网页指纹生成过程中,加快了未知网页的判别速度。基于改进压缩编码的FG(Fingerprint Generation)算法能在保留特征顺序的同时得到其压缩表示。第一个阶段利用压缩算法得到网页顺序标签编码序列,选取浅层编码信息作为初始指纹。第二个阶段对重复编码进行二次压缩转换,以最终的编码序列作为网页的指纹。生成指纹后,采用FC(Fingerprint Comparison)算法进行指纹比较。实验结果表明,用所提指纹生成算法判别所得TPR与FPR指标优于经典指纹生成算法。与直接向量比较方法相比,运用指纹生成算法减少了网页向量比较的时间,提高了待测网页的归类速度。
(1)针对网页文本特征分析过程中复杂度高、相似度计算准确度较低的问题,完全利用结构信息构建网页特征向量,提出改进的TCDC(Tag Class Difference Calcuiation)算法,以标签向量与样式属性向量差异的综合值来衡量网页相似度。该方法弥补了传统方法中忽略网页标签顺序、重要度的缺陷。同时提出了DSC(DOM Structure Clustering)聚类算法,通过ICPS(Initial Center Point Selection)算法解决初始中心集选取问题,利用优化后的相似度迭代地对训练网页划分直至聚类结果稳定。未知网页的归类通过其与类簇中心比较结构相似度来完成,最终根据类标签确定未知网页类型。实验结果表明,所提算法计算的相似度更为准确,检测具有较高的TPR(True Positive Rate)与较低的FPR(False Positive Rate)值。
(2)针对网页比较过程中的耗时问题,将压缩算法应用到网页指纹生成过程中,加快了未知网页的判别速度。基于改进压缩编码的FG(Fingerprint Generation)算法能在保留特征顺序的同时得到其压缩表示。第一个阶段利用压缩算法得到网页顺序标签编码序列,选取浅层编码信息作为初始指纹。第二个阶段对重复编码进行二次压缩转换,以最终的编码序列作为网页的指纹。生成指纹后,采用FC(Fingerprint Comparison)算法进行指纹比较。实验结果表明,用所提指纹生成算法判别所得TPR与FPR指标优于经典指纹生成算法。与直接向量比较方法相比,运用指纹生成算法减少了网页向量比较的时间,提高了待测网页的归类速度。