论文部分内容阅读
钓鱼网站检测已经形成钓鱼攻击和钓鱼检测相互博弈的局面。钓鱼检测的方向和技术因为钓鱼攻击技术的不断升级,需要寻求新的角度。在特征计算方面,钓鱼网站检测方法计算钓鱼网站与单一疑似目标网页的相似性,这一特点导致判断钓鱼网站的条件过于简单;在网页特征提取方面,钓鱼网站的检测不仅缺乏对网页和网页特征之间独立性的保证,而且特征提取也只是以网页本身为主。这两方面都造成钓鱼检测技术易于被反检测,从而降低了检测的效率和准确率。因此从基于人类视觉行为降低网页和网页特征的相关度的角度和从复杂化特征计算的角度,针对反检测展开对钓鱼网站检测的研究,主要内容如下:(1)提出基于改进TCD特征空间转换的钓鱼网站检测算法。对能够表达网页外部特征的基元相关性算子(Texton Correlation Descriptor,TCD)进行改进,使其更能契合钓鱼检测对特征的要求。首先改进基元相关性算子中底层纹理特征提取方法;其次提出结合基于位置加权的欧式距离和双十字窗口选择邻域的方法,改进特征相关性统计;然后基于空间关系将图像化网页的集合,映射到新的特征空间中,分离网页和网页特征之间的相关度从而达到反检测目的;最后利用大量图像化网页之间的相似关系进一步改进TCD算子。实验表明,将改进的TCD算子应用到钓鱼网站识别中,具有令人满意的稳定性和精确度。(2)提出基于结构化文档模型的钓鱼网站检测算法。利用人类的视觉行为,网页内部代码特征与网页布局的关系,提出基于网页的主视觉区域的结构化文档DMVA(Document Based on Main Visual Area)模型检测钓鱼网站。首先提出子间归并算法(Merge Algorithm Between Child Nodes,MABC)生成网页的视觉分块和分层DOM树;其次结合用户的视觉行为和分层DOM树的分层结构,提取网页的主视觉区域;然后获取网页的分层主视觉区域中的文本信息,进而构造网页的DMVA对网页重构,降低网页和网页特征的相关度;最后提出相关网站集,计算待测网站DMVA和相关网站集中网页的DMVA的相似性,检测钓鱼网站。实验证明,基于DMVA模型的钓鱼网站检测算法具有较好检测准确度。(3)提出基于改进TCD图像检索和分类的钓鱼检测模型。结合TCD算子表达网页外部特征的优势和DMVA文档包含网页内部特征的优势,首先将网页图像化;其次基于DMVA模型构造包含视觉信息的视觉分层TCD算子;然后构造TCD-PLSA四层概率潜在语义模型对网页分类;最终在相应分类中通过网页检索和特征转换,计算网页之间的相似性,判断待检测网站是否是钓鱼网站。TCD-PLSA模型的离线训练部分涉及的数据规模大,采用Map Reduce对其进行并行化设计。实验证明基于改进TCD图像检索与分类的钓鱼检测模型具有良好的稳定性和钓鱼检测准确度。