基于DOM结构聚类的钓鱼网页检测方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户：l1076223769

【摘要】

：

钓鱼攻击的频繁出现威胁了社交平台的安全与稳定,钓鱼网页检测已成为维护网络空间安全的一项重要研究任务。随着钓鱼攻击技术的升级,传统的检测方法提取的内容特征不再适用于新网页,同时计算代价较高。于是,在总结已有研究的基础上,将网页类型判别看作网页间比较与聚类的问题,利用基于DOM(Document Object Model)结构的聚类方法检测钓鱼网页。主要工作有以下两方面。(1)针对网页文本特征分析过程

【作者】

：

张莹

【机构】

：

西安科技大学

【出处】

：

西安科技大学

【发表日期】

：

2019年12期

【关键词】

：

钓鱼网页

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

钓鱼攻击的频繁出现威胁了社交平台的安全与稳定，钓鱼网页检测己成为维护网络空间安全的一项重要研究任务。随着钓鱼攻击技术的升级，传统的检测方法提取的内容特征不再适用于新网页，同时计算代价较高。于是，在总结已有研究的基础上，将网页类型判别看作网页间比较与聚类的问题，利用基于DOM(Document Object Model)结构的聚类方法检测钓鱼网页。主要工作有以下两方面。
　　(1)针对网页文本特征分析过程中复杂度高、相似度计算准确度较低的问题，完全利用结构信息构建网页特征向量，提出改进的TCDC(Tag Class Difference Calcuiation)算法，以标签向量与样式属性向量差异的综合值来衡量网页相似度。该方法弥补了传统方法中忽略网页标签顺序、重要度的缺陷。同时提出了DSC(DOM Structure Clustering)聚类算法，通过ICPS(Initial Center Point Selection)算法解决初始中心集选取问题，利用优化后的相似度迭代地对训练网页划分直至聚类结果稳定。未知网页的归类通过其与类簇中心比较结构相似度来完成，最终根据类标签确定未知网页类型。实验结果表明，所提算法计算的相似度更为准确，检测具有较高的TPR(True Positive Rate)与较低的FPR(False Positive Rate)值。
　　(2)针对网页比较过程中的耗时问题，将压缩算法应用到网页指纹生成过程中，加快了未知网页的判别速度。基于改进压缩编码的FG(Fingerprint Generation)算法能在保留特征顺序的同时得到其压缩表示。第一个阶段利用压缩算法得到网页顺序标签编码序列，选取浅层编码信息作为初始指纹。第二个阶段对重复编码进行二次压缩转换，以最终的编码序列作为网页的指纹。生成指纹后，采用FC(Fingerprint Comparison)算法进行指纹比较。实验结果表明，用所提指纹生成算法判别所得TPR与FPR指标优于经典指纹生成算法。与直接向量比较方法相比，运用指纹生成算法减少了网页向量比较的时间，提高了待测网页的归类速度。

其他文献

基于语料库的汉英同传增补策略研究

虽然对于关联理论和翻译策略的研究甚多，但将关联理论用于同声传译增补策略的研究甚少。基于语料库研究增补策略因工作量大和研究难度高仍未得到充分的探究。　　本文从认知和语用的角度出发，基于2012-2018年的政府工作报告同传语料和同期两会记者招待会对比语料，重点探讨汉英同声传译增补策略的特点。基于关联理论作者论证了使用增补作为基本策略之一的合理性，确定增补在汉英同声传译中的类型和目的。提出并回答了以下

学位

汉英翻译

浅析补偿策略在商务英语翻译中的应用——以《客户的游艇在哪里》为例

随着我国电子商务的繁荣，商务英语翻译正在飞速发展，同时，商务英语翻译领域的研究也需得到更多关注。然而，为了减少由于语言文化背景不同，造成的商务英语翻译中的语义缺失，需应用特定的翻译补偿策略。二十世纪八十年代以来，我国翻译学家对翻译补偿展开了一系列研究。但对作为特殊用途英语的商务英语翻译补偿的研究，仍存在巨大空白。　　笔者选取Where Are the CustomersYachts及其中文译本作为

学位

商务英语

美国智库对一带一路的认知及中国的应对之策研究

2013年，习近平主席提出“一带一路”倡议。自提出以来，该倡议就得到了包括美国在内的国际社会的广泛关注。“一带一路”倡议的顺利实施，不仅需要沿线国家的积极响应，也需要域外国家的理解和支持。当今美国智库对美国政府决策具有重要影响，因此研究其对“一带一路”倡议的认知具有重要意义。　　本文选取了美国五个著名智库作为研究对象，并将它们分为了三种类型:以布鲁金斯学会和外交学会为代表的学术型智库，以兰德公司为

学位

一带一路建设

目的原则视角下刑事庭审之闪避回答研究

刑事庭审是一项旨在认定被告人所犯何罪、刑罚为何的司法过程，其关系到被告人的人身自由、财产权利甚至攸关生死。刑事庭审语言中，往往会出现很多的闪避现象，或者不答或者答非所问。对此问题的研究，无论从语言学还是从法学角度来看，目前都是寥若晨星。　　本文受目的原则的理论框架指导，旨在更好地总结闪避现象在刑事庭审中的客观规律，引发对该规律背后因素的深层次理解。本研究以公开的刑事案件庭审视听资料作为数据来源，以

学位

刑事庭审

性别政治与性别话语论《时时刻刻》中的女性幽闭

《时时刻刻》是美国当代著名作家迈克尔·坎宁安于1998年发表并大获成功的文学作品。2002年改编的同名电影获金球奖和多项奥斯卡提名，让这部小说获得更加广泛的关注。本文以《时时刻刻》中三位主要女性角色为研究对象，运用凯特·米勒的性别政治理论来分析作品中女性在身体和精神层面的幽闭，探讨女性在以性别论分工以及以男性话语为中心的社会条件下的生存状况和自我抗争。主体分析的三个章节主要从不同年代的女主人公身上

学位

美国小说

基于评价理论的众筹计划书研究——以美国众筹网站Kickstarter为例

众筹，即大众筹资或群众筹资，是指一种向群众募资，以支持发起的个人或组织的行为。群众募资被用来支持各种活动，包含创业募资、艺术创作、设计发明、科学研究等等。成功的众筹项目离不开具有说服力的众筹计划书。众筹计划书的内容，包含项目的背景知识、建立项目的原因、此项目的新颖特点，以及即将获得的回报条件。　　本研究以美国众筹网站Kickstarter为例，以评价理论为研究框架，分析网站中艺术类与科技类众筹计划

学位

英语众筹计划书

翻译家胡适研究

胡适(1891-1962)是中国新文化运动的旗手,为中国新文学的产生和发展做出了杰出的贡献.在他探索新文学的道路上,翻译起到了不可忽视的作用.该文以胡适作为个案研究对象,他在五四新文化运动前后的文学翻译理论和实践以及文学创作,尤其是诗歌和戏剧的翻译和创作,展示了他作为一个翻译家开拓新文学的轨迹.第一章是概述部分,简要介绍了该研究的理论依据,研究方法和意义.第二章介绍了胡适的生平及其文学观.受杜威的

学位

胡适

五种植物根系受损愈伤自修复的力学特性网络首发

期刊

黄花蒿中青蒿素多孔淀粉微球的制备、表征及功能评价

青蒿素是由中国科学家屠呦呦于1971年首次从药用植物黄花蒿叶中分离纯化出来的一种内含过氧基团的倍半萜内酯化合物，其分子式为C15H22O5，也是目前世界上最有效的治疗脑型疟疾和抗氯喹恶性疟疾的药物。近年来研究发现，青蒿素及其衍生物在抗肿瘤、抗病毒和免疫抑制等疾病方面也具有多种生物活性。特别是在抗肿瘤方面，青蒿素及其衍生物可以靶向铁离子含量远高于正常细胞的肿瘤细胞，通过铁离子催化青蒿素的过氧桥断裂产

学位

青蒿素多孔淀粉微球

黑河机场鸟类组成以及鸟击危险评估研究

本文于2017年12月至2018年12月对黑龙江省黑河市黑河机场进行鸟类生态调研，包括鸟类资源调查以及鸟击危险评估。在鸟类资源调查时，把黑河机场及周边生境划分为林地、农田、草地、水域、居民区五种生境类型，通过样带法对每种生境类型进行鸟类资源调查，黑河机场及周边5公里范围内鸟类资源调查结果如下:　　依据郑光美院士编写的《中国鸟类分类与分布名录》第三版分类系统统计，共记录鸟类有15目23科113种，其

学位

黑河机场

基于DOM结构聚类的钓鱼网页检测方法研究

其他学术论文