【摘 要】
:
随着互联网技术的发展,人们在享受互联网带来的便捷的同时,因为网络安全意识薄弱以及网站漏洞等被网络攻击者关注。钓鱼网站、网络木马等网络攻击日益威胁着用户的个人隐私和财产安全。攻击手段日益复杂给检测带来巨大挑战。针对已有URL词汇特征不足、优化准确率无法应对类别不均衡、恶意网页生命周期缩短等问题,基于分词技术并且提取结合上下文和位置信息相关特征,并改进在线主动学习的目标函数,提出基于成本敏感在线主动学
论文部分内容阅读
随着互联网技术的发展,人们在享受互联网带来的便捷的同时,因为网络安全意识薄弱以及网站漏洞等被网络攻击者关注。钓鱼网站、网络木马等网络攻击日益威胁着用户的个人隐私和财产安全。攻击手段日益复杂给检测带来巨大挑战。针对已有URL词汇特征不足、优化准确率无法应对类别不均衡、恶意网页生命周期缩短等问题,基于分词技术并且提取结合上下文和位置信息相关特征,并改进在线主动学习的目标函数,提出基于成本敏感在线主动学习的恶意网页检测方法。主要研究内容及创新点如下:(1)针对现有URL词汇特征提取方面未涵盖到上下文和位置信息的问题,在基于URL领域知识的分词技术的基础上,使用卷积提取相应词汇特征,覆盖到词汇的上下文和位置信息。其中,基于领域知识的分词技术中,分析URL文本分词处理和普通的自然语言处理之间的区别。根据字符间的视觉相似性改进编辑距离来计算域名与品牌名词之间的相似度。分词后的文本使用word2vec生成词向量,再使用4类不同高度,共400个卷积核将词向量转化为特征向量。增加了词汇的上下文和位置信息特征。(2)除了对网页提取URL相关特征之外,为了弥补URL缩短服务导致URL相关特征失效的问题,还提取网页内容相关特征,基于结构分析、内部脚本分析和外部脚本分析提取JavaScript代码相关特征,并分别从网络钓鱼和网页挂马两个领域提取HTML代码相关特征。(3)常规有监督学习方法优化准确率来构建模型,恶意网页检测任务中数据类别分布极度不均衡,简单将网页预测为良性即可达到非常高的准确率,准确率不宜为其优化目标。考虑类别不均衡引起误判代价的差别,用成本敏感指标作为优化目标和评价指标,根据成本敏感指标推导成学习算法,并结合在线学习模型结合成本敏感指标的优化目标的封闭解,可满足实时恶意网页检测的要求。另外,主动学习主动查询网页标签用于模型训练。
其他文献
目的:探讨利用最佳对比噪声比(CNR)选择最理想的单能量图像在下肢动脉CT血管造影(CTA)中的应用。方法:回顾性分析进行宝石能源CT检查的68例下肢动脉病变(PAD)患者的CTA图像资料。所有
为研究酒精对神经胶质细胞损害的作用机制,应用荧光偏振技术探讨了酒精及其代谢产物乙醛对神经胶质细胞中星形胶质细胞和少突胶质细胞膜脂质荧光偏振度(Pr)和脂质流动度(LFU)的影响。结
初中生物学教学强调从学生真实生活经验出发,让学生亲身经历,参与活动,进而获得对知识的理解,同时在思维能力、情感态度与价值观等多方面得到进步和发展。以苏教版《生物学&#
2019年是全面建成小康社会的决胜阶段,也是打赢脱贫攻坚战的关键一年。作为新型农业经营主体之一,农民专业合作社在推动扶贫进程、加快农业农村现代化发展方面发挥着重要作用
以煤油为溶剂,汽油为萃取剂,采用冻胶纺丝-超拉伸技术纺制了超高分子量聚乙烯(UHMW-PE)纤维.综合分析了UHMW-PE冻胶丝在后拉伸过程中结构和性能的变化,建立了三阶段结构发展
<正>初上高中,大多数同学可能就听别人说化学是很难学的科目,一上来对它就产生了畏难心理。那么,高中化学是不是真的挺难学的呢?我们是不是就没有学好它的希望了呢?答案是否
随着信用风险损失日益增长,建立一套科学、有效的信用风险控制方案对金融机构来说尤为重要。为提高工作效率,机器学习模型被安排在许多繁琐的业务流程当中,但每一次不正确的
科学思维是生物学学科核心素养之一,是学生认识新知的重要途径,是建构概念和形成生命观念的重要方式。教师应在生物学课堂教学中逐步发展学生的科学思维,使其能运用科学的思
目的了解医学院人体解剖室内气态甲醛污染的水平,探讨防治甲醛污染的措施和效果.方法参照我国<公共场所卫生规范>的评价方法进行,分别在使用和不使用通排风空调系统条件下,对
在生物学学科核心素养下制订"探究植物细胞的吸水和失水"课程的教学目标,详细说明在实验材料、实验设备、教学模式中的创新。教学过程整合成课前准备和课堂探究两大环节,提高