【摘 要】
:
随着互联网的发展,网络安全日益受到人们关注。恶意网站攻击事件的频繁发生,给用户带来了巨大的财产损失,同时也严重威胁了个人甚至国家的安全。因此,建立一定的模型,并对恶
论文部分内容阅读
随着互联网的发展,网络安全日益受到人们关注。恶意网站攻击事件的频繁发生,给用户带来了巨大的财产损失,同时也严重威胁了个人甚至国家的安全。因此,建立一定的模型,并对恶意网站进行识别和检测具有非常重要的意义。目前国内外很多学者对特征选择方法进行了改进,他们多集中在对主机特征与词汇特征两个方面进行深入挖掘与改进,但是仍然存在准确率与效率不高的情况。针对这些问题,在特征提取问题上,本文首先提出了建立易受攻击网站名单的概念,并在此基础上提出了基于加权距离的新特征提取方案。同时在数据挖掘算法上本文基于改进的模糊C均值聚类算法对KNN模型进行改进,提高了模型的效率。本文的研究工作主要包括:数据采集:本文对正常网站和恶意网站的数据分别进行爬取,清洗,标准化处理与入库操作,最终把数据放到MySQL数据库中。特征提取:异于常见的网站白名单、网站黑名单的概念,文中把容易被攻击的的网站进行汇总,提出了建立易受攻击网站名单的概念。同时恶意网站通常在正常网站的基础上进行一定程度的更改,根据更改类型设定不同的权重,提出了加权距离的概念,对任一输入URL计算其与易受攻击网站名单中URL间的最近加权距离距离,并把它作为新的特征。模型改进:本文首先对KNN算法和模糊C均值算法进行了改进,针对FCM初始聚类中心不确定,容易陷入局部最优的缺点,本文提出了坐标密度法,确定初始聚类中心。针对FCM算法的初始聚类个数随机选取的问题提出了运用K值和数据集个数来确定的方法,最终获取样本的聚类中心和聚类中心所在的簇。通过找到距离测试集距离最小的聚类中心所在簇,来确定测试集的类别。模型验证:本文采用了 LR模型,J48模型以及改进的KNN模型,运用WEKA对数据进行分类。同时把加入新特征的数据和运用原始特征的数据运用数据挖掘算法进行分类及准确性对比,最终,分类结果得到一定提高。同时和其他文献中方法进行对比,发现特征具有较好的效果。
其他文献
2012年10月,新疆相声巴扎队伍组建成立;2013年元旦,相声巴扎首场公演在新疆话剧院举行;2013年2月1日,新疆首家相声剧场开业,相声巴扎常态化演出;2013年4月12日,新疆第一个民
从优化资源配置的角度分析,我国GDP高增长伴生的收入差距扩大——GDP增长率和基尼系数值的“双高”现实,表现为“富者愈富、贫者脱贫、总体改善”的特征,具有一定的必然性。被用
2019年2月11日,因早产,刚呱呱坠地的双胞胎兄弟小宝、大宝,经医院诊断,患有先天性心脏病。这给本不富裕的家人当头一棒,每天上万元的治疗费用,严重刺激两兄弟家人的神经。一家人几
1971年,孟加拉独立建国。1975年,孟加拉国与中华人民共和国建立了外交关系。从那时起,孟中关系日益紧密。目前,孟加拉国是中国“一带一路”倡议和“孟中缅印”经济走廊建设的重要响应者和参与者。孟加拉国人口的绝大多数是信仰伊斯兰教的穆斯林,与孟加拉国在地理空间上较为接近的中国云南省也有很多信仰伊斯兰教的回族。因此,对两地伊斯兰教及其对其信仰者的影响开展比较研究,可以相互参照,推动两地民族历史文化的研
用熔融挤出法制得不同厚度、表观平整密实的全氟磺酸离子交换膜(PFSIEM).利用热失重(TGA)、示差扫描量热分析(DSC)、毛细管流变仪、X射线衍射(XRD)研究了全氟磺酸树脂(PFSR)的热稳定性、
语文课程标准的基本理念之一,就是"全面提高学生的语文素养,充分发挥语文课程的育人功能"。要求教师在引导学生掌握语文基础知识、技能的过程中,获得思想感情的熏陶与感染,形成
本文用故障树分析(FTA)方法研究了WGZ50—12/13型碱回收喷射炉系统的安全问题,建立了喷射炉爆炸原因分析的大型故障树,利用本人编制的计算机程序,进行了现场可靠性数据的统计
计量用户运维在终端管理方面,碰到终端所处的位置没有移动通信信号,会导致终端掉线,影响终端在线率和抄表完整率。本文探讨一种基于射频信号的改良天线,在没有信号的地方和附
为了快速寻找有害有毒气体污染源,利用8个红外激光气体传感器,分别安装步进电机驱动旋转的圆盘圆周上在不同的方向上对污染气体进行数据采集。同时与二维热差式风速风向传感
党的十九大提出要全面建设社会主义现代化强国,物流业作为支撑国民经济发展的基础型、战略型、先导型产业,是社会主义现代化强国的必备条件,京津冀协同发展是党中央、国务院