【摘 要】
:
非平衡数据的分类方法是机器学习和模式识别领域的一个热点问题,在入侵检测、医疗诊断、欺诈检测等方面具有广泛的应用。非平衡数据集分类问题是指数据集的类分布存在明显的
论文部分内容阅读
非平衡数据的分类方法是机器学习和模式识别领域的一个热点问题,在入侵检测、医疗诊断、欺诈检测等方面具有广泛的应用。非平衡数据集分类问题是指数据集的类分布存在明显的倾斜性,而传统的分类方法和模型更倾向于多数类。在实际应用如恶意网址检测中,少数类应该获得更多的关注,因此非平衡数据分类问题获得了广泛的研究。本文对非平衡数据分类的方法进行了研究,并在恶意网址检测中进行了应用,实现了恶意网址检测系统,具体研究工作如下:(1)利用基于树模型的特征选择方法,对数据集进行降维处理;然后针对数据集类间不平衡问题,利用了经典的SMOTE采样方法进行重采样;在重采样的数据集上使用决策树、支持向量机和随机森林进行分类,实验结果表明了基于特征选择的SMOTE算法的有效性。(2)针对恶意网址URL数据集,将网址URL特征分为主机特征和词汇特征,应用基于特征选择的SMOTE方法进行数据预处理,并用决策树、支持向量机和随机森林进行分类。实验结果表明在预处理的数据集上,支持向量机具有较好的分类效果。(3)实现了恶意网址检测系统,该系统利用已训练的支持向量机分类器对待测试网址URL进行检测,判断其是否为恶意网址。总之,本文对基于特征选择的SMOTE方法进行了研究,并在恶意网址检测中进行了应用。如何对恶意网址检测系统的功能进行完善是本文进一步的工作。
其他文献
随着素质教育的深入开展以及对人才主观能力评定的需要,测评中主观题的比重越来越大,这就对测评的公平性提出了新的挑战。本文探讨一种基于VC++的主观题网上阅卷的实现方法,
<正>进入新时代,中国特色社会主义法治体系的五大子体系将承担新的任务。一是完备的法律规范体系。依法立法是立法必须坚持的基本原则之一。首先要依宪立法;其次要贯彻党的方
曾经几何,地方政府对于银行,就如同自己的下级一般,地方政府领导一个现场办公会,就能让辖内银行当场拍板承诺贷款。而现在,这样的会议一般不会再召开了,即使是特殊情况召开了
人性化管理是将人性化理论应用于管理方面,是一种充分注意人性要素,以充分挖掘人的潜能为己任的管理模式,是有计划、有步骤地将"人本观念"的服务理念和行为准则纳入到护理管理
转座子是一类可以在基因组中不同遗传位点间移动的DNA序列,在其转移过程中有时会伴随自身拷贝数的增加。作为基因组的重要组成部分,转座子可以通过多种方式影响宿主基因及基
探讨在学生数量增多、教学资源短缺的情况下.如何对相关学科实验室进行重组改革,从而实现组合优化、资源共享,降低教育成本,提高实验教学质量。
目的 通过泳池水中余氯、尿素等理化指标与微生物指标的相关性分析,寻找反映泳池水质状况的敏感指标.方法 依据《公共场所卫生监测技术规范》的要求对110份游泳池水样进行检
目的探讨自拟中药组方辨证治疗热毒蕴结型缺乳病的临床疗效。方法选择唐山市中医医院妇产科符合纳入标准的热毒蕴结型缺乳病住院患者120例,遵循随机盲法对照研究的原则,分为
在医学类高校中以心理危机干预为视角,开展生命教育工作,这是帮助医学生有效舒缓心理压力,正确看待自己与他人的生命,树立正确的生命价值观的重要途径。通过对医学生生命价值