【摘 要】
:
随着人工智能、数据挖掘技术以及机器学习的不断发展,数据离散化技术逐渐表现出其不可替代的重要性。在实际应用中,使用的数据由连续和离散两种类型组成,连续型数据代表一系列的值,而离散型数据指具有一定共性的信息。离散数据具有通用性和简单性,因此许多数据挖掘的方法被设计出来用于处理离散数据。本文利用基于密度的离散化方法对具有连续属性的数据集进行处理,算法采用聚类方法自动寻找合适的簇数,将数据集划分为多个类簇
论文部分内容阅读
随着人工智能、数据挖掘技术以及机器学习的不断发展,数据离散化技术逐渐表现出其不可替代的重要性。在实际应用中,使用的数据由连续和离散两种类型组成,连续型数据代表一系列的值,而离散型数据指具有一定共性的信息。离散数据具有通用性和简单性,因此许多数据挖掘的方法被设计出来用于处理离散数据。本文利用基于密度的离散化方法对具有连续属性的数据集进行处理,算法采用聚类方法自动寻找合适的簇数,将数据集划分为多个类簇,然后在类簇上进一步地应用自顶向下的分割策略进行离散化处理。继而提出了一种新的概率不一致性度量,用于评估离散化方法的效果。此外,本文提出了一个分类算法,利用概率函数及划分差异熵作为树节点的分裂准则。本文将提出的基于密度的离散化方法及不一致性度量应用于机器学习库以及网络入侵检测的数据集上,并同其他离散化方法和另外三个评估指标进行对比实验。在不同分类器下验证评价指标所选的离散化方法的最终效果,实验结果表明,不一致性度量选取的离散化方法的分类精度较高且优于其他指标。因此,不一致性度量可以作为评估离散化结果的指标。此外,将提出的分类算法在机器学习库中的数据集上进行分类检测,其实验结果表明提出的分类算法具有较高的分类精度,证明了本文所提出的算法具有潜在的应用价值。
其他文献
随着城市快速的发展,不透水地面面积不断增加,导致城市雨水径流量超过原有消纳水平,城市地面径流的增加也使城市内涝突发的几率随即增大。传统城市依靠现有灰色排水基础设施,
本论文以聚苯乙烯(PS)、聚乳酸(PLA)、聚己内酯(PCL)三种高分子材料为原料,通过市售喷笔液喷纺丝技术制备了三种吸油材料,通过扫描电镜对其吸油前后的微观形貌进行了表征,考
作为腈基(-CN)的同分异构体,异腈(-NC)具有兼具亲电与亲核性、特殊的金属络合能力及可在温和条件下聚合的特性而在有机合成、有机金属制备及聚合物构筑方面得到了广泛的应用
我国占地面积大,地质情况复杂且地下板块活跃,频繁的地质活动导致地震多发。据统计,我国将近一半的国土面积位于Ⅶ度以上的地震高烈度区,涉及23个省会城市。传统建筑“以刚克
开关磁阻电机调速系统(Switched Reluctance Motor Drive,SRD)因其结构简单、容错能力好、调速范围广等特点,被广泛应用于新能源汽车、智能家电、航空航天等前沿领域。功率变
2013年初,新型禽流感病毒H7N9的跨种属传播,致使中国数百人感染、死亡,对人类的生命安全造成了极大地威胁。本实验研究了H7N9 NS1蛋白对病毒复制以及宿主先天性免疫的影响。
番鸭呼肠孤病毒(MDRV)主要侵害4~45日龄的番鸭,死亡率很高,临床上以软脚,腹泻等为主要症状,以肝、脾肿大及灰白色坏死点等为主要病变,耐过番鸭常出现明显的生长停滞。该病能够
近年来,可调谐的高频微波信号在信息技术领域引起了广泛的关注。本文提出了一种基于循环移频环路的可调谐微波信号产生系统。本系统利用双平行马赫泽德调制器(DPMZM)的单边带
株高直接影响水稻生物产量和抗倒伏能力,是影响水稻产量的重要农艺性状之一。“绿色革命基因”sd1大幅度提高了水稻的产量。然而,单一矮秆基因的使用会造成遗传背景狭窄、杂
区域土地利用是一个较为复杂的过程,建立土地利用变化模型是深入了解土地利用变化的成因、过程和未来发展趋势的重要手段。民勤绿洲作为中国两大沙漠之间的唯一一片绿洲,生态