【摘 要】
:
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来
论文部分内容阅读
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来处理离群点检测问题更具有普遍适用性,更值得我们重视。现有的邻域粗糙集离群检测通常仅考虑了单属性邻域覆盖,少有考虑论域在多属性下的邻域覆盖,或者只在构建属性序列基础上设置邻域序列离群因子。因此,本文将考虑属性集序列提出适合混合型属性数据集的离群点检测模型,主要工作如下:(1)在邻域粗糙集理论研究的基础上,为了考虑多属性的集成因素对论域分类的影响,结合邻域粗糙隶属度概念和属性集序列工具,构建了基于邻域粗糙隶属度序列的离群点检测新方法NRMSOD。在UCI数据集上的对比实验结果分析表明,NRMSOD的离群检测效果更有效。(2)以邻域类熵对信息系统中邻域知识进行不确定性描述和单属性度量为基础,针对混合属性数据集,构建了基于邻域类熵序列的离群检测方法NCESOD,并且在UCI数据集上进行实验,验证了NCESOD算法的有效性。
其他文献
合成孔径雷达(SAR)凭借独特的全天时、全天候、高分辨的特点,在资源勘探、军事侦察、航空航天等领域中发挥了重要的作用。然而在实际的使用场景中,由于时间、飞行成本等诸多因素的限制,合成孔径雷达的回波数据无法完全通过实际的机载雷达采集。因而,SAR回波模拟技术具有极其重要的研究意义。本文从SAR回波模拟的真实性和高效性两个方面入手,对真实地形的三维建模、真实地形的散射系数计算、回波的快速生成算法及其并
邻域粗糙集是不确定性分析的重要工具,并与粒计算密切相关.因此邻域粗糙集所在的邻域系统成为相关信息粒化和度量计算的重要内容.在邻域系统中,已经从粒计算角度出发构造了三层粒结构(包括邻域粒、邻域群和邻域库),建立了关于知识学习的粒度计算机制.但是,邻域系统三层粒结构的层次探索及相关应用还有一定的欠缺.因此,本文对邻域系统三层粒结构的相关度量进行了补充,并扩展到分类学习.本文的相关研究主要涉及三个方面.
近年来,随着我国教育事业的快速发展,新课程改革的脚步也在不断加快,其根本目的就是为了更好地适应时代的需求以提高教学效率、获得更优的教学效果。随着网络信息技术的不断发展,教学方式已经不再是以单一的传统教学为主了,远程网络直播教学已然成为了另一种新兴的教学模式,并且其独特的教学特点与传统教学形成了鲜明的对比。结合文献调研发现目前结合远程网络直播教学以及传统教学的对比研究相对较少,基于此本文采用比较研究
中职学校进行混合式教学模式改革,必须构建适应中职学校的混合式教学质量评价体系。本文通过提出中职学校混合式教学质量评价体系的特点、评价体系的组成、评价计算方法和评价结果运用方案等,以期为更多中职教师开展混合式教学和构建教学质量评价体系提供借鉴。
前视合成孔径雷达(SAR)能够对平台正前方区域成像,具有抗干扰性好、隐蔽性强等特点,在精确制导、侦察测绘等领域具有重要价值。由于前视SAR成像处理对实时性要求高,而回波大数据量将导致成像实现非常困难;因此,研究前视SAR成像处理方法及硬件实现具有重要意义。前视SAR中的机载双基前视模式是各国研究的热点,本文以机载双基前视SAR为研究对象,进行了极坐标格式算法(PFA)、前视SAR信号处理机设计及P
物联网将海量微型设备通过有线或无线方式基于互联网构建成一种大型泛在网络,这种网络能够实现异构信息间的互联、互通与互操作,实现所有物体的智能化连接。首先,大量异构底层智能设备接入使得用户接入和控制设备变得越来越复杂。没有统一的设备管理系统,用户在访问和控制设备时需要操作不同的物联网应用,访问不同的物联网云平台。这种碎片化的设备管理模式增加了异构设备的用户接入和控制复杂性,降低了应用可扩展性。其次,为
大运河文化,即因大运河而生、而变、而传播的文化,具有"开放""包容""交流""融合"等多方面的价值内涵。今天,虽然大运河在交通、商贸等方面的功能已大大降低,但在促进经济文化发展、建构国家形象等方面,仍具有重要价值与功能,因此保护并传承好大运河文化有其现实必要性。只是,如今的大运河文化研究及其保护、传承实践,更多是从宏观、上层等角度展开进行的,而缺乏对民间、民众与生活层面的关注。为此,我们应该在已有
情感识别是计算机利用传感器采集到人的语音、表情和行为等数据来进行分析,从而来推断出人的情感状态,人类对于他人情感的识别主要是通过视觉模态或者语音模态来完成的。情感识别对于人机交互、医疗、刑侦、航天等领域有着重要的支撑作用。单模态语音情感识别是通过传感器采集到的语音信号来分析情感状态;多模态语音视觉情感识别是通过传感器采集到的语音、表情和行为等信号中的两种及两种以上的信号来进行分析情感状态。对于单模
信息技术的飞速发展对于电源系统提出了愈来愈高的要求,微型直接甲醇燃料电池(Micro direct methanol fuel cell,μDMFC)因其高能量密度、高转换效率、无污染等特点,被认为是便携式电子设备电源的理想解决方案之一。然而μDMFC面临的传质管理、催化剂中毒等问题使其无法直接在高浓度燃料下运行。此前,研究人员所提出的解决思路绝大多数从宏观尺度出发,大多会在电池内引入新的结构或器
本文提出了一种建议评论分类方法和一种建议关键短语提取方法,以实现评论文本的建议挖掘,帮助用户更便捷地作出决策,也帮助商家更精准地改进相关服务.对于评论的分类,本文提出一种基于PU(positive and unlabeled)学习的方法.与常规PU学习不同,正例样本通过简单规则获得;在PU学习一阶段中,以投票的方式综合三种方法去划分可靠负例;PU学习二阶段中,将代价敏感融入支持向量机中进行训练.在