基于密度峰值的大数据多粒度分析研究

来源 :西南交通大学 | 被引量 : 1次 | 上传用户:stage7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代到来,数据的获取、传输和存储融入了人类生产生活的各个领域,而大数据核心价值来自对它的分析和理解.然而面对如此海量、高速和异构的数据,人类的认知和理解能力不能满足价值发现的需要.粒计算作为一种模拟人类知识表示和问题求解的近似数据分析基本范式,其优点是在解决特定问题时能够选择合适粒度,而不总是基于最细粒度的原始数据进行计算.所以,粒计算通常能够以更高的效率获得有效解.近年来,基于密度峰值的聚类方法DPClust以其准确性和高效性受到广泛关注.我们发现了DPClust背后的哲学思想是:邻域数据之间的地位并不平等,而是处于偏序关系之中.基于DPClust中间结果构建的引领树结构正是这种偏序关系的具体实现.本文利用这种偏序关系和引领树结构,层层递进地研究了它们在大数据聚类和分类问题中的应用,主要贡献如下:(1)针对静态海量数据,提出一种基于密度峰值的高效多粒度聚类方方法DenPEHC.该方法不需要迭代寻优以进行类簇的“拆分”或者“合并”,而是通过分析曲线的形状和引领树结构,在每个可能的聚类层次上直接到聚类结果.并且提出一种网格粒化框架,使得DenPEHC可以对高维海量数据进行层次聚类.这项研究工作包含三个部分:(一)使用的分布和线性拟合方法来选择聚类层次中的中心,而每个聚类层次由曲线中的“台阶”确定;(二)分析作为DPClust聚类方法中间结果的引领树结构,高效构建聚类层次;以及(三)设计一个框架使得DenPEHC在大量属性可以按照其语义进行分组的情况下,对高维海量数据聚类.DenPEHC通过简单地将每个中心点从它的父节点断开就可以构建聚类层次,其时间复杂性仅为(8)),这里8)是类簇的个数.与研究前沿相比,本文提出的DenPEHC方法在实验中表现出了极具潜力的高效性、准确性和鲁棒性.(第3章)(2)将DenPEHC聚类的思想扩展到高速演化数据流,得得到一种能够检测非球形类簇和及时提供聚类结果的数据流聚类方方法.引领树结构以粒计算方式转换为胖节点引领树FNLT,FNLT是数据流聚类问题中,一种对当前数据新颖的概要表达方式,具有良好的可解释性.新到数据可以快速融入到动态演化的FNLT结构中,因此随时到来的新数据可以及时地获得聚类结果.在新数据到来和提交聚类结果的间隔时间段,混合了新到数据点的现存FNLT进一步粒化成一棵新的FNLT,以保持总的节点数目不变.当前数据流的FNLT通过“融入–粒化–淡出”机制得到实时维护.同时,利用任意中心点对之间存在的偏序关系和鞅理论,进行改变点检测,以发现数据流中主要模式的漂移.与几个数据流聚类的前沿方法相比,本文提出的流聚类方法DP-Stream表现出很有竞争力的准确性和效率.(第4章)(3)将DenPEHC和DP-Stream方法中构建信息粒(即类簇)的方法带入“合理粒化准则”的框架下,提出一种基于局部密度度的最优粒化模型(LoDOG).LoDOG具有以下明显的优点:(一)它可以检测到任意形状的信息粒,(二)在引领树已经构建完毕的情况下,它能够以时间复杂性得到最优粒化方案.然后,我们用一小部分位于潜在流形骨架上的地标点描述任意形状的信息粒,从而准备好根据信息粒近似重建原始数据集.提出一个差异性度量来评价重建数据的质量,并且讨论了LoDOG信息粒的可解释性.理论分析和实验评价展示了LoDOG粒化模型和信息粒流形描述子的有效性.(第5章)(4)基于LoDOG构建的最优引领森林,提出一种非迭代式标签传播算法LaPOLeaF,并将其扩展到大数据据决策性分析中去.首先提出一个合理的假设:处于同一个邻域的数据点之间不是点对点的平等关系,而是由局部密度和点对之间的距离确定的偏序关系;每个中心点的标签可以看着是其追随者的贡献.从这个假设出发,提出了一种基于最优粒化森林的高效非迭代式标签传播算法(LaPOLeaF).该算法克服了传统基于图的半监督学习方法的两个主要弱点,即,(一)迭代优化算法导致低效性,(二)新到数据的标签需要重新构建图并且重新运行迭代优化.进一步研究了分块距离矩阵计算方法,几个中间结果的并行计算方法,以及局部敏感哈希算法,扩展LaPOLeaF使之可用于大数据的半监督学习.理论分析和在大规模数据实验显示了LaPOLeaF方法极具竞争力的准确性和高效性.(第6章)本文所有研究工作强调了大数据分析的准确性和高效性.所提出的这些方法都具有一个共同的特征,那就是这些方法是非迭代的.所有方法中,除了计算距离矩阵这一步,其余所有的过程都以线性时间复杂性完成,使得这一系列的研究工作非常适用于大数据分析场景.另一个亮点是,在本文所有方法中,多粒度思想均有非常直观和简单的实现方式,使得所有方法都便于在时间约束和精确性之间作出权衡.
其他文献
食品是人类赖以生存和发展的重要物质之一,食品质量优劣直接关系到人民的身体健康甚至生命安全。食品卫生安全是我国预防疾病,保护人体健康的重要条件,了解、重视并搞好这项工作
目的探寻解决儿童安全用药的途径,保障儿童健康成长。方法结合事例阐述了我国儿童用药面临的困境,分析了滥用儿童药物的危害,并从提出改善性的建议。结果和结论目前我国儿童
为进一步提升基层医疗机构服务水平,顺利推进分级诊疗制度,本研究运用SERVQUAL量表工具建立评价体系,从可靠性、有形性、保证性、移情性及响应性这五个维度入手,根据Servqual
辽宁省朝阳市发现了51座辽代纪年墓葬,对辽代丧葬习俗和墓葬的形制结构的研究具有重要意义。出土的51余合墓志弥足珍贵,对研究辽代的政治、经济、文化、外交、宗教、民族、历
1991年3月13日,遵化县苏家洼镇闫家沟村农民李福在宅基地挖井时,距地表2.8米深处,发现明代古墓一座。县文物管理所闻讯后,立即赶赴现场,进行了勘察,现将勘察情况报告如下: 一
目的分析宫颈上皮内瘤变(CIN)及宫颈癌患者外周Treg/Th17细胞的表达及意义。方法选取中国医科大学附属盛京医院自2015年4年至2017年4月收治的30例宫颈上皮内瘤变患者作为CIN组
目前,高新技术企业日益成为经济增长的核心力量,而其中起决定作用的又是掌握了对企业发展至为重要的技术、信息和知识的专用性人力资本,他们在企业中所扮演的不同角色直接决
<正>生命科学的发展经历了三次革命。第一次是20世纪五六十年代,以核酸双螺旋结构的发现作为标志,推动生命科学进入了分子生物学和细胞生物学时代。第二次是20世纪末和21世纪
当前全球化发展陷入困境,逆全球化浪潮逐渐兴起,全球社会亟需一种新全球化理念与模式冲破困境,冲破资本主义主导的路径,寻找新路径,消解全球化发展的负面影响,人类命运共同体
目的分析延续性护理应用于青光眼患者的实施价值。方法 94例青光眼患者,采用电脑随机方式分为参照组(接受常规护理)和实验组(接受延续性护理),各47例。6个月后来院复查期间接受调