基于局部核心点的聚类算法与度量研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zero_ak47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的数据中发现新颖的、潜在的、有用的知识。聚类分析是数据挖掘的主要任务。其主要目标是将数据对象按照相似度划分成不同的簇,使得在相同簇中的数据对象彼此相似,而不同簇中的数据对象彼此不同。通过聚类分析,我们能够更容易发现数据集中隐含的特征。聚类分析被广泛地应用于模式识别、图像处理和人工智能、医学、基因科学、地质学、管理学等领域。近年来,随着信息技术的发展,数据规模越来越大,数据结构越来越复杂,给聚类分析的研究带来新的挑战。本文通过对聚类分析的基础理论和算法进行分析,针对复杂流形数据集的聚类问题进行了研究,主要的工作和取得的成果包括以下几个方面:(1)提出了基于自然邻居的局部核心点的概念。当需要对大量数据进行聚类的时候,传统的聚类算法需要大量的时间。为了解决该问题,我们考虑从数据集中选出代表点,然后将剩余的数据对象划分到其代表所属的簇中。基于自然邻居的局部核心点首先利用自然邻居自适应得到每个数据对象的局部邻域,即分布于密集区域的数据对象具有较多的邻居,而分布于稀疏区域的数据对象具有较少的邻居,然后选择局部邻域中具有最大密度的数据对象作为局部核心点。剩余的数据对象划分到其代表所属的簇中,使得原始数据集被划分成多个子簇,这为复杂流形数据集的聚类分析问题提供了方便。通过将局部核心点应用到DP算法、层次聚类算法和最小生成树聚类算法中,降低了算法的时间复杂度,并且也充分说明了使用局部核心点作为数据集代表点的有效性。(2)提出了新的基于局部核心点的DP聚类算法DPLORE。为了更好地表示流形簇中数据对象之间的关系,研究者提出使用测地距离来度量数据对象之间的不相似度。由于先验知识的缺失,准确的测地距离无法得到,因此使用最短路径长度近似计算测地距离。但是计算所有数据对象之间的最短路径具有较高的时间复杂度。因此,我们考虑使用局部核心点代替原始数据集进行计算。DPLORE算法首先找到局部核心点,然后引入自适应距离度量局部核心点之间的距离,最后利用DP算法对局部核心进行聚类。由于引入自然邻和自适应距离,算法不需要设置参数且能够很好地发现复杂流形簇。实验表明该算法与已有的算法相比,DPLORE在发现复杂流形簇方面更具优势。(3)提出了基于局部核心点的层次聚类算法HCLORE。当人们从复杂的结构中进行模式识别的时候,往往会先去识别位于密集区域的比较明显的结构,然后处理位于稀疏区域边界上的数据对象,从而排除噪声点的干扰。受此启发,我们提出了混合层次聚类算法HCLORE。HCLORE算法是融合了“自顶向下”和“自底向上”的两种策略。与其他混合的层次聚类算法不同的是,我们不需要通过不断地迭代直到满足某些终止条件,而是通过寻找局部核心点对数据集进行划分。然后,我们根据密度递增曲线确定密度阈值,排除低密度数据对象的影响,同时,使簇与簇之间的边界更加清晰。然后,我们重新定义簇与簇之间的相似度,用于将划分得到的子簇进行合并,并使算法能够适用于复杂的流形数据集。通过人工数据集和真实数据集上的实验,表明了HCLORE算法在对复杂流形聚类方面,与其他算法相比更具优势。(4)提出了基于局部核心点的最小生成树聚类算法MSTLORE。现有的基于最小生成树的聚类算法,在原始数据集上构造最小生成树,不仅具有较高的时间复杂度,而且容易受到噪声点的影响。局部核心点在保留原始数据集的分布结构的同时,排除了噪声点,因此,我们将局部核心点与最小生成树聚类算法相结合,提出了MSTLORE算法。我们定义了一种新的基于局部核心点的共享近邻的距离,用于度量局部核心点之间的不相似度。MSTLORE算法根据基于共享近邻的距离,在局部核心点上而不是原始数据集上构造最小生成树进行聚类,从而减少了算法的运行时间,并在一定程度上排除了噪声点的干扰。重新定义局部核心点之间的距离使得算法能够发现复杂结构的簇。通过人工数据集和真实数据集上的实验表明,MSTLORE算法在识别复杂结构的簇方面与其他算法更具竞争性。(5)提出了一种基于局部核心点的聚类度量指标LCCV。针对现有的内部度量指标无法评估复杂流形簇的问题,我们提出使用最短路径度量局部核心点之间的不相似度,然后评估每个局部核心点的紧凑度和分离度,从而确定其聚类质量,最后将每个局部核心点的平均聚类质量作为LCCV指标。由于使用最短路径度量局部核心点之间的不相似度,LCCV能够有效地评估复杂流形簇。我们将LCCV指标与基于局部核心点的层次聚类算法HCLORE算法相结合,去验证LCCV的有效性。通过实验表明,与其他的聚类度量相比,LCCV在度量复杂流形簇方面更具优势。
其他文献
石家庄市、邢台市、廊坊市疫情发生以来,全省卫生健康系统各级党组织深入贯彻习近平总书记关于疫情防控工作重要指示精神,坚决落实党中央、国务院决策部署和省委、省政府部署要求,引领广大党员在大战大考中当先锋、作表率,确保疫情防控到哪里,党的组织就建设到哪里,党员作用就发挥到哪里,以坚强的组织保证,奋力夺取疫情防控歼灭战全面胜利。坚持闻令而动,迅速发出"集结号"。面对突发疫情,省卫生健康委党组快速响应
期刊
许多数学、物理、生态学等学科产生的非线性方程问题都能归结为求相应微分方程的解,那么解的存在性就是一个不可回避的问题,研究的方法也有很多,其中重要的方法之一就是变分法,即求具有变分结构的微分方程的解可转化为去寻求相应泛函的临界点.最近几十年,在对该领域的研究中,人们结合飞速发展的大范围变分理论即临界点理论,已经取得了许多深刻的结果.本文利用变分法并结合临界点理论中的极大极小原理以及相关的山路引理研究
老师:你好!我是一名大一学生,最近有了一个很困扰的问题,压抑了我很久,我想知道我要怎么处理和父母的关系?我从小比较乖巧,即便青春期也没有叛逆过。在生活上父母对我一直也很照顾,可是现在我越来越难以忍受父母的唠叨,尤其我妈,经常否定我的言行,还总是喜欢把我和邻居或朋友家的姐妹们比较,心情不好就开始数落我,很小的事情也要上升到一定高度,总是说我不把她当回事。她越这样说我
期刊
在软件的演化过程中,会产生大量的软件开发与维护数据,最典型的数据类型即是文本型数据,如源代码、代码变更日志(Commit log)、Bug报告(Bug report)、软件文档及邮件记录等。这些数据广泛的存在于软件的各种仓库中,其中蕴含了丰富的软件开发经验与知识,可应用于不同的软件工程活动。主题模型技术,最早源于自然语言处理和信息检索领域,以其从文本中挖掘出语义特征的能力在软件工程研究中也得到了广
当后疫情时代遇上互联网时代,逐渐改变的消费习惯为线上直播发展提供了条件。为培育市场经营户数字营销理念,推动线上线下深度融合发展,进一步拓宽销售渠道,近日,中国轻纺城服装服饰市场成功举办"抖音营销直播培训交流会",吸引了诸多市场经营户踊跃参加。
期刊
“安全第一”是教育教学工作的基本原则,初中生在思想认识、情感价值发展方面不够成熟,容易产生鲁莽冲动的行为,甚至导致出现严重的安全问题。培养初中学生安全意识和自我保护能力就显得十分必要。本文从培养学生安全意识和自我保护能力的重要性出发,结合初中安全教育实践探究策略,希望对提高安全教育效果,促进初中生安全健康成长有所助益。在义务教育阶段,安全教育是一项重要内容。一个人在成长过程中,由于自身安全意
期刊
祁漫塔格成矿带位于青藏高原北部,矿床类型复杂,成矿元素丰富,主要以元古代地层富集大量成矿物质及后期岩浆热液成矿为特征。矿床类型有云英岩型和石英脉型、矽卡岩型、斑岩型、沉积-改造型、岩浆熔离-贯入型矿床,主要金属元素为Fe,Cu,Pb,Zn,Mo,W,Sn,Au,Ni,REE等。该区矿床主要集中在晚志留—早泥盆世及中—晚三叠世时期。晚志留—早泥盆世与中酸性侵入岩有关的矿床发育于祁漫塔格西部伸展构造背
自二十世纪八十年代以来,小波分析一直是各学科普遍关注的热点研究领域,其应用几乎涉及自然科学与工程技术的各个分支,目前小波分析已成为研究和解决自然科学与工程中许多复杂问题的强有力工具,本文对紧支撑正交的小波构造和小波理论在经济预测中的应用进行了一些探讨和研究。1.紧支撑正交小波的构造。由于紧支小波的重要性,许多人在此方面做了大量的工作,得到了许多相关的结论。本文在此基础上,对紧支撑正交小波的代数构造
开源软件中预测问题是软件工程领域热点课题之一,一直受到研究者和软件开发从业者的广泛关注,特别是对GitHub中开源软件的研究。GitHub是当前最大开源社区,到目前为止已拥有5700万开源项目。开源软件预测问题研究的基本思想是以开源项目中的源代码和程序员行为日志为研究对象,包括项目筛选、代码修改、缺陷修复等,通过软件度量来刻画开源软件中的成员流动、代码变更动向、代码潜在风险,以机器学习算法为基础建
我国承诺在2030年前实现碳达峰,2060年实现碳中和,实现这一目标需要全社会共同努力,建筑业更是要积极转型升级,实现绿色可持续发展。钢结构属于典型的绿色环保节能型结构,符合循环经济和可持续发展的要求,近年来得到了快速发展,2020年钢结构产量达到了8 900万t。通过对钢结构行业近年来的调研数据进行详细分析,阐述了钢结构行业的发展现状,重点分析了钢结构相关政策、加工区域特点、钢材品种及强度应用、