属性选择可视化技术与聚类算法的研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:yinlangui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可视化技术将数据以图像、动画等直观方式呈现给用户,用户可查看属性的特点、相关性、数据的分布等,更好地理解数据中隐藏的信息,从而辅助决策。随着数据规模的增加,可视化技术在降维和属性选择的研究中具有重要意义。聚类分析是机器学习的一个重要领域,本文以聚类算法为研究主线,将可视化技术应用在预处理和结果分析过程中,主要完成的工作如下:(1)本文选取了FastMap算法和MDS算法,映射高维数据,并通过模拟数据实验比较两种算法的映射特点。关于属性可视化算法:连接向量图,本文针对其转折点变化单一和数据分界不明显的缺陷,引入转折点的变化,提出连接向量树,并在模拟数据集和UCI数据集上进行实验,验证了可视化技术用于属性选择的可行性。(2)本文分析了kNN孤立点检测算法,针对该算法的检测结果受用户设置参数的影响较大的缺陷,引入阈半径和密集度阈值,提出基于最近邻距离差的孤立点检测算法。实验表明,改进算法降低了参数的影响,用户通过调整密集度阈值,可以判定孤立点强弱。(3)本文针对k-means算法聚类结果随初始中心的不同而波动的缺陷,提出基于层次聚类中最短距离类合并的改进k-means算法,首先采用基于最近邻距离差的孤立点检测算法去除数据集中的孤立点,通过最短距离合并小类,通过迭代,得到聚类中心。实验表明,通过优化的初始中心,k-means算法得到了稳定的聚类结果,并且有较高的正确率。本文在Matlab环境中集成了上述多种算法,构建了“属性选择与聚类可视化”实验平台,包括数据显示部分、算法选择部分和数据处理结果部分,并能够呈现k-means算法的聚类过程。
其他文献
基因组学(genomics)是当今生物学家探究生命奥秘的新兴研究领域,其中单体型是基因组学中的一类重要信息,它在复杂疾病关联研究、药物设计中起着至关重要的作用。由于人类基因型数
基因组学是研究生物基因组奥秘的新技术,随着测序技术在过去十几年间的高速发展,目前我们已经进入了千元人类基因组阶段,这极大推动了研究微生物信息和群落的功能的宏基因组学发
寄存器分配是编译器后端的一个重要环节。功能是将中间语言中的虚拟寄存器分配到特定目标机的物理寄存器中并进行替换。寄存器分配优化技术是编译器后端优化的重要技术之一,本
随着市场竞争的日益激烈,企业需要不断地加强自身的系统建设来应对挑战。面对业务需求不断变化、业务复杂度越来越高的问题,如何快速、高质量地开发出满足企业需求的信息系统软
随着Web技术的飞速发展以及网络环境的改变、传输内容的变化,当初的HTTP规范已经逐渐无法满足人们的需要,HTTP自身的一些不足(如:单路连接、只允许客户端主动发起请求、HTTP头冗
  轮廓是图像的基本特征之一,准确地提取出物体的轮廓为图像的后续处理提供了重要的信息。它是特征提取和识别的初始步骤,也是计算机视觉领域的一大研究热点,有着十分重要的实
随着感知技术和网络技术的发展,参与感知技术引起越来越多的注意力,因为它能提供一种非常有潜力的方法,使普通大众和专业用户收集、分析隐私数据,进而更好地理解世界。然而在现有
模糊系统是对确定性系统的推广。与确定性系统不同,模糊系统的输入和输出约束于某一模糊区间,令其状态和行为表现出一定的不确定性。对模糊系统不确定性的描述和分析,以及在
粮食是人类赖以生存的物质基础,做好粮食的安全存放工作至关重要。粮食在存放期间需要实时的对粮仓内各环境参数进行监测,并据此采取适当的措施进行处理。过去粮仓工作人员需
随着我国人口日益严重的老龄化,非接触式监护对于非危重病人特别是老年人的监护显得越来越重要。目前,欧美国家在医疗监护领域发展迅猛,特别是对非接触监护仪器的研究和开发