基于数据场的密度聚类算法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:genggeng07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种以探索数据本质,划分数据类别为目的的无监督学习方法,已经成为机器学习领域和数据挖掘领域的研究热点之一。密度聚类算法是一个重要的聚类分析工具,其采用新的度量方式,利用密度连通来确定类簇的思想,为聚类分析提供新的解决思路。近年来,研究者们提出了很多密度聚类算法,并将算法应用于大规模空间数据的知识挖掘、图像分割、微博文本分析等实际领域中。应用于含噪声空间数据的密度聚类算法DBSCAN是经典密度聚类算法的代表之一。DBSCAN算法在不需要知晓数据集类簇个数的情况下,不仅能够把任意形状的类簇划分出来,还能够识别出数据集中的噪声数据。然而该算法对两个输入参数Eps和MinPts的依赖性很大,且难以处理多密度数据集。因此,本文结合数据场理论,利用数据场能够综合考虑数据间相互作用力、合理描述数据集的整体分布的优势,研究了基于数据场的密度聚类算法。主要工作内容包括以下三个方面:1.结合数据场思想和DBSCAN算法,设计了一个基于数据场的改进DBSCAN聚类算法,该算法适用于包含多种密度和多个形态类簇的数据集。算法首先利用数据场得到数据集的整体信息,通过引入平均势差来辅助Eps和MinPts进行后期的聚类。新算法只需用户输入参数MinPts,平均势差和Eps的取值通过考虑选定核心数据所在类簇的数据分布情况,根据核心数据的选择实时确定,最后利用密度可达得到聚类结果。通过与K-means算法、DBSCAN算法和数据场聚类算法的对比实验分析,表明提出的算法能够得到较好的聚类结果。2.为了探索新算法的实际应用能力,研究了如何将新算法应用于图像分割领域,并考查了数据场势函数的参数mi对聚类结果的影响。考虑到像素的灰度值在图像显示中占有重要的地位,将参数mi的取值与其相关联,通过对图像进行一系列的非线性处理来影响mi的取值。另外,为了使得聚类结果的图像显示更加符合人类的视觉感知,文中采用两种显示方法。通过对几幅示例图像的处理分析,以及与其它图像分割算法的比较,京明提出的算法可以应用于图像分割领域且参数mi对聚类结果有影响。3.为了给用户提供良好的交互界面以及直观的算法性能比较,利用C#.NET、 MATLAB编程语言和SQL Server2008数据库,设计并实现了基于数据场的聚类算法实验系统,包括对UCI数据集、人工数据集等不同数据集进行K-means算法、DBSCAN算法、数据场聚类算法、基于数据场的改进DBSCAN算法的聚类分析和结果显示。本文结合数据场的理论,为密度聚类算法解决不同密度数据集提供了新的思路,不仅将新算法应用于图像分割领域,也探索了势函数中mi的取值对聚类结果的影响。
其他文献
使用透射电子显微镜(TEM)观察了高Co—Ni超高强度钢AetMet100在510℃,5h回火后的强化析出相,并利用选区电子衍射方法(SAD)确定了强化相。结果表明,AetMet100钢在超细板条马氏体基体
目的了解我国部分高校高职护理专业的卫生法律相关课程设置现状,提出设置整合该课程的建议。方法调查浙江省内及省外23所高校护理专业教学计划中开设卫生法律相关课程的情况,
从生物生态学的心理发展理论这一视角去解读电影《奇迹男孩》,将剧情用生物生态学“过程—个人—环境—时间”4因素进行解构,得出主人公奥吉的奇迹之路,实际上是心理发展的最
<正>原来,街灯作为城市基础设施,主要用于照明。未来,路灯将发挥更多功能,如交通监测、环境监测、安防预警、信息发布、移动热点……在灯联网覆盖下,城市管理将更加智能。智
有机聚合物太阳电池具有重量轻、成本低、与湿法成膜的大面积制备技术相兼容以及可制成柔性、特殊形状器件等优点。通过设计和合成新型聚合物半导体材料,可以很容易地实现对器
目的:探讨多发性硬化(MS)的临床及影像特点,旨在减少误诊率,提高诊断准确率。方法统计近10年内明确诊断的9例多发性硬化患者的临床资料及影像检查表现。9例患者均于日本东芝系统Va
通过对20个深圳市已建成的绿色建筑典型案例进行调研评估,全面了解绿色建筑在设计执行、资源消耗、环境质量、管理服务等方面的实施效果,总结绿色建筑运行过程中存在的问题和
微电子技术的高速发展使得电子器件的集成度越来越高,单位面积的热流量越来越大,这就导致对系统散热的要求越来越高。现如今,散热风扇因其低价格和高效能而被广泛使用于电子设备
党中央高度重视中华优秀传统文化的传承发展。中国近现代史纲要是全国普通高等院校在校本科生必修的一门思想政治理论课。从融入的必要性、融入的内容、融入的路径、融入的意