基于近似密度构造的聚类分析与离群点检测算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:lalalan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是研究数据聚簇模式的技术.由于它始终是数据挖掘研究的重要内容、手段和工具,因此,聚类分析又是一个被不断探索并充满创新的研究主题.离群点检测是研究包含在数据中的少数异常而新颖的数据分布模式的技术.随着数据挖掘研究的不断深入并拓展到风险检测等众多特殊应用领域,面向这一新兴课题的研究方兴未艾.近年来,网络和数据库技术高速发展,由此引发的数据爆炸使面向大规模海量数据集的数据挖掘研究成为关键.探索并构造具有高性能、高效率的新算法是解决大规模数据挖掘问题的有效途径,也是本文开展聚类分析和离群点检测问题研究的着眼点和出发点.本文将数据空间网格划分技术与数据集密度函数构造技术紧密结合在一起,形成了基于网格上近似密度函数模型的算法构造思想.数据空间网格划分技术不仅被有效地运用于数据组织,使其发挥数据存储和索引上的高效率,而且被运用于分箱核密度估计,成为简化密度函数计算中的有效机制.在密度函数构造上,通过采用简便高效的分箱核估计避免传统核密度估计方法的繁复计算.为了提高分箱核估计的计算精度,本文提出了基于网格数据重心的分箱核近似方法,从理论上证明了其在误差阶上的改进结果的正确性.进一步地,本文就常用的高斯核估计提出并论证了用于进一步提高近似核估计精度的带修正的近似核函数计算方法.这种方法在不改变分箱近似核估计计算复杂度的同时,可以十分精确地逼近传统的核密度函数.将上述基于网格上近似密度函数计算的思想运用于聚类分析和离群点检测算法构造,提出了用于改进DENCLUE算法的DENCLUE-M聚类算法和离群点检测算法GridOF,GROFC.其中,DENCLUE-M算法和GridOF算法深入揭示了聚类分析与离群点检测之间的内在联系,GROFC算法则从离群数据与聚类数据在个别属性上的差异性的角度,在Chebyshev距离意义下讨论了离群点检测问题.所构造的几类算法均源自于严格的数学理论,具有相对于原始数据集线性的时间复杂度和优良的空间效率,能够在有限的内存空间中处理任意规模的数据集并支持增量聚类,且对数据维数具有良好的适应性.此外,DENCLUE-M聚类算法还具有发现任意形状聚类且不受噪声数据干扰的优点.在研究过程中,针对所提出的近似密度模型和所构造的各种算法进行了大量的实验验证,实验结果证明了这一思想的合理性和有效性,所提出的算法在综合性能上均明显优于现有的相应算法.基于所提出的近似密度函数构造的思想,开展了图象特征提取与噪声过滤的实验研究.其处理图象象素数据的方法新颖,所取得的实验研究结果进一步证明了这一方法的优越性.
其他文献
以计算机网络和卫星通讯技术为支撑的现代远程教育在最近的十年里取得迅速的发展,体现出时空自由、师生分离、系统开放、协作共享、资源融通的特点。但是,如何利用互联网技术面
本文围绕CDMA扩频通信理论和DWT(Discrete Wavelet Transform)变换在数字水印中的应用展开研究.从理论和实验角度深入分析其稳健性能,并提出新的水印算法.主要研究内容如下:(
应用层组播将组播的功能提升到应用层,通过端主机来实现,具有无需改变底层网络结构,部署灵活方便等IP组播无法比拟的优点,这也是著名的“端到端论点”所倡导的思想。应用层组
Internet是一个庞大的、全球性的信息服务中心,它提供了各种各样的信息服务。但随着WEB上数据的爆炸式的增长,数据信息的有用性变的越来越重要了。Web挖掘技术正是基于这一背景
近年来,随着数据库在不同领域的广泛应用,用户对于信息的查询处理提出了更多元化、更高效的要求。数据查询中简单的聚合(如MAX、 MIN、 SUM、 COUNT)很容易计算,但查询获得的
随着生物技术的发展,DNA微阵列数据为基因诊断、基因治疗等提供了前提和可能性。基因选择是基因诊断的基础,如何在超高维小样本的基因表达数据中选择那些与疾病相关、对疾病分
  本文主要是对税务行政管理信息系统的建设做全面的分析与展望,着重对税务行政管理信息系统的定义、发展历史与现状分析、建设内容与思路以及项目初步实施进行论述,并就未来
本文结合实际的科研项目,对笔迹鉴别中手写笔画特征描述与提取及相关理论进行了研究。在该研究中,取得的成果和贡献如下: 1、提出了笔画特征抽取的实现策略,即:以直观特征为主,
为了支持在移动终端上越来越丰富的数据业务,移动终端上应用运行环境也越来越复杂。但是不论应用运行环境有多复杂,它都可以根据所支持的应用程序执行指令方式不同进行分类。一
非线性科学是研究非线性现象共性的一门新兴的交叉学科,其主要研究内容包括孤子、混沌和分形,同这三个概念相对应的理论共同构成了非线性这门学科的理论基础.本文主要介绍了