【摘 要】
:
海量数据的增长使得有用信息和知识的获取变得更加困难,作为一种能自动、智能地将待处理数据转换成有用信息和知识的数据处理、分析技术,数据挖掘已经在各行各业的知识发现和数
论文部分内容阅读
海量数据的增长使得有用信息和知识的获取变得更加困难,作为一种能自动、智能地将待处理数据转换成有用信息和知识的数据处理、分析技术,数据挖掘已经在各行各业的知识发现和数据分析过程中得到了广泛地应用。 聚类分析是数据挖掘中的一个重要技术手段,它通过发现数据集的分布模式和对象间的有趣相关,从而将数据集分组为由类似对象组成的多个簇。其中,著名的基于密度聚类算法通过数据对象的密度扩展,能够从带有噪声的数据集中发现任意形状的簇。但随着各种复杂类型数据集的涌现,使得基于密度聚类在提高数据集的适应性和聚类结果的准确性等方面面临着巨大的挑战。 DBSCAN是典型的基于密度聚类算法,它能够发现任意形状、大小分布的簇,且具有较强的抗噪声能力;但由于其输入参数强烈依赖于领域知识,极大地降低了其易用性,尤其对于非均匀密度分布的数据集,全局固定参数的采用严重地影响了聚类结果的准确性。针对DBSCAN算法的缺点,本文提出了一种基于密度层次划分的DBSCAN聚类算法,DBSCAN-DLP。该算法的基本思想是:用k近邻距离作为密度度量对数据集按密度大小排序,根据数据集密度分布的统计信息计算出密度层次跳变阈值,由该阈值划分数据集得到能体现不同密度水平的代表集;再对每个代表集进行Eps参数估计;最后在每个代表集上采用局部DBSCAN聚类,并合并局部聚类结果。对比实验结果表明,该算法在聚类准确性方面优于传统的DBSCAN算法。 另外,针对具有较大密度分布差异的代表集,为了进一步提高局部聚类质量,本文给出了邻域半径动态调整的局部 DBSCAN算法,LDBSCAN-EA,替代DBSCAN-DLP中原有的局部聚类方法。LDBSCAN-EA算法根据邻居对象与当前核心对象的密度比值对邻域半径进行动态调整,以适应局部的密度变化。最后,对比实验结果表明,相比原有的局部聚类方法,LDBSCAN-EA算法更能适应代表集内的密度分布差异,进一步提高了DBSCAN-DLP算法对非均匀数据集的聚类质量。
其他文献
随着信息网络的高速发展,信息通讯技术已经融入到社会生活的各个层面。传统的反垃圾邮件技术和工作方式,已经无法满足垃圾邮件数量与日俱增以及种类日益变化的形势。本文针对常
随着风力发电成为世界上增长最快的可再生能源,为保持风电的长期稳定发展,需不断降低风电安装和运行维护的成本。由于风机系统是复杂的时变非线性的特点,一般的方法很难提取精确
城市轨道列车作为重要的城际间交通工具,在近几年来发展迅猛。在轨道列车迅猛进步之际,为了使得列车能够安全行驶、准点到站,运输效率更高,满足旅客舒适度和环保节能的需求,
随着信息技术水平的提高和企业对网络的依赖性日益增强,网络安全状况面临着巨大挑战。攻击者和网络安全管理人员始终上演着攻击预防大战。攻击者的攻击方式日新月异,安全管理人
医学图像三维重建是借助于可视化技术将医学图像重建成三维模型并显示出来,具有重要的研究和应用价值。MarchingCubes方法是三维重建中应用广泛的面绘制方法,但会生成大规模
随着社会的不断发展,人们的经济条件和生活水平不断提高,越来越多的食品安全问题被曝光使得人们对其关注度不断提高,然而这些食品安全事故严重威胁着人们的身体健康和精神健
网络编码允许节点对多个数据包进行运算编码,当接收节点收到足够数量的编码包后,可以应用相应的编码系数进行解码。相关研究表明,当网络编码被应用于组播及无线网络传输时,可
覆盖算法作为一种构造型分类建模算法,以其训练速度快、分类效果好而著称。在现今互联网时代,时常面对较大的数据集训练和分类的挑战,因此提升机器学习算法的训练速度和分类
高光谱图像通常具有纳米级的光谱分辨率,能提供丰富的地物空间信息和光谱信息,被广泛应用在精细农业、环境监测、现代军事等诸多领域。高光谱图像在具备诸多优势的同时也存在光谱维度高、光谱相关性大、噪声多、样本少等特点,这给高光谱图像分类过程带来了诸多问题和挑战,研究如何解决上述问题提高分类效果,是高光谱遥感领域的重要研究课题之一。针对高光谱图像分类过程中样本难以获取、样本数量少的特点,本文从降维、去噪和特
在非结构化P2P网络(unstructuredpeertopeernetworks)中,由于对网络的节点及资源分布没有统一的管理,资源的查找易形成大量的网络查找消息负载。同时由于网络节点的异构性,节点在