【摘 要】
:
随着信息化时代的来临,大量数据的产生和收集导致信息大爆炸,数据挖掘技术已成为现在计算机科学的研究热点。聚类分析是数据挖掘中一种重要的挖掘任务和挖掘方法,使得聚类算
论文部分内容阅读
随着信息化时代的来临,大量数据的产生和收集导致信息大爆炸,数据挖掘技术已成为现在计算机科学的研究热点。聚类分析是数据挖掘中一种重要的挖掘任务和挖掘方法,使得聚类算法的效率和聚类质量在数据挖掘中起着至关重要的作用,也成了计算机科学领域的难题之一。基于密度的聚类算法是聚类分析的重要分支,以其能够发现任意形状的聚类、能够有效地处理噪声数据的优点在聚类算法中占有很重要的地位。DBSCAN算法是经典的基于密度聚类算法,它不但具有基于密度聚类算法的优点,而且聚类速度较快。但是该算法也有不足之处:聚类参数选择困难;当数据集密度分布不均匀时聚类质量差;初始聚类对象随机选择造成时间浪费;对所有种子对象进行区域查询造成时间和内存浪费。为解决DBSCAN算法中存在的问题,作者考虑到数据空间中的数据并不是独立的而是有一定的相互影响,结合数据场的思想对DBSCAN算法进行了改进,提出了一种新的基于数据场的密度聚类算法——DFDBSCAN。该算法将物质粒子间的相互作用及其场的描述方法引入抽象的数据空间,利用数据空间中数据场场势与数据密度分布之间的关系,对DBSCAN算法几个不足之处进行了改进。该算法采用了动态计算聚类半径的策略,使得算法在密度分布不均匀的情况下聚类质量良好。同时算法还利用了场势和数据空间中数据分布密度的之间的关系对初始聚类对象的选择和种子对象的选择问题上进行了改进。使得算法在时间复杂度与DBSCAN算法相当的情况下提高了聚类质量,并且在一定程度上提高了算法的执行效率,既节约了时间资源又节约了内存资源。该算法有一定的数学基础,也有一定的理论依据,同时也通过了实验数据下的验证。
其他文献
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域
随着Linux操作系统应用范围不断扩大,其所面临的安全威胁也不断增多,而其中非常重要的一种威胁就是提权攻击。攻击者一旦利用系统中应用程序或内核中存在的提权漏洞成功将用
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、
近年来,医疗仪器技术发展非常迅速,在人类的健康检测,疾病辅助诊治方面发挥了重要的作用。特别是医疗B超,因其无创伤,无痛苦,无辐射等诸多优点,被广泛应用于医疗诊断。本文针对当前B
随着在线社交网络的高速发展,社交网络平台(如Twitter,Facebook.人人网,微博等)近几年迎来了爆炸式增长,社交网络已经深入到人们日常生活中的方方面面。人们在社交网络上与人
互联网的不断发展使其面临着越来越多的网络安全威胁,如何实时准确地检测复杂网络威胁行为是当前亟需解决的关键技术问题。基于警报关联的网络威胁行为检测技术因其与网络上大
随着信息技术的发展,人们需要对大量的文本资源进行有效的组织,以利于主题发现、信息检索等。于是,文本聚类技术应运而生,它是自然语言处理领域的重要课题。文本聚类技术的研
经过长期的信息化建设,使企业和组织内部产生了大量遗留系统,这些系统在实施过程中缺乏系统性、一致性考虑,因而产生了大量异构信息。这些信息无法进行有效的共享和交换,导致
随着计算机网络技术与数据库技术的发展,在线无纸化考试系统因其公正性、准确性、灵活性、及时性以及方便性等特点,已成为目前国际上普遍采用的一种考试和认证方式。本系统的