基于网格的密度峰值聚类算法研究及其应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:huaduo4851
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,数据挖掘技术发展非常迅速,各种各样的数据挖掘方法被源源不断地提出,聚类作为数据挖掘领域一种重要的研究方法,已经被广泛地运用在城市热点发现、图像识别、广告推荐、客户细分等各个领域。密度峰值聚类算法是2014年提出的一种具有代表性的聚类算法,在大多数数据集上都可以得到比传统聚类算法更好的聚类效果,并且在聚类过程中,需要人为设定的参数很少,与传统算法相比,具有运行速度较快、可以发现任意形状簇等优点,已经被广泛地应用在图像识别和社区划分等领域。由于近年来数据科学的飞速发展,各种各样的数据形式,越来越大的数据量,使得聚类算法需要不断地适应新的数据要求。本文通过对密度峰值算法聚类过程的详细分析,发现当数据规模达到一定程度时,密度峰值聚类算法就很难在普通计算机上直接处理数据集,而且聚类时间也随着数据量的增长变得越来越长,这就大大限制了密度峰值聚类算法在大规模数据集上的应用。针对以上问题,本文提出了一种基于网格的密度峰值聚类算法。该算法在密度峰值聚类算法的基础上,结合网格聚类算法的思想,对数据进行网格划分,一方面优化了算法计算相关参数所需要的时间,提高了算法运行速度,另一方面避免了密度峰值聚类算法在处理大规模数据集时出现的内存溢出情况,使得算法在单个普通计算机上也能够处理大规模数据集。实验分别在低维和高维的标准数据集上验证了基于网格的密度峰值聚类算法的有效性。本文将基于网格的密度峰值聚类算法运用在国内某城市出租车的真实轨迹数据集,利用乘客上下车的位置信息来发现城市中的热点区域,验证了本文算法在大规模数据上的适用性和优越性,并结合出租车司机的收入信息对各个热点区域进行分析。最后将热点区域之间的来往流量作为区域之间的相似性,对热点区域进行聚类,探究各个热点区域之间的联系。
其他文献
随着房地产相关经济活动越来越频繁,对房地产估价的需求也随之增大,对房地产价值的精确衡量已成为一个令人关注的话题。而目前市场上使用较多的三种传统估价方法市场法、成本
一维空心纳米复合材料具有比表面积大、孔隙率高、扩散距离短等独特的性质,在染料废水处理、蛋白吸附和锂离子电池等领域表现出广阔的研究空间和良好的应用前景。然而,一维空
形选系统是一种物料自动分选系统,依据物料的形状特性,对同种物料进行分类挑选,并且分选速度快,精度高,能够有效的提高物料分选的效率。分选系统的种类繁多,但是一般都仅仅针
类胡萝卜素是存在于生物体中的一种十分重要的色素。它不仅是光合作用的捕光色素和光保护色素,还是脱落酸和独脚金素等植物激素的合成前体,对植物的生长发育至关重要;人类和
本文研究了Top-k文档检索问题,即对给定的文档集D={d1,d2…,dn},对D构建索引,通过相关的打分函数给每个文档进行打分,使得对任意给定的模式P,返回文档集中与该模式最相关的前
盐碱土壤是我国土地资源的一部分,尤其在中国的东北部,荒地资源中盐碱土壤占有很大比例。土壤中多量的可溶性盐溶液会造成植物细胞壁两侧体液渗透压的不同,使细胞内部不同程
近年来,基于维基百科的知识库构建得到人们的大量关注,维基百科中各种不同的语义信息被挖掘出来,而其中最重要的语义信息之一就是实体类别(Type)信息。目前在维基百科中推断
在现实生活中,集体决策制度被个别单位异化的运用,背离了群策群力的制度设置初衷。同时,集体决策往往导致责任分散,这使得对单位犯罪进行追责时常常面临着因果关系认定的困难
从2002年《中华人民共和国政府采购法》颁布开始,通过不断探索,全国政府采购规模逐步扩大,政府采购流程也趋于规范。但在政府采购绩效评价上,至今尚未形成系统的政府绩效评价
近年来,由于科学数据的数据量急剧增大,导致科学数据管理系统难以有效管理数据和快速检索数据。数据库领域中的索引技术,尤其是多维索引技术,能够有效管理数据和快速检索数据