密度中心聚类的优化及分布式算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:liongliong506
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种常见的数据分析技术,在很多方面都得到了广泛的应用,比如天文学、生物学、社交网络、模式识别等。聚类算法分为基于中心点的聚类算法、基于密度的聚类算法、基于模型的聚类算法等。但是这些聚类算法普遍存在一些问题,例如对初始输入参数的选取异常敏感、处理大数据时效率低下、对数据的形状有一定的要求等。密度中心聚类算法(DP)是一个最近发表在“Science”上的新型聚类算法,它通过评估每个数据对象的两个属性值(密度值p和斥群值δ)来进行聚类。相对于其他传统聚类算法,它的优越性体现在交互性、无迭代性、无数据分布依赖性等方面。但是,密度中心算法对输入参数dc值非常敏感,不恰当的取值将影响聚类效果。本文针对该问题提出基于K近邻密度的DP算法——KNN-DP算法,有效缓解了算法对dc值选取的依赖性。另外,为了有效对高维大数据集进行聚类,本文利用MapReduce模型,基于分块技术设计了 KNN-DP的简单分布式算法——Naive KNN-DP分布式算法。为了进一步提高算法效率,本文结合位置敏感哈希(Locality Sensitive Hashing,LSH),将距离较近的数据点以较高概率哈希到一个数据块中,提出了基于LSH的KNN-DP分布式算法。该算法避免了大量的无效距离计算和中间结果传递,大大提高了算法的分布式计算效率,缩短了聚类计算时间。为了验证KNN-DP算法及其分布式算法的高效性,本文设计了一系列实验。实验结果显示KNN-DP算法在运行效率和聚类质量上均优于原始的DP算法。另外,实验也测试了本文提出的两种KNN-DP的分布式算法,包括Naive KNN-DP分布式算法和LSH KNN-DP分布式算法,实验结果表明基于LSH的分布式算法在运行效率上高于简单分布式算法,并且不会对聚类质量造成严重影响。
其他文献
设计构建具有近红外荧光发射、斯托克斯位移大、荧光量子效率高、光稳定性好、细胞毒性小、生物亲和性高的近红外荧光纳米颗粒,将其应用于生物体内外实时成像,对深层次研究生命信息,以及指导肿瘤诊断和治疗都具有非常重要的意义。本论文以罗丹宁为电子受体,三苯基乙烯基芳香化合物为电子给体,构建具有Donor-Acceptor结构的AIE活性荧光探针,通过引入呋喃和噻吩富电子基团,促使发射波长红移;采用纳米共沉淀法
我们国家的经济水平一直都在不断地提高,社会的发展也在不断的进步,人民的生活越来越好,同时对各种各样资源的需求量日益增加,其中最多的就是煤炭资源的应用。随着煤炭资源越
易读性作为测试文章难易程度的工具,在帮助教师选择和评价英语教材上发挥着重要的作用。文章运用了易读性中常用计算式、计算步骤和参考量表,对人教版高中英语教材(NSEFC)阅
小微企业是国民经济活动的重要组成部分,其发展态势不容小视。但是目前我国很多小微企业仍然挣扎在生死线上,融资困难一直是制约小微企业发展的主要因素之一。本文从小微企业
高职教育是我国重要的教育形式,为我国培养高等技术应用型人才做出了重大贡献。在我国高职机电系教学中,数学是联系理论知识和技术应用的一门重要学科,是高职机电系学生应当
热泵技术的应用是实现节能减排目标的有效措施之一。鉴于传统的热泵工质HCFCs和HFCs已被禁用或逐步淘汰,寻找合适的零ODP和低GWP的替代工质成为热泵热水器技术的研究热点。本
信息技术的发展改变了我们交易的方式,电商平台的存在消除了地理空间的障碍,消费水平的提高带我们进入了电子商务的繁荣时代。但随着交易量的不断增加,网络购物平台上如虚假
随着现代教育信息化的发展和互联网技术的广泛应用,高校校园网成为了高校师生获取校内外信息资源和互联网信息资源的重要入口,同时也是高校对外展现和宣传学校的有效手段。因
<正>立体几何中的最值问题常常需要将几何体或旋转体展开成平面图形(空间问题平面化),利用平面几何的知识来解决.或者将平面图形折叠成立体图形,求解立体图形中的空间角、证
市政道路交通系统承担着一个城市繁重的交通运输,道路经过长时间地运行难免将会出现各种质量问题,对市政道路进行定期改造才能真正提高其质量,确保其运输功能的充分发挥。本