基于逆近邻和影响空间的并行密度聚类分析

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:qq271232312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中一个最重要的构成部分。在数据挖掘过程中,无需使用任何先验知识,聚类分析的目标是将聚类簇内的数据对象相似性最大化,不同聚类簇间的相似性最小化。密度聚类作为一类聚类分析方法,具有聚类速度快和在任意形状聚类簇数据集上都适用等优点,但存在无法区分不同密度的相邻聚类簇等缺点,且随着数据量和数据维度的急剧增长,其聚类效率低下,无法适应高维海量数据。本文采用逆近邻和影响空间的思想,对密度聚类算法及其并行化进行较深入的研究,有效地克服了其无法区分不同密度的相邻聚类簇等不足,并有效地提高了密度聚类分析的效果。其主要贡献如下:(1)采用逆近邻与影响空间相结合的思想,给出了一种密度聚类分析算法。该算法首先利用欧式距离计算数据对象的K近邻与逆近邻,依据逆近邻识别其核心对象,并确定其核心对象的影响空间;其次利用逆近邻和影响空间,重新定义了密度聚类簇扩展条件,并通过广度优先遍历搜索核心对象的影响空间以形成密度聚类簇,从而可以有效地区分不同密度的相邻聚类簇,进一步提高了密度聚类分析的精度和效率。最后,选用UCI真实数据集和人工仿真数据集进行聚类分析,实验结果验证了该聚类分析方法的正确有效性。(2)在Spark并行计算环境下,给出了一种基于逆近邻和影响空间的并行聚类分析算法。该算法首先引入局部敏感哈希的思想,采用P-稳定分布哈希函数计算数据对象的近似k近邻与逆近邻,可有效减少全局检索数据集的次数,降低算法运行时间;其次利用数据对象的逆近邻和影响空间进行聚类簇扩展,可有效区分不同密度的相邻聚类簇,并且因spark集群架构特性,弹性分布式数据集中的数据对象在内存中保存与计算,可明显减少硬盘的I/O次数,有效地提高了聚类分析效率;最后采用人工仿真数据集,实验验证了该算法在Spark分布式计算平台上,具备聚类效率高、可伸缩性与扩展性良好等优点。
其他文献
随着国家监察体制改革的推进和《刑事诉讼法》的修改,为认罪认罚从宽制度在监察机关办理职务犯罪案件中的适用提供必要的法律依据。在监察案件中适用认罪认罚从宽制度不仅有利于提升司法效率、推动监察案件繁简分流,也能有效的保障被调查人的合法权益,促进其改过自新进而提升反腐效果。但是,由于《刑事诉讼法》与《监察法》针对认罪认罚从宽制度的法律规范存在较大差异,以及监察机关的特殊地位和对职务犯罪调查过程的封闭化,进
工业快速发展所带来的环境污染问题越来越受到人们的关注。对于废水中的高浓度有机物,直接生化法处理很难达到排放要求。催化氧化技术可以通过催化产生具有强氧化性的自由基,将有机物降解为可生物降解的小分子,使有毒工业废水无害化。其中,低温常压非均相催化氧化技术因其反应条件相对温和,可降解高浓度难降解有机污染物等优势而被广泛使用。对催化剂的组分、形貌进行合理设计,进而提升其对污染物的降解效能,这对非均相催化氧
船舶在航行过程中与波浪之间发生的剧烈冲击现象称为砰击。砰击压力受许多因素的影响,如海波特性、船舶航行状态、结构形状、结构弹性、空气层、水的可压缩性等。当波浪冲击艏部外飘区域时,会产生相当大的脉冲压力,且作用的表面积大,砰击持续时间长,对局部结构的强度有较大影响。因此为了对船体局部结构进行合理的安全性评估,准确预报随时间变化的砰击压力则显得至关重要。另一方面,随着船舶大型化、高速化的发展以及高性能船
20世纪初,什克洛夫斯基强调通过变形和奇异化的手法能使艺术产生一种“陌生感”,从而引起受众对艺术新的感知。什克洛夫斯基及其他的形式主义者们还认为文学作品的特质就在于
OTN光传送网作为下一代骨干传送网的发展方向,充分结合了电域和光域的优势,为客户提供大容量的传送带宽和多样化的保护策略,切合当下大颗粒业务的爆发式增长,是光网络未来的技术发展趋势。在如此大容量、高速率的网络中,网络故障一旦发生,会直接影响大量业务,如果业务不能及时恢复传输,将导致业务中承载的信息大量丢失甚至直接失败,这种情况将会造成严重的社会影响和经济损失,因此OTN网络的生存性成为网络规划中至关
随着近些年物联网(IoT)与边缘计算技术的发展,物联网通信业务的种类与数量不断增加,这给网络的数据传输和处理都造成较大压力。为减轻网络压力,结合边缘计算技术与网络功能虚拟化(NFV)技术,将计算能力从核心网下沉至边缘网络,增强边缘侧业务处理能力是非常有必要的。现有虚拟资源分配方法分为资源映射与迁移两部分,分别存在成本优化与负载均衡无法兼顾、能耗或业务利润损失大等问题。因此,针对边缘网络和IoT业务
移民一直是美国社会生活中的一个热门话题。本文尝试从认知语言学的角度,选取特朗普和奥巴马关于移民的语篇,运用架构理论和概念隐喻理论进行分析。本文以两位总统任职期间关于移民话题的公开演讲及谈话为语料组成语料库。语料库包含特朗普于2017-2019年发表的移民演讲并其推特言论,共计21005词;奥巴马于2009-2017年发表的移民演讲,共计20100词。架构理论强调人们通过架构来思考。词汇和语言表达激
图像自动裁剪是一种常见的图像处理任务,可以改变图像的构图,提高图像的美学质量。优秀的图像自动裁剪算法还可以为图像编辑人员提供专业建议,帮助他们节省大量时间。现有的图像自动裁剪方法大多基于特定的特征,采用滑动窗口法生成大量的候选裁剪窗口,再依据这些特定特征来筛选得到最终结果,不仅十分耗时,而且对硬件有着非常高的要求,最重要的是该方法只能产生有限宽高比的裁剪结果,无法得到最优结果。针对这种情况,本文提
油田经过长期的水驱、聚驱开发后,已进入开采高含水期。为了提高油田的产油量,往往需要应用堵水、控注、停注等常见技术,这些技术已经成为提高产油量的重要方法。目前随着低效井日益增多,人工分析低效井数据的复杂性较高、速度较慢,堵水、控注和停注的影响因素比较复杂。因此,结合油田历史数据和动静态数据综合研究,将计算机技术引入到治理措施井的实际业务中,采取人工智能技术辅助判断待治理的低效井,为待治理的低效井推荐
随着商品经济的高速发展,为了满足人民对高效、迅捷的物流服务的需求,制造企业更加青睐于采用自动立体仓储作为企业首选的仓储管理方案。这样的工作模式使得仓储运输和物流从一个劳动密集型的产业转型快速升级为信息化和技术密集型的产业,实现了仓储运输企业的人力和成本的大幅减少、仓储利用率和货物信息化管理效率的进一步提高,大大地增强了企业的核心竞争力。仓储管理系统作为自动化立体仓储的核心,发挥着巨大的作用。而良好