【摘 要】
:
在人工智能与机器学习飞速发展的今天,数据挖掘作为一种知识发现的工具,受到了越来越广泛的关注。在这个领域,聚类分析是一种常用于数据处理的技术手段,能够将没有类标号的数据通过一定的方式实现划分。目前,聚类分析已广泛应用于电子商务、图像处理、Web挖掘、生物学和安全等各种行业。密度峰值与快速搜索算法是一种较为新型的聚类算法,该算法利用样本局部密度和相对距离进行聚类,原理简单且运算高效,对于聚类的初始簇中
论文部分内容阅读
在人工智能与机器学习飞速发展的今天,数据挖掘作为一种知识发现的工具,受到了越来越广泛的关注。在这个领域,聚类分析是一种常用于数据处理的技术手段,能够将没有类标号的数据通过一定的方式实现划分。目前,聚类分析已广泛应用于电子商务、图像处理、Web挖掘、生物学和安全等各种行业。密度峰值与快速搜索算法是一种较为新型的聚类算法,该算法利用样本局部密度和相对距离进行聚类,原理简单且运算高效,对于聚类的初始簇中心选择有很好的效果。本文将密度峰值算法思想分别与模糊C均值(FCM)算法、K-means聚类算法相结合,对两种算法进行优化,通过实验证明了两个改进后的算法在整体效能上都得到了提升。论文的主要内容如下:(1)传统的FCM算法克服了一般聚类算法非此即彼的缺点,但聚类过程中,对于随机确定的初始簇中心敏感,聚类的效果易受到影响。针对这个问题,利用密度峰值算法来优化初始簇中心的选择,提出了基于密度峰值的改进模糊C均值(DP-FCM)算法。首先,利用样本的局部密度和相对距离两个参数刻画出密度距离指数,遍历数据样本,计算出平均密度距离,选出密度距离指数大于平均密度距离的点作为聚类中心。其次,根据密度峰值确定出聚类中心,利用每个样本数据到聚类中心的距离初始化隶属度矩阵,计算目标函数的值,不断更新隶属矩阵和新模糊聚类中心,直至达到停止条件,得到最终的聚类结果。DP-FCM算法对于初始簇中心敏感的缺点进行改进,提高了聚类的准确性。通过与其他四种聚类算法的实验比较,DP-FCM算法的聚类整体效能有明显的提升。(2)针对数据挖掘中的文本数据稀疏与高维的特性,将密度峰值算法与K-means算法相结合,提出一种基于密度峰值与加权距离的K-means(DPK-means)算法。首先,利用中文分词处理和TF-IDF算法将无结构化或半结构化的中文文本变成计算机能够理解和处理的结构化数据;其次,利用密度峰值算法中的局部密度和相对距离两个参数刻画出决策图,确定簇中心与聚类的数量;最后,计算出每个簇的均值向量和各数据样本的加权欧氏距离,按照就近的原则将数据划分到每个簇中。重新计算新的均值向量,迭代直至聚类中心不再改变或者达到最高迭代次数。实验中发现对于大规模的文本数据算法运行效率不高、消耗时间长,故将该算法在Spark平台上实现了并行化处理。通过对比各数据集的聚类结果可以发现,DPK-means算法对于中文文本数据集的聚类效果明显提升;通过比较不同节点下的运行时间和加速比,并行化的DPK-means算法的耗能减少,效率提高。
其他文献
本研究从叙事学角度出发,在叙事空间理论指导下,将民俗博物馆作为叙事文本,探讨民俗博物馆空间设计与游客的作用关系。民俗博物馆的叙事空间设计,建立在国内外叙事空间理论及民俗博物馆的理论研究及实践之上,要求民俗博物馆在满足空间使用功能之外,更加注重空间的表达能力。通过叙事性设计,民俗博物馆能够提升感染力,提升民俗博物馆公众形象,使展示教育这一重要的社会功能得以充分发挥。二者的理论结合,既扩大了叙事空间理
在全球范围内,真菌毒素污染是食品污染中典型的类型,发生在生产、加工、储存以及整个食物链过程,严重威胁着人类和动物的健康。真菌毒素的种类繁多、性质各异,其中常见的赭曲霉毒素包括赭曲霉A(OTA)和赭曲霉B(OTB),OTA毒性最大在体内可代谢为赭曲霉alpha(OT-alpha)。伏马菌素有伏马菌素B_1、B_2和B_3(FB_1、FB_2和FB_3),其中FB_1和FB_2在体内可水解生成水解伏马
新课程改革理念中要求教师必须具备技术整合能力。2005年科勒和米什拉TPACK框架的提出为教师信息素养的提高以及专业发展提供了一个新的研究视角,然而有关初中英语优质课教师的课堂教学行为研究并不多见。本研究以科勒和米什拉提出的TPACK框架为指导,研究荣获2017年第十二届全国初中英语优质课一等奖的三位教师的课堂教学行为,具体旨在探讨以下三个研究问题:1)初中英语优质课教师的课堂教学行为特征是什么?
在《指环王》中,魔法、咒语、龙等非自然和不可能的现象比比皆是。托尔金擅长运用不可能元素来向读者展示其作品的可能性特征,因此,这些不可能叙事并没有影响读者对小说真实性和可能性的体验。巴赫金对不同体裁的时空体进行了分析。不同于史诗类时空体的外在性和抽象性,他认为小说时空体是具体的、线性的,是真正的时空体,是可能世界的时空体。鉴于托尔金的小说人物与现实中的人一样具有自我意识,并且能在线性时空中不断地变化
随着油田的注水开发,剩余油分布研究已经成为国际石油学术界急于攻关的难题之一。新木油田区域位于松辽盆地南部扶新隆起带木头鼻状构造,目的层为泉四段扶余油层和泉三段杨大
弗吉尼亚·伍尔夫,19世纪到20世纪初英国无可替代的伟大作家,她的女性主义思想被女权主义运动视为开山斧,指路灯,从19世纪至今被不断研究,然而她自己却并不承认自己是个女权主义者,笔者发现弗吉尼亚在生活中不遵循传统,雌雄同体,她与女性发展“情谊”,努力摆脱父权制、话语霸权和社会规约的影响。这些与20世纪兴起的酷儿理论不谋而合。酷儿理论与一切严格的分类挑战,主要包括男女性别、同性恋和异性恋以及传统的同
目的:观察中医临床路径在儿童过敏性紫癜临床诊治过程中的实施情况,以期助于进一步完善该路径。方法:选取2013年1月至2018年9月在山东中医药大学附属医院住院的过敏性紫癜患儿共计306例,按照是否使用临床路径将其自然分为2组,未使用临床路径的患儿作为对照组,使用临床路径的患儿作为路径组。采用回顾性研究,统计路径组与非路径组平均住院天数、平均住院费用、药费占比、抗感染药物及糖皮质激素使用天数、出入院
随着社会经济的发展,市场交易的范围和方式也不断地发生着变化。以物抵债作为一种新型的债的清偿方式,近年来在民事领域中被广泛的运用,并且有不断扩张的趋势。然而,我国现有的立法中缺乏以物抵债合同的相关规定,法法理法界对其的研究也尚未成熟,且以物抵债合同在实践中的形式多样,这就导致司法实践中法院对以物抵债纠纷中合同效力的认定经常出现分歧,不仅损害了债权人和债务人的合法权益,也严重影响到司法的公平性和权威性
新农药创制研究中,直接利用天然或生物源生物活性物质创制新型绿色农药,通过在天然活性物质结构中引入一些功能性结构如杂环或者含有杂原子的基团对其进行修饰,以开发出具有更高活性的化合物,是近年来新农药研发的发展方向。本论文基于含氟香豆素与吲哚在质子酸催化作用下生成的傅-克反应产物,通过一锅法利用布朗斯特酸协同催化再引入一分子的吲哚、呋喃或噻吩等杂环结构,进而合成了一系列的基于香豆素的含氟吲哚类化合物。具