【摘 要】
:
聚类是数据挖掘和机器学习中的基本任务之一.传统聚类方法由于其设计中对簇结构假设的限制,导致算法在不符合其假设的数据集上,尤其是大型高维数据集上的聚类效果较差.本文引
【机 构】
:
西安交通大学电子与信息学部; 西安交通大学数学与统计学院;
【基金项目】
:
国家自然科学基金(批准号:61772410,61802298,11690011,U1811461);国家重点研发计划(批准号:2017YFB1010004)资助项目
论文部分内容阅读
聚类是数据挖掘和机器学习中的基本任务之一.传统聚类方法由于其设计中对簇结构假设的限制,导致算法在不符合其假设的数据集上,尤其是大型高维数据集上的聚类效果较差.本文引入了最大平均熵率的概念,设计了一种基于图的关联聚类算法.该算法将关联聚类问题分解为多个独立的单类优化问题,并利用邻域消除了关联聚类对大数据的限制.算法实现通过启发式邻域搜索和类生成简化了对最优邻域和关联聚类的求解过程,并且设计了适应分布式计算平台的图迭代方法.与其他聚类算法相比,该算法在提高计算效率的同时,对簇结构假设相对灵活,可适用于多种分布数据.在聚类实验中,算法的f1-measure和purity指数均好于其他6种聚类算法,而且对于高维大数据集,算法的运行时间远远低于其他聚类算法.
其他文献
一《中国戏剧》杂志2015年第7期发表了张之薇和我商榷的文章《如果只有模仿,戏曲终会怎样?》,同一期排在稍前的马也的文章《对京剧发展的点滴思考——上海京剧院的启示》,碰
目的观察大鼠脑缺血再灌注损伤后中药益气活血补肾方对c-Fos、c-Jun蛋白表达的影响,探讨其早期治疗脑缺血性损伤的可能机制。方法 Wistar雄性大鼠随机分成正常组、模型组、益
目的:探讨热休克蛋白27(HSP27)和热休克因子1(HSF1)在实验型大鼠牙髓炎模型中的表达。方法:建立实验性大鼠上颌第一、第二磨牙牙髓炎模型并收集临床正常及牙髓炎组织标本,制作连续
刘勰言:“人禀七情,应物斯感,感悟吟志,莫非自然。”自然万物多姿多彩亦多情,情,因人而异,因物而发。绘画之所以能够表现艺术家的情感世界,是源于艺术家能够因客观事物有感而
实时荧光PCR实现了功能基因定量,然而定量数据在油气藏,尤其是勘探难度大的隐蔽油气藏,定性预测方面的技术优势仍具开发潜力.以勘探程度较低的苏干湖盆地隐蔽油气藏为对象,点
文章基于手机热设计的角度从三个方面论述了手机TFT显示屏的热管理方式,包括热源管控、散热措施及整机布局,并举例分析各种热管理方式给手机表面温度带来的影响。
随着互联网信息科技的发展,网络课程的教学方式应运而生并迅速发展普及。慕课作为一种新型的网络教育平台,应用于高校思政教育,给传统教学带来了颠覆式改变。慕课形式的思政
邓小平同志一贯强调要对青少年进行理想信念教育.他不仅强调了教育的必要性和迫切性,而且提出了教育的途径和方法,值得从事思想政治教育的人深思.
设计了一种新型超宽带低散射全向天线,由四组非对称条状叉形辐射单元均匀放置在金属杆水平面上实现。其中,非对称叉形辐射单元能够产生的两个谐振频点,有利于拓展天线带宽。
高等职业教育以适应社会需要为目标,发展学生的技术应用能力,力图培养一批能够解决生产技术难题的高技能人才。在我国全面建成小康社会,建设社会主义工业强国的关键时期,需要