大规模数据的谱聚类算法的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jyjcccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据的采集和存储技术的飞速发展,尤其是互联网的广泛应用,各行各业积累了大量的数据。为了从数据中挖掘出更多的有用信息和知识,人们结合机器学习和数据挖掘进行数据分析。聚类算法作为机器学习和数据挖掘的重要组成部分,被人们广泛地使用和研究。不断地完善和提高聚类算法的性能和准确性,成为研究者孜孜不倦的追求。本文对广泛使用的谱聚类算法进行了深入地研究与分析,对算法进行了改进,使其更能适用于大规模数据。该研究为用户快速高效地提取海量数据中的有用信息提供技术支持,提高大规模数据聚类分析的效率。本课题的研究点可以大致分为以下三点。1、快速谱聚类算法的设计与实现:针对谱聚类算法的不足,本文提出了一种基于Kmc2的快速的谱聚类算法KSC,分别在数据表示和最终的聚类过程中进行了优化,降低了数据相似计算的复杂度和选点的复杂度,从而提高谱聚类算法整体的效率。2、并行谱聚类算法的设计与实现:单机的谱聚类算法在解决大规模数据的问题上仍然显得捉襟见肘,本文针对已改进的谱聚类算法,分别为数据表示、相似矩阵构建、拉普拉斯矩阵构建、特征向量分解以及优化的K-means聚类这五个步骤设计合理的并行策略,完成基于Spark的并行谱聚类算法的设计与实现。3、大规模数据的聚类分析系统:为了降低用户使用算法的难度,提高用户使用聚类分析进行数据信息挖掘的效率,本文在结合现有的并行计算框架的基础上,设计实现一个快捷方便、用户友好的大规模数据聚类分析系统。
其他文献
互联网技术的出现给人类社会带来了一次深刻的变革。现如今,我们生活的方方面面都已离不开网络这一新媒介,对于政治学领域来说,这不仅在很大程度上促进了人们采集信息方式的转变,还提高了信息收集的水平和质量,并使得政治沟通面貌发生了巨大的转变,利用网络方式展开的政治交流在我国呈现出了迅猛地发展趋势。具备良好政治资源的政治主体譬如政府,可以利用互联网等方式来采集和处理相关的政治信息,而民众则通过网络表达诉求,
在职消费的发生与披露有一定的隐蔽性,这给予了相应的利益获得者操纵空间。现实中,不合理在职消费事件时有发生并引发了大量社会关注。过去关于在职消费影响因素研究常集中于公司内部治理特征和外部监管特征,大多属于正式制度的范畴。正式制度和非正式制度通常综合作用于个体的认知水平和价值观。根据高层梯队理论,非正式制度也可能会一定程度影响公司高管在职消费行为。近年来,特定文化与公司高管财务、金融行为的研究已成为公
作为一种被荷兰精神病学家命名的混合梦境,清醒梦是一种能意识到自己在做梦的梦,几乎就是和“梦想”是同义词,这种特殊的操作和训练很大程度上和一个艺术家的创作准备阶段相似,两者之间某种类似的特质使我从艺术实践角度研究“清醒梦”产生了兴趣。既然清醒梦已经被科学认识和发掘,所以清醒梦除了作为一种梦境,很显然还可以为艺术家提供更多的营养,如果从艺术家视角而不是医学观察的角度来认识清醒梦,就不仅仅只是接受和等待
衡量一个国家特殊教育发展水平的重要标尺是教育公平和教育普及程度,也是一个国家社会文明程度的重要标志。而特殊需要儿童的发展和特殊教育质量的提高,关键在于特殊教师专业素质和特殊教育教师队伍的建设的提升。我国相关的政策法规对特殊教育教师的专业素质提出了明确的要求,同时我国残疾儿童少年义务教育在中西部农村地区特别是边远贫困地区普及水平仍然偏低,非义务教育阶段教育发展整体相对滞后,特殊教育条件保障机制不够完
随着国际贸易的深入发展,文化因素对贸易的影响作用逐渐受到学界的重视。中国与东盟关系正常化以来,双方在经贸领域取得了飞速的发展,中国已连续十年保持为东盟第一大贸易伙伴,东盟已成为中国第二大贸易伙伴。在“一带一路”倡议出台以后,新时期中国与东盟的经贸关系备受关注。中国与东南亚地区有着源远流长的人文交流历史,文化在中国-东盟经贸发展中是否扮演重要角色,文化事件又该如何量化分析,本文将进一步考究。本文以文
本文研究的是啶氧菌酯·丙环唑复配剂对水稻主发病害水稻纹枯病、稻曲病及花生叶斑病应用技术,研究过程中主要是通过查阅文献对相关化学药剂防治进展进行研究,对相关防治病害
“三农”问题一直是萦绕中国的社会现实问题。我国也一直致力于创新农民、农业、农村的持续发展模式。今年作为全面建成小康社会的实现之年,对于我国来说具有深远的意义。农民作为一个庞大的群体,怎样在市场经济中站稳脚跟、持续发展是值得深入研究的问题。农民合作社作为一种非盈利的组织形式,在当下越来越广泛存在。从历史的车轮中可以看出,其存在是适应市场经济环境的结果,因此,该种形式离不开人们的关心和维护,为了促进其
随着用户和市场对移动通信要求不断提高,促使着通信技术快速发展。4G移动通信系统传输速率以及接入能力已经无法满足各行各业不断增加的需求。对此,提高通信速率和通信质量是对5G移动通信系统的要求。而且,目前高速场景下通信已经越来越重要,高速场景下,过高的多普勒频移和导频开销导致获取信道状态信息难度提高,传统OFDM系统性能达不到要求,对此,OTFS系统通过将时变信道转换为时不变的时延-多普勒信道,在高速
糖基化修饰是一种普遍存在的翻译后修饰,广泛参与了细胞的多种生命过程,包括信号转导、细胞凋亡、转录调控、免疫反应、炎症反应等生理过程,以及肿瘤、神经退行性等疾病发展过程中,对糖基化修饰的研究有重要意义。但是,糖研究工具的缺陷阻碍了整个领域的研究进程。在目前的研究中,凝集素和糖抗体为主要的糖生物学识别工具,然而这两者在特异性和亲和力上都有待提高,不能够很好地满足研究的需求。因此,寻找更优的糖基化修饰识
在西方个体化进程和中国市场经济的推动之下,生育后选择外出工作,兼顾工作和家庭成为中国女性的生活常态。“焦虑”、“进退两难”已然成为“职场妈妈”的代名词。90后“职场