【摘 要】
:
聚类算法一直是数据挖掘中倍受关注的研究方向,它能够找出数据集中特殊的分布结构,而无需任何先验知识。近年随着网络技术及工业产业现代化发展,海量级的数据迅速出现。在经
论文部分内容阅读
聚类算法一直是数据挖掘中倍受关注的研究方向,它能够找出数据集中特殊的分布结构,而无需任何先验知识。近年随着网络技术及工业产业现代化发展,海量级的数据迅速出现。在经典算法逐渐无法应付的情况下,各种分布式平台出现,而算法则成为热门的研究方向。本文首先综述了过去的一些经典算法及当前的研究改进,还有一些近年提出的聚类算法,提供了很多新的视角。随后将四种聚类挖掘算法MapReduce化,并在Google开发的分布式平台Hadoop上运行。k-means算法为许多其他算法的辅助基础,但是其本身的许多缺陷还是无法避免,采用并行化后的k-means++算法后可以有效避免局部解的干扰。DBScan是基于密度的经典算法之一,从点的空间结构考虑分割数据,并通过重叠的覆盖取代原算法得到聚类结果。近邻传播算法基于对相似矩阵的处理,逐步迭代到收敛结果,并行化这一算法意味着可以处理高维大规模数据的相似矩阵。谱聚类是较新的一种研究方向,通过对称相似矩阵特征空间将数据空间降维,然后借助k-means完成聚类结果,并行化这个过程同时也提出了计算特征向量的并行化方法。本文最后通过实验和理论验证这些算法的可行性,同时证明借助Hadoop可以应用于普通计算机的特点,将大幅减少运算时间。
其他文献
伍炳彩教授对辨证为神经性尿频的患者,擅用四逆散加味从厥阴经入手进行治疗,临证每多效验。
异质外延在化合物半导体材料和器件的制备中起着至关重要的作用。在硅、蓝宝石衬底上异质外延GaN、ZnO、SiC等化合物半导体薄膜材料成为目前研究的热点。但是,由于外延薄膜与
为了提高露天开采的煤炭资源回收率,掌控露天煤矿端帮残煤开采工程安排,提出了水平和近水平大型露天煤矿汽车运输內排条件下,露天煤矿端帮露井联采、端帮陡帮开采、减少露天
当前大学生就业形势依然严峻,就业竞争日趋激烈,理想与现实的差距使得大学生在就业过程中出现一些不良心理问题,严重影响其顺利择业及心理健康。大学生要从客观认识自我、树
新课程打破了传统教学中教学设计拘泥于课本,难以发挥主体作用的不足;打破了传统课堂教学程式化对课堂教学灵活性和变通性的束缚,开始关注交互动态的真实的教学情景。本文试
目的:比较不同强度有氧训练对轻中度稳定期慢性阻塞性肺疾病(COPD)患者肺的通气功能和运动耐力的影响。方法:将60例轻中度稳定期COPD患者随机分为高强度(峰值功率的70%)有氧
证券投资基金和券商集合理财产品作为当今我国证券市场上两种间接的理财方式,具有集合投资、专家管理、分散风险、利益共享、风险共担等属性,因此市场上的投资者越来越关注这
在客户需求多样化和购买行为不确定性日益突出的市场环境中,企业间的竞争变得更加激烈。敏捷供应链的构建逐渐成为各企业快速响应客户需求,提高市场竞争水平的有效选择。厨卫
我国作为世界第一大蔬菜消费国,蔬菜的病害常使国家经济和人民生活遭受严重损失,已经成为制约蔬菜高效、安全生产的主要原因,而灰霉病是一种严重威胁保护地蔬菜生产的真菌病
审计质量伴随着审计产生,一直以来备受关注,本文主要回顾了国内外学者比较有代表性的观点,从内部因素、事务所因素和第三方因素三个方面探讨了审计质量的影响因素。并结合前