流数据聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:Z12456879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统数据挖掘的对象是传统数据或静态数据,其主要来源于关系数据库、数据仓库和事务数据库。但是伴随着计算机、网络、通信技术以及传感器等具体应用的迅猛发展,一种具有高速、连续、动态、快速变化和海量等特点的动态数据正呈爆炸的趋势不断涌现,使得现在缺少的已不再是足够的信息数据,而是处理如此庞大流数据的分析技术。由于流数据的上述特点,使得如何使用有限的内存空间和计算机处理速度进行快速而又准确的数据挖掘已成为流数据聚类分析领域的重要研究课题。本文提出的PMC (Parallel MST CluStream)算法,该算法引入了CluStream算法包含联机和脱机两部分的思想,分为在线处理和离线聚类两部分。同时针对CluStream算法以单个数据对象作为处理单位而影响聚类效率的不足和它对非球形数据集聚类效果不佳的缺点,算法的在线部分使用两组处理单元分别对数据流进行在线分析,两组处理单元交替截取批量数据供其在线分析,该方法可有效解决批处理数据流断点影响聚类精度的问题,且批处理比以单个数据对象作为处理单元具有更快的处理速度。同时在线过程利用最小生成树算法,通过剪断最不一致边可有效解决对分布倾斜的数据集进行聚类,且能很好的解决STREAM算法批处理过程中簇个数的固定性,从而获取更高质量的数据流概要信息和部分数据对象的具体信息,然后采用金字塔时间框架模型适时的以快照的形式存储这些在线信息供离线聚类算法进行聚类。离线过程则以簇为代表对象,使用最小生成树算法进行离线聚类,该算法的引入可有效解决CluStream算法对非球状簇聚类效果不佳的缺点,从而有效提升算法的聚类质量。本文在真实数据集和人工数据集上进行了大量的实验,实验结果验证了PMC算法不仅可有效对非球状簇进行聚类,对数据的输入顺序不敏感,在类分布倾斜的数据集上有良好的表现,而且还具有更好的聚类效率和聚类质量。
其他文献
“上善若水”,我认为女人最能理解它的含义:最好的形式是水。以水的常态来比拟女人,该是恰当的。女人不能是冰,又冷又硬。我曾见过一些“男人婆”式的女人,一手拿烟,一手拿着
在推进"两学一做"学习教育常态化制度化中,高校学生党支部要结合自身特点,梳理分析工作实践中的不足,通过加强制度落实、发挥网络新媒体力量、挖掘各方优势、创新传统模式、
根据紫杉醇的结构特点和红豆杉中紫杉醇的合成机制,选取4种生长调节剂,研究其对红豆杉内生真菌合成紫杉醇的影响。结果表明,在发酵过程的第10天,补加下列任一生长调节剂,使发
目的 :研究注射用美洛西林钠的配伍稳定性问题。方法 :检索、分析近年来有关注射用美洛西林钠配伍禁忌的国内医药文献。结果:注射用美洛西林钠与环丙沙星、盐酸罂粟碱等多种
笔者就近几年来发现的几种易混用中药材鉴别如下,供同行参考。1 白头翁,漏芦,委陵菜白头翁为毛根科植物白头翁的根,呈类圆锥形或圆柱形,稍扭曲,长6-20cm,直径0.5-2cm,表面黄棕色或棕褐
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
对维持性血液透析患者进行积极的护理可使其保持良好的心态,主动配合治疗。
目的 探讨腹部手术患者术前脐孔皮肤清洁准确的最佳方法。方法 选取2015男6月至2016年6月期间96例在我院行腹部手术患者的临床资料作为研究对象,将其随机分为A、B、C、D四组,
糖尿病(DM)饮食治疗是一项基本治疗,然而许多糖尿病患者对DM饮食知识知之甚少。我们对2005年1月~2006年3月收治的57例糖尿病患者,入院时评估其DM饮食知识,只有4例掌握,故自2005年1月
由于学习緊张,我们班都流行住校。  我们宿舍的一位仁兄,晚间去厕所,问:“谁去厕所?”  他上铺的一位兄弟说:“等等,我去。”  半个小时后……  我上铺的一位哥们说:“你别等了,小心着凉,刚才那家伙在说梦话呢!”