混合的大规模数据库中数值型数据聚类算法研究

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:blueivan69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模数据库中的海量数据多具有混合属性,即数值型数据与其他类型的数据混合于一体、数据量庞杂、不易区分.传统算法往往忽视多种属性间的关联性,算法复杂、聚类速度慢、效果差.对此提出一种基于划分聚类的混合大规模数据库中数值型数据聚类算法.首先为降低传统算法的高复杂度,要从大规模的数据库中合理抽取多个小数据集,小数据集中要包含数据库中全部的自然簇;依据相似度定义构建小数据集的相似度矩阵,并分别进行数值型数据及其他类型数据的相似度计算;最后对抽样聚类的结果进行整合、均值更新和划分,实现混合的大规模数据库中数值型数据
其他文献
第一条:为有组织,有效地开展《中国校医》杂志社山西通联站的工作,特制定本条例。第二条:山西通联站,是《中国校医》杂志社在山西省教委,山西省卫生厅、山西省防疫站学校卫生
目前硬件木马的检测方法主要有逻辑测试和旁道参数分析法,然而在木马面积较小并且存在较大的工艺漂移的情况下,这两种方法的检测覆盖率并不高.对此利用电路自身的动态电流(Idd
<正> 从1965年Blumberg等发现了HBsAg以来,在世界范围内进行了大量的乙肝病毒(HBV)感染的流行病学研究。1986年估计全世界约有2亿HBsAg携带者。中东、非洲,东南亚,我国等为高
N-list是近几年提出来的一种新的数据结构,它在频繁项集挖掘中有很高的效率.本文基于N-list提出了一种新型的并行频繁项集挖掘算法PPF算法.该算法通过扫描数据库创建一颗PPC-
肿瘤坏死因子-α(TNF-α)是一种具有多种生物学效应的细胞因子,它抑制心肌收缩性,诱导心肌细胞凋亡,促进心肌重构,在左室功能紊乱和充血性心力衰竭(CHF)发病机制中起重要作用
针对云计算虚拟机调度中存在的资源分配不均衡,蝙蝠算法收敛速度慢、寻优精度不高等缺点,提出了一种基于K-means和蝙蝠算法的云计算虚拟机调度算法.利用K-means聚类对蝙蝠种群数
<正> 乙型肝炎是一种发病率较高的常见传染病,乙型肝炎表面抗原(HB_sAg)阳性者,是乙型肝炎主要传染源。HB_sAg是乙型肝炎病毒(HBV)感染的特异性标志,是肝炎病因诊断的一项重
近年来由于冠脉内支架的改进和血小板受体拮抗剂的运用使得经皮冠脉介入治疗(PCI)几乎可适用于所有的冠脉疾病病人。但PCI手术量的快速增长也产生了住院费用和手术效果方面的问
声纹识别技术作为一种新型的生物特征认证技术,英特网的快速发展给声纹识别带来很多商业上的应用,对于声纹识别技术的研究越来越受到科学和市场的重视.优化声纹识别算法速度和正
针对传统的检测方法一直存在检测误差率大,能耗多的问题,提出基于主成分分析方法与平均评分偏离度计算法结合的无线电网络中数据伪造攻击检测方法.采用函数极值法,确定隶属度,获取