自适应区间的不完整数据加权聚类算法研究

来源 :辽宁大学 | 被引量 : 1次 | 上传用户:MANYE28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们进入信息时代的同时人们也在不知不觉中进入大数据时代。数据对人们的生活、工作起着愈发重要的作用,但是在数据采集过程中由于噪声、数据采集失败等原因经常造成采集数据的缺失,造成不完整数据集。传统的期望最大化,加权估计方程,K-近邻等方法不能满足现在聚类精度的需要,怎样提高不完整数据的聚类精度一直是广大国内外学者关注的热点问题。首先,本文针对模糊C均值算法(FCM)无法直接处理不完整数据的问题,提出一种自适应区间的不完整数据模糊聚类算法(AI-IFCM)。提出属性相关度距离计算待填补数据样本和其他样本之间的距离来确定缺失数据样本的邻近样本集,最近邻样本的数量由最近邻规则选取,得到近邻样本集的属性值范围作为缺失数据属性区间化填补的上限和下限,区间默认中值为缺失属性对应近邻样本值的中值,为进一步减小区间对模糊聚类的误差提出区间因子来调节区间大小,计算近邻样本之间的分散度和中心值确定区间因子,计算后区间数据集代入区间模糊C均值(IFCM)进行聚类分析。其次,针对样本离群点影响模糊聚类准确率的问题,本文提出了一种针对不完整数据的区间样本加权模糊聚类算法(AI-WIFCM),为体现样本对聚类中心的贡献程度,在算法的迭代过程中加入了样本权值。本文首先发现了传统样本权值赋予的局限性,提出一种新的样本权值赋值方法,其次算法在自适应区间型数据集的基础上,把样本权值的计算扩展到区间型数据集,并对区间模糊C均值进行改进,在算法的迭代过程中引入区间数据样本的权值,有利于聚类中心的选取,增加了聚类的准确率。最后,本文采用了UCI数据库中的生物数据集鸢尾花Iris、医疗数据集乳腺癌Breast和医学数据集成年人肝病Bupa,以及人工生成了有规律的数据集ONE和没有规律的数据集TWO。在四种缺失率的情况下和WDS-FCM、PDS-FCM、OCS-FCM等算法进行实验,并对算法的原理进行了分析对比,结果证明本文算法有更高的聚类准确率。
其他文献
香囊的精致与雅气在两千多年前就被人们所发现.并被赋予了辟邪和定情之意.为其流传世间挽了一个考究的结。而今日,一些追逐个性的年轻人.更是把香囊作为不可或缺的汽车装饰。
期刊
目的:探讨枸杞蛋白酶解液对自发性高血压大鼠(SHR)肾素血管紧张素系统(RAS)的影响及其可能的降压机制。方法:选用SPF级Wistar大鼠近交系雄性SHR大鼠40只,随机分为5组:阴性对
随着教育信息化的到来,高校教学管理工作作为影响高校教育质量和教育效率的重要环节,如何抓住教育信息化这一发展契机,根据高校教学管理的实际,逐步推进学校教学管理信息化的
目的:观察大鼠肝切除术后肝血窦重建的形态学过程和门静脉血流动力学改变规律;探讨肝切除术后,肝再生过程中VEGF和TGF-β1的表达及其与肝血窦重建的关系;建立一种高效率、高纯度
<正> 静脉空气栓塞(Air vein embolism简写为AVE)是一种较常见的手术并发症,只要手术野高于心脏水平就存在发生AVE的条件。近代用多普勒(Doppler)超声监测发现,术中AVE的发生率甚
随着中国城市经济的发展以及城镇化的快速推进,人口迁移的空间格局发生了重大变化。本文基于1985-2015年全国省际人口迁移矩阵数据,运用社会网络分析方法,探讨中国省际人口迁
从武汉交通的现状入手,通过认真分析,同时结合国内外城市交通管理的先进理念和成功经 验,提出了以人为本,科学制定交通规划,加强交通宣传教育,改善道路通行条件,增强交通安全
高分子膜片材料在经过IMD(In-MouldDecoratiom)即模内注塑表面装饰工艺中的印刷,成型,注塑等工艺环节之后还需要进行切割。而传统的冲切工艺在遇到对拥有复杂路径的膜片进行
目的分析清宫表预测胎儿性别的能力以及作为选择性生育指标的可行性。方法收集2013年12月1日—2014年12月31日住院的符合纳入标准的产科患者107例,通过受孕月份和孕妇农历年
“2016民营企业对话世界500强”活动上周在我市举行。本次活动以宁波获批“中国制造2025”试点示范城市为契机,以“宁波问道 寻路智造”为主题,着力推动世界500强企业和中国民营企业在智能制
报纸