【摘 要】
:
针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果
【基金项目】
:
国家自然科学基金资助项目(71271027)
论文部分内容阅读
针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果中类内各数据对象之间的相似度;通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs,DCRP),用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values,CVC),它具有以下3个特点:(1)在评价每个类内相似度时,不仅依靠类内各数据对象的特征,还考虑了整个数据集的信息;(2)采用几个特征属性值的差异评价两个类的差异度,确保评价过程不丢失有效的聚类信息,同时可以消除噪音的影响;(3)在评价类内相似度及类间差异度时,消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验,将CVC与类别效用(category utility,CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors,CDCS)指标和基于信息熵的内部评价指标(information entropy,IE)等内部评价指标进行对比,通过外部评价指标标准交互信息(normalized mutual information,NMI)验证内部评价效果.实验表明相对其他内部评价指标,CVC指标可以更有效地评价聚类结果.此外,CVC指标相对于NMI指标,不需要数据集以外的信息,更具实用性.
其他文献
目的对心脏瓣膜置换术后再次手术的患者给予围术期护理的临床效果进行分析。方法选取郑州市第七人民医院2015年4月~2017年7月收治的84例心脏瓣膜置换术后再次手术的患者为研
信息化速度越来越高,电脑里的东西也就越攒越多,一些用不到的“老古董”日渐消蚀硬盘内存。将其丢人回收站又不免可惜。所以,我们需要一款更加智能、可靠的存储工具,来将这些“古
韩国海运港湾厅最近说,该厅和韩国有关方面决定取消目前向进口船舶征收2.5%的关税。有关法规正在拟议之中,新的法规有望在明年年初实施。有关方面人士称,新决定的主要依据是,
疼痛是一种主观感觉,是病人的自我认识,自身体验。它是一种生理反应,也是一种心理反应。疼痛体验具有一种个别的主观特性,因此病人的自我评估是非常重要的,要让患者建立正确的自我
【正】 根据《中华人民共和国公司法》第七十三条规定,应当具备下列条件:1.发起人符合法定人数;2.发起人认缴和社会公开募集的股本达
目的:应用微型营养评定(MNA)法调查和分析胃肠道肿瘤病人的营养状态,并比较与其他营养评价方法的相关性。方法:应用MNA法问卷调查、人体测量和实验室检查,对496例胃肠道肿瘤拟手术
目的:动态监测风湿性心脏瓣膜择期手术患者术后48 h内体温变化情况,分析维持体温近日节律的价值并探讨对应护理措施。方法:纳入2016年1月至11月我院收治的风湿性心脏瓣膜病、
WP—T<sub>1</sub>基弹塑性胶粘带与 WP—M<sub>2</sub>三元乙丙防水卷材配套于1989年被国家南极委员会选做南极中山建筑防水材料。WP—T<sub>1</sub>丁基弹塑性胶粘带具有一
目的探讨延续护理对克罗恩病患者的效果。方法纳入2014年6月至2015年6月南方医科大学南方医院收治的200例克罗恩病患者,出院时随机分为观察组和对照组。对照组给予常规出院指
印度政府近日表示,印度正着手放宽外国人直接投资非核心、非战略性产业的限制,将外国人的持股上限从目前的51%提高为74%。印度政府此举将大大有利于吸引外国资本流入,有益于