基于Hellinger距离的混合数据集中分类变量相似度分析

来源 :计算机科学 | 被引量 : 0次 | 上传用户:wayl1s1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类变量的相似度分析是数据挖掘任务中的一个重要环节,现有的分类变量相似度算法中存在忽视变量差异、受不均衡分布影响严重、无法应用于混合数据集等缺点。为克服以上缺点,提出了一种基于Hellinger距离的分类变量相似度算法。该算法累加分类变量对应子集中不同属性变量的分布差异作为相似度,且支持混合数据集。将所提算法代入聚类算法并应用于UCI公共数据集,结果表明,该算法在准确度、有效性和稳定性上都有较大提高。
其他文献
基于野外露头、岩心、测井、录井、地震、生产动态等资料,结合断溶体地质成因,对塔河油田托甫台区奥陶系断溶体层级类型及表征方法进行研究。按照成因地质体的概念将断溶体划
传统多类文本多分类算法存在计算量大和训练时间长的问题,为此利用黄金分割(Golden Selection,GS)和支持向量域描述(Support Vector Domain Description,SVDD)对多类文本构造一种
针对企业内部网络存储,研究并提出了一种基于伸展树的缓存管理策略,以对网络缓存空间进行组织和管理。在内部网络存储缓存链的基础上,引入并改进了伸展树结构和操作,将改进后的伸
本文主要是对人工育王在中蜂优良品种选育中的作用进行了一定分析,通过分析蜂王哺育群和蜂王培育的操作技术来促进蜂群的可持续性发展,让我国的中华蜜蜂养殖可以得到更高的质
结合机会路由和网络编码两项新技术各自的优势,提出了一种新的基于部分网络编码的机会路由算法(0p-portunistic Routing Algorithm for Wireless Network Basedon Partial Netw