【摘 要】
:
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两
【机 构】
:
广东工业大学应用数学学院,广东工业大学计算机学院,佛山科技技术学院数学与大数据学院
【基金项目】
:
国家自然科学基金(No.61472089),广东省自然科学基金(No.2014A030308008),软件新技术国家重点实验室开放课题(No.KFKT2014B23).
论文部分内容阅读
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。
其他文献
以醋酸钙镁(CMA)为主要成分的机场道面除冰液对道面高性能混凝土(HPC)具有一定的腐蚀性,纤维增强高性能混凝土(FRHPC)在机场道面除冰液中的腐蚀未知。进行了FRHPC试件在浓度为25%的CM
植树造林对于环境保护至关重要,因为植树造林具有净化空气、防风固沙、调节气候、涵养水源、吸收有害气体、增加降水等作用。随着社会的不断发展,环境污染问题就变得越来越严
[目的]探讨护士二线岗位24h值班对夜间、节假日等薄弱环节护理工作质量的影响。[方法]建立护士二线24h岗位值班,指导危重病人的护理及抢救,解决病区护理疑难问题,指导协助高
在传统的衬底上生长出的GaN都是沿着极性轴c轴方向的,非极性GaN薄膜克服了极性薄膜中因为产生内建电场而带来的发光效率和结晶质量的问题。本文主要介绍了非极性GaN薄膜的结
1生态移民的背景生态移民是深入实施西部大开发战略的重要实践,是落实生态环境保护与建设的重要措施,是惠及特殊困难群体民生、实现贫困群众脱贫致富的重要途径。宁夏是全国
王弼哲学的本体是"无"."无"对中国美学的一个基本意义在于,从思想上使人的觉醒成为可能,由此,又使文的觉醒成为可能.意境是中国美学中的一个核心概念,意境具有超越性,即从"实
台湾高科技产业,由于受岛内土地和劳动力成本增加、内需市场狭小、人才缺乏等因素的制约,必然向中国大陆转移,这是一种客观的趋势.台湾高科技产业向中国大陆转移的新领域是光
静脉输注药物是临床上最多用的方法之一,随之带来不溶性微小物质进入机体的机会增多,危害引起医疗界的关注。不溶性小物质对人体所造成的危害已为人们共识,这些物质来源于血管壁
报纸副刊是文学与传媒结合的产物,兼具了文学与传媒的双重特点。台湾《联合报》副刊继承与发扬中国报纸副刊“名家办刊”与“文学摇篮”这两大文学传统,在传播的空间构建想像的