知识驱动的模糊聚类算法研究

被引量 : 1次 | 上传用户:xiaoxiaohaizi319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析算法是一种用来发现数据中存在模式的有效方法,在数据分析中被广泛应用。在本文中,我们主要讨论了一种以领域知识作为辅助手段,并将其有效集成到所研究模式识别问题的方法。首先,本文提出了一种新的知识驱动的聚类算法——贴近度—密切关系传播算法。该算法利用我们所设计的知识判据和由用户给出的样本间的贴近度信息来对由数据所产生的相似度矩阵进行修正,从而将用户的知识引入聚类过程,使算法对于问题的处理变得更加灵活。其次,为了解决上述算法无法得到用户所需聚类数目和大样本数据集合聚类的问题,本文将模糊C均值算法与密切关系传播算法相结合,设计出一种“大样本数据聚类算法”。该算法分为两个阶段,在第一阶段,我们采用了一种分布式计算策略,先将原始数据集合划分成若干个数据子集,并使用密切关系传播算法分别对每个数据子集样本进行聚类,得到数据的聚类中心。在算法的第二阶段,我们将由第一阶段产生聚类中心视为一个数据集合,利用模糊C均值算法得到所期望类数的聚类,并认为每个聚类中心所属的类与在第一阶段隶属于其的数据所属的类相同。同时,为了考察划分的可靠性,在此阶段,我们还引入了模糊熵量度来辅助完成聚类过程。为了考察两种算法的有效性,我们对其进行了数值实验。对于贴近度—密切关系传播算法,我们分别考察了其在含有少量样本的人工数据集,Iris数据集和Yale人脸图像数据集上的聚类效果。对于大样本数据聚类算法,我们考察了其对Iris数据集和Shuttle数据集的聚类效果。实验结果表明,这两种算法策略切实可行,并且在测试数据集上均取得了很好的聚类结果。
其他文献
一直以来,人们对婚姻的理解总是建立在两性结合的基础之上。然而,随着同性恋权利解放运动和人权运动的发展,人们对于同性恋者的态度发生了改变。目前国际社会中同性恋者争取
东北黑土区的土壤侵蚀已经越来越严重,由水土流失带来的危害,已经严重威胁到了该区农业生产和社会的可持续发展。然而,该区有其独特的侵蚀产沙环境及特点,对该区的水土流失规
3-三氟甲基-5,6,7,8-四氢-[1,2,4]三唑-[4,3-a]并吡嗪盐酸盐是制备磷酸西他列汀(Sitagliptin phosphate)的重要药物中间体。本课题研究了以氯吡嗪为原料,经肼基化、酰基化、
环境对人类发展的影响,已为实践所证明。课堂环境是一个由多种要素构成的复杂的整体系统,它对学生学习过程中的认知、情感和行为产生着重要的影响,是影响教学活动的重要的隐
维他列汀是一种治疗2型糖尿病的DPP-IV抑制剂。以L-脯氨酰胺为原料,通过氯乙酰化反应、酰胺脱水反应,合成了N-氯乙酰基-2-氰基四氢吡咯。较优反应条件为:(1)氯乙酰化反应时较
"幼儿园情智教育实践研究"是我园独立承担的甘肃省教育科学"十二五"规划基础教育研究课题。在研究过程中我们形成了"情智润泽,欢笑通远"的办园理念。在这一理念的引领下,从"以情育情
刑法、道德和社会伦理是相互区别又相互作用的社会规范。通过深入分析社会伦理与道德的本质以及表征,两者是不能混为一谈的。社会伦理是人类基于作为“人”的存在、延续和可
公司制度的诞生,开启了人类历史的新纪元。时至今日,公司已成为人们最为青睐的投资工具,吸引着众多投资者热切而又暧昧的目光。公司人格独立和股东有限责任是公司制度的灵魂
在当前中小企业中,企业的研发工作对于提升企业技术水平,增强企业竞争力起到越来越重要的作用,如何提升企业研发项目的绩效管理水平,激励研发人员工作热情成为企业管理者关注
透明导电氧化物(TCO)薄膜因具有优良的光电性能而备受关注。目前,应用较为广泛的是铟锡氧化物(ITO)薄膜,但由于铟为稀有元素,在自然界的贮存少,价格高且有毒;这些使得ITO薄膜