【摘 要】
:
数据挖掘是数据库研究、开发和应用最为活跃的分支之一,自提出以来就一直受到广泛的关注。通过数据挖掘,人们可以从海量的数据中获取大量隐藏的有价值的、潜在的知识。聚类分
论文部分内容阅读
数据挖掘是数据库研究、开发和应用最为活跃的分支之一,自提出以来就一直受到广泛的关注。通过数据挖掘,人们可以从海量的数据中获取大量隐藏的有价值的、潜在的知识。聚类分析作为数据挖掘的一个主要功能和任务,已经被广泛的研究了多年并取得了大量的成果,积累了一系列的理论知识和方法。随着数据库技术的飞速发展,各行各业中的信息数据也急剧地增长,而且数据的类型也由单一的数值型、文本型逐渐转变成混合型,这就对聚类分析技术提出了新的要求。从已有的文献来看,能有效处理混合型数据的算法相对较少。基于这一现状,本文重点研究了面向混合型数据的聚类算法,同时对其在医疗诊断系统中的应用进行了探讨。本文对已有的算法进行了研究比较之后,提出了一种基于格论的聚类新算法——CBL算法。该算法将整个数据空间划分成若干个格,通过数据对象之间格的覆盖数来度量他们的相似性,将对象划分到最相似的簇。实验结果表明,新算法能够有效地提高聚类的精度,尤其是在处理混合型数据的方面。针对所提出的新算法,本文还对算法参数的优化进行了深入研究:(1)基于遗传算法的思想,以聚类质量为标准设计适应度函数,对聚类数目进行优化,优化后的聚类数目与真实聚类数目极为接近;(2)根据新算法的特点,结合基于距离的聚类初始中心的优化方法的理论,提出了一种基于格的覆盖数的聚类初始中心点的优化方法,优化初始中心点后精度得到进一步的提高。最后以文章中提出的新算法为基础,设计出了应用于大肠早癌诊断数据处理系统聚类分析器的系统结构,并实现了相关功能。
其他文献
目的检测急性白血病(AL)不同类型及不同阶段血清血管内皮生长因子(vascular endothelial growth factor,VEGF)和乳酸脱氢酶(lactate dehydrogenase,LDH)的含量,探讨二者间关
英国图形设计大师艾伦·弗莱彻(Alan G.Fletcher)说:“从事绘画的艺术家们所考虑的是如何解决他们自己的问题,而从事设计的艺术家们所考虑的则是如何解决他人的问题”。设计
学科建设是一流大学建设的基础,基于学科二重性的认识,对十五所一流大学建设高校建设方案中学科建设文本进行内容分析,发现各校一流学科建设以三步走为战略规划,以分类、分层
从有轨电车的沿革以及在我国的发展现状入手,论述了现代有轨电车建设与城市设计的密切关系,提出了城市综合设计的概念。分析了其研究的意义和体系内包含的主要内容,由此对现
目的用异硫氰酸荧光素标记的牛血清白蛋白-孕酮复合物(P-BSA-FITC)染色,运用直接荧光标记及流式细胞技术检测子宫内膜癌Ishikawa细胞膜孕激素受体表达情况,通过免疫印记杂交
随着社会和经济的进步与发展,人口老龄化现象是社会面临的重要难题之一。根据2017年最新统计数据,全国60周岁以上人口数量已经达到2.4亿,65岁以上人口数量已经达到1.58亿,并
为丰富长沙市屋顶绿化的藤本植物资源,以湖南农业大学十一教北侧屋顶作为试验地,基于层次分析法(AHP)构建综合评价模型,按植株花、叶、果的适应性及观赏特性等14个评价因子,
随着市场经济的发展,农民群体本就弱势的地位日益明显,而农民专业合作社可以有效地组织起农民来,集结成一股较为强势的力量,使农民更好的适应市场经济的浪潮。但是,随着农民
本文在研究了宁夏枸杞产业相关标准的基础上,系统的运用标准化原理和方法,总结出宁夏枸杞产业标准体系建设思路、目标及标准体系组成,同时给出枸杞产业标准体系建设建议。
由于地沉区水准点的沉降问题导致地沉区水文资料出现偏差,影响了水文信息的社会服务效果。文章对海河干流“96·8”洪水过程水文要素特征值进行了表述和分析,提出了对海河干