数据挖掘中聚类若干问题研究

被引量 : 0次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是为了满足人们对数据中所蕴涵的信息和知识的充分理解和有效应用而发展起来的一门新兴技术。数据库、人工智能和数理统计是知识发现和数据挖掘的三个强大的技术支柱。发展自统计学的聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个重要的研究领域,至今已提出了大量的理论和方法,取得了丰硕的研究成果。尽管如此,聚类中还存在许多问题,尤其随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。这就要求对现有聚类技术进行改进,同时不断提出新的聚类理论和方法以适应新的应用。本文对聚类有效性问题,迭代优化聚类的初始化问题,分类属性数据聚类算法及高维数据聚类方法进行了较为深入的研究,主要内容如下:第一章简单介绍了数据挖掘技术和数据挖掘中的聚类分析的特点,详细论述了聚类有效性问题、迭代优化聚类的初始化、分类属性数据聚类方法以及高维数据聚类的研究现状,最后介绍了本文的主要研究工作成果及内容安排。第二章介绍了数据挖掘中的聚类分析,包括聚类分析的数据结构和数据类型,聚类准则的确定,聚类算法的分类,并详细论述了数据挖掘中用到的主要聚类算法,最后对聚类结果的评价方法进行了简要介绍。第三章主要研究聚类有效性函数。首先介绍了模糊聚类的划分系数与划分熵,研究了基于几何结构的聚类有效性函数,从聚类的“紧致度”和“分离度”角度出发,提出了一种新的基于几何结构的加性聚类有效性函数;研究了改进的HubertГ统计量,将其与聚类分离度相结合,提出了一种基于HubertГ统计量和分离度的聚类有效性函数。此外,研究了聚类算法的实验结果的评价,指出了现有聚类结果评价方法的不足,阐明了聚类精确度是反映聚类效率的观点,用Fowlkes&Mallows划分相似测度作为聚类精确度,来评价后续章节中聚类算法的实验结果。第四章研究了现有的迭代优化聚类的初始化方法:即采样法,距离优化法以及密度估计法,分析了它们的优缺点,提出一种新的基于距离的初始化方法,它不需要设定门限,不受数据集的顺序影响,而且对孤立点和噪声有较强的抑制,适用于较大规模数据的聚类初始化;分析了对初值不敏感的k-harmonicmeans算法,提出了模糊k-harmonic means算法,并导出了该算法在中心迭代统一框架下的描述。第五章研究了k-modes、k-prototypes和fuzzy k-modes聚类算法,通过仿真讨论了k-prototypes算法的性能;在新的差异度函数的基础上提出了一种新的
其他文献
随着信息化社会的到来和社会经济的发展,水库大坝安全管理在社会和经济领域的发展中战略地位也日益突出,大坝管理的科学与实践也正发生着深刻的变革。水库工程几乎集所有水利
目的探究四手操作应用于口腔治疗效率提高情况。方法选取我院2014年8月~10月口腔门诊收治的患者作为研究对象,所选患者按照口腔门诊常见病分诊标准进行归类,将收治患者分为对
港口国监督(PSC)的主要内容是检查船舶技术条件和人员配备是否符合有关国际公约的要求,也检查对人员的操作性要求。对检查出的缺陷作出决策,并监督其改善。确保船舶不低于标
小学综合实践是一门基于生活的研究性基础学科,它强调"教、学、做"的统一与发展,以生活教育理念指导我们的小学综合实践,不仅能够为拉近综合实践课程教学与学生生活实践的距
脑电信号(EEG)是通过电极记录下来的脑电细胞群的自发性、节律性电活动,它包含了大量的生理与病理信息,对其作深入的研究有助于临床医生提高对大脑神经系统损伤病变诊断和检
中学学校体育伤害事故,是近几年来人们所关注的热门话题之一,也是学校管理者处理学校事务中最为头疼的问题之一。之所以受人们关注,一是因为现在的中学生基本上都是独生子女,
本文针对川西新场气田沙溪庙组气藏致密砂岩复合型气藏多层系、多砂体特点开展了系统的多层压裂工艺技术研究,现场实施取得了显著的增产效果。 (1) 依据5口测井资料解释的
目的探讨重度烧伤患者的心理特点以及护理效果探析。方法选取在我院接收治疗的重度烧伤患者为研究对象,共88例,将患者随机分为两组,即对照组(30例)与试验组(58例)对照组采用
乐安河流域目前由于受沿岸工业废水、生活污水等的污染,致使该河的许多污染指标超标。欲有效地改善乐安河水环境质量,不仅要严格实施污染物达标排放,还必须研究乐安河的水环
空调为人类创造了舒适的生活环境和工作环境。同时也消耗了大量的矿物燃料,破坏大气臭氧层,引发全球气候变暖。为了使空调行业走可持续发展的道路,有必要对其技术进行创新。