基于数据仓库的聚类数据挖掘工具的研究

被引量 : 0次 | 上传用户:pangdunpiwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近年来发展快速的信息处理新技术,如何有效地从大量数据中提取出隐藏在其中的有用信息,是该领域的研究核心。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集,每个类内的对象之间是相似的,但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性;而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下,实现满足这种要求的类的聚合。 正是由于聚类分析的重要性和特殊性,近年来在该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如分割聚类方法(PartitioningMethod)、层次聚类方法(Hierarchical Method)、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时,则仍存在若干尚未解决的问题,有关具体细节将在本论文中详细论述。 本课题在课题组前期完成的数据仓库平台的基础上,主要就基于大规模数据仓库的聚类数据挖掘方法进行了研究。主要工作包括: 1.聚类分析结果的精确性问题。聚类结果的精确性是指聚类分析对原始数据集进行划分后,各子类别间边界的明确性及各被聚类对象所属类别的准确性。现有聚类算法易于对被聚类对象空间分布情况比较规则的数据集合进行聚类,而对于具有复杂分布特征的集合却难以进行精确的聚类分析;现有算法大都仅对小型数据集合能够进行较为精确的聚类,且结果并不理想。所以,本文就如何提高基于划分和基于模型的聚类算法的聚类准确性进行了研究,并对几种现有聚类算法提出了改进方案。 2.时间复杂度和空间复杂度过大的问题。聚类分析所处理的往往是数据库或数据仓库中的大数据量数据集合,而且描述数据集合性质的属性繁多,属性 值之间的关系复杂,山此带来了聚集处理较高的时间复杂性和空间复杂性。本 文在深入分析的基础上,就降低或控制聚类分析的时间复杂度进行了尝试。 3.对现有的各种聚类分析算法的对比性研究。随着数据挖掘技术的迅速发 展及其应用的不断拓展,出现了若干聚类分析算法。本文对现有较为典型且具 有代表性的算法进行了对比性的实验研究,对各种算法的优缺点进行了分析评 价。 4.基于划分的聚类方法的改进。基于划分的方法使聚类分析中较为主要的 方法之一,但是山于它对于先验知识的依赖较强,尤其是需要预先指定聚类分 析的类别数目,给该方法的应用带来了障碍。本文提出了对基于划分的方法的 改进方法。 5.基于神经元网络的聚类分析问题的研究。Kohonen网络是基于模型的数 聚挖掘方法的典型代表,它具有自组织、自适应的忧点,适合于在没有先验知 识的情况下发现数据集合的整体特征,完成聚类分析。但由于Kohonen网络存 在着聚类结果划分不明确,且易出现训练过渡的问题,限制了它的应用。本文 就提高聚类结果表达的明确性,如何解决Kohonen网络训练过度的问题进行了 分析、论证,提出了提高Kohonen网络划分明确性以及解决训练过渡问题的改 进方案。 6.基干数据仓库的数据挖掘的解决方案。由于数据集合规模的不断扩大, 数据库应用对于数据规整性、一致性要求的不断提高,数据仓库的出现为解决 这些问题提供了条件。本文就如何在数据仓库系统的基础上构建分布式数据挖 掘系统,进行了深入的分析和阐述,并且给出了解诀方案。 由于本课题的主要研究工作是研制完成基于大规模数据仓库的聚类数据挖 掘工具,本文从现有的数据挖掘理论、数据仓库系统的分析出发,逐步深入的 对以上内容展开论述,对研究工作过程中的心得体会及经验教D!【进行了总结, 并在此基础上给出了若干结论,在论文的最后对今后的工作进行了分析并提出 了下一步的研究课题。
其他文献
从科学合理布局、扩大特色产业规模、坚持为农服务、加紧开展科研工作等4个方面提出了粮食增产增收的对策,以期促进粮食增产,做好粮食储备工作。
髌骨软化症是一种比较常见的中、老年疾病,其患病率高达36.2%,是一种难于治愈的疾病。作者在查阅大量国内文献的基础上,就髌骨软化症的病因、症状和体征、辅助检查,物理疗法
根据三相异步电动机的工作原理,电磁关系以及短路堵转时的特点,建立电动机短路堵转时的电磁变化规律和数学模型,从而对三相异步电机进行短路堵转试验的仿真研究。本文为短路
科学有效的绩效评价体系是测度人才项目实施成效的重要环节,但实践中却因偏倚验收评价、评价方法单一、重定性轻定量等问题而无法有效发挥其考核和引领作用。因此将绩效评价
抗战改变了中国妇女素来缺乏动员的状况。通过采取政治动员、组织动员和妇女干部动员的方式,中国妇女最大限度地被动员组织起来,为抗战做出了巨大的贡献。但根深蒂固的封建思
人类社会正从工业经济时期向知识经济时期发展,在这大变革的时代,企业的经营环境更趋严峻与复杂,物竟天择,适者生存,传统财务管理存在种种缺陷,已不适应日新月异的形式,战略管理和财
军用飞机的发展具有目标突变性、技术复杂性、经济承受性、项目时效性等特征,难以用数学模型来描述。预研先行是航空技术发展的客观规律,预先研究探索航空科学技术,并向实用技术
本文通过对一台工业仪表通信协议进行分析,介绍了用VB6.0开发微机实时数据采集程序的编程技术。
随着大众旅游的兴起 ,家庭旅馆在我国部分地区尤其是边远贫困地区的旅游经济中发挥着越来越重要的作用 ,甚至受到了许多旅游城市的重视。本文从实际案例出发 ,着重分析了家庭
从70年代末期开始,经过20余年的发展,中国旅游业实现了重大飞越,成为目前中国经济生活和文化生活中的一个重要的、不可忽视的组成部分。与此同时,中国各地区政府也意识到旅游业对