基于数据仓库的聚类数据挖掘工具的研究

被引量 : 0次 | 上传用户：pangdunpiwen

【摘要】

：

数据挖掘是近年来发展快速的信息处理新技术，如何有效地从大量数据中提取出隐藏在其中的有用信息，是该领域的研究核心。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类，是将

【作者】

：

李戈

【发表日期】

：

2002年期

【关键词】

：

数据挖掘数据仓库聚类分析神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是近年来发展快速的信息处理新技术，如何有效地从大量数据中提取出隐藏在其中的有用信息，是该领域的研究核心。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类，是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集，每个类内的对象之间是相似的，但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性，而不同类中的对象具有尽可能大的差异性；而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下，实现满足这种要求的类的聚合。正是由于聚类分析的重要性和特殊性，近年来在该领域的研究取得了长足的发展，涌现出了许多聚类分析的方法，如分割聚类方法(PartitioningMethod)、层次聚类方法(Hierarchical Method)、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面，而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时，则仍存在若干尚未解决的问题，有关具体细节将在本论文中详细论述。本课题在课题组前期完成的数据仓库平台的基础上，主要就基于大规模数据仓库的聚类数据挖掘方法进行了研究。主要工作包括： 1．聚类分析结果的精确性问题。聚类结果的精确性是指聚类分析对原始数据集进行划分后，各子类别间边界的明确性及各被聚类对象所属类别的准确性。现有聚类算法易于对被聚类对象空间分布情况比较规则的数据集合进行聚类，而对于具有复杂分布特征的集合却难以进行精确的聚类分析；现有算法大都仅对小型数据集合能够进行较为精确的聚类，且结果并不理想。所以，本文就如何提高基于划分和基于模型的聚类算法的聚类准确性进行了研究，并对几种现有聚类算法提出了改进方案。 2．时间复杂度和空间复杂度过大的问题。聚类分析所处理的往往是数据库或数据仓库中的大数据量数据集合，而且描述数据集合性质的属性繁多，属性值之间的关系复杂，山此带来了聚集处理较高的时间复杂性和空间复杂性。本文在深入分析的基础上，就降低或控制聚类分析的时间复杂度进行了尝试。 3．对现有的各种聚类分析算法的对比性研究。随着数据挖掘技术的迅速发展及其应用的不断拓展，出现了若干聚类分析算法。本文对现有较为典型且具有代表性的算法进行了对比性的实验研究，对各种算法的优缺点进行了分析评价。 4．基于划分的聚类方法的改进。基于划分的方法使聚类分析中较为主要的方法之一，但是山于它对于先验知识的依赖较强，尤其是需要预先指定聚类分析的类别数目，给该方法的应用带来了障碍。本文提出了对基于划分的方法的改进方法。 5．基于神经元网络的聚类分析问题的研究。Kohonen网络是基于模型的数聚挖掘方法的典型代表，它具有自组织、自适应的忧点，适合于在没有先验知识的情况下发现数据集合的整体特征，完成聚类分析。但由于Kohonen网络存在着聚类结果划分不明确，且易出现训练过渡的问题，限制了它的应用。本文就提高聚类结果表达的明确性，如何解决Kohonen网络训练过度的问题进行了分析、论证，提出了提高Kohonen网络划分明确性以及解决训练过渡问题的改进方案。 6．基干数据仓库的数据挖掘的解决方案。由于数据集合规模的不断扩大，数据库应用对于数据规整性、一致性要求的不断提高，数据仓库的出现为解决这些问题提供了条件。本文就如何在数据仓库系统的基础上构建分布式数据挖掘系统，进行了深入的分析和阐述，并且给出了解诀方案。由于本课题的主要研究工作是研制完成基于大规模数据仓库的聚类数据挖掘工具，本文从现有的数据挖掘理论、数据仓库系统的分析出发，逐步深入的对以上内容展开论述，对研究工作过程中的心得体会及经验教D！【进行了总结，并在此基础上给出了若干结论，在论文的最后对今后的工作进行了分析并提出了下一步的研究课题。

其他文献

铁岭市粮食增产对策

从科学合理布局、扩大特色产业规模、坚持为农服务、加紧开展科研工作等4个方面提出了粮食增产增收的对策,以期促进粮食增产,做好粮食储备工作。

期刊

粮食增产增收对策辽宁铁岭

髌骨软化症的诊断与治疗现况

髌骨软化症是一种比较常见的中、老年疾病,其患病率高达36.2%,是一种难于治愈的疾病。作者在查阅大量国内文献的基础上,就髌骨软化症的病因、症状和体征、辅助检查,物理疗法

期刊

膝关节髌骨髌骨软化症非手术疗法手术疗法

MATLAB在三相异步电机短路堵转试验中的应用

根据三相异步电动机的工作原理,电磁关系以及短路堵转时的特点,建立电动机短路堵转时的电磁变化规律和数学模型,从而对三相异步电机进行短路堵转试验的仿真研究。本文为短路

期刊

三相异步电机数学模型仿真短路堵转

区域人才项目的三阶段绩效评价指标体系研究

科学有效的绩效评价体系是测度人才项目实施成效的重要环节,但实践中却因偏倚验收评价、评价方法单一、重定性轻定量等问题而无法有效发挥其考核和引领作用。因此将绩效评价

期刊

人才项目绩效管理全过程指标体系构建

论抗战期间的妇女动员

抗战改变了中国妇女素来缺乏动员的状况。通过采取政治动员、组织动员和妇女干部动员的方式,中国妇女最大限度地被动员组织起来,为抗战做出了巨大的贡献。但根深蒂固的封建思

期刊

抗战妇女动员妇女工作妇女运动

财务战略问题研究

人类社会正从工业经济时期向知识经济时期发展，在这大变革的时代，企业的经营环境更趋严峻与复杂，物竟天择，适者生存，传统财务管理存在种种缺陷，已不适应日新月异的形式，战略管理和财

学位

财务战略框架总体财务战略职能财务战略

军用飞机预研工作模式研究

军用飞机的发展具有目标突变性、技术复杂性、经济承受性、项目时效性等特征，难以用数学模型来描述。预研先行是航空技术发展的客观规律，预先研究探索航空科学技术，并向实用技术

学位

军用飞机预研工作模式

基于VB的实时数据采集程序设计

本文通过对一台工业仪表通信协议进行分析,介绍了用VB6.0开发微机实时数据采集程序的编程技术。

期刊

VBMSComm控件通信协议实时数据采集

家庭旅馆业的发展——以桂林龙脊梯田风景区为例

随着大众旅游的兴起 ,家庭旅馆在我国部分地区尤其是边远贫困地区的旅游经济中发挥着越来越重要的作用 ,甚至受到了许多旅游城市的重视。本文从实际案例出发 ,着重分析了家庭

期刊

家庭旅馆家庭旅馆经营者平安寨龙脊梯田风景区

区域旅游业绩效评价及其影响因素分析

从70年代末期开始，经过20余年的发展，中国旅游业实现了重大飞越，成为目前中国经济生活和文化生活中的一个重要的、不可忽视的组成部分。与此同时，中国各地区政府也意识到旅游业对

学位

旅游业旅游规划绩效因子分析法旅游供给因素影响因素

基于数据仓库的聚类数据挖掘工具的研究

与本文相关的学术论文