基于可拓理论的数据挖掘方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:TORO_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类和聚类是数据挖掘中两种重要的数据分析方法,广泛应用于商业各个方面。传统的聚类方法很难直观反映样本个体与类间关联程度的变化动态。可拓聚类方法在聚类分析过程中引入可拓集合理论,利用可拓集合中关联函数的特点,使聚类分析方法能更全面的分析对象属于某集合的程度,从而有助于从变化的角度来分析变化中的事物。 本文介绍了数据挖掘及可拓学的思想,比较了用于数据挖掘的算法和技术,回顾了可拓学的发展历程,讨论了可拓分类方法。理论上,针对传统聚类的不足,提出用可拓集合中的关联度来代替传统聚类中的距离和相似系数,作为度量分类对象之间的接近程度,并与当前聚类方法相结合,提出新的聚类方法——可拓k-means聚类算法。 此外,在学习可拓理论的基础上,给出了基元模型在C++环境下表示形式,针对发散树方法设计了一种查找结构,改善了基元对象的查找效率,并提出了一种基于关系的发散树方法以及利用训练数据集确定类别各特征经典域的方法,并对分类中使用的关联函数做了改进,使分类更加准确。 实践上,把可拓分类方法应用于流动单元划分中,并与其它方法做了对比,结果证明了该方法的有效性和优越性。
其他文献
随着大规模集成技术的发展,数字信号处理器(DSP)在功能、处理速度和处理能力方面都取得了划时代的突破,并广泛应用在数据通信、图像处理、语音处理、自动控制等领域中。DSP嵌
语义网是当前Web的一种扩展,其中的信息附加了机器可处理的语义。语义网是一个信息基础设施,它提供一个通用可存取的信息平台,使计算机能有效地发现、处理、集成和复用Web内
学位
随着科学技术特别是计算机网络与信息技术的迅猛发展,科研环境和科研过程发生了很大的变化。由于科学研究的问题空前复杂化,科研过程中对数据和信息的获取和处理显得越来越重
随着信息技术的发展,尤其是Internet的普及和应用,以电子形式存在的文本信息已经成为人们主要的信息来源,人们需要对这些大量的文本资源进行有效的组织,以利于主题发现、信息
遗传程序设计(GP)因其出众的解决复杂问题的能力成为演化计算中的重要分支,为多国学者青睐,并被应用于如人工智能、金融测算等多个领域。然而,GP及其分支在演化过程中出现的
市场的全球化带来了产品设计和生产管理的网络化要求;要求有一种支持协同设计的平台技术,支持不同专业背景的领域专家间的协同工作。分布环境下异构CAD系统间协同设计的最大挑
随着通信能力的不断增强以及通信业务的多样化,为了提供下一代网络服务,3GPP在R5版本中引入了IP多媒体子系统(IP Multimedia Subsystem,IMS)。IMS位于3G核心网中,构架于分组域(PS
近年来多媒体应用逐渐成为计算领域研究的热点。为了获得更为卓越的性能,几乎所有的通用处理器生产厂商都为他们的处理器集成了一个或多个多媒体指令扩展部件。针对多媒体应用
伴随着获取视频信息硬件的普及和视频高清化的需求,视频信息数据量快速增长,行业对高性能并行解决方案的需求日益增加,传统使用CPU硬件与串行视频信息处理算法相结合的模式越