基于粗糙集理论的数据挖掘算法研究

被引量 : 0次 | 上传用户:bailiankk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文研究课题源于国家973基础研究项目(No.2002CB312006)“Internet环境下基于Agent的软件中间件理论和方法研究”和国家自然基金项目(No.60473077)“水印关系数据库关键技术研究”。 近年来,随着我国信息化建设的快速发展,知识的自动获取已成为一种重要的技术手段。数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,因而成为当前人工智能研究中非常活跃的研究领域。粗糙集理论是一种有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。本文的研究工作主要围绕基于粗糙集理论的数据挖掘,重点从基于粗糙集理论的特征选择和连续属性离散化两个方面展开。本文的主要创新性研究工作包括: 1) 提出了基于属性出现频率的属性约简算法,这种算法以条件属性在分辨矩阵中出现的频率作为启发信息,以条件属性所在最小分辨矩阵项的基数作为辅助启发信息,来寻找决策信息系统的最小约简。实验证明,大多数情况下该算法能够找到系统的最优(最小)约简。在没有找到最优约简的情况下,算法能够找到次优约简。 2) 分析属性约简中条件属性之间的关系以及约简集合中条件属性和决策属性之间的关系。在粗糙集理论的基础上给出了属性相关度的定义,并且根据这一定义,提出了基于属性相关度的属性约简算法。实验结果证明,这种算法能够有效地去除属性子集中的无关属性和冗余属性。 3) 提出了基于粗糙集理论的确定候选断点集合的新算法,该方法能够在保证系统分辨关系的前提下,大幅度的降低候选断点的数量,从而大幅度的减少了后继离散化算法的计算量。实验表明,这种确定候选断点集合的办法是切实可行的。 4) 提出了一种基于断点权重的启发式连续属性离散化方法。这种方法将连续属性的候选断点作为一个单个的条件属性,建立新的决策信息系统以考察每个候选断点对信息系统分辨能力的贡献。将断点在分辨矩阵中的出现频率作为断点的权值,寻找系统的最优断点集合。实验结果表明,此算法能在较好地保留原信息系统的分辨能力的同时,有效地解决离散化问题。 5) 提出了一种基于DBSCAN聚类的连续属性离散化算法。这种离散化算法,结合基于密度分布的聚类算法和粗糙集理论中属性依赖度的概念,通过对决策信息系统中的所有实例进行聚类来实现连续属性的离散化。实验表明,这种离散化
其他文献
2003年联合国教科文组织出台《保护非物质文化遗产公约》(简称为"2003年公约"),明确社区、群体和个人应在非遗保护中发挥主体作用。祁县文化局立足地方,把筹集到的民间资金用
当前,各个城市都进入了大规模的更新时期,几乎每个城市都面临着如何处置城市中存在的大量历史建筑的难题。一方面,功能落后的历史建筑往往阻碍着城市经济的发展,另一方面,历史建筑
提高领导干部的法治思维和法治方式是十八大对各级领导干部提出的新要求,是对全面落实依法治国方略的新阐述。善于运用法治思维和法治方式治国理政是建设法治国家的题中应有
采用发散法合成聚酰胺-胺(PAMAM)树形大分子,讨论了反应温度、反应时间和投料摩尔比等因素对反应的影响,并利用红外光谱、紫外光谱进行表征及酸碱滴定进行端基分析.根据仿生
本文以南美白对虾为材料,研究不同嫩化剂、超声波及嫩化剂、重组等处理对虾干产品剪切力、可溶性蛋白含量、游离氨基酸含量、pH值及色泽等指标变化的影响,旨在阐明对虾嫩化机理
油气资源是现代工业的动力和资源支持,它在人类的经济社会发展中具有十分重要的地位。山东省虽然属于我国的主要产油省份,但随着传统油气资源生产潜力的日趋耗竭,也不可避免地面
目的探讨小脑发育不良性神经节细胞瘤的影像表现及诊断。材料与方法回顾性分析4例经病理证实的小脑发育不良性神经节细胞瘤的影像资料。结果 CT显示病变为不均匀低密度影;MRI
综观古今中外众多港口城市的发展历史,可以看出,滨临江河湖海的城市无一不是伴随着港口的发展而兴起的。港口不仅对其所在城市的经济发展具有巨大的促进和推动作用,而且能带动周
虚拟仪器技术作为信息技术的重要组成部分,具有很高的研究价值和广阔的应用前景。虚拟仪器技术大大突破了传统技术在数据采集、处理、显示、存储等方面的限制,因此在工程技术
本文通过问卷调查法、文献资料法以及数据统计法对长株潭地区高校的体育场馆的开放现状进行调查分析,就该地区体育场馆的开放情况、经营现状以及存在问题进行分析,最后提出加