论文部分内容阅读
面对信息社会中数据和数据库的爆炸式增长,人类分析数据和从中提取有用信息的能力,远远不能满足实际的需要。虽然数据库管理系统可以高效地实现数据的录入、检索和维护等管理功能,但是却不能发现数据库中的关联和规则,也不能根据现有的数据预测未来的发展趋势。所以迫切地需要一种智能地、自动地把数据转换成有用信息的技术和工具。 需求是发展之母,数据库管理系统和人工智能中机器学习两种技术的发展和结合,促成了在数据库中发现知识(KDD)这一新技术的诞生。1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,首次提出KDD。KDD是一门交叉性学科,涉及机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等领域,内涵极为广泛,理论和技术上的难度也很大,从而使针对大型数据库的KDD技术一时还难以满足应用的需要。于是,1995年的美国计算机学会(ACM)会议提出了数据挖掘(Data Mining)的概念,它形象地把大型数据库看成是存放有价值信息的矿藏,通过有效的知识发现技术,从中挖掘或开采出有用的信息。 所谓数据挖掘也称为知识发现,是从大型数据库和数据中提供潜在价值的知识和规则的过程。数据挖掘技术有各种模式,如关联分析、分类和预测及聚类等。各种模式各有侧重,其中有一些已经研究得较为成熟,研究成果也较多,如挖掘关联规则、预测方法和分类模式中的一些其他方法。而分类模式中关于粗集的挖掘技术目前研究的人还不是很多,相应的研究成果也较少。因而基于粗集的数据挖掘技术有很大的研究价值。粗集理论是针对不确定性问题提出的,它的特点是不需要预先给定某些特征或属性的数量描述,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律。 基于粗集理论的数据挖掘技术可以用来从大型数据库中挖掘出有用和用户感兴趣的知识来,解决现代企业中数据多而信息少的问题。从某种意义上说,通过粗集理论挖掘出的分类规则是系统通过自学习机制而产生的,因而可以解决知识自动获取的瓶颈问题。因此,研究基于粗集的数据挖掘技术有着重要的理论和现实的意义。 本文在总结和借鉴前人经验的基础上,对基于粗集的数据挖掘技术进行了 哈尔滨」_:程大学博士学位论文‘亩奋‘亩奋亩亩亩奋亩奋奋亩石亩系统的研究。原来人们对粗集的挖掘算法的研究主要是针对相容决策表进行的,本文不仅研究了相容决策表的挖掘算法,同时也对不相容决策表的挖掘算法以及产生的不确定性规则的推理策略进行了研究,从而使基于粗集的挖掘技术更加完善。 在论文的第4章,对于粗集挖掘技术的两个主要的数据预处理过程,即决策表数据的离散化和空缺值的补齐进行了研究。另外,本文还提出将云模型和粗集理论结合起来进行数据挖掘和推理,并对二者的结合模式进行了探讨。 在第6章和第7章,论文对基于粗集的数据挖掘技术在管理领域中的应用进行了探讨,包括在供应链合作伙伴评价选择和企业资信评级中的应用。供应链合作关系和企业的资信评级在市场经济条件下显得尤为重要,应用基于粗集的挖掘技术,不仅可以有效利用大量的历史数据和评价结果,又可以借助于信息技术提高评价工作的效率和改善工作效果。 在第6章,论文对合作伙伴评价选择的综合指标体系进行了设计,在此基础上运用粗集来对历史的评价结果数据进行挖掘,最终得到用于合作伙伴评价选择的分类规则。 在最后一章,论文利用粗集的属性约简算法自动获取了企业债券财务质量评级的指标体系,并最终得到债券财务质量评价的规则。另外,在本章论文还提出一种基于粗集理论的属性权重确定方法,该方法将由历史数据确定的属性的客观权重和专家的主观先验权重结合起来,最终得出主客观相结合的综合权重。论文最后利用该方法对企业债券进行评价并得到了评价的结果。