论文部分内容阅读
数据挖掘是指从数据中发现隐含在其中知识的一种实践过程,作为一种技术它已应用在很多领域,而在档案信息管理领域中它还很陌生。档案是人们在各种实践活动中形成的信息记录。在我国档案界十余年的自动化管理中目前已形成大量的数据,这些数据由于不能被充分利用,造成了大量人力、物力、资源的浪费。针对这种情况,迫切需要利用数据挖掘技术将档案与利用者之间、档案与各种实践活动之间以及档案之间的关系揭示出来,从而在更深层次上发挥这些档案数据的信息作用。本文评述了档案自动化管理现状和数据挖掘技术的发展状况,从数据清洗方法、数据挖掘算法、数据仓库的建立等方面论述了如何将数据挖掘技术与档案工作相结合的具体思路,并提出了一个数据挖掘系统的设计思想。文章首先,针对档案数据的现状,提出了应对档案数据进行预处理工作,包括数据质量评估、数据清理、数据变换和归约等过程;其次,在具体实现数据挖掘过程中,本文结合档案数据的特点探讨了概念描述、关联规则、分类等三种常见挖掘形式的实现方法,提出了具体的实现算法和程序设计框图,并论述了各种算法在档案工作中的应用范围及前景;第三,在上述基础上,又论述数据仓库在档案数据挖掘中的重要性并提出了实现一个档案数据仓库的方法;最后,从处理数据的多样性、算法的多样性、挖掘结果的多样性、数据预处理可视化、挖掘对象描述的可视化、挖掘过程可视化、结果显示可视化、用户需求的描述及问题定义等几方面讨论了实现一个档案数据挖掘系统的几个重点问题。全文以探讨如何将数据挖掘技术引入到具体的档案工作实践中为核心。