论文部分内容阅读
由于信息技术处理和大容量存储技术的快速发展,商业活动中的大量数据被系统自动地保存,但单靠人工对这些庞大的数据进行分析并找出规律是不可能的,因此,利用计算机技术有效地从海量的数据中发现有用的知识,是现代企业信息化发展的重大标志之一。从上世纪六十年代开始提出的数据处理技术,如数据库技术、OLTP、OLAP和DataWarehousing,已成熟广泛应用到社会各个领域。然而,在实际应用中,人们迫切希望在各个领域的数据中寻找规律;当前,一般的方法是借助于数据挖掘技术,通过人工或半自动的方法,采用挖掘算法,以期获得数据内部隐含的知识。然而,数据挖掘的技术在实际应用中,还存在较大可改进的空间,包括将背景知识融入挖掘过程、利用背景知识对挖掘进行有益的指导;背景知识的描述实质上是人工智能中的知识表示方法的具体体现。在过去十年中,人工智能理论以及相关技术得到迅速发展,包括本体在内的知识表示技术的发展,大大增强领域知识的表达能力,同时,利用本体所表示的领域知识包含计算机可理解的语义信息。利用本体技术以及人工智能的相关知识表示方法对领域知识进行建模,并与数据挖掘技术结合,可扩展传统的挖掘方法,并使之能广泛应用于各种大规模数据处理场合。研究以改进数据挖掘中的关联分析方法为切入点,以本体作为知识表示的关键技术,将领域知识融入关联分析中,研究领域知识转为本体的相关技术和方法,通过对本体的查询过程实现对领域知识的理解,针对领域知识的维护及挖掘过程中人机交互的需求构建一个自然语言转换为形式语义的方法,最后,对商业领域的词汇和关系进行定义,构建商业领域知识模型,使用经典的商业数据对本文提出的模型、方法、算法进行验证。论文主要贡献表现在以下几方面:本文首先研究关联规则挖掘应用的主要问题,针对挖掘过程中的领域知识很少被使用的情况,提出一种结合本体知识的关联分析方法:OOAA (Ontology Oriented Associate Analysis)方法。OOAA方法将本体知识应用于关联分析的过程中,包括在数据预处理、数据挖掘中的剪枝以及数据挖据后的解释;与传统的关联分析方法相比,OOAA方法可以有效地在挖掘过程中使用背景知识,使挖掘的过程不再是盲目的,而是有针对性的、智能化的,同时也提高所获得的关联规则的可用率。构建OOAA概念体系。在概念体系中明确本体导向分析的相关概念;同时定义和描述OOAA的技术框架,提出具有本体导向的关联分析的Onto-Apriori算法。针对挖掘中人机交互的自然语言转换的难题,通过一种“语言模板映射语义技术”(LTMS, Language Template Mapping Semantic)将自然语言描述转换成等价的本体语言表示,通过对本体语言的查询,获得以自然语言表现的问题的答案。设计并实现OOAA原型系统。原型系统的实验环境是商业销售领域。在原型系统中,分析商业数据的相关服务,依据OOAA概念体系构建商业数据的本体模型;实现带本体导向的Onto-Apriori算法的代码。利用本体开发接口对本体进行知识获取、概念语义查询,实现本研究的相关算法,验证了相关概念的有效性。