论文部分内容阅读
关联规则是数据挖掘领域最为成熟的研究内容之一,也是基于数据库的知识发现中知识的主要表示形式。但一般关联规则仅限于体现事物间的关联关系,是一种弱关系,在实际应用中往往不能充分表达深层知识;因果关联规则是一类特殊的关联规则,是针对具有因果性和逻辑性特征的一类知识而提出的。目前对因果关联规则的理论和应用研究正方兴未艾,充满着魅力和挑战。
本文提出了隐含因果关联规则的概念,深化和扩展了因果关联规则所涵盖的知识内容,指明隐含因果关联规则中蕴含有在一般关联规则挖掘中难以发现、但更具价值的知识。隐含因果关联规则所针对的信息具有不确定性、模糊性、间接性、可推导性等特点,不易直接表示和挖掘,因此需要引入特定的知识表示方式和推理机制来完成规则的挖掘和评价等。
基于以上内容,本文的创造性研究成果主要有:
(1)对因果关系的本质特征进行了全面认知和阐述,详细划分了因果关系所关注的前件“原因”和后件“结果”的类型并加以说明;在此基础上归纳出一个因果关系定义系统。该定义系统表明:状态、过程、持续时间和影响程度是因果关系的四个基本要素。该定义系统能够简化和明确因果知识研究的范围,较全面地阐述因果关系和因果知识。
(2)针对因果关联规则的不足,提出了隐含因果关联规则的概念,并运用定性因果推理、语言场、广义细胞自动机和广义归纳逻辑因果模型等理论提出了隐含因果关联规则的表示方法及其挖掘和评价算法等。
(3)结合实际工作对因果知识的应用进行了研究。在大型集成化组合构件式知识发现软件系统ICCKDSS的智能化B2B垂直搜索引擎研发工作中,提出并实现了一个建立企业站点链接树的SiteTree算法,以指导商品页面的识别,提高了搜索引擎在下载商品页面时的准确率、减轻服务器存储数据量。在此基础上进一步研究用因果知识指导商品页面的信息抽取,构建因果知识库,改变以往页面信息抽取主要使用模板匹配方式下载的现状。