论文部分内容阅读
【摘 要】随着计算机和网络技术的迅猛发展,人们面对的数据量以惊人的速度增长,如何快速有效地从浩瀚的信息资源中提取出有价值的信息成了迫切需要解决的问题,于是一种综合了统计学、数学、数据库技术、人工智能、机器学习等多门学科的数据挖掘技术应运而生。关联规则挖掘是数据挖掘中一个十分活跃的研究领域。本文对关联规则挖掘进行了论述,并针对目前网络信息检索效率过低的问题,提出了一种基于关联库的查询扩展算法。
【关键词】关联规则;数据挖掘;信息检索;查询扩展
一、问题
随着计算机和信息技术的迅速发展,网络已经成为人们传递信息的重要渠道及其主要的信息源。web信息和数据库规模的急剧膨胀给人们带来方便快捷的同时,也为大量杂乱无章的信息所困扰,用户想从中快速准确地发现感兴趣的信息变得难上加难,信息过载和词不匹配等难题也相继出现。为了更有效地利用一些重要数据,人们希望能够对其进行更高层次的分析,给决策者提供一个统一的全局视角,因而在许多领域建立了数据仓库。但海量的数据往往使人们无法准确地辨别潜在的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些相关信息的需求。
二、数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现潜在的、新颖的、有价值的信息和知识的一门技术,它是指从数据集合中自动抽取隐藏在数据中的那些有用信息的过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘并不是用规范的数据库查询语言进行查询,而是根据目标对数据进行检索和分析,揭示其中隐含的规律,即对查询的内容进行模式的总结和内在规律的搜索。
三、关联规则挖掘
关联规则挖掘是从大量数据中挖掘出相关项集的有趣的关联或联系,反映一个事物与其他事物之间的相互依存性和关联性。
关联规则通常是从事务数据库或数据仓库中挖掘出的,具体如下:
挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小置信度的关联规则,称为强规则。关联规则挖掘的任务就是要挖掘出数据库D中所有的强规则。因此,可以把关联规则挖掘划分为两个子问题:
①找出所有的频繁项集:根据定义,这些项集的每一个出现的频繁性至少与预定义的最小支持计数一样。②由频繁项集产生的强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
大部分关联规则都是基于支持度-置信度框架,从而产生强关联规则。但有时仍会得出对用户来说不感兴趣的规则,从而对产生一定的误导。管理者通过对大量关联规则进行筛选,从而得出自己想要的知识。
四、关联规则挖掘在网络信息检索中的应用
(一)关联库结构
为了描述特征词之间的层次关系和相关性,关联库中包含以下两个结构表:
1.层次关系表:主要是描述词或概念之间的层次关系,基本元素是语词节点,语词节点的属性用结构体描述如下:
语词之间的层次关系主要是根据关联规则的置信度来决定:对于关联规则A->B,如果C(A->B)>0.8且C(B->A)<0.5,则认为B是A的父层次,相应的A是B的子层次。因为在A出现的情况下B出现的概率很高,而在B出现的情况下A出现的概率很低,说明B的语义要比A更广泛些。
2.相关关系表:用于描述语词之间的相关性,描述如下:
(二)查询扩展
查询扩展指的是利用计算机语言学、信息学等多种技术把与原查询相关的词或者词组添加到原查询,从而得到比原查询长的新查询,然后检索文档。查询扩展主要需要解决以下两个问题:1、如何选择适当的语词进行扩展;2、如何给扩展语词赋予权值。
本文提出一种基于关联库的查询扩展算法,在扩展时通过引入γ和wmin(s)对扩展语词进行两次限定,主要分以下几个步骤:
⑴建立查询串q的向量空间模型
将查询串分割成单个的语词,每个查询串q表示成其中的一个范化特征向量V(q) = (i1,w1(q); …,ij, wj(q);…,im, wm(q)),其中ij为语词项,wj(q)为ij在q中的权值。
设查询串包含的语词项为{q1,q2,…,qn},则语词项的所有子集s={{q1}, {q2}, …,{qn}, {q1,q2},…,{q1,q2,…,qn}}={s1,s2,…,s2n-1},其中s1={q1},s2={q2},以此类推。根据关联库中概念层次关系表和相关关系表,分别对子集进行相应的扩展,然后合并运算后得到扩展语词项集,记作RS(s),将对q的扩展转化为对s的扩展。
⑵ 找出各个子集的相关语词
从关联库中分别找出sk(1≤k≤2n-1)的相关语词,并将其置信度从大到小排列,取前m个相关语词,存入到RS(sk)中。
⑶合并相关语词
将RS(sk)集合中的所有相关语词按照权值(置信度)大小进行排序,如果其中有重复的语词项,则选取权值的最大值。取不低于扩展词权值阈值wmin(s)的相关语词并存入到RS(s)集合中。
⑷ 将查询串q与扩展串RS(s)合并后,组成一系列语词项集合
将所得出的相关语词加入到初始的查询q中,形成新的扩展查询q’。为查询q’中的每一个扩展语词分配权值,扩展出来的相关语词的权值由语词之间的相关度决定。
(三)算法的不足和改进
本文提出的基于关联库的查询扩展算法可在一定程度上提高查準率,克服了传统信息检索基于关键字的搜索引擎的简单匹配的缺陷,减轻了相关领域专家构建语义库的负担。但由于网络上数据的庞大性使得语词或概念之间的语义关系都相当复杂,采用何种算法以及怎样对关联规则进行剪枝等都是决定查询效率的关键性因素。我觉得可以和其他的技术相结合获得更高的效率,如下:
⑴.关联规则挖掘与信息过滤技术相结合
网络及信息技术的迅猛发展导致了信息过载等现象,因而可以在网络信息挖掘之前对网络文档中包含的信息进行过滤、筛选、分类和归档等操作,使网络信息挖掘所要处理的数据量得以减少,同时使输入数据的质量、网络内容挖掘的信息挖掘速度及精确度和用户所得信息的时效性得以提高。
⑵.关联规则挖掘与可视化技术相结合
可将关联规则挖掘技术与可视化完美结合,互为补充,在信息检索中利用可视化技术可将用数据挖掘得到的语义关系用图像方式显示,揭示数据之间的相互关系及发展趋势,有助于用户判断一个检索中的相关信息是否是自己需要的。用形象直观的图像来指引检索过程,可以加快检索速度,大大缩短用户的查询时间,而且可以加深用户对数据含义的理解,使挖掘信息的过程和结果易于理解,便于在发现知识过程中进行人机交互。
【关键词】关联规则;数据挖掘;信息检索;查询扩展
一、问题
随着计算机和信息技术的迅速发展,网络已经成为人们传递信息的重要渠道及其主要的信息源。web信息和数据库规模的急剧膨胀给人们带来方便快捷的同时,也为大量杂乱无章的信息所困扰,用户想从中快速准确地发现感兴趣的信息变得难上加难,信息过载和词不匹配等难题也相继出现。为了更有效地利用一些重要数据,人们希望能够对其进行更高层次的分析,给决策者提供一个统一的全局视角,因而在许多领域建立了数据仓库。但海量的数据往往使人们无法准确地辨别潜在的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些相关信息的需求。
二、数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现潜在的、新颖的、有价值的信息和知识的一门技术,它是指从数据集合中自动抽取隐藏在数据中的那些有用信息的过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘并不是用规范的数据库查询语言进行查询,而是根据目标对数据进行检索和分析,揭示其中隐含的规律,即对查询的内容进行模式的总结和内在规律的搜索。
三、关联规则挖掘
关联规则挖掘是从大量数据中挖掘出相关项集的有趣的关联或联系,反映一个事物与其他事物之间的相互依存性和关联性。
关联规则通常是从事务数据库或数据仓库中挖掘出的,具体如下:
挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小置信度的关联规则,称为强规则。关联规则挖掘的任务就是要挖掘出数据库D中所有的强规则。因此,可以把关联规则挖掘划分为两个子问题:
①找出所有的频繁项集:根据定义,这些项集的每一个出现的频繁性至少与预定义的最小支持计数一样。②由频繁项集产生的强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
大部分关联规则都是基于支持度-置信度框架,从而产生强关联规则。但有时仍会得出对用户来说不感兴趣的规则,从而对产生一定的误导。管理者通过对大量关联规则进行筛选,从而得出自己想要的知识。
四、关联规则挖掘在网络信息检索中的应用
(一)关联库结构
为了描述特征词之间的层次关系和相关性,关联库中包含以下两个结构表:
1.层次关系表:主要是描述词或概念之间的层次关系,基本元素是语词节点,语词节点的属性用结构体描述如下:
语词之间的层次关系主要是根据关联规则的置信度来决定:对于关联规则A->B,如果C(A->B)>0.8且C(B->A)<0.5,则认为B是A的父层次,相应的A是B的子层次。因为在A出现的情况下B出现的概率很高,而在B出现的情况下A出现的概率很低,说明B的语义要比A更广泛些。
2.相关关系表:用于描述语词之间的相关性,描述如下:
(二)查询扩展
查询扩展指的是利用计算机语言学、信息学等多种技术把与原查询相关的词或者词组添加到原查询,从而得到比原查询长的新查询,然后检索文档。查询扩展主要需要解决以下两个问题:1、如何选择适当的语词进行扩展;2、如何给扩展语词赋予权值。
本文提出一种基于关联库的查询扩展算法,在扩展时通过引入γ和wmin(s)对扩展语词进行两次限定,主要分以下几个步骤:
⑴建立查询串q的向量空间模型
将查询串分割成单个的语词,每个查询串q表示成其中的一个范化特征向量V(q) = (i1,w1(q); …,ij, wj(q);…,im, wm(q)),其中ij为语词项,wj(q)为ij在q中的权值。
设查询串包含的语词项为{q1,q2,…,qn},则语词项的所有子集s={{q1}, {q2}, …,{qn}, {q1,q2},…,{q1,q2,…,qn}}={s1,s2,…,s2n-1},其中s1={q1},s2={q2},以此类推。根据关联库中概念层次关系表和相关关系表,分别对子集进行相应的扩展,然后合并运算后得到扩展语词项集,记作RS(s),将对q的扩展转化为对s的扩展。
⑵ 找出各个子集的相关语词
从关联库中分别找出sk(1≤k≤2n-1)的相关语词,并将其置信度从大到小排列,取前m个相关语词,存入到RS(sk)中。
⑶合并相关语词
将RS(sk)集合中的所有相关语词按照权值(置信度)大小进行排序,如果其中有重复的语词项,则选取权值的最大值。取不低于扩展词权值阈值wmin(s)的相关语词并存入到RS(s)集合中。
⑷ 将查询串q与扩展串RS(s)合并后,组成一系列语词项集合
将所得出的相关语词加入到初始的查询q中,形成新的扩展查询q’。为查询q’中的每一个扩展语词分配权值,扩展出来的相关语词的权值由语词之间的相关度决定。
(三)算法的不足和改进
本文提出的基于关联库的查询扩展算法可在一定程度上提高查準率,克服了传统信息检索基于关键字的搜索引擎的简单匹配的缺陷,减轻了相关领域专家构建语义库的负担。但由于网络上数据的庞大性使得语词或概念之间的语义关系都相当复杂,采用何种算法以及怎样对关联规则进行剪枝等都是决定查询效率的关键性因素。我觉得可以和其他的技术相结合获得更高的效率,如下:
⑴.关联规则挖掘与信息过滤技术相结合
网络及信息技术的迅猛发展导致了信息过载等现象,因而可以在网络信息挖掘之前对网络文档中包含的信息进行过滤、筛选、分类和归档等操作,使网络信息挖掘所要处理的数据量得以减少,同时使输入数据的质量、网络内容挖掘的信息挖掘速度及精确度和用户所得信息的时效性得以提高。
⑵.关联规则挖掘与可视化技术相结合
可将关联规则挖掘技术与可视化完美结合,互为补充,在信息检索中利用可视化技术可将用数据挖掘得到的语义关系用图像方式显示,揭示数据之间的相互关系及发展趋势,有助于用户判断一个检索中的相关信息是否是自己需要的。用形象直观的图像来指引检索过程,可以加快检索速度,大大缩短用户的查询时间,而且可以加深用户对数据含义的理解,使挖掘信息的过程和结果易于理解,便于在发现知识过程中进行人机交互。