关联规则挖掘在网络信息检索中的应用研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:sky_xuky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着计算机和网络技术的迅猛发展,人们面对的数据量以惊人的速度增长,如何快速有效地从浩瀚的信息资源中提取出有价值的信息成了迫切需要解决的问题,于是一种综合了统计学、数学、数据库技术、人工智能、机器学习等多门学科的数据挖掘技术应运而生。关联规则挖掘是数据挖掘中一个十分活跃的研究领域。本文对关联规则挖掘进行了论述,并针对目前网络信息检索效率过低的问题,提出了一种基于关联库的查询扩展算法。
  【关键词】关联规则;数据挖掘;信息检索;查询扩展
  一、问题
  随着计算机和信息技术的迅速发展,网络已经成为人们传递信息的重要渠道及其主要的信息源。web信息和数据库规模的急剧膨胀给人们带来方便快捷的同时,也为大量杂乱无章的信息所困扰,用户想从中快速准确地发现感兴趣的信息变得难上加难,信息过载和词不匹配等难题也相继出现。为了更有效地利用一些重要数据,人们希望能够对其进行更高层次的分析,给决策者提供一个统一的全局视角,因而在许多领域建立了数据仓库。但海量的数据往往使人们无法准确地辨别潜在的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些相关信息的需求。
  二、数据挖掘
  数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现潜在的、新颖的、有价值的信息和知识的一门技术,它是指从数据集合中自动抽取隐藏在数据中的那些有用信息的过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘并不是用规范的数据库查询语言进行查询,而是根据目标对数据进行检索和分析,揭示其中隐含的规律,即对查询的内容进行模式的总结和内在规律的搜索。
  三、关联规则挖掘
  关联规则挖掘是从大量数据中挖掘出相关项集的有趣的关联或联系,反映一个事物与其他事物之间的相互依存性和关联性。
  关联规则通常是从事务数据库或数据仓库中挖掘出的,具体如下:
  挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小置信度的关联规则,称为强规则。关联规则挖掘的任务就是要挖掘出数据库D中所有的强规则。因此,可以把关联规则挖掘划分为两个子问题:
  ①找出所有的频繁项集:根据定义,这些项集的每一个出现的频繁性至少与预定义的最小支持计数一样。②由频繁项集产生的强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
  大部分关联规则都是基于支持度-置信度框架,从而产生强关联规则。但有时仍会得出对用户来说不感兴趣的规则,从而对产生一定的误导。管理者通过对大量关联规则进行筛选,从而得出自己想要的知识。
  四、关联规则挖掘在网络信息检索中的应用
  (一)关联库结构
  为了描述特征词之间的层次关系和相关性,关联库中包含以下两个结构表:
  1.层次关系表:主要是描述词或概念之间的层次关系,基本元素是语词节点,语词节点的属性用结构体描述如下:
  语词之间的层次关系主要是根据关联规则的置信度来决定:对于关联规则A->B,如果C(A->B)>0.8且C(B->A)<0.5,则认为B是A的父层次,相应的A是B的子层次。因为在A出现的情况下B出现的概率很高,而在B出现的情况下A出现的概率很低,说明B的语义要比A更广泛些。
  2.相关关系表:用于描述语词之间的相关性,描述如下:
  (二)查询扩展
  查询扩展指的是利用计算机语言学、信息学等多种技术把与原查询相关的词或者词组添加到原查询,从而得到比原查询长的新查询,然后检索文档。查询扩展主要需要解决以下两个问题:1、如何选择适当的语词进行扩展;2、如何给扩展语词赋予权值。
  本文提出一种基于关联库的查询扩展算法,在扩展时通过引入γ和wmin(s)对扩展语词进行两次限定,主要分以下几个步骤:
  ⑴建立查询串q的向量空间模型
  将查询串分割成单个的语词,每个查询串q表示成其中的一个范化特征向量V(q) = (i1,w1(q); …,ij, wj(q);…,im, wm(q)),其中ij为语词项,wj(q)为ij在q中的权值。
  设查询串包含的语词项为{q1,q2,…,qn},则语词项的所有子集s={{q1}, {q2}, …,{qn}, {q1,q2},…,{q1,q2,…,qn}}={s1,s2,…,s2n-1},其中s1={q1},s2={q2},以此类推。根据关联库中概念层次关系表和相关关系表,分别对子集进行相应的扩展,然后合并运算后得到扩展语词项集,记作RS(s),将对q的扩展转化为对s的扩展。
  ⑵ 找出各个子集的相关语词
  从关联库中分别找出sk(1≤k≤2n-1)的相关语词,并将其置信度从大到小排列,取前m个相关语词,存入到RS(sk)中。
  ⑶合并相关语词
  将RS(sk)集合中的所有相关语词按照权值(置信度)大小进行排序,如果其中有重复的语词项,则选取权值的最大值。取不低于扩展词权值阈值wmin(s)的相关语词并存入到RS(s)集合中。
  ⑷ 将查询串q与扩展串RS(s)合并后,组成一系列语词项集合
  将所得出的相关语词加入到初始的查询q中,形成新的扩展查询q’。为查询q’中的每一个扩展语词分配权值,扩展出来的相关语词的权值由语词之间的相关度决定。
  (三)算法的不足和改进
  本文提出的基于关联库的查询扩展算法可在一定程度上提高查準率,克服了传统信息检索基于关键字的搜索引擎的简单匹配的缺陷,减轻了相关领域专家构建语义库的负担。但由于网络上数据的庞大性使得语词或概念之间的语义关系都相当复杂,采用何种算法以及怎样对关联规则进行剪枝等都是决定查询效率的关键性因素。我觉得可以和其他的技术相结合获得更高的效率,如下:
  ⑴.关联规则挖掘与信息过滤技术相结合
  网络及信息技术的迅猛发展导致了信息过载等现象,因而可以在网络信息挖掘之前对网络文档中包含的信息进行过滤、筛选、分类和归档等操作,使网络信息挖掘所要处理的数据量得以减少,同时使输入数据的质量、网络内容挖掘的信息挖掘速度及精确度和用户所得信息的时效性得以提高。
  ⑵.关联规则挖掘与可视化技术相结合
  可将关联规则挖掘技术与可视化完美结合,互为补充,在信息检索中利用可视化技术可将用数据挖掘得到的语义关系用图像方式显示,揭示数据之间的相互关系及发展趋势,有助于用户判断一个检索中的相关信息是否是自己需要的。用形象直观的图像来指引检索过程,可以加快检索速度,大大缩短用户的查询时间,而且可以加深用户对数据含义的理解,使挖掘信息的过程和结果易于理解,便于在发现知识过程中进行人机交互。
其他文献
【摘 要】通辽发电总厂五号600MW机组TSI系统改造前所应用的是MMS6000系统,因部分硬件型号过于陈旧,导致无备件可供更换,因此利用停机机会,将TSI系统由MMS6000版本升级到CSI6500版本,本文重点介绍CSI6500系统在通辽发电总厂5号机组TSI系统中的应用。  【关键词】TSI系统升级 电源模块 系统框架 CSI6500系统  一、改造前的背景  通辽发电总厂5号机组现有的TS
期刊
【摘 要】网站是气象文化宣传顺应时代发展的需要,本文通过一个实例来介绍气象文化宣传网站建设的全过程,以更好地弘扬气象文化。  【关键词】气象 文化 网站 建设  一、网站设计  (一)主题与风格  气象文化的宣传有很多角度,这里我们选取廉政文化这个角度来做一个活动专栏。  网站风格是网站区别于其他网站的特点,包括了文字、颜色、布局、链接等的编排设置,应该与网站的主题相符。我们要做的是廉政文化专栏,
期刊
【摘 要】指挥信息系统作为指挥手段已经诞生了半个多世纪,它在战争中的作用愈发明显。在未来的边境反击作战过程中,空降兵也必将利用指挥信息系统进行指挥,只有建立与未来边境反击作战相适应的指挥信息系统,才可能满足高效可靠的指挥要求。本文将从建立方法等三个方面对边境反击作战空降兵指挥信息系统的构建进行探讨。  【关键词】边境反击作战;空降兵;指挥信息系统  指挥信息系統作为指挥手段已经诞生了半个多世纪,它
期刊
【摘 要】随着我国成功加入WTO及信息化浪潮的日益临近,超市经营管理机制正在发生着根本性的变化,超市想要在激烈的市场竞争环境下生存,就必须有效地利用人才、时间、信息结合的优势,进行超市管理。本文通过对超市管理系统进行分析,以期提升超市管理水平,满足发展需求。  【关键词】超市管理 系统设计 发展策略  在新的发展时期,人们迫切希望有一个新的市场管理机制的出台,来规范以及创造新的购物环境—让顾客欢喜
期刊
【摘 要】文章介绍了一种基于WEB的实验室设备管理系统的设计,基于WEB的实验设备管理系统采用B/S模式,使用MS SQL Server 2012作为后台数据库管理系统,全面介绍了平台的设计原则、用户分类和系统功能。  【关键词】WEB;实验室设备管理系统;设计与实现  前言:当前随着我国经济的发展和对科研事业的重视程度不断提高,对社会经济生活中各种产品的检测需求也不断增加,国家认可实验室作为质量
期刊
【摘 要】信息系统综合集成是现代信息化建设的重要环节,数据资源是信息系统建设的基础,做好数据资源管理是实现一体化综合集成的关键,对促进用户信息化建设长远发展具有重要意义。本文主要针对信息系统集成方面的若干问题进行了具体分析与探讨。  【关键词】信息系统 集成 问题  伴随着现代科学技术的发展,信息系统集成已经发展成熟。但是信息系统集成中的数据资源管理还存在着一些问题,加上统一的规范标准,从而进一步
期刊
【摘 要】在软件开发中数据结构有着提高程序性能的作用,如果将它运用于游戏开发,会使游戏的性能与运行速度得到更大的提高,玩家会有更好的游戏体验,提高可玩性。本文对数据结构在游戏程序中的应用进行了简单探讨,希望给出数据结构在网络游戏开发中一种新思路。  【关键词】数据结构;数据处理;动作响应;规则实现  数据结构现今被广泛应用于系统软件和普通应用软件开发。例如计算机操作系统中,利用高效的检索算法及索引
期刊
【摘 要】设计了一种基于AT89S52单片机的平面搬运机械手控制系统,采用两个步进电机控制机械手臂在X轴和Y轴上精确移动,完成对平面上指定方位物件的抓取和搬运功能,并能在人性化的操作界面下实现智能监控。  【关键词】机械手;单片机;控制系统  工业机械手是一种能够自动控制、可重复编程、可在三维空间完成各种作业的自动化生产设备。它能模仿人手臂的某些动作,按固定程序指令抓取、搬运物件或操作工具。机械手
期刊
【摘 要】本文在建立HSV模型的直方图的基础上,通过量化来表示视频帧的特征,并计算帧间相似度。提出了一种结合滑动窗口的自适应双阈值法,来检测视频的镜头分割。实验证明该方法能够充分适应视频帧变化,在进行视频分割时取得了较好的效果。  【关键词】镜头分割、自适应双阈值、Hsv模型  1引言  随着信息技术的飞速发展,媒体技术得到广泛应用,视频数据大量涌现。如何对这些海量信息进行有效的管理和检索已成为一
期刊
【摘 要】在制药厂生产经营过程中,越来越重视信息化技术的应用,以达到提高生产效率,实现生产安全的目的。在制药厂生产体系中,目前应用比较广泛的就是管控一体化信息系统,该系统能够对生产管理、过程控制等信息进行处理、分析,以及优化和整合,从而提高制药厂的运营效率和市场竞争能力。本文主要对制药厂管控一体化信息系统相关设计的一些问题进行探讨和研究,以期能够为制药厂的发展做出一定的共享。  【关键词】制药厂;
期刊