基于奇异值分解的web信息检索模式

来源 :商场现代化 | 被引量 : 0次 | 上传用户:wlhkbbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 针对传统信息检索搜索时间慢、空间占用量大的问题,提出了一种基于奇异值分解和欧氏距离算法的信息检索算法。该算法降低了信息检索时间复杂度和空间复杂度,实验证明了该算法的有效性。
  [关键词] 信息检索 奇异值分解 欧氏距离 Salton向量空间模型
  
  随着因特网上信息资源种类及数量不断扩大,研究高效的信息检索方法成了一个非常重要的课题。信息检索就是借助一定的设备与工具,采用一系列方法与策略从数据库中查找出所需信息。基于查询串的文档信息检索接收用户从浏览器提交的信息串,经网络传输后提交相关的信息检索,并将最终结果按照一定排序规则排序后传输给用户,这种检索方式具有较好的用户交互能力。
  近年来很多科研工作者致力于基于关键字的文档检索领域方面研究,并成功应用于各种Web应用中。Salton等人提出的向量空间模型将文档和用户查询转化为向量形式,根据向量之间的相似程度对所有返回结果进行排序,并在搜索引擎系统中得到了较为广泛的应用。
  一、利用Salton向量空间模型实现信息检索的算法
  第一,构造特征项库。输入文档集合中的特征项,并建立特征项库;
  第二,建立文档信息。将文档内容输入数据库,建立文档信息库;
  第三,构造文档向量信息库。对每个文档信息依据公式(1),计算每一个特征项的权值,并构建相应的文档向量;
  第四,查询文档。用户输入查询条件,利用布尔模型得到查询条件的文档向量,再利用公式(2)与每一个文档向量进行计算得到该查询条件与文档的相似度;
  第五,排序输出结果。按照第四步所计算出来的相似度大小排序输出查询结果。
  定义1 特征项t:是指出现在文档d中且能够代表该文档性质的基本语言单位。
  定义2 特征项权值Wik:是指特征项tk代表文档di的能力大小。Wik的计算采用特征项频率tfik和反比频率idfk计算。
  wik=tfik+idfk=tfik *(log2 (N/nk)+1) 公式(1)
  其中,tfik表示特征项tk在文档di(i=1,……,N)中出现的频率,N代表文档集合中的文档数量,nk代表在文档集合中出现特征项tk的文档数目。
  定义3 文档向量:设文档集合中共有m个不同的特征项t1,t2,……tm,分别计算文档di(i=1,……,N)的特征项t1,t2,……,tm的特征项权值,由这些特征项权值所构成的向量(wi1,wi2,……,wim,.)成为文档di的向量。
  由于特征项t1,t2,……tm互不相同,可以将文档向量看作是m维欧氏空间的向量。这样,文档之间的相似程度通过向量的形式转化为向量之间的数学计算模式,使得在进行文档归类以及查询匹配过程中的计算过程比较简单、快速。
  定义4 相似度:两文档向量之间相似的距离程度记为相似度。文档di、dj相似度定义为di、dj所对应的文本向量之间的夹角余弦:
   公式(2)
  在进行查询匹配时,查询条件QS的向量化过程可采用布尔模型进行:
  
  即特征向量tj出现在查询条件QS中,则Qj为1,否则为0。
  二、问题提出
  利用传统向量空间模型可以定量计算查找字符串和数据库字符串的相似程度,但随着数据库表记录的增大,特征值变得很大,对应文档向量的维数急剧上升,严重影响查找效率。
  三、基于奇异值分解的信息检索算法
  奇异值分解通过数据降维方法发现高维数据之间的潜在关系,得到的奇异值向量(σ1,σ2,…,σr)是惟一的,它刻画了矩阵数据的分布特征,保留了矩阵的代数本质,因此可以将奇异值向量作为文档矩阵的代数特征。而奇异值向量将文档向量映射到一个子空间,提高了运算效率,因此可以将奇异值向量作为文档向量矩阵的代数特征。
  引理1 奇异值分解:对于任一实矩阵Am×n,秩(A)=r,则存在两个标准正交矩阵Um×m和Vn×n以及对角阵Dm×n,使得A=UDVT。其中,,=diag(σ1,σ2,…,σr),Um×m=(u1,u2,…,ur,ur+1,…,um),Vn×n=(V1,V2,…,vr,vr+1,…,vn)。
  称为矩阵A的奇异值,λ1≥λ2≥…≥λr≥0,λr+1=λr+2=…=λn=0是矩阵ATA和AAT的特征值。ui,vi(i=1,2,…,r)分别是ATA和AAT对应于非零特征值λi的特征向量。
  在Salton向量空间模型实现信息检索算法的第三步构造文档向量信息库之后,对每个文档特征向量进行奇异值分解,然后在文档查询时,对查询条件的文档向量也要进行奇异值分解,然后利用欧氏距离计算奇异值分解后的文档特征向量与查询条件的文档向量的相似度,最后排序输出结果。
  四、实验与结果分析
  从万方数字化期刊中随机抽取期刊论文20篇,得到文档集合的关键字特征项共50个。
  由Salton向量空间模型算法得到文档向量。因为对文本信息处理过程中,一般基于单词与单词之间互相独立的假设来降低文本信息处理的复杂度,所以把文档向量转换成m×n的矩阵。结果如下图所示:
  文档矩阵经过奇异值分解后,得到对应的奇异值向量如下:
  文档1的特征值向量:(1.4862)
  文档5的特征值向量:(2.1478,0.5503)。
  在查询条件中先后输入文档1、文档2、文档4、文档5,进行实验,得到欧式距离结果如下:
  可见,如果在查询算法可靠的情况下,当查询条件中输入文档1的关键字时,文档1对应的欧氏距离是最小的。同样当查询条件中输入文档2的关键字时,文档2对应的欧氏距离是最小的。从上表的实验结果可以看出,当在查询条件中输入文档1的关键字时,得到的文档1欧氏距离在文档集合中排第二;当在查询条件中输入文档2的关键字时,得到的文档2欧氏距离在文档集合中排第二;当在查询条件中输入文档4的关键字时,得到的文档4欧氏距离在文档集合中排第一。所以当按相似度的大小显示满足一定阈值的一系列文章时,奇异值分解具有很高的查全率和查准率。
  五、结论
  上述实验证明,本文提出的基于奇异值分解和欧氏距离算法的信息检索算法和传统算法相比,在保证查全率和查准率的前提下,大幅度的降低了运算量,提高了运算效率。
  
  参考文献:
  [1]焦玉英 符紹宏:信息检索[M].武汉:武汉大学出版社,2001
  [2]GERARD SALTON A. WONG and C.S.YANG. A Vector space model for information Retrieval. Communications of the ACM 1975.18(11):613~620
  [3]雷景生 林冬雪 符浅挽:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程,2005,1.vol31
  [4]刘志为:N层向量空间模型在web信息检索中的应用[J].微型机与应用,2004年第12期
  [5]史荣昌:矩阵分析[M].北京:北京理工大学出版社,1996.149~153
  [6]屠伯埙:线性代数:方法导引[M].上海:复旦大学出版社,1986.
  [7]Shi RC.Matrix Analysis[M].Beijing:Beijing Institute of Technology Press, 1996.149~153(in Chinese)
  [8]Han JW, Kamber M. Data Mining:Concepts and Techniques[M]. Beijing:High Education Press, 2001,38~388
其他文献
[摘 要] 通过对涉外导游词文本特点及其创作的制约因素的分析,结合 Grice 会话合作原则,以最新版《英语现场导游》为例,提出了涉外导游词创作的四项准则:质的准则,量的准则,相关准则和方式准则。运用好四项准则,涉外导游词将更容易地为游客所接受,从而取得更好的现场效果。  [关键词] 导游词 文本特点 制约因素 会话合作原则    近年来,我国的旅游事业有了长足的发展,吸引着越来越多的外国人来华旅
期刊
[摘 要]本文根据2007年1月1日开始执行的企业会计准则,就宁夏地矿局“三·三制”投资方式的现行会计处理存在的问题,分别对地矿局和其下属企业提出了可行的解决办法。  [关键词] 三·三制 共同控制资产 会计处理    宁夏地矿局是专门从事地质矿产勘查与开发工作的区政府直属正厅级事业单位,下属14个企事业单位,由于勘探设备单位价值很高,资金需求量大,地矿局对部分勘探设备采用“三、三制” 投资方式解
期刊
[摘 要] 适逢人才招聘高峰时期,如何让求职者与用人单位双方相互了解、相互认可,是解决就业问题的关键。以辽宁企业为例,用具体的数据分析了当前企业所需人才的类型,企业用人的条件,及企业在聘用人才时出现的问题,以期为求职者和用人单位提供一份理性的数据参考。  [关键词] 企业 招聘 人才    又到了一年一度的人才招聘高峰时期,每年都有数以万计的求职者在这一时期找到可心的工作,许多企业也在同一时期招聘
期刊
[摘 要] WTO规则内对文化产品的调整主要集中于GATT1994和GATS,但两者同时适用于文化产品时可能会遇到一些冲突,WTO规则并没有对二者冲突的解决做出规定。因此应把GATT1994与GATS作为一个整体,而不能把两者割裂开来看作独立的协议,统一适用与同文化产品的相关规则,并减少在适用过程中的不确定性。  [关键词] 文化产品 放映限额 补贴    某些作为贸易对象的货物和服务都兼具文化和
期刊
[摘 要] 市场细分是旅游市场研究中一个特别值得关注的问题。文章通过对以抽样调查方法所获得的怀化市市民旅游消费行为及意向的丰富基础数据进行分析,选取了喜爱少数民族文化这一细分市场进行分析,发现此市场主要是中青年,在出游动机、住宿偏好、出游次数、旅游花费上与总体有较明显的差异;影响此市场目的地选择的主要因素是安全及形象、可进入性、旅游花费等。  [关键词] 少数民族文化 旅游市场 怀化    一、研
期刊
[摘 要] 国家加工贸易政策的调整,既是引导也是促使东部沿海加工贸易向中西部地区形成梯度转移。梧州作为广西最靠近珠三角的城市,要在承接东部加工贸易产业转移的激烈竞争中抢占先机,必须尽快完善产业配套体系。  [关键词] 加工贸易 产业转移 产业配套体系    近年来东部地区加工工业开始出现土地、劳动力等生产要素供给趋紧、企业商务成本不断提高、资源环境约束矛盾日益突出等问题,“腾笼换鸟”已成为必然。除
期刊
[摘 要] Partnering模式是项目管理中的一种较新的管理方法,本文重点分析Partnering模式中的相关术语。  [关键词] Partnering模式 Partnering协议 工程管理模式 Partnering模式的起源及研究背景    Partnering模式是项目管理中的一种较新的管理方法,它首先在美国出现。在最近的十几年中,美国、日本、澳大利亚、英国以及中国香港等国家和地区将Pa
期刊
[摘 要] 本文在分析Excel XML表格文件格式的基础上,论述了利用XML、PHP技术将Excel工作表数据导入到网站数据库的实现方法,并给出实例。  [关键词] Excel 电子商务网站 PHP     一、引言  在互联网络高速发展的今天,众多企业纷纷建立了各自的电子商务网站。本文论述了利用PHP、XML技术在网站中导入Excel数据的实现方法。  二、相关技术简介  1.XML技术。XM
期刊
[摘 要] 广告是当代商业文化中的一个重要组成部分。本文试从广告语入手挖掘所包含的文化内涵,分析中美文化的内核及其差异,以写出好的、贴切的、成功的跨文化广告语。  [关键词] 中美文化 文化 广告语    一、引言   在商品跨国流通过程中,为了更好地宣传产品,广告的作用尤为重要。而广告语的选择又与文化有着很深的根源,所以,对中美文化内核的了解有助于我们更好地选择贴切的广告语。本文拟从广告语入手寻
期刊
[摘 要] 指出了传统库存策略在供应链环境下暴露的弊端,分析了VMI策略提出的背景及条件,介绍了VMI策略的两个典型的应用层面,最后指出了实施VMI策略的必备条件。  [关键词] VMI策略 供应链 应用层面 必备条件    一、传统库存策略在供应链环境下暴露的弊端  传统库存控制策略虽然在企业管理中发挥了重要作用,但它是从本企业自身的角度进行库存成本最低的优化管理,每个企业都独自运行,只负责自己
期刊