上下文感知的Web搜索关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lich1234554321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,实现了全世界人们信息共享的愿望。但是,也正是由于海量信息所造成的“信息过载”,刺激了对高效的Web信息检索技术的需求。2002年9月在美国麻省理工学院智能信息检索研究中心(CⅡR)召开的未来信息检索挑战的国际会议上,上下文检索(Contextual Retrieval)被一致认为是信息检索的长期挑战。2004年7月和2005年7月又先后两次召开了在上下文中的信息检索(IRⅰX)的国际会议。在信息检索活动中,无论是信息需求的用户,还是用户所需的信息,都是处于各自的上下文中。一方面,用户处于Task Context、User Context、QueryContext等上下文之中;另一方面,Web信息则处于Author Context、Link Context、Structural Context、Path Context等上下文之中。为了能向用户提供高质量的信息,信息检索模型必须将两方面的上下文有机地结合起来,建立上下文感知(Context-Aware)的信息检索模型。根据信息检索领域的战略目标以及Web search的现状,本文对上下文检索展开了深入的研究,提出了可以解决用户的信息查询和相似页面搜索的上下文感知的检索模型,并基于该模型主要完成了以下工作:1)感知或获取用户的查询意图或主题:将用户的查询基于上下文和参考本体获取一个参考本体中的局部子树,该子树反映了用户查询的真实意图或主题。本文给出了获取该子树的一系列相关算法。2)对主题子树的扩展:基于1)中获得的主题子树,将叶子节点分别基于参考本体中的ISA关系和非ISA关系进行扩展,从而得到一个以用户的查询词为中心的概念图,称为用户的个性化概念图。以个性化概念图中的关键词为特征项来表示Web页面,即Web页面的信息内容限制在该个性化概念图所张的信息子空间中,而个性化概念图中概念之间的度量关系将成为页面链接权重的度量依据。本文给出了这种个性化度量的一系列相关算法。3)感知Web页面作者的语义信息:Web页面作者是需求信息的诸多上下文之一,页面作者构成的社群网络的主题与页面构成的超链网络的主题具有很强的相关性甚至是同一主题,因此有必要对这个网络进行研究。本文引入“简单文档”的概念,简单文档通过一阶近邻构成平面式的“复合文档”,复合文档构成立体式的数据集,对数据集建立张量模型,通过张量分解,研究社群网络中成员之间的语义相似度。本文给出了这种相似度的一系列相关算法。4)感知Web页面之间的链接结构上下文:页面通过页面之间的超链接构成复杂的链接网络,从而构成需求信息的链接结构上下文。将1)和2)获得的用户的个性化概念图的拓扑结构应用于链接结构上下文:一方面,以个性化概念图中的概念(关键词)作为特征项将页面表达为向量,特征项的权重类似于TF-IDF的CF-IDF计算;另一方面,链接赋予权重,权重计算的依据是用户概念图中概念之间的个性化语义相似度。通过邻接权重矩阵计算页面的权威度量,从而按照权威度量对页面排序。本文给出了这种排序的一系列相关算法。显然这种排序随着个性化概念图的变化而变化,有效地克服了“作者欺骗”、“主题漂移”和“千人一面”的问题。5)感知Web页面之间的链接锚文本对链入页面的主题或语义指示:在4)的带权链接矩阵的基础上,增加链接锚文本作为第三轴或模式,从而建立了数据的张量模型。由于张量在数学理论及算法上还不成熟,本文将张量模型发展为三个矩阵表示的个性化模型,从而有效地利用了在数学理论上十分成熟的矩阵理论及其算法。本文的研究内容基于作者所参与的上海市科学技术委员会科技攻关项目(GrantNo.055115001)《面向语音服务的志愿者信息推送服务平台》的研究,该项目以2010年上海世博会为应用场景,实现了世博MIA系统。本文提出的算法在系统中得到了验证,结果都显示出它们能有效的解决相关问题,并具有较高的性能。因此,本文的研究成果对于提高网络搜索的准确性具有较大的实用价值。
其他文献
目的:观察米非司酮加米索前列醇在绝经后取环术中应用的临床效果.方法:选择绝经2~16年的老年妇女置入金属圆环40例为研究对象.观察组服用米非司酮加米索前列醇,对照组术前不用
阿里巴巴和国家电网的加入将给广电股份公司5G发展带来更多的可能性,广电股份公司即将扬帆起航。8月26日,广西广电、东方明珠、贵广网络、歌华有线、天威视讯等在内的广电系
2000年,Ahlswede等人基于网络信息流的概念提出了网络编码的思想。通过允许网络节点进行编码,可以获得网络组播速率的最大流限,即网络资源利用的理论上限,而通过传统的路由和
由于网络资源和网络流量分布的不均衡,拥塞的发生是互联网的固有属性。为了保证互联网的稳定运行,必须执行拥塞控制。拥塞控制算法大致可以分成两类:源算法和链路算法。链路
网络管理的目标是最大限度地增加网络的可用时间,提高网络设备的利用率、网络性能、服务质量和安全性,提供网络的长期规划。随着网络规模的不断扩大,网络的管理和维护变得越来越
“互联网+”行动计划对推动我国产业升级和经济高质量发展具有重要意义,随着“互联网+”迈向深度发展阶段、关联技术不断升级、新模式和新业态持续涌现,亟需总结发展现状并梳
随着网络和信息技术的迅猛发展,电子商务在各领域的应用越来越广泛,如何在互联网上实现安全、高效和便捷的信息商品交易引起人们越来越多的关注。研究和实现基于Internet 的
目的:探讨高频电波刀结合宫腔镜切除宫颈黏膜下肌瘤的临床效果.方法:选取12例患者在确定肌瘤或肌瘤蒂附着位置、深度及宽度下,以高频电波刀切除大部分瘤体,尽可能地切至肌瘤及
依据国家十九大报告和《职业学校校企合作促进办法》等文件精神,结合高职院校学前教育专业建设实际,分别从四个方面阐述了校企深度合作,产教融合,实现校企协同育人,从而通过
传统互联网协议体系中的IP地址具有身份和位置双重语义,在路由可扩展性、移动性、安全性等方面产生了严重的弊端。身份与位置分离机制的主要思想是对IP地址的双重语义进行解