论文部分内容阅读
随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,实现了全世界人们信息共享的愿望。但是,也正是由于海量信息所造成的“信息过载”,刺激了对高效的Web信息检索技术的需求。2002年9月在美国麻省理工学院智能信息检索研究中心(CⅡR)召开的未来信息检索挑战的国际会议上,上下文检索(Contextual Retrieval)被一致认为是信息检索的长期挑战。2004年7月和2005年7月又先后两次召开了在上下文中的信息检索(IRⅰX)的国际会议。在信息检索活动中,无论是信息需求的用户,还是用户所需的信息,都是处于各自的上下文中。一方面,用户处于Task Context、User Context、QueryContext等上下文之中;另一方面,Web信息则处于Author Context、Link Context、Structural Context、Path Context等上下文之中。为了能向用户提供高质量的信息,信息检索模型必须将两方面的上下文有机地结合起来,建立上下文感知(Context-Aware)的信息检索模型。根据信息检索领域的战略目标以及Web search的现状,本文对上下文检索展开了深入的研究,提出了可以解决用户的信息查询和相似页面搜索的上下文感知的检索模型,并基于该模型主要完成了以下工作:1)感知或获取用户的查询意图或主题:将用户的查询基于上下文和参考本体获取一个参考本体中的局部子树,该子树反映了用户查询的真实意图或主题。本文给出了获取该子树的一系列相关算法。2)对主题子树的扩展:基于1)中获得的主题子树,将叶子节点分别基于参考本体中的ISA关系和非ISA关系进行扩展,从而得到一个以用户的查询词为中心的概念图,称为用户的个性化概念图。以个性化概念图中的关键词为特征项来表示Web页面,即Web页面的信息内容限制在该个性化概念图所张的信息子空间中,而个性化概念图中概念之间的度量关系将成为页面链接权重的度量依据。本文给出了这种个性化度量的一系列相关算法。3)感知Web页面作者的语义信息:Web页面作者是需求信息的诸多上下文之一,页面作者构成的社群网络的主题与页面构成的超链网络的主题具有很强的相关性甚至是同一主题,因此有必要对这个网络进行研究。本文引入“简单文档”的概念,简单文档通过一阶近邻构成平面式的“复合文档”,复合文档构成立体式的数据集,对数据集建立张量模型,通过张量分解,研究社群网络中成员之间的语义相似度。本文给出了这种相似度的一系列相关算法。4)感知Web页面之间的链接结构上下文:页面通过页面之间的超链接构成复杂的链接网络,从而构成需求信息的链接结构上下文。将1)和2)获得的用户的个性化概念图的拓扑结构应用于链接结构上下文:一方面,以个性化概念图中的概念(关键词)作为特征项将页面表达为向量,特征项的权重类似于TF-IDF的CF-IDF计算;另一方面,链接赋予权重,权重计算的依据是用户概念图中概念之间的个性化语义相似度。通过邻接权重矩阵计算页面的权威度量,从而按照权威度量对页面排序。本文给出了这种排序的一系列相关算法。显然这种排序随着个性化概念图的变化而变化,有效地克服了“作者欺骗”、“主题漂移”和“千人一面”的问题。5)感知Web页面之间的链接锚文本对链入页面的主题或语义指示:在4)的带权链接矩阵的基础上,增加链接锚文本作为第三轴或模式,从而建立了数据的张量模型。由于张量在数学理论及算法上还不成熟,本文将张量模型发展为三个矩阵表示的个性化模型,从而有效地利用了在数学理论上十分成熟的矩阵理论及其算法。本文的研究内容基于作者所参与的上海市科学技术委员会科技攻关项目(GrantNo.055115001)《面向语音服务的志愿者信息推送服务平台》的研究,该项目以2010年上海世博会为应用场景,实现了世博MIA系统。本文提出的算法在系统中得到了验证,结果都显示出它们能有效的解决相关问题,并具有较高的性能。因此,本文的研究成果对于提高网络搜索的准确性具有较大的实用价值。