论文部分内容阅读
本文主要关注的问题是如何正确理解网页内容的真实语义并按语义之间的联系度量网页间的相关度。针对这一问题,作者提出了一种新型的信息检索模型,该模型的理论和应用包括:1)构建领域知识库,将领域中用户关心的概念及概念之间的关系存储在知识库中,每个概念可能关联多个词;2)在计算两个网页之间的相关度时,先将网页中的词映射到知识库中的相关概念上,再将每个网页中所有概念形成一个向量,在计算两个网页向量之间的距离时增加一个概念关系度量矩阵用以描述概念和概念之间的关系。这样的度量方法一方面通过用概念取代词的方法更好地理解网页的内容,另一方面通过概念关系度量矩阵去掉了传统向量空间模型中“概念之间是彼此独立的”的假设,使得模型更接近真实世界中概念之间的关系。
本文的工作重点就是定义上述新型的基于关系度量矩阵的信息检索模型,并借助一个网页自动推荐系统的构建过程,给出了新模型的实例化方法。实验表明,本文提出的新模型在时间效率相当的情况下,查全率和查准率都比传统的向量空间模型有明显提高。
本文提出的新模型可以在下面的互联网应用中发挥作用:1)在大型门户网站中加入新网页时,根据网页中的概念自动把网页挂到合适的分类节点上,并自动计算新网页与已有网页的关联度,形成新网页与已有网页的相互推荐关系;2)使现有搜索引擎返回结果与输入关键词之间在语义上更相关;3)将博客等新型网页自动或半自动地组织成类似门户网站的树状结构,以便于用户检索。