论文部分内容阅读
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息检索的研究可以帮助人们有效的找到感兴趣的信息,帮助用户发现对自己有用的知识。信息检索的核心问题就是预测文档的相关度,并按照其相关度对文档进行排序,一般而言,排在最顶端的文档被认为最相关。因此,相关性的计算和排序算法就成为信息检索的核心。传统的信息检索主要采用向量空间模型计算相关度,该模型也多用于Web信息检索。但Web网页与普通文档相比,有很多独特的特征,如单个Web网页具有URL、HTML Tag、Anchor Text、入度;同时Web网页之间具有超链接,分析这种超链接关系,可以改进检索结果的排序效果。而Deep Web是一种特殊的Web资源,其信息存储在数据库中,用户只能通过一些含表单的网页对其访问,但是这些网页中所含内容较少,网页之间链接关系较少,若采用一般的Web检索相关度计算方法,会得到很差的效果。本文的研究主要着眼于Web和Deep Web信息检索领域,有以下几个方面的贡献:1.实现了一个基于向量空间模型的全文检索系统,对如何利用Web网页的HTML标签、锚文本、入度特征来改进相关度计算进行了研究。并针对Web网页的URL特征,给出了对检索结果重排序的方法。该系统在国内文本检索会议(SEWM2007)中表现较好,取得了一定的成绩。2.针对Web网页之间的链接特征,提出了一种面向主题的页面重要度计算方法,新算法基于PageRank超链接分析算法,考虑了网页内容与主题的相关度、主题信息对网页间链接的分类和web页面自身重要度等因素对网页重要度计算的影响。实验证明针对具体领域,该算法在P@10和用户满意度等方面优于PageRank算法。3.给出了计算Deep Web数据库之间语义相关度的两种算法。第一个算法基于向量空间模型,但在计算数据库表之间的语义相关度时,综合考虑了含有数据库表的网页内容和数据库表之间的语义距离。且利用模糊分层集合,把同义和近义的标记词进行归一,依据新的词频计算方法产生对数据库表的向量表示。第二个算法采用本体和模糊集理论,将向量表示的数据库表转化为概念模糊集的形式,利用模糊集的匹配度来计算数据库表之间的语义相关度。分别采用分类算法和聚类算法来检验两种算法的效果。实验表明,两种新的语义相关度算法比余弦相似度算法表现好。