论文部分内容阅读
随着互联网的蓬勃发展,web搜索已经成为工业界和学术界的研究热点,web搜索的本质是文本检索,要解决的一个核心问题是对于一个用户的查询,如何获取最相关的网页返回给用户。
传统的文本检索,将查询和文档都映射到词向量空间,在词向量空间计算出每一篇文档和查询之间的相似度,按照相似度进行排序,并返回给用户排名最靠前的若干篇文档,这就是著名的向量空间模型,经过实践证明,该模型无论在准确性和有效性方面都有非常良好的表现。
但是,向量空间模型将文档和查询中的词孤立的去看待,在进行分析的同时丢失了词与词之间的关系,不能捕捉一个词上下文的特征,更加不能解决经常出现的一词多义和同义词的问题,因此亟需对文本和查询进行语义层面的分析和建模,从而在本质上提高查询和反馈文档之间的相关度。
本文针对文本的语义分析模型进行了深入的研究,对常用的语义分析手段进行了多方面的比较,其中主要的创新工作和研究成果如下:
第一,本文实现了如何利用基于话题和基于词关系的语义模型进行文本检索,并通过大量的实验数据和指标论证了这些模型在文本检索,尤其是在捕捉查询和文档之间语义特性方面所起到的积极作用。
第二,本文提出了一种新的结合翻译模型和潜在语义分析模型的文本检索系统,该系统利用翻译模型对语义空间的每一个话题进行建模,从而得到话题与话题之间的相似度。实验证明,该系统在检索质量上较传统的文本检索模型有较大的提高。
第三,本文通过大量的实验数据,对语义模型进行了较为深入的分析,模型之间的纵向分析展示了各个模型的优劣;模型内部参数的分析展示了不同的参数对模型性能的影响,这些实验数据对工程实践也有很好的指导意义。