论文部分内容阅读
随着互联网和信息技术的飞速发展,Web信息呈现出爆炸式增长的趋势。海量的Web信息使得人们快速查找到真正需要的信息变得十分困难,因而也带动了搜索引擎技术的快速发展。搜索引擎通过爬虫在互联网中搜集大量的网页,然后运用一定的方法对网页处理后进行索引和存储,并通过有效的排序算法返回与用户查询相关的结果。目前,搜索引擎已经成为人们获取Web信息的重要工具,优化搜索引擎的性能也成为目前Web领域的一个热点问题。现有搜索引擎的一个主要问题是对于Web网页的时间信息缺乏有效的处理技术。时间信息和我们的日常生活息息相关。在日常的Web搜索行为中,人们也常常将时间信息作为查询词提交给搜索引擎进行查询。已有研究表明,在用户提交的查询中,有约1.5%的查询包含了显式的时间约束,有约7%的查询包含了隐式的时间约束。另外,在本文的实验中我们发现,平均每个新闻网页都包含了5个左右的时间表达式。这些都说明了时间信息对于网页以及用户查询的重要性。而现在的搜索引擎对查询中的时间关键词仅仅作为普通文本关键词来处理,在索引、排序等过程中也只考虑了网页的发布时间,缺乏对网页内容时间和查询中的时间信息的抽取和分析,因此不能很好地理解用户的查询意图,也不能将时间信息有效地结合到查询结果的排序算法中,最终导致搜索引擎在回答时间相关类用户查询时难以获得好的查询效果。基于以上背景,本文针对现有搜索引擎缺乏有效的时间感知搜索能力的现状,研究了时间感知搜索中的若干关键问题,提出了一系列的解决方法。论文首先阐述了时间感知搜索的研究背景和意义,分析了时间感知搜索研究中存在的问题和挑战,在此基础上围绕网页时间抽取、时间感知的网页排序、查询时间扩展、时间感知搜索原型系统等问题开展了深入研究。总体而言,本文的主要工作和贡献可归纳为以下几个方面:(1)针对现有的研究很少区分网页中的时间表达式和网页内容的相关程度的问题,提出了一种基于网页时间表达式出现次数和时间表达式之间的包含关系的网页首要时间抽取算法。该算法不是仅考虑网页时间表达式出现的次数,而且还考虑了时间的内在含义,更加适合于我们对于文本理解,同时网页显式时间和隐式时间具有不同的抽取精度的问题也被考虑在内,算法得到了较高的准确率。(2)针对现有的时间感知排序算法对网页内容时间以及网页和时间表达式相关程度考虑不足的问题,本文提出了一个基于网页首要时间的时间感知排序算法。该算法充分考虑网页中出现的内容时间,同时对网页中出现的每一个时间表达式都定义了和网页内容的相关性权重,另外,该算法也考虑了显式时间和隐式时间的抽取精度的问题,相对于其它对比算法,本文提出的方法具有更好的性能。(3)针对用户在提出查询时不知道确切的时间约束的问题,本文提出了一个基于权重矩阵的查询时间扩展算法。该算法通过对网页的内容进行分析,考虑网页内容中时间表达式和文本关键词的共现关系,得到两者的相关程度,在用户提出相应的查询关键字的时候返回根据相关度排序的时间词候选列表。该方法通过网页的内容进行分析,只要网页录入了搜索引擎的索引库,就能及时的对扩展时间词进行更新,具有很强的及时性,这种方法得到的候选时间词具有很高的准确率。(4)针对现有的时间感知排序算法没有统一的平台的问题,本文实现了一个时间感知搜索的TASE原型系统(Time-Aware Search Engine)。该系统定义了网页时间的表示模型,该模型能够很好的满足多种时间感知的排序算法,并且通过时间相似性和文本相似性线性加权的形式得到最终的相关度,只需要实现一个时间感知排序的时间相似性计算方法就能够扩展到该原型系统中,具有很强的可扩展性。本文实现的原型系统实现了多种的时间感知排序算法,并且使用AJAX等前端技术,可以给用户提供一个很好的使用体验。本文的研究较好地解决了时间感知的搜索引擎中的核心问题。论文提出了网页首要时间及抽取算法、时间感知排序算法、查询时间词扩展算法等一系列新的设计,并建立了一个原型系统进行了系统的实验,验证了所提算法在实际数据集上的有效性,从而有效地改善了搜索引擎对于时间感知用户查询的搜索效果,并可以为下一代搜索引擎和时间相关的Web应用的进一步发展提供新的参考。