论文部分内容阅读
万维网(World Wide Web)信息的爆炸性增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需的信息需要耗费大量的精力,甚至难以找到,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域产生了一个新的研究课题,领域搜索引擎。它的基本思想可以概括为:与通用的搜索引擎不同,只对一个特定领域内的网页集合,以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,例如学术搜索,电子商务搜索,都有很好的应用前景,与现有的Web搜索引擎可以形成良好的互补。
基于对象的领域搜索是微软亚洲研究院在2005年的万维网大会(World Wide Web Conference 2005)上提出的新理念。这一理念融合了数据库和信息检索这两个领域的主要技术,认为当一个搜索引擎只集中于处理一个特定领域的Web页面的话,应该能够提供比基于页面的搜索更好的服务,可以有相对自动化的方法从Web页面中获得这个特定领域所关心的对象,提供对象一级的搜索。
本文将对基于对象的领域搜索引擎的数据仓库型的解决方案进行讨论,对几大核心技术进行分析,包括对象的抽取,对象的集成,对象的搜索,以及领域搜索引擎的聚焦爬虫。同时,本文通过对两个领域的数据集的实验,旅游和学术搜索,来研究一些新技术的可行性,包括对象的识别,对象的搜索,以及领域搜索的聚焦爬虫。
本文的主要创新工作在于以下几方面:
1. 首先,在分析了现有主题爬虫由于缺少增量学习能力而影响系统性能的基础上,本文提出了基于增量学习的主题爬虫系统,使页面分类器和超链接评价器具有增强学习能力,改进了现有的主题爬虫的体系结构,使主题爬虫在爬行过程中能够在线的学习,具有更强的自适应性,快速优化爬行策略;
2. 对象识别是提供高质量的Web对象的基础,因此对象识别的准确率对于基于对象的领域搜索至关重要。现有的方法主要集中在利用对象的属性信息来解决对象识别的问题,本文对一种新的对象识别的方法进行了研究,即利用本地数据集上的实体关系的连通性来解决对象识别。此外,本文还提出了利用无结构化的Web文档集来辅助本地数据集的对象识别,并通过再DBLP的实验中看到了准确率有较大的提高;
3. 基于对象的检索比一般的网页检索提出了更高的检索精度要求,因此有必要提出高质量的Web检索算法。与网页中的一般文本不同,锚文本是一种较为客观的文本,对锚文本相似性的研究与同样的超链接分析算法同样具有较高的研究价值。本文提出了基于源站点质量的锚文本文本相似性算法,惩罚了劣质站点的锚文本在检索中的作用,解决了各站点锚文本层次不齐的状况。