论文部分内容阅读
随着互联网Web数据的爆炸式增长,各种专业领域的Web数据搜索与挖掘成为一个新兴的热点研究问题,比如对于金融数据的搜索挖掘、学术搜索、军事信息的搜索、体育信息的搜索等等。传统的通用搜索引擎对于专业领域数据的搜索和挖掘存在定位不准确、检索结果表现形式单一、排序不合理等问题,而垂直搜索作为一种新型的搜索引擎系统,在各种垂直专业领域里的数据搜索和挖掘正在发挥越来越大的作用,也越来越受到人们的重视。垂直搜索引擎面向的是Web专业领域数据,根据不同的专业或主题从海量的Web页面中找到领域数据是垂直搜索引擎要解决的首要问题。这些Web页面大部分是来自“深层Web”的动态页面,数据是半结构化或者非结构化的,基于主题进行结构化地整合获取的数据也是热点的研究课题。此外高效地组织垂直搜索引擎的架构,提高数据获取以及用户查询访问的效率,并以多种方式可视化的展示用户查询结果,优化查询结果的排序,都是垂直搜索引擎需要研究的重要问题。本文针对垂直搜索引擎的数据获取、数据整合、架构优化以及功能强化,设计了一个新型的基于主题的数据采集和数据整合的模型,提出了一个高效的垂直搜索引擎的架构,实现了一个新颖的垂直搜索原型系统。本文主要贡献如下:1、设计了一个新型的基于主题的Web数据采集模型。与通用搜索引擎不同,垂直搜索引擎只对特定领域的Web数据感兴趣,基于主题的Web采集可以通过预先定义一个主题集(用一些关键词或URL集来代表特定的主题),然后选择性地采集那些与某一特定主题相关的页面,基于页面主题、锚文本和URL链接,本文提出一个新型的URL主题预测算法,可以有效地减少Web Crawler的工作负荷,精确定位获取与主题相关的Web页面,并由此设计了一个完整的Web数据采集模型。2、设计了一个新型的“深层Web”数据结构化整合的模型。“深层Web”的数据来源基本上都是结构化和模式化的数据库,但是从搜索引擎WebCrawler的角度而言,获取“深层Web”的数据是相对复杂的,而且获取到的HTML数据已经丧失了原有的结构和模式信息,成为半结构化或者非结构化的数据。本文提出了一个新型的基于文档对象模型DOM树和爬虫代理的“深层”Web数据获取以及整合的模型,为垂直搜索引擎提供了结构化整合的数据基础。3、提出了一个基于Hadoop的高效垂直搜索引擎的架构。垂直搜索引擎必须面向领域内海量的Web数据和大规模并发的用户查询,本文通过采取基于Hadoop的并行采集、URL列表智能分配、实现Robots Exclusion协议、DNS解析优化、增量索引等多种方法,优化了垂直搜索引擎的数据采集模块和索引机制,提高了Web数据采集的稳定性和效率,此外本文还综合采用了基于Hadoop和Memcached的高效分布式缓存机制,提高了用户对于垂直搜索引擎的查询效率。4、实现了一个新颖的垂直搜索原型系统——学术搜索引擎Dolphin。垂直搜索引擎集中了行业领域内海量的信息和数据,基于这些信息和数据的数据挖掘、智能分析以及可视化展示,将为用户提供非常有价值的信息增值服务。本文以学术搜索为例,实现了一个垂直搜索引擎的原型——学术搜索引擎Dolphin,提出并实现了一个新型的查询结果排序算法,为用户提供了定义查询、主题聚类、趋势分析、引用分析等可视化的“知识型”查询结果,有效地扩展了垂直搜索引擎的应用服务。本文通过系统化研究垂直搜索引擎的多个热点问题,提出了新型的基于主题的Web数据采集和整合的算法,优化了垂直搜索引擎的架构和具体模块,实现了一个学术搜索引擎的原型系统。提出的算法和架构不仅可以应用在本文描述的学术搜索引擎中,而且可以扩展应用在多种垂直搜索引擎中。