论文部分内容阅读
随着网络科技和搜索技术的快速发展,人们生活中越来越多地通过互联网和搜索引擎来获取各种信息。搜索引擎通过网络爬虫定期地从互联网上抓取新的网页,并为网页内容建立索引数据库,以方便后续的信息检索。网络爬虫的爬行效率直接影响着搜索引擎的检索效果,爬行的规模越大,周期越短,查全率就越高。另一方面,近年来随着搜索引擎提供服务的多样性,网络成为人们获取新闻资讯的主要媒介之一,新闻热点搜索等方面的中文短文本在线聚类和语词间语义层面的聚类需求越来越多。本文主要针对搜索引擎中的网络爬虫和搜索结果的短文本聚类进行了研究。在网络爬虫方面,为了提高爬虫性能,主要是对爬虫的核心模块——页面解析模块和去重模块分别给出了相应的改进方法。(1)对于爬虫的页面解析方法,本文改变了Weblech等开源爬虫中所使用的利用HTML tag标签匹配抽取的方式,而是将半结构化的文档转化为XML,进而表示成DOM文档对象模型来抽取内容,这种方式充分利用了结构化信息容易抽取的优势,同时也方便使用很多优秀的读写XML的开源程序比如DOM4J,JDOM来改进程序的效率。(2)爬虫系统中如何高效去重是个较复杂的议题,传统的概率算法Bloom Filter在URLs去重上表现出了非常好的空间效率,但也伴随着一定的误判率,且误判率会随着爬行规模的增大而提高。本文提出一种基于Bloom Filter的分段哈希算法对爬虫的URLs去重模块进行了改进,在减小误判率的基础上提高爬虫性能。通过对上述页面解析和URLs去重改进方法的实现,本文改进的爬虫相比原有的Weblech系统和开源爬虫Larbin而言不仅能解析出更多的有效链接,而且有效的提高了爬虫的性能。在搜索结果的短文本聚类方面,由于已有的文本在线聚类算法当处理中文短文本时,聚类特性没有得到最理想的发挥,同时为了满足语词间语义或者概念层面的聚类,本文提出一种中文短文本在线聚类算法,并分别给出改进的编辑距离来进行中文短文本的相似性度量,以及利用搜索引擎的检索结果来进行语词间的语义相似性度量。在抽取的热点搜索词数据集上将本文给出的方法与开源Carrot2框架中的搜索结果聚类算法Lingo进行了对比分析,结果表明本文聚类算法的评价指标F-Measure值高于Lingo算法,验证了本文方法的有效性。上述研究已应用于国家863项目“结合语义的视频服务网站自动发现与分析评估”中,较好地解决了项目中爬虫和热点新闻搜索聚类的问题。