论文部分内容阅读
伴随着计算机软硬件和互联网技术的蓬勃发展,Web信息爆炸式地增长,人们愈来愈依靠网络搜索他们所需要的信息。但由于网络上的信息资源不计其数,网民如何在浩如烟海的知识海洋中去芜存菁、方便快捷地得到对他们更加准确、更加全面的检索结果,就成为了阻碍互联网发展的一个重要瓶颈。如果不对网页进行聚类处理,不但浪费了大量的存储资源、降低了索引的效率,而且还会增加用户检索和阅读的负担。因此网页聚类成为搜索引擎领域中的一个热点研究话题,并且广泛应用在信息检索领域和数据挖掘领域。网页的去重技术起源于复制检测技术,复制检测就是判断一个文件的内容是否是抄袭、剽窃或通过复制于另一个文件或者多个文件。而网页聚类是实现网页去重的一个重要方法。通过网页去重可以将网络中的信息进行聚类,可以将网络中的信息分成彼此间能够相互区分的类别。由于彼此间可以相互区分,所以在对海量网络信息进行检索时就可以通过检索这些彼此间相互区分的类别来解决,通过缩小检索的基数来提高检索的效率和检索结果的精度。本文主要进行的如下研究:首先本文简单介绍了搜索引擎的采集器、索引器、检索器、用户接口等关键技术的原理。通过分析开放源代码的全文检索引擎工具包LUCENE的特点、优势、研究现状、系统结构、检索机制等,将这些关键技术与LUCENE实际结合构建一个基于LUCENE的搜索引擎系统;接着,论述了网页去重的起源和网页去重的几种方法,通过对经典的K-means聚类算法的研究本文提出了一种树结构的聚类算法;然后对本文提出的树结构的网页聚类算法用Java语言实现,再对整个聚类程序进行测试、分析,通过实验数据分析本聚类算法的不足和优势;最后,将树结构的网页聚类算法嵌入到一个基于LUCENE的搜索引擎系统中,并对系统中的关键模块进行测试以确保系统的健壮性。通过已得到的实验数据可以证明本文提出的聚类算法和本文构建的搜索引擎系统已经达到预期的目标。