论文部分内容阅读
随着因特网技术的飞速发展和搜索引擎技术的日趋成熟,人们逐渐开始频繁利用网络来获取所需的资源,而现有的搜索引擎返回的查询结果数量庞大且呈线性排列,用户很难在较短的时间内找到有用的信息,因此如何能够快捷、准确地发现信息则成为目前信息检索领域亟待解决的问题。文本聚类具有较强的灵活性和自动处理能力,已经逐渐成为对搜索引擎进行有效地组织和导航的重要手段。本文就文本聚类算法进行了深入的研究,采用Lingo聚类算法作为主要框架,探索和研究文本聚类在搜索引擎领域内的应用,主要研究工作如下:文本预处理的许多关键技术直接影响聚类的效果,因此本文对文本聚类预处理中涉及的关键技术做了深入的研究,在此基础上设计和实现了包含网页去噪、词干提取、停止词过滤等功能的预处理子系统。TF-IDF(Term Frequency Inverse-Document Frequency)是向量空间模型中最常用的权重计算方法,它可以有效地强化在文档中出现的高频词汇的权重,弱化在文档集合中出现频率较高但是包含文档信息量少的常用词的权重。但是,事实上词对文档的重要程度还与词的词性以及词在文档中的位置因素有关,因此本文在传统的TF-IDF的基础上加入词性权重与位置权重对其进行修正,实验证明改进后的TF-IDF可以更加准确的描述词对文档的重要程度,有效地提高了聚类算法的查准率和查全率,使算法的整体性能有了较大的提高。本文对Lingo聚类算法做了深入的研究和分析,通过对比实验证明它比目前流行的后缀树算法(STC)聚类的性能更优,提取出的类标签更能反映类别信息,易于理解。但是它产生的聚类没有层次性,不能很好的反映类别之间的包含关系。因此本文在Lingo的基础上引入HSTC(层次的后缀树聚类算法)中层次组织的方法对Lingo的聚类结果进行层次组织。实验证明改进后的层次的Lingo聚类算法(HLingo)能够较好的表现类别之间的层次关系,提取出的类标签也能充分的反应类别信息,克服了类合并时出现的类标签提取过长的问题,而且通过引入双阈值来调整包含关系,有效地克服了HSTC中类合并频繁的问题。无论是在测试集数据比较单一还是比较复杂的情况下都能获得较好的聚类效果,比HSTC具有更好稳定性。通常情况下对词进行词性标注时必须要考虑词的上下文环境,因此如果将词性标注技术引入搜索引擎结果聚类系统则意味着对搜索搜索引擎返回的结果必须在线进行标注,但由于词性标注算法的实现往往比较复杂,算法的时间复杂度较高,这对搜索引擎结果聚类系统的运行效率影响很大。本文对词性标注技术做了较为深入的研究,考虑到将词性标注引入聚类系统带来的巨大的系统开销,设计和实现了一个基于XML的词性词典,只有第一次被检索到的文档才进行词性标注并更新词典,否则直接在词典中查询即可得到词的词性信息,通过这种方式有效地避免了对相同文档地重复标注,从而减少了系统不必要的开销。最后结合以上几个方面的研究,设计和实现了一个聚类系统HappyDonkey,并将开源的搜索引擎Nutch集成到本系统中,实现了一个既可以对Yahoo搜索引擎返回的结果进行聚类,又可以就本系统的查询结果进行聚类,对外开放查询接口的多功能的聚类系统。实验证明,本文所研究的内容,有利于聚类算法性能的改进,达到了一定的预期效果。