论文部分内容阅读
随着互联网技术的普及和发展,网络信息呈指数式增长。面对海量的信息,搜索引擎成为人们日常获取所需信息的重要工具。但是传统的搜索引擎将搜索结果以线性列表的方式排列,使得用户无法快速、准确地获得感兴趣的信息。因此,使用聚类算法对搜索结果进行聚类,可以帮助用户快速查找到所需信息。本文在对中文分词、特征选择、权重计算、相似度度量等文本聚类技术进行深入研究的基础上,分析了搜索结果聚类与文本聚类之间的联系。根据搜索结果聚类的特点,提出一种基于改进的K-Means算法的搜索结果聚类方法。基于划分的K-Means算法是一种被广泛应用的动态聚类算法,具有实现简单、收敛速度快等优点。但该算法存在一些不足使其无法适应搜索结果聚类,比如:人工指定聚类个数、随机生成聚类中心、对孤立点敏感、无法“软聚类”和无法生成聚类标签等。针对以上K-Means算法的不足,对其进行了改进:首先,利用基于密度的最大最小距离法发现初始聚类中心,即将密度最大的对象作为第一个初始聚类中心,再根据最大最小距离选择其余的聚类中心,然后根据文本平均相似度设置参数作为终止条件,确定聚类个数;其次,引入邻居的概念,获取初始聚类中心的邻居,根据邻居计算其所在类簇新的聚类中心,并排除初始聚类中心中的孤立点;最后,对类簇中特征词进行过滤,并在类簇的基础上使用TF-IDF方法计算特征词权重,根据权重选取类簇标签。由于TF-IDF方法在计算权重时只考虑了词频,而忽略了词性和词长对特征词权重的影响,因此,在TF-IDF方法中引入了词性因子和长度因子。最后,通过搭建Nutch搜索引擎,获得搜索结果,并利用Jsoup进行解析形成待聚类的搜索结果文本集。利用改进后的K-means聚类算法进行聚类,结果表明,改进后的K-Means算法相比于原K-Means取得了更好的聚类效果。比较增加长度因子和词性因子TF-IDF方法和原TF-IDF方法的聚类效果,结果表明,长度因子和词性因子会对聚类结果产生积极的影响。