搜索结果的聚类研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:uuuuurzm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的普及和发展,网络信息呈指数式增长。面对海量的信息,搜索引擎成为人们日常获取所需信息的重要工具。但是传统的搜索引擎将搜索结果以线性列表的方式排列,使得用户无法快速、准确地获得感兴趣的信息。因此,使用聚类算法对搜索结果进行聚类,可以帮助用户快速查找到所需信息。本文在对中文分词、特征选择、权重计算、相似度度量等文本聚类技术进行深入研究的基础上,分析了搜索结果聚类与文本聚类之间的联系。根据搜索结果聚类的特点,提出一种基于改进的K-Means算法的搜索结果聚类方法。基于划分的K-Means算法是一种被广泛应用的动态聚类算法,具有实现简单、收敛速度快等优点。但该算法存在一些不足使其无法适应搜索结果聚类,比如:人工指定聚类个数、随机生成聚类中心、对孤立点敏感、无法“软聚类”和无法生成聚类标签等。针对以上K-Means算法的不足,对其进行了改进:首先,利用基于密度的最大最小距离法发现初始聚类中心,即将密度最大的对象作为第一个初始聚类中心,再根据最大最小距离选择其余的聚类中心,然后根据文本平均相似度设置参数作为终止条件,确定聚类个数;其次,引入邻居的概念,获取初始聚类中心的邻居,根据邻居计算其所在类簇新的聚类中心,并排除初始聚类中心中的孤立点;最后,对类簇中特征词进行过滤,并在类簇的基础上使用TF-IDF方法计算特征词权重,根据权重选取类簇标签。由于TF-IDF方法在计算权重时只考虑了词频,而忽略了词性和词长对特征词权重的影响,因此,在TF-IDF方法中引入了词性因子和长度因子。最后,通过搭建Nutch搜索引擎,获得搜索结果,并利用Jsoup进行解析形成待聚类的搜索结果文本集。利用改进后的K-means聚类算法进行聚类,结果表明,改进后的K-Means算法相比于原K-Means取得了更好的聚类效果。比较增加长度因子和词性因子TF-IDF方法和原TF-IDF方法的聚类效果,结果表明,长度因子和词性因子会对聚类结果产生积极的影响。
其他文献
目的探讨童年期受虐对护生人格的影响,为塑造护生个性提供依据。方法采用艾森克人格问卷(EPQ)、童年期创伤问卷(CTQ)对306名中专护生进行调查。结果成长于城市的护生内外向得分高,
为了完善和发展海商法,有必要对现行海商法从战略的高度进行全面剖析,找出其存在缺陷和不足,从而找寻可行之策。本文从法律思维的角度指出海商法中存在着英美法律思维和民法思维
铂族元素(PGE)因其贵重稀少和在分布上的极不均匀性(如仅南非就占了全球已探明储量的81%,俄罗斯占17%,美国、加拿大等国约占2%),以及在航空航天、汽车、电子、制药、珠宝等领域需求
<正>1890年,举世闻名的科学家爱迪生建立了一个旨在发展新兴工业的多种经营集团,其业务范围从照明装置到航空航天设备。1892年,爱迪生的这个经营集团与汤姆森·休斯敦公司合
草地螟是昆仑山区草场主要害虫之一。2011年4~8月,在新疆和田地区采取灯光诱杀和随机取样方法对草地螟分布进行调查。调查结果表明,海拔1984m草场草地螟成虫数量最多,依次为海
借用计算机硬盘格式化管理的概念,提出了对仓储行业实行格式化管理的思路。首先介绍了物联网技术与格式化管理的思路,随后从储位选择和配货角度介绍了物联网技术应用于仓储业
做好树种选择是切实提高森林生产率的主要途径之一,也是关系造林成败的基础环节,更是改善森林环境建设美丽中国的重要措施之一。该文对树种选择的基本原则进行了有针对性地探
介绍了苦皮藤素杀虫活性成分的作用方式及机理,重点对非靶标有益生物的安全性进行评价,指出了在国际上积极推行有机农业的背景下,作为新型植物源农药的苦皮藤素所具有的广阔
由于生物圈中超过80%的地方温度低于5℃,因而在生态学上低温环境比高温环境的影响范围更广。包括嗜冷菌和耐冷菌在内的低温微生物广泛分布于自然界中,目前所有研究过的低温自然
<正>编辑同志:我患有痔疮好几年了,但一直拖着没去治疗。现在我每次大便时,就会有痔核脱出,约有核桃大小,排便后要用手塞回,偶尔会有大便时带血,其他方面基本正常。请问,这种
期刊