搜索引擎检索结果聚类系统的研究与实现

被引量 : 4次 | 上传用户:xiao040223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和搜索引擎技术的飞速发展和日趋成熟,人们逐渐频繁使用因特网来获取需要的资源,尽管现有的搜索引擎采取各种方法来提高检索结果的精度,但其中的相关文档和不相关文档鱼目混杂,给用户查找信息带来了负担。将搜索引擎检索返回的结果进行聚类操作,将其分成若干个类,同一类内的文档相关度尽可能的大,不同类之间的文档相关度尽可能的小,这种方法将大大缩小用户需要浏览返回结果的网页数量,从而缩短了用户查询所需要的时间。本文就文本特征提取、特征加权和文本聚类算法进行了深入的研究,采用TF-IDF算法作为特征提取和加权的算法,STC聚类算法作为聚类算法,主要研究内容如下:1)作者对文本聚类预处理的关键技术做了深入的研究,在此基础上设计和实现了包含搜索结果获取、网页去噪、分词、去停止词、标记词性等功能的预处理模块;2)TF-IDF是向量空间模型中最常用的权重加权算法,但是,词对文档的重要度还与词在文档中的位置以及词性等因素有关。本文在传统的TF-IDF基础上加入了位置权重和词性权重对其进行修正,并进行实验对比,实验证明改进后的TF-IDF有效地提高了聚类算法的宏平均和微平均,从而使系统的性能有了很大的提高;3)本文对STC算法做了深入的研究和分析,通过对比实验证明它比目前流行的Lingo算法和K-means算法更适合作为搜索引擎检索返回结果的聚类,STC算法提取出的标签更能反映类别信息,易于理解,聚类的时间复杂度也可以让用户接受。
其他文献
在前人研究的成果基础上,简要介绍了苹果多酚的含量分布、影响含量的因素及分子结构和生物合成途径,总结了苹果在加工过程中发生的褐变及抗氧化剂和多酚的关系,重点描述了苹
研究背景:原发性肝癌(Primary liver cancer, PLC)是指原发于肝细胞或肝内胆管上皮细胞的恶性肿瘤,是临床常见的恶性肿瘤之一。绝大多数肝癌患者因肿瘤较大或肝硬化而失去手术
随着我围网球运动的不断发展与进步,对青少年网球运动员的培养变得越来越重要。本研究试图以我国青少年女子网球的培养现状为基础,采用文献资料法、专家访谈法、问卷调查法、数
<正>为开拓视野, 借鉴省外先进、成功的教学经验,促进中青年教师成长,推动厦门市教育改革向前发展,经市教委同意,中教室英语科于10月16日至22日组织学员到上海、南京考察学习
<正>2014年7月底,阿姆河天然气公司建设的土库曼斯坦巴格德雷合同区域B区第二天然气处理厂及杨恰别皮气田内部集输项目(简称土库曼斯坦巴格德雷合同区域B区地面工程)投产工作
随着现代功能高分子研究的发展,手性功能高分子的研究成为了现代科学中重要性日益突出,已经广泛应用于材料科学、生物化学、医疗等诸多方面。本文以五种L-型与一种D-型手性氨
文章介绍了全寿命周期成本(LCC)管理的概念,发展状况以及应用情况,并提出了节能窗户全寿命周期费用的涵义。详细分析了节能窗户考虑全寿命周期费用的必要性,全寿命周期费用的构成,
<正>语文是学习和工作的基础工具,是学习其他各门学科的基础,对学生今后各方面的学习和发展都有举足轻重的地位。在新课程改革的大潮之下,我们都积极提倡学生主动参与、自主
复方四黄栓系广东省中医院肛肠科首位科主任钟绮霞主任在20世纪50年代初期将钟氏家传秘方无偿献给医院,成为广东省中医院的专科制剂。该制剂外用消肿止痛、活血化瘀、收敛生
消费主义是指一种以追求和崇尚过度的物质占有或将消费作为美好生活和人生最高目的的消费观与价值观以及在这种价值观支配下的生活方式与行为实践。改革开放以来,消费主义在