Web文档聚类在搜索引擎中的应用研究

来源 :江苏大学 | 被引量 : 4次 | 上传用户:js_wjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上数据量爆炸式的增长,搜索引擎技术得到广泛的研究,并且出现了一批非常优秀的搜索引擎。但是,现有的搜索引擎只是将返回结果简单地进行线性排列,用户想要的信息可能被淹没在庞大的返回结果列表中,给用户带来极大的不便。本文致力于将搜索引擎返回结果进行聚类,把搜索引擎返回的结果组织成具有层次的类结构,同一类中的文档之间的相似度尽可能的大,不同类中的文档之间的相似度尽可能的小,并给每个类赋予一个具有良好描述性的标签,从而便于用户浏览,缩短用户查找自己所需信息的时间。通过对当前主流聚类算法的研究,设计了一种基于STC算法的改进算法STC-I。STC-I算法的提出是因为STC算法有两个缺点——特征空间维数过高和未考虑查询关键字与文档的相关度。针对STC的这两个缺点,STC-I算法通过剔除同义词、近义词来给文档降维,从而降低算法的时间复杂度。计算文档对于查询的相关度,不让与查询相关度较低的文档参与聚类,从而提高聚类的准确率。实验数据表明改进后的算法在时间复杂度和聚类的准确性方面较原算法有较大的改善。考虑到日常生活中人们将文档分类的主要参考因素是文档的主题,设计了一种基于主题的聚类方法——HTBC。HTBC首先根据文档的标题和正文提取文档的主题词向量,然后通过训练文本集生成词类,将每个主题词向量归类到其应属的词类,将同属于一个词类的主题词向量对应的文档归并到用对应词类的名字代表的类,从而达到聚类的目的。HTBC共分四个步骤:预处理、建立主题向量、生成词类和主题聚类。实验表明HTBC在准确率和召回率方面较K-Means、AHC、STC这几个常用聚类算法要好。最后,在上述研究的基础上设计了一个带聚类模块的搜索引擎系统,该系统主要包括搜集器、索引器、检索器和聚类模块四个部分,聚类模块采用了HTBC算法。通过分析系统运行情况,证明了该系统设计的合理性。
其他文献
受众,是对于大众传播中接收者的统称,一般是指通过大众传播媒介接受信息的人,包括报刊读者、广播听众、电视观众以及互联网的网民。由于受众是传播活动的目的地,人们不断地改
适于仿真需要的CT图像中牙列轮廓的快速提取,是基于CT图像的成像特点,对于成像后相邻组织间丢失的轮廓,采用相对自动的办法将其生成。本文采用Amira医学图像三维建模软件,综
TTCN-3语言编译器实现的复杂性,使手工构造的测试用例集无法对编译器质量加以有力保证。引入测试用例自动生成,成了一种必然选择。通过总结手工测试经验,结合编译器构造、程
近年来,伴随着社会经济的发展,道路交通也迅速发展,从而造成交通环境相对复杂。为解决道路交通迅速发展所带来的各种问题,智能交通系统的研究被提到了重要位置,利用计算机视
伴随着云计算的迅速发展,云存储服务也应运而生。云存储大大提升了存储资源的利用率,降低存储成本。无论传统的单机存储还是当前的云存储,只要有数据的地方就有数据安全问题。“
随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础
随着计算机与互联网的日益普及与应用,在10年左右的时间里互联网上至少产生了50亿的网页,浩如烟海的互联网信息极大地促进了搜索引擎技术的蓬勃发展,诞生了我们所熟知的Google、
弹性分组环(Resilient Packet Ring)做为一种新兴的城域网传输技术,和MPLS并称为城域网传输技术的两个奇葩,实现了城域网、大型专网建设的一个技术上的革新,为用户提供高质量
计算机视觉和机器智能的一个主要目标就是对形状进行灵活有效的描述。一个表示形状结构的重要方法,就是对物体的骨架化。骨架化是包含物体拓扑结构特征的压缩表示,它在形状匹
Peer to Peer即对等计算或对等网络,通常简称P2P,可以简单地定义成通过直接交换来共享计算机资源和服务。通常这些资源和服务包括:信息的共享与交换、计算资源、存储资源等。