P2P网络中基于查询的聚类的研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:rztest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,搜索引擎成为人们在网络中频繁使用的工具。然而,随着网络中信息的急剧增加,传统集中式搜索引擎已经越来越不能满足人们高速增长的搜索需求。如何在现有的网络中提供高效率、高质量的搜索服务成为研究的热点问题。P2P搜索在P2P技术广泛应用的背景下应运而生。结构化P2P网络以其高效路由性能,在应用于搜索时能提供快速的响应时间,适合作为P2P搜索的网络拓扑。但是,在基于DHT的P2P网络中,内容相似的文档,其数据标识通过一致性哈希散列,均匀随机分布在节点空间中,不利于复杂查询的进行。为了实现高效的复杂查询,一种解决方案是实现文档的聚类。目前,常见的文本聚类都是基于文档内容的,通常需要获得全局的文档信息。这种聚类方式应用于P2P环境有一定的困难,而且形成的簇是不确定的,也无法体现用户的查询需求,缺乏灵活性。本文提出QBC算法,利用历史查询向量集作为聚类依据,在结构化P2P网络中实现了基于查询的文档聚类。QBC算法由拉模式和推模式组成,拉模式以历史查询向量集为依据,以主动的方式向网络中的其它节点发送请求拉取文档数据以形成节点上的文档聚类,推模式采用向量空间模型描述节点文档集,对于不利于基于查询聚类的文档进行再次分发,推送到合理的节点上,实现远端节点上的文档聚类。为了验证算法的有效性,本文进行了多关键词查询仿真,在查询过程中访问节点的数目、查询结果中文档数目以及网络消息数目几个方面对倒排表求交集方法和QBC算法进行对比。实验结果表明,QBC算法以较小的查全率下降为代价,减少了在多关键词查询的过程中访问节点的数目,进而缩短了查询响应时间,并减少了网络消息流量。
其他文献
本文基于IMT-Advanced收发系统,设计并实现了提供数字预失真功能的硬件平台。该平台可以实现传输信号的线性放大,从而提高信号的传输质量,降低误码。文章首先对IMT-Advanced
IVVR(Interactive Voice and Video Response,交互式语音及视频应答)是目前新兴的多媒体增值业务,其前身为传统的IVR (Interactive Voice Response)。IVR以统一的应答形式,为
在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理各种杂乱的信息,有监督的分类方法被用于大规
新闻网站本质上是为用户提供一种新闻信息化服务。面对不同的新闻,用户所表现出的关注程度是不同的。如何发现用户真实的兴趣,并根据用户兴趣向用户推荐新闻,把用户从海量的
虚拟现实技术是一项综合性高新信息技术,它融合了多种信息技术的最新发展成果,为人们创建和体验虚拟世界提供了强有力的支持,并广泛应用到各个领域,如景区景点宣传、商品与文
随着互联网技术的飞速发展,移动终端市场也在蓬勃发展,一些新兴的移动终端操作系统迅速崛起,而Android操作系统由于其开放、开源性,短短几年成为了占有最大市场份额的移动终
无线传感器网络(WSNs)是集感知、数据处理以及无线通信与一身的网络,一般用于在恶劣环境中采集信息,采集到的信息通过无线多跳的形式从源节点发往汇聚节点(sink)节点。sink作
进入新世纪,网络教育已经深入人心,得到越来越多学习者的认可。网络教学系统的开发已成为研究的热点。尽管网络教学系统的研究取得了一系列成果,但也存在一些问题。如网络教学和
随着3G时代的到来,人们希望彩铃业务能够演变成为一个更有“看头”的业务。多媒体彩铃(Multimedia Ring Back Tone, MRBT)业务作为对2G话音彩铃(Color Ring Back Tone, CRBT)
在企业和政府办公过程中,冗长而烦琐的日常事务处理和复杂的纸质文档传递过程,成为影响企业和政府办公效率的瓶颈。工作流技术所提出的协同化办公和流程化任务处理等,在增强