论文部分内容阅读
随着P2P网络应用技术的发展,P2P网络中存储的数据量剧增,文件种类从简单文本增加了音频、视频、图像文件等多种类型。传统的搜索方法已经不能满足P2P网络中信息搜索的要求,基于模糊匹配的相似搜索方法成为P2P网络中的重要研究方向。论文对P2P网络中相似搜索技术及其应用进行深入研究。论文的贡献主要表现在以下几个方面:(1)基于锚点的度量空间相似数据索引结构MCAN适用于管理距离分布均匀的数据对象,但其在搜索过程中由于搜索区域过大导致搜索效率低下。针对这一问题,论文提出基于分层索引的P2P相似数据索引结构MCAN*。MCAN*基于Voronoi子空间划分技术直接对度量空间进行划分:在度量空间和欧式空间中分别选择邻近节点建立双层拓扑连接:进而通过路由表和局部索引树相互配合实现快速路由。实验结果表明,针对相同的搜索条件,MCAN*在不影响搜索命中率的前提下,执行范围搜索和K近邻搜索时所需系统资源分别为MCAN的77.0%和50.5%,MCAN*所消耗的系统资源明显减少。(2) MCAN*不适用于管理数据距离分布较为集中的数据类型,针对这一问题,论文提出基于动态聚类的P2P网络相似数据索引结构M-KAD。M-KAD使用度量空间对象作为节点标识、按照度量空间性质组织系统拓扑结构,在P2P节点数为2400的测试环境中,其路由成功率可达到99.7%;使用数据插入驱动节点进行Voronoi子空间划分,在节点插入与数据插入完全异步的前提下,节点负载标准差可控制在50左右(负载均值为180);使用启发式算法实现范围搜索和K近邻搜索,两种搜索算法命中率可达99.2%和99.3%;采用并行路由寻址策略,配合K桶优化算法,可以在遭受DoS攻击,每分钟2%节点掉线的恶劣环境中及时修复系统拓扑,维持路由成功率在85%以上。在与M-Chord的对比实验中,M-KAD执行K近邻搜索和范围搜索所需的系统资源平均值比M-Chord降低15%左右。M-KAD突破了传统相似搜索算法受所选数据对象分布影响的限制,实现了数据无关性,在保持搜索命中率基本不变的前提下,明显降低了K近邻搜索和范围搜索执行所消耗的系统资源。(3)论文对相似搜索技术应用前景进行研究。针对流媒体网络拓扑结构优化问题,论文提出一种基于M-KAD相似数据索引技术的邻居节点推荐方法。实验结果表明,本方法可以在不影响视频质量的前提下,将节点平均延时降低为原来的58.4%。针对DHTfilter垃圾邮件过滤系统中系统性能受邮件摘要分布影响的局限性,论文将M-KAD应用于垃圾邮件过滤,对DHTfilter系统进行优化。实验结果表明,优化后的DHTfilter系统可以保持与原有系统相同的垃圾邮件召回率,并且系统性能不受邮件摘要分布影响。