论文部分内容阅读
资源定位问题是P2P网络应用中存在的主要问题之一,也是当前P2P网络的研究重点。P2P网络在运行的过程中会产生大量的访问日志数据,而数据挖掘技术可以从海量的数据中挖掘出有用的知识,利用从这些日志数据中挖掘出的规则来指导 P2P网络的运行,可以提高P2P网络的资源定位效率。 本文围绕研究数据挖掘中关联规则挖掘算法的改进以及关联规则挖掘技术在对等网(Peer-to-Peer,P2P)模型Kademlia下资源定位的应用研究展开。 首先,在深入研究和分析了数据挖掘中关联规则挖掘技术的基础上,改进了两个关联规则算法,分别是基于频繁项阈值的D-Apriori算法和基于时间维度的T-Apriori算法。D-Apriori算法通过对两个频繁项集阈值的判断能够快速减少算法在进行关联规则挖掘时产生的中间候选项集的数量,降低算法复杂度,提高程序执行效率。并通过数学证明和仿真实验验证了算法的有效性。而基于时间维度的T-Apriori算法主要是用于Web日志数据挖掘,结合日志数据的特点,在原Apriori算法中加入时间属性(即网页的访问顺序),实验结果显示改进的T-Aprior算法能够有效减少数据库的扫描次数和候选集数量,尤其是在数据量越大的情况下效果越明显。 其次,对对等网(P2P)系统及其资源定位方法进行了分析,重点研究了P2P系统中 Kademlia网络模型,针对其资源定位中存在的查询速度较慢、反应时间较长问题,设计了一种基于关联规则挖掘技术的Kademlia网络资源定位方法。 最后,采用OMNeT++网络仿真工具。在Kademlia协议基础上,将改进的D-Apriori和T-Apriori关联规则挖掘算法应用到Kademlia网络中,对其节点访问日志进行挖掘,挖掘出网络中各关联节点的信息,将挖掘出来的信息用来指导 Kademlia网络资源定位,实验表明该方法可有效地减少 Kademlia网络在资源查找时的物理跳数和查询响应时间,改善Kademlia网络性能。