论文部分内容阅读
对等网络应用在当今的互联网应用中,呈不断上升的趋势。尽管很多人在使用对等网络应用,但在对等网络中进行文本搜索却一直是一件非常困难的事情。其中主要的原因是在对网络中很难获取全局的统计信息。本文尝试通过在对等网络中构建用户社区的方法来获得近似全局统计信息的局部信息,再利用这些局部信息来进行文本搜索,从而提高搜索的效率。首先,本文提出了一种能够有效描述节点兴趣的元数据,它具有能准确刻画用户的兴趣、能被动态更新、能在在节点本地被隐式生成和更新等特点。我们借鉴语言模型在信息检索领域中的经验,提出以主题模型来构建描述节点兴趣的原数据,然后利用模糊集理论来计算节点兴趣的相似度。实验表明该元数据具有占用空间小(适合在对等网络中传输)、描述精度高等特点。在非结构化对等网络中,本文提出了一种有效的社区构建机制。该机制使用基于主题模型的节点兴趣描述元数据,利用网络的空闲带宽不断的交换节点的描述元数据、社区的描述元数据等用于形成社区的信息,从而形成显式的社区。相对于Khambatti等人基于Small World特性提出的显式社区模型,该方法更适合于具有Power Law性质的Internet。本文还分析了在结构化对等网络中构建社区会遇到的负载不均衡问题,并解决了这个问题。不论从单纯构建社区的角度,还是从提高文本搜索效率的角度,由于文本数据本身非均匀分布的特点和一些索引机制需要将类似的对象存放在相近节点上的原因,在结构化的对等网络中存在严重的节点负载不均衡的现象。针对这种情况,我们专门分析了如何在结构化对等系统中均衡负载的问题,并在此基础上提出了一种能够自动调整节点负载的系统——杜鹃环。相对于传统的基于分布式哈希的对等系统而言,杜鹃环首先采用位置敏感哈希作为哈希函数,另外它采用了将高负荷区域的负载到低负荷区域的做法,使得整个系统中的节点负载趋于均匀。最后,本文介绍了实验平台——GRASPS,一个通用的对等网络模拟器。由于对等网络应用的特殊性,我们不可能发动大规模的用户来使用一个特别开发的实验程序来测试各种算法的性能。因此需要一个通用的对等网络模拟器来模拟对等网络节点的行为。考虑到这些算法在对等网络底层结构、节点行为、节点资源分布等方面的差异,以及节点本身上下线、资源共享和分布等行为的区别,该对等网络模拟器必须是一个相对较通用的,同时又是非常高效的。我们通过将整个对等系统分为五层来模拟各个方面的细节,分别是:网络层、协议层、安全层、应用层和节点层。并加上一些提效技术来帮助高效管理各个节点的模拟事件。相对于传统的模拟器来说,该模拟器具有占用资源更小、可模拟系统规模更大等优点。