论文部分内容阅读
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作者间交互更加频繁,为用户在互联网上发布信息和进行交互提供了方便。 随着Blog的迅速发展,信息量的膨胀和信息源的无限增加也给互联网用户查找自己所关心的信息带来了不便。另一方面,Blog作者通过阅读或评论等行为与其他Blog撰写者进行交流,从而形成很多潜在的社区,如何发现这些社区并分析社区成员之间的关系已成为一个亟待解决的社会学问题。 本文对基于Blog链接的社区发现方法进行了研究,目标是发现潜在的社区和分析社区内的主题社区结构,为信息检索和社会性网络分析提供方便。由于对Blog之间的关系是从社会学角度分析,因此发现的潜在的社区包含多个主题社区,每一个主题社区内成员间讨论相似的主题。 本文在对Blog特点进行深入的研究之后,发现Blog链接具有丰富的语义,Blog作者之间通过这些链接形成很多潜在的社区,本文称这种潜在的社区为双向意识社区。为了发现和分析双向意识社区,本文先提出了一个基于链接的Blog关系计算模型,该模型从社会学角度定义Blog间的关系,并计算Blog关系强度。然后采用一个基于Blog排序的聚类算法,该算法通过迭代的计算Blog与种子Blog之间的关联系数,能够发现以种子Blog为中心的双向意识社区。 Blog作者兴趣爱好的多样性,使得双向意识社区内形成多个不同的主题社区,其中每一个主题社区内讨论相似的主题。因此,本文在发现双向意识社区的基础上,提出了一个计算Blog间的主题相似性的模型,并基于该模型,提出了一个抽取双向意识社区的主题社区的算法。通过考虑Blog社区的层次结构,该算法在对主题社区进行识别的同时,也实现了对社区的分层,形成社区的层次结果。 基于以上的研究成果,本文设计并实现了一个Blog社区发现的实验原型系统,包括了数据解析、关系计算、社区发现等模块,为进行相关的算法实验和研究提供了一个基础平台。