论文部分内容阅读
随着Web2.0时代的到来,博客、论坛、维基百科等服务兴起并被广泛使用,使每个Web用户都有机会成为信息提供者。Web2.0环境里注册用户对应着现实生活中的人,其网络行为与人的社会活动存在着密切联系,如用户在博客里记录生活琐事,在论坛上评论社会新闻,在维基中撰写其擅长领域的文章等等。Web2.0服务的核心是“人”,因此对用户的个体特征进行描述,进而构建基于兴趣倾向的用户社区,必将使Web2.0上的增值业务更加精准,使用户之间的交流更加方便。
本文提出了基于文档集合的关键词提取算法BiasHITS,用得到的关键词作为用户个体特征的描述。BiasHITS将某一用户发布的全部文章看做一个有机的整体,认为其可以反映出用户在现实生活中的兴趣倾向,算法不仅考虑词本身的重要性,同时考虑了它所属文档的重要性。在计算用户相似度的过程中,为了建立同义词、近义词及语义相关词之间的联系,本文提出了基于WordNet的虚拟概念降维算法,使兴趣相似用户之间的关联更加紧密。建立了用户之间的兴趣关联之后,本文进一步提出了基于种子扩展的贪心算法挖掘用户兴趣社区,该算法降低了社区核挖掘的复杂度,同时保证了社区核内的用户兴趣高度相似,而社区核间的用户兴趣低相关。最后以雅虎博客作为实验数据,验证了本文所提算法的有效性。