论文部分内容阅读
近年来,作为互联网上用户生成内容(User Generated Content)的形式之一,协同标签系统(Collaborative Tagging Systems)也越来越流行。随着标签系统的发展,在该应用背景下的用户标注专家度建模问题也显得格外重要。如果可以提供标注专家度建模算法,那么标签系统可以将那些标签缺失或者含有低质量标签的对象推送给相应的专家用户,让这些专家用户帮忙提供更多更高质量的标签,从而改进其他基于标签数据的应用(如对象资源的检索等)。此外,在标注专家度建模算法的支持下,标签系统可以为用户提供“专家用户检索”的功能,用户可以查询并关注他所关心的特定话题下的专家用户,从而增强用户体验。
标签系统中存在着丰富的结构信息,如用户、对象和标签三种实体间的相互关联以及同一种实体内部的关联关系。这些结构信息中隐含着丰富的专家度信息,可以用于解决标签系统中的专家度建模问题。首先,从每个标注行为来看,如果用户能够独立提供高质量的标签,那么可以认为该用户的标注专家度较高;其次,用户的专家度是互相关联的,例如用户在相似话题上的专家度是相近的。基于这些专家度信息,本文提出一种全新的协同标签系统中的专家度建模方法--Expertise Propagation算法。具体来说,首先利用“观察专家度模型”来提取每个标注行为上可“直接观察”到的用户专家度;其次,提出基于图规则化的“散播专家度模型”,利用用户、对象和标签等同种实体的内部联系以及从标注行为上观察获取的用户专家度,建立专家度图,构建优化模型,对优化模型求解,使得最终获取的用户专家度符合整个标签系统的结构特征。
本文通过在一个实际的标签系统Delicious上的实验证明,本文提出的专家度建模方法同已有的标签系统下的专家度建模方法相比,可以更准确地发现标注专家,而且该专家度建模方法对于垃圾用户具有更强的抵抗性。