论文部分内容阅读
社会标注系统的快速发展为互联网信息组织提供了新的方式。它延续了Web2.0以用户为中心的特点,充分利用用户知识来进行数据维护和管理。目前,越来越多的系统提供了对社会标注的支持。无论从支持的形式的多样性,还是从提供的功能的强健性上来说,社会标注系统的不断完善为广大互联网用户提供了更为方便的信息组织、分享以及查询环境。在社会标注系统中,用户可以不受约束的通过标签来对自己关注的资源进行标注。标签是社会标注中最为突出的特色,它不但显式地对资源内容进行语义描述,还隐式地反映着用户的兴趣偏好。其自由使用的特点让用户以没有任何限制的方式来对自己感兴趣的内容进行管理,因此无论什么背景的用户都可以参与到大众分类法的构建当中。然而,如同一把双刃剑,标签的自由性也为社会标注分析带来了很大的困难。首先,标签的歧义性问题严重阻碍了系统中推荐、分类、检索等功能的准确性。再次,数据空间过大的问题为进行快速、精准数据分析带来了很大的障碍。通常而言,标签在社会标注系统中以单词或词组的形式独立存在,但是不同的标签会共同标注相同资源或被不同用户同时使用,这样就提供一种发现标签之间间接关联的方式。因此,本文就从这些关系入手进行分析来解决社会标注分析过程中由标签所引起的一些难题。本文首先对社会标注系统中的基本概念进行介绍,讲解当前系统建模方式、系统应用特点以及社会标注分析过程中的一些难题等。然后,针对存在的问题提出基于连接分析和聚类的两类算法。在基于连接分析算法中,本文对用户以及标注行为进行打分,以寻求系统中权威用户和权威标注行为;在聚类算法中,本文首先对基于主题建模方案进行阐述,然后针对社会标注系统的特点提出基于潜在主题的标签聚类方式。在文章后半部分,通过在实际数据集Delicious和Movielens上进行了大量的实验分析,证实了问题提出的两个算法的合理性和有效性。