论文部分内容阅读
协同标注系统(folksonomy)是Web2.0网站中由相互关联的用户、资源和标签组成的注释结果的一个集合,其重要基础是:一个用户可以自定义多个用户标签来描述网络资源。通常的社会化标签系统中标签是用户标注的结果,也有一些网站提供抽取标签的自动推荐功能(本文定义为机器生成标签)。当前的标签生成研究对其内容与社会化属性的结合研究仍不够深入。标签的个性化和模糊化特征使得社会化标签系统中存在大量无用、冗余以及语义不明确的标签。同时,标签在Web文本的聚类方面的应用多为单语言Web文本聚类且只把标签作为聚类的补充。针对以上问题,本文以多语言的社会化标签聚类及可视化为研究目标,从社会化标签提取、聚类与可视化以及社会化标签在文本聚类中的应用等几个方面进行了研究。具体研究内容包括如下三个方面:首先,在社会化标签属性的研究中,本文将标签分为两类,用户标注标签和机器抽取标签,并分别对结合内容属性与社会化属性的两类标签的聚类结果进行分析与讨论。实验结果表明内容与用户特征的结合能够在用户分类的情况下能够提高标签聚类结果,满足对用户的个性化标签聚类结果的需要。’其次,在多语言标签聚类与可视化研究中,本文采用更全面的标签特征抽取方法,即通过内容与社会化属性的结合来提高抽取标签的质量,结合用户标注标签,优化最终的标签聚类效果,并对网络资源进行多语言标签映射,并实现其可视化。实验结果表明对于平行语料的两种多语言标签聚类方法,单语言二次聚类结果优于混合标签的一次聚类结果。平行语料的多语言标签聚类结果优于可比语料基于双语词典映射的多语言标签聚类结果。最后,在社会化标签的应用研究中,本文针对传统文本聚类的不足,将社会化标签引入到文本聚类中。比较基于文本内容、基于用户标签及不同的加权算法的结合,分析不同语言文本聚类结果的差异,实验结果表明选用不同的特征抽取方法和不同的加权方法中的文本聚类结果表现不同。在Web文本聚类中,内容特征与社会化特征的结合能够对文本聚类起到改善作用,应重视社会化特征在Web文本聚类中的作用和意义。另外通过机器翻译和二次聚类的方法,得到多语言文本的聚类结果。通过以上三个方面的研究,本文基本实现了多语言社会化标签聚类及可视化,该研究对在多语言网站上的标签聚类及应用研究具有参考价值。