论文部分内容阅读
随着Web2.0的深入发展,社会化标注系统不断普及,标签这一应用受到越来越多用户的关注与使用。标签是对资源的进行描述的词或词组。用户可以随意选择标签对资源进行标注,而不会受到已有分类体体系的限制。标签以其简单易用性被用户广泛使用。但是标签这种不受限制的使用方式也带来了相应的问题。由于对词汇和资源信息的不同理解,不同的用户不太可能使用完全一致的标签来标注相同或相似的资源。这样在标签系统中就出现了大量意思相同或相似的标签。这些标签增加了系统的冗余性,降低了标签的质量。如果不能有效地识别同义标签,会给标签系统带来许多妨碍,例如使用标签对资源进行导航、搜索时,会使很多相关的资源无法返回给用户,降低查全率;在标签推荐系统中,推荐的标签与用户的需要难以达成一致,降低推荐质量。针对上述问题,本文通过对标签同义现象的深入研究,提出异词同义标签的概念以及基于标签语义的异词同义标签识别方法。通过对标签数据的分析,详细阐述异词同义标签产生的原因以及使用特点,并根据标签与资源的紧密联系,提出利用资源语义发现标签语义方法,在此基础上对标签的异词同义进行识别。针对Web文本类的资源,使用概率潜语义分析的方法发现Web文本语义,将Web文本语义表示成文本关键词的向量,引入分类关联规则挖掘的方法来分析Web文本与标签间的关系,使用文本关键词来表示标签语义。为了识别标签的异词同义关系,定义了标签相似度的概念,以度量标签之间的相似程度,使用基于标签字面特征以及基于标签语义的两种方法进行计算,在此基础之上识别标签的异词同义关系。为了体现识别异词同义标签在社会化标记中的积极作用,文本设计并实现了基于异词同义标签的标签推荐方法。该方法依据Web文本的内容,结合异词同义标签,产生完备的、语义上与Web文本紧密联系的标签进行推荐,有利于资源描述与资源搜索。