论文部分内容阅读
Web2.0环境下,社会化标注系统逐渐发展为重要的资源组织与共享平台,成为Web的主流发展方向之一。由于标签的模糊和不规范易造成漏检,或因标注资源庞大,检索用户需要过滤庞大的搜寻结果,检索效率不高。因社会化标注系统中绝大多数用户的标注行为符合社会共同认识,所以存在基本的、潜在的语义结构支配标签的出现和资源语义构成,鉴于这一特点,再结合潜在语义分析这一信息检索代数模型,本文试图寻找一种一方法来自动获取标签间的语义关系,对资源赋予语义,将标签和资源以某种可计算性高、可操作性强、代表语义的形式表示和存储,来提高标签的检索效率。本文所做的工作主要体现在如下四方面:(1)在对相关文献进行综述的基础上,介绍了社会化标注发展历程,定义、系统模型、以及潜在语义分析方法,分析了社会化标注系统的3个主要要素,以及系统在标签检索方面的不足,阐述了潜在语义分析方法的数学依据,在此基础上,提出基于潜在语义分析的标签语义检索模型,讨论了该方法应用于社会化标注的适用性。(2)对社会化标注系统的标签语义标注进行研究,改进了资源模型,提出标签-资源矩阵的权重计算算法,用局部权重、标签全局权重、资源全局权重三个参数对常用的TF-IDF计算方法进行改进。用标签全局权重值来衡量标签在分辨资源时的重要程度和能力,用资源、全局权重值来描述资源对标签集所能提供的信息量,从行计算和列计算两个方面对原始标签-资源矩阵权重进行改进,使得新的矩阵更能体现社会化标注系统的整体性。(3)研究了社会化标注系统标签语义检索中的相似度计算和排序算法。首先介绍6种相似性计算算法,然后用改进的余弦相似公式作为检索式与资源集间的相似度计算算法。借鉴目前流行的排序算法,从标签和资源的“长尾”现象出发,分析标签和资源的形成分布规律,利用相似用户和资源的时序特性对排序算法进行改进,使得检索出的结果中相关性越强的资源排列越靠前。(4)为验证本文方案的可行性和优越性,对提出的算法进行了实验。首先以具有代表性的delicious.com网站为例,抓取近20万条原始数据并进行清洗,分析资源、用户和标签的关系,构建三者网络。借助软件工具matlab,对这些数据用本文提出的算法和传统的算法进行2组检索实验,得出不同的排列结果。从查全率、查准率曲线,查全率/查准率曲线,查全率、查准率直方图,MAP指标对二组实验得出的不同结果进行分析评价,证实了本文提出的标签语义检索改进方法优于传统的向量空间模型方法。最后对全文的研究工作进行总结,指出本研究所存在的一些不足,对未来的研究进行展望。