基于潜在语义分析的社会化标注系统标签语义检索研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:esinstra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0环境下,社会化标注系统逐渐发展为重要的资源组织与共享平台,成为Web的主流发展方向之一。由于标签的模糊和不规范易造成漏检,或因标注资源庞大,检索用户需要过滤庞大的搜寻结果,检索效率不高。因社会化标注系统中绝大多数用户的标注行为符合社会共同认识,所以存在基本的、潜在的语义结构支配标签的出现和资源语义构成,鉴于这一特点,再结合潜在语义分析这一信息检索代数模型,本文试图寻找一种一方法来自动获取标签间的语义关系,对资源赋予语义,将标签和资源以某种可计算性高、可操作性强、代表语义的形式表示和存储,来提高标签的检索效率。本文所做的工作主要体现在如下四方面:(1)在对相关文献进行综述的基础上,介绍了社会化标注发展历程,定义、系统模型、以及潜在语义分析方法,分析了社会化标注系统的3个主要要素,以及系统在标签检索方面的不足,阐述了潜在语义分析方法的数学依据,在此基础上,提出基于潜在语义分析的标签语义检索模型,讨论了该方法应用于社会化标注的适用性。(2)对社会化标注系统的标签语义标注进行研究,改进了资源模型,提出标签-资源矩阵的权重计算算法,用局部权重、标签全局权重、资源全局权重三个参数对常用的TF-IDF计算方法进行改进。用标签全局权重值来衡量标签在分辨资源时的重要程度和能力,用资源、全局权重值来描述资源对标签集所能提供的信息量,从行计算和列计算两个方面对原始标签-资源矩阵权重进行改进,使得新的矩阵更能体现社会化标注系统的整体性。(3)研究了社会化标注系统标签语义检索中的相似度计算和排序算法。首先介绍6种相似性计算算法,然后用改进的余弦相似公式作为检索式与资源集间的相似度计算算法。借鉴目前流行的排序算法,从标签和资源的“长尾”现象出发,分析标签和资源的形成分布规律,利用相似用户和资源的时序特性对排序算法进行改进,使得检索出的结果中相关性越强的资源排列越靠前。(4)为验证本文方案的可行性和优越性,对提出的算法进行了实验。首先以具有代表性的delicious.com网站为例,抓取近20万条原始数据并进行清洗,分析资源、用户和标签的关系,构建三者网络。借助软件工具matlab,对这些数据用本文提出的算法和传统的算法进行2组检索实验,得出不同的排列结果。从查全率、查准率曲线,查全率/查准率曲线,查全率、查准率直方图,MAP指标对二组实验得出的不同结果进行分析评价,证实了本文提出的标签语义检索改进方法优于传统的向量空间模型方法。最后对全文的研究工作进行总结,指出本研究所存在的一些不足,对未来的研究进行展望。
其他文献
本文基于使用与满足理论,分析"李子柒"视频内容满足了受众的哪些需求从而获得受众的关注与喜爱,基于以上因素研究"李子柒"的走红现象,并在"李子柒"现象火热的情况下进行冷思
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在石油生产工业中,经常通过注入水或其他流体,驱替地层中的原油,从而达到产油和提高采收率的目的。为了准确预报产量和尽可能提高采收效率,数值分析工具必不可少。因此长期以
2019年末爆发的新冠肺炎疫情在给民众生命健康安全带来威胁的同时,与疫情相关的谣言也随之滋生。本文从新冠肺炎疫情初期出现频率较高的三类谣言入手,研究疫情中出现的四种典
我国古籍数字化工作起步于20世纪80年代初,至今已经取得了令人瞩目的成就,主要标志是一批大规模、基础性的古籍著作被开发为真正意义上的数字化产品,并成功走向市场。相关研究论
目的观察纳洛酮治疗重度新生儿缺氧缺血性脑病的临床疗效。方法治疗组18例,在支持对症等综合治疗的基础上,加用纳洛酮治疗;对照组20例,采用常规治疗,比较两组患儿疗效及症状
该文主要对玄参科植物泡桐树花的化学成分、生物特性、药理等的研究进展进行总结,为泡桐花制剂的开发利用提供科学依据,并展望泡桐花及其他部分的研发前景。
随着建筑领域飞速的发展,国内的科学技术不断的提高,使得新技术以及新材料的应用,已经成了当今阶段对建筑进行设计非常重要的一项组成部分,能够更好的满足当今阶段人们的实际