论文部分内容阅读
近年来,Del.icio.us(美味书签)、Flicker(雅虎网络相册)和豆瓣网等国内外Web2.0网站都取得了良好的发展态势,其去中心化、开放和共享的特性,使得网络用户在互联网信息生成、组织、传播和共享的各个阶段都扮演着愈来愈重要的角色。网络用户被允许依从各自对信息资源的理解而自发选用自然语言来对其进行描述,其最大的优势在于它既没有采用严格的分类标准,标注语言也不会受到任何限制。这种自由、灵活、方便、随意的信息组织方式被称作“大众分类”,它自出现之日起就受到了广大网络用户的关注和欢迎,也正在对人们日常工作和学习的方式产生深刻影响和巨大变革。在大众分类体系下,网络用户对信息资源赋予标签的过程,体现了 Web2.0时代广大网络用户集体智慧,这些标签间也隐含了丰富的语义关系。然而,大众分类的这种自由、随意的标注特性也给标签带来了一些缺陷:标签词性和语法结构的复杂多样、标签分类类别的模糊不清、标签间语义关系的缺乏等。这样的缺陷不但会在一定程度上降低利用标签检索网络信息资源的效率,而且也比较难顺应Web3.0时代语义网的新要求。目前,中文语义词典资源中的概念语义信息都是由人工构建的、相对比较准确,包含概念与概念之间丰富的语义关系,消除了概念间的语义歧义,保证了概念语法和语义的准确无误,所以,本文将中文语义词典与标签结合起来,借助典型中文语义词典《同义词词林》、《知网》、《中文语义词库》和《中国分类主题词表》挖掘标签间的近义、同义和上下位语义关系。全文共有6个章节的内容:第1章,首先介绍了本文的选题背景和研究意义,接着综合评述了标签语义关系挖掘、大众分类法与受控词表结合的国内外研究现状;最后阐明了本文的研究内容和研究方法,并对本文研究的重点和创新点予以说明。第2章,阐明了标签的内涵、基本特点,对常见中文语义词典的构成、特点及其发展历程进行了概述,为使用中文语义词典进行标签间语义关系挖掘做铺垫。第3章,首先阐述标签语义相关分析,接着探讨标签与中文语义词典结合应用于标签语义识别和语义检索的可行性,最后提出标签与中文语义词典的结合机制。第4章,详细论述了基于中文语义词典挖掘标签间近义、同义和上下位语义关系的实现方法。首先是利用《知网》和《同义词词林》分别计算标签词汇语义相似度并设定合适阈值进而挖掘标签间近义关系,接着是借助《知网》、《同义词词林》和《中文语义词库》挖掘标签间同义关系的实现步骤,最后是基于《中文语义词库》和《中国分类主题词表》挖掘标签间上下位关系的实现方法。第5章,以豆瓣网“豆瓣读书”中的标签数据资源为例进行实证研究,探讨借助上述中文语义词典挖掘标签间近义、同义和上下位语义关系。第6章,对本文所做的研究工作及其中存在的不足之处进行总结,并对下一步的研究工作进行探讨与展望。