基于中文语义词典的标签间语义关系挖掘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hanqingnan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Del.icio.us(美味书签)、Flicker(雅虎网络相册)和豆瓣网等国内外Web2.0网站都取得了良好的发展态势,其去中心化、开放和共享的特性,使得网络用户在互联网信息生成、组织、传播和共享的各个阶段都扮演着愈来愈重要的角色。网络用户被允许依从各自对信息资源的理解而自发选用自然语言来对其进行描述,其最大的优势在于它既没有采用严格的分类标准,标注语言也不会受到任何限制。这种自由、灵活、方便、随意的信息组织方式被称作“大众分类”,它自出现之日起就受到了广大网络用户的关注和欢迎,也正在对人们日常工作和学习的方式产生深刻影响和巨大变革。在大众分类体系下,网络用户对信息资源赋予标签的过程,体现了 Web2.0时代广大网络用户集体智慧,这些标签间也隐含了丰富的语义关系。然而,大众分类的这种自由、随意的标注特性也给标签带来了一些缺陷:标签词性和语法结构的复杂多样、标签分类类别的模糊不清、标签间语义关系的缺乏等。这样的缺陷不但会在一定程度上降低利用标签检索网络信息资源的效率,而且也比较难顺应Web3.0时代语义网的新要求。目前,中文语义词典资源中的概念语义信息都是由人工构建的、相对比较准确,包含概念与概念之间丰富的语义关系,消除了概念间的语义歧义,保证了概念语法和语义的准确无误,所以,本文将中文语义词典与标签结合起来,借助典型中文语义词典《同义词词林》、《知网》、《中文语义词库》和《中国分类主题词表》挖掘标签间的近义、同义和上下位语义关系。全文共有6个章节的内容:第1章,首先介绍了本文的选题背景和研究意义,接着综合评述了标签语义关系挖掘、大众分类法与受控词表结合的国内外研究现状;最后阐明了本文的研究内容和研究方法,并对本文研究的重点和创新点予以说明。第2章,阐明了标签的内涵、基本特点,对常见中文语义词典的构成、特点及其发展历程进行了概述,为使用中文语义词典进行标签间语义关系挖掘做铺垫。第3章,首先阐述标签语义相关分析,接着探讨标签与中文语义词典结合应用于标签语义识别和语义检索的可行性,最后提出标签与中文语义词典的结合机制。第4章,详细论述了基于中文语义词典挖掘标签间近义、同义和上下位语义关系的实现方法。首先是利用《知网》和《同义词词林》分别计算标签词汇语义相似度并设定合适阈值进而挖掘标签间近义关系,接着是借助《知网》、《同义词词林》和《中文语义词库》挖掘标签间同义关系的实现步骤,最后是基于《中文语义词库》和《中国分类主题词表》挖掘标签间上下位关系的实现方法。第5章,以豆瓣网“豆瓣读书”中的标签数据资源为例进行实证研究,探讨借助上述中文语义词典挖掘标签间近义、同义和上下位语义关系。第6章,对本文所做的研究工作及其中存在的不足之处进行总结,并对下一步的研究工作进行探讨与展望。
其他文献
[目的]随着全球防控及医疗诊疗水平的发展,结核病的发病率及死亡率均有明显的下降。然而,随着人口老龄化、HIV感染人数的增高及人员流动性的增加,结核病出现了复燃趋势。我们
振动试验是检测产品力学可靠性的必要手段,振动控制器作为整个振动试验的核心,对其进行状态监控是保证试验正常运行的必要手段。而目前的监控系统大多是需要人值守的现场监控
背景:胰腺癌恶性程度高,近半数的患者在手术切除后一年内复发,因为在胰腺癌中,迫切需要可以准确预测早期复发和确定复发风险的患者分层方法。本研究的目的是建立一种基于磁共
目前,数据中心网络部署了大量的服务器和网络设备,用以提供多种多样的网络功能服务(防火墙、内容缓存,广域网加速器等)和充分的网络连接。数据中心大多数据流为多个服务器功
目的:探讨穿山龙提取物薯蓣皂苷对痛性糖尿病周围神经病变小鼠坐骨神经中氧化应激相关指标表达的影响及其作用机制,为单味中药治疗痛性糖尿病周围神经病变奠定理论基础,为临
研究背景与目的:慢性移植物抗宿主病(c GVHD)是异基因造血干细胞移植术后发生的严重并发症。间充质干细胞(MSCs)具有免疫调节作用,可通过上调Treg细胞比例来改善c GVHD。研究
通过对某企业生产防弹玻璃的关键生产工艺步骤“合片抽真空”(该步骤在高压釜中实现)的研究,发现在此过程中,温度是影响防弹玻璃质量的关键因素。在“合片抽真空”工艺中采用
背景和目的随着腹腔镜胆囊切除术的普及,结扎夹已经成为固定胆囊管和胆囊动脉最常用的方法。因不可降解夹子长期存留在机体,大大增加了夹子发生脱落、移位的风险。因为镁合金
随着信息化时代的到来以及互联网技术的发展,全球数据呈爆炸性增长。分布式存储系统因其高可扩展性与廉价性的优点被广泛应用,并渐渐取代了传统的集中式存储。然而,分布式存储系统中的存储设备虽然价格低廉但不稳定性强,不可避免地会发生故障,需要频繁进行快速修复,这时就要求通过存储冗余数据来保证数据的可靠性与可用性。目前采用最多的冗余存储方式是复制和纠删码策略。复制策略需要存储原始文件副本,存储开销较大;纠删码
目的:验证缺血后适应(Ischemic post-conditioning,IPC)对大鼠脊髓缺血再灌注损伤(Spinal cord ischemia reperfusion injury,SCIRI)的保护作用并检测其对钙敏感受体(Calcium