面向领域文档的自动语义标注方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:snwkq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代万维网已经成为人类获取信息的主要渠道之一,在人们的日常生活、工作学习、商业科研等社会生活中扮演着日益重要的角色。与此同时,网页数量呈指数级的飞速增长,而当前万维网实际上只是一种面向人的存储和共享信息的媒介,缺乏语义互操作性,机器无法智能完成从海量信息中快速、准确地定位到所需信息。为此,Tim Berners-Lee提出了语义Web;语义Web是智能网络,它脱胎于万维网;万维网面向的是文档,而语义Web面向的则是文档所表示的数据;通过给万维网上的文档添加机器可以理解的语义,从而使整个万维网成为一个通用的信息交换媒介。对当前Web中呈无结构和半结构的信息添加语义信息,将Web的状态从机器可读提高到机器可理解就是语义标注的主要研究内容;语义标注是语义Web实现的基石。现有语义标注系统还存在以下一些问题:标注系统一般对通用概念进行标注,不能根据不同领域知识的特点进行有效标注;手动、半自动的标注或多或少都需要人工干预,不利于大规模应用;而自动化的语义标注准确率还有待提高。另外,当前语义标注系统几乎都只面向英文文档进行标注,中文文档的语义标注系统寥寥无几。本文介绍和分析了语义Web、本体以及语义标注技术的现状,并着重研究了如何应用语义相似度的方法实现领域文档自动语义标注的问题。本文的主要工作和特色如下:①针对现有标注系统对领域文档标注的不足和缺陷,本文基于领域本体引入了对命名实体进行语法和语义分析的思想,提出了结合维基语义相似度和编辑距离的标注方法。该标注方法充分考虑了Web资源与本体知识在语法上的形似度和语义上的相似度,从这两方面综合度量两者之间的关联程度,在领域本体的指导下使用本体知识对领域文档进行标注并取得了良好效果。②对传统标注工具进行分析时发现这些工具几乎都无法标注中文资源,为此,对中文资源的特点进行分析后,提出了结合维基语义相似度和百度距离的标注方法对中文领域文档进行标注,实验表明该方法是有效的。
其他文献
2013年11月15日,财政部部长助理余蔚平在企业产品成本核算培训班上做了题为《认真贯彻企业产品成本核算制度 稳步推进管理会计体系建设》的讲话,“讲话”中提出“企业产品成本核算制度的发布实施,是财政部门全面推进我国管理会计体系建设的重要探索,是财政、会计工作服务经济社会发展的重大举措。”也有人说,《企业产品成本核算制度(试行)》(以下简称“成本核算制度”)的实施,拉开了我国管理会计改革与发展的序幕
2008年4月~2009年7月间,选取沈阳市不同功能区5个监测点位,采集了4个不同季节的大气VOCs样品187个,利用三级冷阱预浓缩-GC-MS方法测定了108种大气VOCs物质,考察了沈阳市大气VO
目标定位和目标偏离是通货膨胀目标制实施过程中的中心问题。本文对巴西、捷克、波兰和南非这4个典型的新兴市场国家实施通货膨胀目标制的经验,特别是通货膨胀目标定位的合理
RTAs纺织品协定将对中国纺织品国际贸易产生较大影响。本文以U.S.-DR—CAFTA纺织品协定为例,对其内容进行了阐述,认为该协定是美国在全球纺织品贸易“后配额时代”打压中国纺织业
随着时代的变迁、环境的变化和企业的发展,经典理论已难以对当今世界的跨国经营实践作出充分的解释,于是,关于跨国公司行为的一些新的理论阐释出现了.这些理论主要有程序公正
据悉,相关部委正在研究大幅度提高合同能源管理财政补贴资金,进一步推动节能服务产业快速发展。目前中央对合同能源管理的补贴是240元/t标煤,各地按照自身情况再予以一定补贴。
又到年中的"回顾与展望"之时,但今年主要经济体交出的期中答卷却不尽如人意。既有经济数据大幅不及预期,又有先行指标暗示衰退或在前方,由此带动市场情绪向悲观象限趋近,并持
本文通过收集监理工作中的质量问题数据,分析了风力发电设备常见、多发性质量问题产生的原因及造成的影响,并探讨了应对措施,提出了“争取重视,发挥专业特长,提供技术支持,加强沟通
海监船其主要作用有以下三点:一是,主要用于对我国专属经济区和大陆架海域巡航监视,维护海洋权益;二是,对违法使用海域、损害海洋环境与资源、破坏海洋公共设施、扰乱海上秩序等违