结合WordNet的领域语义标注研究

被引量 : 0次 | 上传用户:haiyang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网正在以惊人的速度发展,已经成为人类获取信息和知识的重要渠道,正逐步成为现代人生活的一部分。但是不断膨胀的网页数量同时意味着不断膨胀的海量数据。然而蕴含其中的海量的有价值的信息却不容易被发现,因为数据必须经过合理有效的处理才能从中挖掘出有价值的信息。为了使无结构或者半结构化的数据能够被计算机快速的理解并进行相应的处理,人们便提出了语义网的概念。语义网的目的是使计算机能够理解Web文档的语义,从而可以共享和重用不同源的数据,使人们能和计算机进行交流与合作。语义网的实现需要为现在互联网上存在海量数据提供可用的广泛的语义标注。凭借特定的本体为Web文档增加语义信息即发布Web文档的语义信息就是语义标注。语义标注是语义网的基石。能对领域中的命名实体进行标注的语义标注系统还较少,目前大多数的语义标注系统只标注一般性的概念。并且这些系统在进行语义标注的时候或多或少的需要人工的干预。偏低的准确率也是自动语义标注需要解决的问题。针对现有语义标注系统的缺陷与不足之处,本文以葡萄酒领域为研究对象提出了一种结合WordNet的领域语义标注方法。首先本文引入WordNet中基于信息容量的相似度计算方法并将其与基于编辑距离的相似度计算方法,从而能从语法和语义两个方面衡量命名实体与葡萄酒领域本体中的概念类和实例的相似度。实验结果表明使用这种相似度计算方法的语义标注能获得较好的准确率和召回率,在其与基于编辑距离的相似度计算方法结合后准确率和召回率能获得小幅度提升。本文在研究了众多WordNet相似度算法之后发现以WordNet为基础的计算语义相似度的方法大多依赖名词的树形层次结构,为了打破这种层次结构的束缚,将更多语义元素考虑进去,本文对WordNet中基于共享信息量的相似度计算方法进行了改进,。实验结果表明使用基于共享信息量相似度计算改进的语义标注方法在准确率方面与基于信息容量相似度计算的语义标注方法相当,但召回率有明显提升;同时结合基于编辑距离的相似度计算方法后在准确率及召回率两个方面也有小幅度的提升。语义标注结果采用最新的Owl格式以非嵌入式的方式分离保存后,和嵌入式的标注结果保存方式相比降低了语义标注结果维护的难度,并能根据不同用户的不同需求进行修改。
其他文献
节能减排是建设资源节约型、环境友好型社会的必然选择。作为全国煤炭消耗大户,火力发电厂的节能任务意义重大。太阳能与火电厂一体化发电系统是将太阳能引入常规燃煤发电机
体育学科培养学生什么样的智力,传统的认识可以归纳为三种观点,即"调节观"、"基础观"和"综合观",这三种观点各有片面性和不足点.由7种智力组成的多元智力理论给解决这一问题
本文从淮安市“营改增”政策实施背景出发,通过建立动态面板数据模型,对“营改增”政策实施效应进行论证,分析“营改增”政策对经济发展的影响。
目的总结昏迷伴气管切开患者的有效护理措施,以预防和减少呼吸道并发症的发生。方法对56例昏迷伴气管切开的患者,密切观察呼吸道分泌物情况,予充分的湿化气道,正确彻底的吸痰
随着现代信息技术的迅猛发展,高等教育的信息化时代已经到来。高等教育信息化对高等教育发展产生了全面而深刻的影响。先进的信息技术使教育资源共享成为可能,学习选择的自由
近年来有个词在云南很热――高原特色农业。胡锦涛总书记在参加十一届全国人大五次会议云南代表团审议时提出"要大力发展高原特色农业,这是云南的优势。"云南省第九次党代会
核内核子夸克与胶子分布函数的研究为核物理和粒子物理学中最活跃的前沿课题之一。EMC效应反映了在重原子核内部高动量(0.3<x<0.8)夸克的压低,证实了原子核内夸克分布不是质
随着我国市场经济的深化和国有经济战略的大调整,国有经济逐步退出竞争性领域,而以民营经济为主的中小企业作为我国经济增长最为活跃的因素,已成为推动我国经济社会发展的支
我们知道,烹调菜肴的三要素是刀工、调味和火候。如果说刀工是基础,调味是条件,那么火候则是关键。不是么?不论是在业内,还是在家庭烹调中,我们是否都会感到,即使俩人用同样
目前,国内工业副产物脱硫石膏和农业副产物农作物秸秆的排放量仍逐年增大,但是两者的综合利用率却很低,脱硫石膏多以堆场堆弃的方式,农作物秸秆多以露天焚烧的方式进行简单处