领域本体学习中术语及关系抽取方法的研究

被引量 : 24次 | 上传用户:wwf5278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域本体已经被广泛应用于知识工程和人工智能等多个领域,对企业的知识管理起着关键作用。特别是以产品为核心的离散制造企业,其主要的知识资产存在于产品和开发产品的流程中,对制造企业进行知识管理,需要对产品知识重新建模。本体可以形式化地表达问题,提供规范化、统一的知识表达形式,为知识的共享和重用提供模型。所以,在离散制造企业中引入领域本体进行知识管理至关重要。但是,人工构建领域本体费时费力,因此,自动或半自动构建领域本体成为研究的热点。论文对领域本体学习中的两个关键问题,即术语及其关系的自动获取方法展开研究,以提高领域本体自动构建的有效性,为企业知识管理提供较好的模型和方法。基于非结构化文本完成了以下几个方面的工作:(1)提出基于信息熵和词频分布变化的无监督术语抽取方法。通过将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串。该方法对低频术语有较好的抽取效果,同时抽取出的术语结构更完整。(2)提出一种基于条件随机场(Conditional Random Fields, CRF)和主动学习相结合的领域术语抽取方法。由于无监督机器学习方法抽取术语的精确率较低,而有监督方法要求有高质量大规模已标语料,人工标注领域语料代价大。引入主动学习方法,使用不确定性样本选择策略,计算CRF模型中的条件概率置信度,利用该置信度进行样本选择,使得通过较少的标注语料即可获得较高的精确率。(3)提出基于多策略的术语关系抽取方法。针对术语关系类型的多样化问题,采用多方法结合的策略自动获取术语关系,主要研究同义关系和层级关系的获取,将基于规则的方法、基于统计的方法以及基于聚类的无监督机器学习方法结合,不同类型的关系采用不同的方法,使得对于层级关系的抽取获得了较好的性能。(4)提出基于组合核函数和分布式元学习策略的实体关系抽取模型。将基于特征的平面核和基于句法的结构核进行组合,并结合分布式和元学习策略实现了中文实体关系抽取。实验结果表明,该方法的综合F-值比目前最好的系统高出近3个百分点。为验证所提出方法的有效性,还构建了一个汽车领域本体实例。实验结果表明,本文所提出的基于文本的术语及关系抽取方法具有较高的性能,实现了领域本体构建过程中一定程度的自动化,同时也可以应用于词典编撰和文本摘要等其它领域。
其他文献
海洋强国是中国以两个"百年计划"为基础、以实现民族伟大复兴为目标,总结历史、立足当下、展望未来做出的重大战略抉择。海洋强国战略的推进是一个长期、宏大的系统工程,既要
<正>从2012年起,一批辟谣求证类电视节目纷纷涌现出来,其中包括湖南卫视的《新闻大求真》、中央电视台的《是真的吗》、湖北卫视的《生活·帮》、北京电视台的《奇妙实验室》
骨桥蛋白(OPN)在胃癌及癌前疾病有较特异性的表达,有望成为重要的胃癌标志物。筛查某基因的变异已成为预测某疾病发生的重要手段,尤其是启动子区域易感性与疾病的关系更受重视。
不知如何确定和选择班会主题怎么办?庐江高职业中学陈龙生召开主题班会,对学生进行专题教育,是加强德育工作的一项重要途径。而确定租选择主题又是开好主题班会的关键所在。多年
<正>从事教育工作已有六七年了,在教过的几届学生中,每一届都会有一定数量的"后进生",让科任老师"大皱眉头"。老教育家陈鹤琴说过:"没有教不好的学生,只有不会教的老师。"做
点阵材料的多孔周期性,使其自然成为具有特殊声学性能和禁带效应的结构型材料,研究点阵材料的波传播特性规律将会给陆海空等各个领域带来意想不到的减振和降噪效果。点阵材料
为查明贵州省黎平县太平山的天牛科昆虫种类情况,采用传统分类学研究方法,对该地区天牛科昆虫进行调查、系统采集和分类研究,最终鉴定得到4亚科26种.所有观察标本均保存在凯里学
<正>日本传统的语文教学比较偏重于读写,但近年来,对听说训练也逐渐重视起来,并积累了一些很<正>好的经验。听说训练主要集中在小学和初中阶段进行。在教材中包括了相当数量
目的探讨情景模拟演练方式对急诊科护理人员火灾应急处置培训效果及火灾现场救治时效性的影响。方法将112名急诊科护理人员随机分为情景模拟组(n=56)和传统培训组(n=56)。传