基于中文文本的领域本体学习研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yishuiji111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体作为语义网络的重要分支,在信息检索、问答系统等领域扮演着重要的角色。而本体构建作为本体应用的必要前提,目前本体构建方法主要分为两类,一类为依靠本体专家手工构建本体,另一类为根据统计学和语言学等理论自动或者半自动构建本体,即本体学习。由于手工构建本体缺乏足够的灵活性和客观性,因此本体学习逐渐成为当前本体构建研究的主流方法。但是传统的本体学习方法存在领域可移植性较差等问题,并且基于网络文本的本体学习研究相对较少。因此本文基于互联网中文文本进行本体学习研究,其中主要包括语料库的构建和本体概念、分类关系、非分类关系的抽取,提升了本体学习方法的可移植性和性能。本文的主要内容及成果如下:(1)提出一种自动构建本体学习语料库的方法。传统的本体学习方法通常是基于已有的标注语料库实现的,难以利用复杂的网络文本进行本体学习。本文首先基于知识图谱获取领域词典,进而构建得到对应领域的领域向量空间模型。然后基于TF*IWF*IWF算法将网络文本映射为领域空间向量,并计算得到该文本与对应领域的相关度。最后根据相关度对网络文本进行过滤与预处理,从而完成本体学习语料库的构建。(2)提出一种改进的D-TF-IDF算法,以优化本体概念的抽取过程。由于传统TF-IDF算法无法区分文本对相关领域的重要程度,因此改进后的D-TF-IDF算法将基于领域向量空间模型计算得到的领域文本相关度作为文本权重,以提升对领域相关文本的敏感度。同时通过设置TF阈值过滤掉文本特有但与对应领域无关的杂质词汇,以优化本体术语的抽取效果。最后通过K-Means聚类算法对本体术语进行相似聚类,并进行消歧处理,从而完成本体概念的抽取。(3)提出一种基于知识图谱的本体分类关系抽取方法。在基于语义词典的传统抽取方法中,传统语义词典通常存在领域可移植性和更新及时性较差的问题,因此首先基于知识图谱获取对应领域的分类关系模板。然后针对分类关系抽取方法效率较低的问题,结合Floyd算法提出一种剪枝算法,实现对分类关系模板的剪枝优化。最后结合本体概念完成对本体分类关系的抽取。(4)对关系标签的抽取方法进行改进,以优化本体非分类关系的抽取过程。针对传统关系标签抽取方法有效性较差的问题,首先使用通用构词规则模板对复杂关系标签进行分解。然后根据关系标签与对应领域的相关度,将关系标签分类为领域动词与通用动词,进而分别使用相应的统计方法进行抽取。最后结合基于关联规则抽取得到的概念对从而完成本体非分类关系的抽取。综合上述研究内容,本文设计了一种本体学习实验框架,并从本体自身和应用两个方面与相近方法进行了对比实验。实验结果表明,相较于对比方法,本文所提出的本体学习方法不仅能够基于互联网中文文本构建得到有效的领域本体,还能在一定程度上提升本体概念抽取的准确性与本体关系抽取的效率和有效性。
其他文献
由于传统三相电机驱动系统的局限性,无法满足于功率水平高,调速性能好和可靠性要求较高的实际场合,而在低压、大功率和高可靠性上多相电动机驱动系统比三相电机驱动系统更具有优势,所以在这些场合中被广泛使用。本文以定子绕组相差30°的双三相永磁同步电机(以后称其为双三相PMSM)为研究对象,对其数学建模与谐波分析以及控制策略进行深入研究。本文首先介绍了自然坐标系下双三相PMSM的数学模型,并分别通过双d-q
同一树种组成的人工或天然林,存在树种单一、林分结构简单和生态系统稳定性差等诸多问题,为了解决这些问题,在纯林林下种植豆科灌草植物可能是便捷有效的途径,因为豆科灌草植物一
随着光电检测技术的快速发展,光功率计被大量应用于光纤通信系统中。它不仅可以用于直接测量光功率,还可以用于光损耗的相对测量。目前,国内光功率计很多需要进口,价格昂贵且需要各种配件,使用起来并不方便。而国内同类测试仪器存在价格昂贵且测量精度低,工作波长少以及测量范围不足的问题;同时,近几年微处理器技术的发展很快,以微处理器为中央控制器的智能仪器已经得到了长足的进步。当光纤通信遇到智能测试时,将引起测控
人类伊始,便有了为生存而对抗地心引力的隐性力量训练,随着生产力的一日千里,便有了为不同目的而对抗外界阻力的显性力量训练。其中,发展骨骼肌的输出功率能力是力量训练的重
伴随Docker、Kubernetes、Istio等技术的成熟与流行,容器云平台正在成为越来越多企业IT基础设施架构的转型方向。尤其是互联网公司纷纷选择将在线服务应用运行在容器云平台上
为进一步拓展AlFeSi系耐磨涂层的应用领域,对建筑用6063铝合金表面Al FeSi耐磨涂层施加不同载荷,分别测试研究了在干摩擦和浸入3.5%NaCl腐蚀溶液下时的摩擦磨损性能。结果表
本文从供应链融资理论出发,提出供应链金融在解决中小企业融资问题中的作用和意义,即供应链金融作为一种新型融资工具,是提升中小企业融资绩效的重要切入点。而发展供应链融资担保业务,也成为担保机构自身业务改革创新、转型发展的重要突破口。本文采用案例分析法,对HN担保公司通过开展海尔经销商买方信贷担保业务推动中小企业发展的实践进行了研究。总体来看,HN担保公司海尔经销商买方信贷担保业务实施效果较好,成效显著
进行土壤有机质(Soil organic matter,SOM)空间预测研究,对掌握区域土壤有机质空间分布现状、实施精准农业以及保护区域生态环境都有着重要意义。研究选用我国东北黑土丘陵区
随着国家经济建设和电力系统的快速发展,用户侧用电数据也呈现指数增长。通过数据挖掘技术对这些数据进行分析研究,有助于推动电网智慧化发展。然而,由于输电线路老化、计量设备出现故障以及一些用户为了达到少缴或者不缴电费的目的,在实际的供用电过程中会发生异常用电的现象。若对这些现象不采取及时的应对措施,将会严重的影响电力企业的供电秩序,而且对供电安全和国家的经济也会造成严重的威胁。针对上述的问题,本文通过分
中华文化源远流长、灿烂辉煌。近年来,在“努力讲好中国故事,传播好中国声音,阐释好中国特色”的背景之下,中国文学作品翻译受到越来越多的关注。莫言获得诺贝尔文学奖,把中国当代文学推向了世界,莫言成了作品被译介到国外数量最多、产生影响最广的中国作家。然而在众多的莫言文学作品翻译实践中存在望文生义、不恰当的略译、翻译失当甚至误译等问题,阻碍了文本功能的实现。因此,莫言小说文本的翻译仍需在一定的理论指导下进