关联数据和知识表示的自动语义标注技术

被引量 : 22次 | 上传用户:guider_zq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络上存在着大量非结构化、半结构化资源文档(如教育领域课程数据、政府开放数据、其他各类行业及专业数据等),原来沿用的基于人工或半自动语义提取、语义标注成为课程数据关联和知识本体建设工程的瓶颈。自动语义标注研究有着迫切现实需要和理论意义。本文通过深入研究国内外关联数据、知识表示、自动语义标注最新成果,提出了一种面向海量网络资源的启发式集成学习自动语义标注策略,探讨了异构网络中概念性内容及关系在知识表示中的语义映射、加载机理,以及深层复杂多元关系的本体自动生成机制,并设计和实现自动语义标注算法及模型。本文主要研究内容包括,1.关联数据理论及技术。通过分析语义网、本体、语义标注间的关系,讨论了关联数据适于处理复杂结构、以超链接形式关联分布式数据、将网页空间转变为全局数据空间等特性、关联数据处理平台及处理流程。2.知识表示理论及技术。探讨知识表示中的本体、结构、概念体系中的术语、分类、概念层级识别的研究进展。分析知识表示中的反转性、传递、继承、部分、实例、属性等基本关系的表示方法。3.自动语义标注理论及技术。解读多文档自动摘要方法分类和技术。讨论有监督方法和半监督方法下的语义数据自动提取、基于Adaboost方法的语义数据自动提取。比较语义标注的标注中一体化、分离式语义数据自动标注的优缺点分析描述逻辑中的概念、角色、个体与OWL中的类、属性、对象之间的对应关系。引入描述逻辑,增强知识表示中语义网络的形式化表达。提出一种基于启发式集成学习算法的自动语义标注策略。对多文档自动摘要、语义数据自动提取、语义数据自动标注实现方案分别进行具体分析。在多文档自动摘要在通过LOD查询对应实体,减少DBCO算法中的无关项,提高文本块特征值表达的准确性,进而提升最后生成的摘要的准确性。设计语义数据自动提取方法,通过对LOD进行查询,获得概念在语义数据云图中所对应的具体类。然后,提取出这些类的属性实例,以及和其它类之间的关系实例。依次提取概念名称、类、属性、关系后,在此基础之上生成RDF文档三元组。提出关联数据和知识表示的自动语义标注的层次模型,分别为数据提取及转换层、数据关联及加工层、本体构建及标注层、知识本体集成层、知识本体存储及索引层、知识本体查询及检索层。将语义自动标注划分为自底向上的层次模型。对语义网通用体系(SWGS)与课程数据到知识本体的技术体系(LD2KOTS)进行对比,知识表示在课程数据到知识本体的规范描述方法及技术体系中各个层次的作用。自动语义标注方法贯穿从课程数据到知识本体转换的全部层。本文设计了一个自动语义标注实验系统,通过应用实例说明系统功能及使用方法。其中以精品课程数据为实验对象,分析自动语义标注的实体映射准确率、关系识别准确率、关系标注准确率(概念或实体间前后序、包含、SameAs三组关系)。自动实体标注准确率及召回率比较结果显示,本文提出的SSL-LOD (基于启发式集成学习及LOD)方法在自动实体标注的准确率方面取得了较好的表现。对WJJK、ZCYL、TXJG数据集进行自动实体标注的准确率优于HMM(隐马尔科夫)、CRF(条件随机场)、最大熵模型、CHMM(分层隐马尔科夫)等其他方法。在中文实体映射方面,实验系统的准确率和召回率高于Text2Onto、 Pretege、Gate等已有的自动语义标注系统。可以作为一种对海量网络数据自动语义标注的新方式。本文创新点主要包括,1.迭代式自动语义标注技术。本文提出一种迭代式自动语义标注技术进行实现网络资源向RDF数据、关联课程数据的转换,并对知识点本体进行标注。该技术将网络中的概念、关系与本体中对应实体相映射,进行概念实例识别,挖掘概念间潜在的关系。通过迭代式自动语义标注技术构建本体,进行本体优化和求精,生成实例,进行自动本体扩充,以新增本体丰富知识本体中的语义联系。在实例数量未达到设定阈值前重复上述过程。2.分层自动语义标注模型。提出由多文档自动摘要、语义数据自动提取、语义数据自动标注三部分组成的关联数据和知识表示的自动语义标注的层次模型,分层实现数据提取及转换、数据关联及加工、本体构建及标注、知识本体集成、知识本体存储及索引、知识本体查询及检索。在数据转换层将文档转换为RDF三元组。数据加工及关联层将RDF三元组加工为关联数据。本体构建及标注层在关联数据基础上,通过语义标注等技术,增加TBOX,使关联数据进一步成为本体。知识本体集成层对经过标注后的知识本体进行集成,通过映射、实例消重等方式进行语义融合建立范围更广或更具体的本体。知识本体存储和索引层对集成后的知识本体进行存储和索引。知识本体查询及检索层根据输入项,在已实现存储和索引的集成后知识本体中查找,返回对应知识本体实例。与现有模型相比,本文提出的关联数据和知识表示的自动语义标注模型可实现从最初的网络资源到顶层本体的自动转换,对于中文网络资源的自动语义标注效果优于Text20nto、 Pretege、Gate等通用语义标注工具模型3.基于启发式学习的自动语义标注策略。提出了一种基于启发式集成学习的自动语义标注策略,在关联数据云图的支持下实现网络资源向RDF数据、关联课程数据、知识点本体的转换。探讨异构网络中概念性内容及关系在知识表示中的语义映射、加载机理以及深层复杂多元关系的关联数据自动生成机制。在对精品课程数据进行自动语义标注实验中取得良好效果,准确率优于HMM (隐马尔科夫)、CRF(条件随机场)、最大熵模型、CHMM(分层隐马尔科夫)、实验系统的SSL-LOD (基于启发式集成学习及LOD)等策略。
其他文献
竹取物(Extract of Bamboo Leaves, EOB)是指运用中药现代化的技术和手段从竹子不同部位获得的具有多重生理和药理活性的植物次生代谢产物(也称竹子化学素)的总称。其中,竹青
本文从本源上梳理“情”与“理”的多重意义,以汤显祖的情理观为主线及焦点,并对比明代中、晚期主要戏曲评论家的情理观,谨慎厘清所谓“情”与“理”的真实所指及其底蕴。本
PTA装置干燥机接触高浓度醋酸、溴离子、对苯二甲酸、凝结水等腐蚀性介质,在高温、高酸环境下运行,设备的使用条件极为苛刻。目前,对于含氯离子酸性环境下不锈钢的腐蚀,国内外学
介绍了液压阀故障或失效特点,结合维修实践论述了几种简单可行的修复方法.
胜利露天煤矿地面半移动式破碎站已投用4a,采煤运距从最初的2km增至2013年的3.5km,并以每年180m递增。根据该矿煤层赋存条件,结合未来年度采剥工程推进,对现有的地面半固定式破碎
改革开放以来,中国乳制品业稳步发展,已成为食品制造业中的第三大产业。1979-2011年,乳制品产量实现了年均21%的增长速度。然而快速增长的同时,乳制品业面临的问题也日益突出
企业新员工入职培训是企业为了让新进员工了解企业文化、工作要求和操作规范等制定的岗前培训过程,是企业与员工入职后第一次互动。本文探讨了企业新员工入职培训的意义、企
四川夹江被誉为“中国书画之乡”,手工造纸业作为当地的特色和支柱产业,在夹江的经济和文化中扮演着重要角色同时在全国乃至世界纸业文化以及研究中,夹江手工造纸都是重要的
在25mL的不锈钢反应釜中,利用无水三氯化铝与叠氮化钠在无溶剂的条件下直接反应,成功地合成出了单晶氮化铝纳米线,反应温度为450℃,有效反应时间为24h.高分辨率透射电子显微
以《有序数对》的课堂实录为例,探讨如何激发学生的兴趣。