百科全书文本的段落划分研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:doublepay2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会快速发展,各种知识爆发式增加。知识的自动获取,特别是从自然语言文本中自动获取知识成为重要的研究课题,这一课题既有极大的应用需求,又有理论上的挑战性。 百科全书文本中包含着集中、系统、全面的知识,是比较理想的文本知识获取的来源。百科全书往往以学科体系分卷。虽然都是说明文,但同一学科卷目中往往包含彼此差异很大,说明很不相同的知识的条目,这给自动提取知识造成了很大困难。本文的工作越过学科卷目分类,从条目的题材性质出发,以段落划分的形式,从百科全书文本中获取知识。 题材是不同于学科卷目的另一种条目分类方式,如人物题材、行政区划题材、生物物种题材等。同一题材的条目文本所包含的知识有较强的一致性。从文本段落的角度看,同题材的条目文本有这样的特点: (1)每个题材有题材相关的若干内容成份,这些内容成份是题材涉及到的若干方面的知识。在条目文本中,内容成份表现为文本段落。 (2)内容成份在条目文本中的分布有顺序规律,并且大部分内容成份有自身的词汇分布。 上述特点体现在同题材条目的整体条目文本集合上,因此同题材条目文本的段落结构与该题材的条目文本集合的整体性质有关。 本文的具体研究内容是百科全书同题材条目文本的段落划分,即在同题材的条目文本上根据题材的内容成份进行段落划分,一个段落对应一个内容成份,内容成份的变化之处即为段落的切分点。划分的任务包括确定段落的边界,以及每个段落对应的内容成份。 在应用层面,通过段落划分,可以提供段落一级的百科全书知识的直接检索,另外也为段落内部具体知识项目的挖掘提供基础。 本文的工作包括两个层面。第一个层面是构建面向百科全书同题材条目文本段落划分的词汇语义知识库。通过知识库中的语义知识可以获得更集中、更可靠的词汇统计数据,另外这个知识库也可以作为结合人的观察与知识的基础平台。第二个层面是在词汇语义知识库的基础上,以有指导及无指导两种机器学习方式研究同题材条目文本的段落划分方法。有指导的划分方法方面的主要工作是研究新的段落划分方法,即基于熵最小化的段落划分方法,以及发掘更多有效的划分依据,并以适当模型结合使用。无指导方式包括同题材条目文本段落结构的自动发现。这个工作面对的是这样一个问题:在给定的同题材条目文本集合上,自动发现与同题材条目文本的特点相一致的段落结构,并获得相应的段落划分。段落结构是在同题材的条目文本集合上获得的,在目前的研究中,与文本集合的整体性质有关的段落划分还没有引起足够重视,因此本文的这部分研究可作为这方面有益的补充。本文的主要工作和创新性成果包括以下几个方面: (1) 面向同题材条目文本段落划分的词汇语义知识库的构建。这个知识库有两个方面的意义。一是由于大量内容词频次过低,仅依靠词汇的原形难以获得有效的统计依据。将词汇原形代之以语义属性,可以获得更集中、更可靠的统计数据。二是通过构建词汇知识库,可以将人的观察与知识结合进划分算法,从而使划分算法可以凭借的依据更为丰富、可靠。本文在考察了《同义词词林》等现有词汇语义资源的基础上,构建了适合于同题材条目文本段落划分的词汇语义知识库。目前这个知识库有两个层面的词汇语义知识。一是领域专名和术语类语义信息的标注。首先将领域专名和术语方面的语义属性组织为树状知识体系,之后按此体系标注题材文本中的相应词汇。这个层次的词汇语义知识独立于具体题材。二是具体题材及其内容成份的主题词的标注,以及主题词对内容成份的抽象程度的区分与标注。这个层次的词汇语义知识与具体题材及内容成份直接关联。实验表明这个库提供的词汇语义知识非常有效。 (2) 提出了基于熵最小化的段落划分方法。这个划分方法的原理是文本单元的顺序聚类,聚类类别对应于段落。获得的类别由连续若干个文本单元构成,这些类别在熵的度量下,在一个条目文本的范围内与别的类尽可能不同,并且类内尽可能一致。这是在聚类的角度下全局切分优化的结果,没有Hidden Markov Model(隐马尔科夫模型,HMM)段落划分方法的段落类别重复的问题。这个方法可以通过控制“段内不确定程度”与“段间重叠程度”的相对重要性,可以获得由“细”到“粗”的、段落个数可以调节的划分结果,因此比较灵活。在算法的具体实现中使用了经过参数调整后的HMM模型状态后验分布,获得的性能优于基于HMM的划分方法。 (3) 发掘了具有段落整体特性的划分依据,以及题材相关的提示性划分依据,并以semi-Conditional Random Field(半条件随机域,semi-CRF)模型结合使用。Semi-CRF模型是分辨型概率模型,便于使用各种提示性依据(clue)。另外这个模型是Conditional Random Field(条件随机域,CRF)模型在段落方面的扩展,可以使用具有段落整体特性的依据。本文根据这个模型,在具体题材的段落划分中,将通用依据表示为经过整理的HMM模型的状态后验分布的基础上,进一步发现并使用了具有段落整体性的基于主题词的段落开始特征,以及针对特定段落类别的提示性特征。这些依据都发挥了效果,划分性能优于HMM模型和CRF模型的段落划分方法,以及基于熵最小化的段落划分方法。 (4) 提出了一种同题材条目文本段落结构自动发现方法。本文的方法首先获取了词汇的邻接关系在文本单元层面上的分布数据,之后使用aspect model等因子分解技术获取其中若干主要因子,这些主要因子相当于自动发现的抽象内容成份。通过aspect model的对数似然值(log likelihood)和因子在条目文本中顺序分布的互信息确定适当的因子个数的范围。这个方法的特点是从词汇在文本单元层面的顺序性的角度,而不是从文本单元之间的相似性角度发现段落结构,利用了同题材条目文本中内容成份的顺序规律,而且问题的表示和计算量独立于具体题材条目文本集合的规模,利于题材之间的推广。实验表明,这个方法可以找到与人工确定的标准划分大体一致的段落结构,可以作为同题材条目文本段落结构的自动分析工具,用于获取初步划分。 本文在《中国大百科全书》中典型的题材中国市县行政地名的条目文本集合上作了多种对比实验。实验表明,本文提出的词汇语义知识库基础上的有指导及无指导两种方式的段落划分方法可以作为百科全书同题材条目文本段落划分的初步有效的解决方案。
其他文献
目的 总结分析围手术期综合护理在股骨干骨折内固定术治疗中的应用价值.方法 研究资料选择我院2016年1月至2019年1月收治的210例股骨干骨折患者,均接受内固定术治疗,根据围手
混沌现象是20世纪人类最重要的科学发现之一。在过去的20多年时间里,人们对混沌的研究主要是从一些实验及数值系统观察和量化混沌行为。随着对混沌现象认识的深入,如何应用混
目的 探究针对性护理模式对早期颅脑外伤患者睡眠障碍的改善效果.方法 通过选取我院2019年1月至2020年1月收治的80例早期颅脑外伤睡眠障碍患者进行研究,采用不同的护理方式进
由于移动通信网络的不断扩容和业务的不断扩展,网络上网元的类型和数量都在不断增加,这就对局数据的管理提出了更高的要求:首先,局数据的管理要能够管理异质网络上网元的局数据;其
随着计算机技术的不断进步,自来水行业的计算机应用也得到了飞速的发展,已经从最开始的手工或半手工的方式,到近几年来办公自动化系统的应用以及现在已经使用的比较成熟的对
目的 分析系统化护理对阑尾炎腹腔镜术后患者胃肠功能恢复的影响.方法 选取我院自2017年12月至2019年12月收治的150例阑尾炎腹腔镜手术患者,随机分为观察组(75例)与对照组(75
目的 分析卵巢囊肿患者在腹腔镜下进行剥除术的围手术期的护理效果.方法 选取2017年7月至2019年8月我院收治的30例卵巢囊肿患者,随机将其分为观察组和对照组,各15例.给予对照
目的 探讨针对股骨颈骨折患者予以舒适护理的临床效果.方法 选择100例2017年3月至2019年3月我院诊治的股骨颈骨质患者,随机分为参照组(行常规护理,50例)与观察组(行舒适护理,