论文部分内容阅读
社会快速发展,各种知识爆发式增加。知识的自动获取,特别是从自然语言文本中自动获取知识成为重要的研究课题,这一课题既有极大的应用需求,又有理论上的挑战性。
百科全书文本中包含着集中、系统、全面的知识,是比较理想的文本知识获取的来源。百科全书往往以学科体系分卷。虽然都是说明文,但同一学科卷目中往往包含彼此差异很大,说明很不相同的知识的条目,这给自动提取知识造成了很大困难。本文的工作越过学科卷目分类,从条目的题材性质出发,以段落划分的形式,从百科全书文本中获取知识。
题材是不同于学科卷目的另一种条目分类方式,如人物题材、行政区划题材、生物物种题材等。同一题材的条目文本所包含的知识有较强的一致性。从文本段落的角度看,同题材的条目文本有这样的特点:
(1)每个题材有题材相关的若干内容成份,这些内容成份是题材涉及到的若干方面的知识。在条目文本中,内容成份表现为文本段落。
(2)内容成份在条目文本中的分布有顺序规律,并且大部分内容成份有自身的词汇分布。
上述特点体现在同题材条目的整体条目文本集合上,因此同题材条目文本的段落结构与该题材的条目文本集合的整体性质有关。
本文的具体研究内容是百科全书同题材条目文本的段落划分,即在同题材的条目文本上根据题材的内容成份进行段落划分,一个段落对应一个内容成份,内容成份的变化之处即为段落的切分点。划分的任务包括确定段落的边界,以及每个段落对应的内容成份。
在应用层面,通过段落划分,可以提供段落一级的百科全书知识的直接检索,另外也为段落内部具体知识项目的挖掘提供基础。
本文的工作包括两个层面。第一个层面是构建面向百科全书同题材条目文本段落划分的词汇语义知识库。通过知识库中的语义知识可以获得更集中、更可靠的词汇统计数据,另外这个知识库也可以作为结合人的观察与知识的基础平台。第二个层面是在词汇语义知识库的基础上,以有指导及无指导两种机器学习方式研究同题材条目文本的段落划分方法。有指导的划分方法方面的主要工作是研究新的段落划分方法,即基于熵最小化的段落划分方法,以及发掘更多有效的划分依据,并以适当模型结合使用。无指导方式包括同题材条目文本段落结构的自动发现。这个工作面对的是这样一个问题:在给定的同题材条目文本集合上,自动发现与同题材条目文本的特点相一致的段落结构,并获得相应的段落划分。段落结构是在同题材的条目文本集合上获得的,在目前的研究中,与文本集合的整体性质有关的段落划分还没有引起足够重视,因此本文的这部分研究可作为这方面有益的补充。本文的主要工作和创新性成果包括以下几个方面:
(1) 面向同题材条目文本段落划分的词汇语义知识库的构建。这个知识库有两个方面的意义。一是由于大量内容词频次过低,仅依靠词汇的原形难以获得有效的统计依据。将词汇原形代之以语义属性,可以获得更集中、更可靠的统计数据。二是通过构建词汇知识库,可以将人的观察与知识结合进划分算法,从而使划分算法可以凭借的依据更为丰富、可靠。本文在考察了《同义词词林》等现有词汇语义资源的基础上,构建了适合于同题材条目文本段落划分的词汇语义知识库。目前这个知识库有两个层面的词汇语义知识。一是领域专名和术语类语义信息的标注。首先将领域专名和术语方面的语义属性组织为树状知识体系,之后按此体系标注题材文本中的相应词汇。这个层次的词汇语义知识独立于具体题材。二是具体题材及其内容成份的主题词的标注,以及主题词对内容成份的抽象程度的区分与标注。这个层次的词汇语义知识与具体题材及内容成份直接关联。实验表明这个库提供的词汇语义知识非常有效。
(2) 提出了基于熵最小化的段落划分方法。这个划分方法的原理是文本单元的顺序聚类,聚类类别对应于段落。获得的类别由连续若干个文本单元构成,这些类别在熵的度量下,在一个条目文本的范围内与别的类尽可能不同,并且类内尽可能一致。这是在聚类的角度下全局切分优化的结果,没有Hidden Markov Model(隐马尔科夫模型,HMM)段落划分方法的段落类别重复的问题。这个方法可以通过控制“段内不确定程度”与“段间重叠程度”的相对重要性,可以获得由“细”到“粗”的、段落个数可以调节的划分结果,因此比较灵活。在算法的具体实现中使用了经过参数调整后的HMM模型状态后验分布,获得的性能优于基于HMM的划分方法。
(3) 发掘了具有段落整体特性的划分依据,以及题材相关的提示性划分依据,并以semi-Conditional Random Field(半条件随机域,semi-CRF)模型结合使用。Semi-CRF模型是分辨型概率模型,便于使用各种提示性依据(clue)。另外这个模型是Conditional Random Field(条件随机域,CRF)模型在段落方面的扩展,可以使用具有段落整体特性的依据。本文根据这个模型,在具体题材的段落划分中,将通用依据表示为经过整理的HMM模型的状态后验分布的基础上,进一步发现并使用了具有段落整体性的基于主题词的段落开始特征,以及针对特定段落类别的提示性特征。这些依据都发挥了效果,划分性能优于HMM模型和CRF模型的段落划分方法,以及基于熵最小化的段落划分方法。
(4) 提出了一种同题材条目文本段落结构自动发现方法。本文的方法首先获取了词汇的邻接关系在文本单元层面上的分布数据,之后使用aspect model等因子分解技术获取其中若干主要因子,这些主要因子相当于自动发现的抽象内容成份。通过aspect model的对数似然值(log likelihood)和因子在条目文本中顺序分布的互信息确定适当的因子个数的范围。这个方法的特点是从词汇在文本单元层面的顺序性的角度,而不是从文本单元之间的相似性角度发现段落结构,利用了同题材条目文本中内容成份的顺序规律,而且问题的表示和计算量独立于具体题材条目文本集合的规模,利于题材之间的推广。实验表明,这个方法可以找到与人工确定的标准划分大体一致的段落结构,可以作为同题材条目文本段落结构的自动分析工具,用于获取初步划分。
本文在《中国大百科全书》中典型的题材中国市县行政地名的条目文本集合上作了多种对比实验。实验表明,本文提出的词汇语义知识库基础上的有指导及无指导两种方式的段落划分方法可以作为百科全书同题材条目文本段落划分的初步有效的解决方案。