论文部分内容阅读
20世纪末以来,广播、电视、互联网、电子设备和其他媒体每天都会以各种方式告诉人们不同主题的信息,其中很大一部分信息以文档的形式呈现。如何从中找到真正有用的信息成为人们关注的焦点。文本智能处理系统一般是以整篇文档为基本处理单位,隐性假设一篇文档主要讨论一个主题。实际上,一篇文档往往涉及到一个或多个子主题。因而,基于整篇文档的处理粒度在很多实际应用中难以满足用户更高和更准确的要求。为了满足这种要求,基于内容理解的技术已经得到了广泛的重视。文本主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等。本文研究的文本分割、段落抽取与主题标注作为其中重要的组成部分,广泛应用于信息检索、信息整合、问答与文摘等文本智能处理系统中。文本表示是文本智能处理系统的基础。现有的文本智能处理系统中大多采用基于词语的向量空间模型表示文本。但是,这种方法不能表示词语的顺序信息。为此,本文使用子串表示文本,研究了文本的主题分割、主题段落抽取、命名实体识别和文本主题标注等问题,包括以下几个方面:(1)研究后缀树文档模型,提出了基于子串的文本表示方法。这种方法可以充分利用文本中词语之间的顺序信息。而这些信息对于文本分割,特别是说明性文本的分割非常重要。对汉语自然语言处理而言,这种方法可以减轻由于词语定义的不确定性和分词系统的错误产生的影响。在不分词的情况下也能使文本分割与主题标注达到同样的效果,减少了文本预处理的时间。(2)给出了改进的句子连贯性度量标准,并在此基础上提出了基于最大割的文本分割算法。通过最大化文本的连贯性割确定最优的文本分割边界,并通过连贯性割的梯度确定文本分割的粒度。在初中化学电子书籍的主题分割实验中,无论采用实际的分割粒度还是自动的分割粒度,本方法都具有更高的准确率。(3)给出了查询敏感句子连贯性和句子相关性度量标准,并在此基础上提出了基于正则化割的段落抽取算法。使用多目标优化的方法,同时最大化文本的连贯性割与相关性割,抽取与查询最相关的段落。并且,还设计了相应的查询扩展方法,通过段落的子串标记扩展查询。初中化学电子书籍的段落抽取实验表明,同时利用句子的连贯性和查询相关性,以及利用子串进行查询扩展可以提高段落抽取的准确率。(4)提出了k近似条件随机场模型,研究了其标注和训练的算法,并将其应用于命名实体识别中。这种方法统计未标注文本中词语之间的相似性,利用一组相似词语的特征标注当前的词语,减少了人工标注工作量。通过标准命名实体数据集中的实验,结果显示,利用词语之间的相似性信息可以提高条件随机场方法对命名实体识别的准确率。(5)给出了标记特征权重以及标记重要性度量标准,并在此基础上提出了基于子串的文本主题标注算法。通过最大边界相关性准则选择文本的多个标记,并且利用文档之间的相似性进行多文档协同标记。设计了基于术语表的子串重要性度量标准。对术语加权可以更准确的发现主题子串,并且自然的去掉绝大部分结构错误的子串。同时研究了子串的位置对子串重要性的影响。在初中化学电子书籍的主题标注实验中,该方法取得了较好的效果。总之,本文主要使用统计的方法对与文本主题相关的模型和算法进行了深入研究,提高了文本主题分割与标注的准确率,为文本智能处理系统的实现奠定了基础。