论文部分内容阅读
文本分割的实质是根据文本内子主题的相似程度,将文本切分成若干个语义段落,每个段落的内部具有最高的语义一致性。因此,文本分割最需要解决的技术难点为度量文本的相似性及识别语义段落的边界。本文从以上两个问题出发,重点研究了基于语言模型的词语特征提取,利用Dotplotting模型进行文本分割的相关内容及算法。本文对语言模型进行了相关研究。语言模型是一种概率统计模型,已被广泛应用于字符识别、机器翻译、信息检索等技术中,能很好的解决文本中词汇出现的概率问题。由于词汇构成了一篇文本,是文本最基本的组成部分,因此,可以通过对文本词汇的统计,获得文本主题的浅层信息。但是语言模型仅仅考虑了词汇概率并未考虑词汇的语义相关性,无法进一步获得主题的深层信息。基于此,本文提出了一种改进的二元语言模型Bigram,利用关联矩阵加强词汇之间的约束力,借此来描述句子的相关性并进行特征提取,进而确定子主题的相似性。由于本文使用语言模型进行特征提取,在自然语言中,绝大部分的词是低频词,因此肯定存在着稀疏的问题。而在语料训练中,最大似然估计赋予没有出现过的Bigram模型0概率,因此必须对语言模型进行数据平滑处理。本文分析了目前常用的几种平滑处理算法的特点,结合Bigram模型的特性,采用Katz算法进行平滑处理,以期得到更好的参数。本文使用Dotplotting算法进行文本分割。该算法考虑了文档中词汇分布情况并进行了全局的优化,但是在确定新的语义段落边界时,未能充分考虑之前已经确定的边界,且前向扫描与后向扫描得到的密度结果不相同。本文针对上述Dotplotting算法存在的一些不足,对其进行了一些改进:增加了后向扫描的密度值;考虑了过于短小的语义段落无法很好的描述一个子主题,增加一个段落的长度惩罚因子来加以约束;最后提出了改进的密度评价函数。总之,本文基于词语汇聚的思想,采用了二元语言模型Bigram以及Dotplotting算法对文本分割进行了深入研究,针对某些不足之处提出了改进的方法,通过实验结果的对比,验证了本文改进方法的结果,提高了文本分割的准确率。