论文部分内容阅读
文本分割的本质是根据文本内部的主题相似性获得分割之间的边界位置,使得分割内部具有最大的语义一致性而分割之间的语义一致相对较小。本文探讨基于LDA和图割的文本主题分割技术,通过在相似性度方法使用LDA等主题模型,并采用改进的α-膨胀算法对文本分割的边界进行搜索,提出了基于LDA等主题模型与图割技术的文本分割模型。本文在对前人提出的语义相似性度量方法进行概述之后,首先分别讨论了LDA、HDP&LDA和CTM等主题模型,然后尝试将这三个主题模型用于语义相似性度量,为文本分割提供主题信息。文本分割通常是在获得文本内隐含主题的基础上进行的。由于词汇是构成文本最基本的语义单位,因此可通过对文本内部的词汇进行统计以获得关于主题的浅层信息、通过PLSA、LDA等主题模型来表达文本内部的深层语义信息。研究表明,在文本分割利用LDA模型可明显提高文本分割的效果。HDP和CTM主题模型作为LDA的衍生模型,相比LDA模型HDP模型可以确定合适的主主题数量,CTM模型引入了主题相关性。本文通过对比实验,进一步验证了在主题模型中设定合适的主题数量和考虑主题之间的相关性有助于改善文本分割的效果。本文中使用视觉问题中成熟的图割算法作为文本分割问题中的边界搜索方法。目前的文本分割方法在搜索分割边界时需要人工给出先验参数,这些参数值通常对分割结果有较大影响,并且仅靠人工方法无法确定理想的参数值,因此我们引入图割算法。为了将图割算法应用于文本分割任务中,本文做了以下三个方面的工作:通过重新定义文本分割中的边界搜索问题,将边界搜索问题以图割算法可以求解的能量函数的形式进行表达;根据文本分割的线性特性重新定义图割算法中的构图步骤;给出了可行性分析。本文讨论了基于主题模型和图割算法的的文本分割模型及其实现方法,并根据对图割算法的分析,将模拟退火思想与图割算法相结合,改进了图割算法的运行框架。通过实验对比,展示了本文提出模型的性能改进。