基于LDA和图割的文本主题分割研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:David_storm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分割的本质是根据文本内部的主题相似性获得分割之间的边界位置,使得分割内部具有最大的语义一致性而分割之间的语义一致相对较小。本文探讨基于LDA和图割的文本主题分割技术,通过在相似性度方法使用LDA等主题模型,并采用改进的α-膨胀算法对文本分割的边界进行搜索,提出了基于LDA等主题模型与图割技术的文本分割模型。本文在对前人提出的语义相似性度量方法进行概述之后,首先分别讨论了LDA、HDP&LDA和CTM等主题模型,然后尝试将这三个主题模型用于语义相似性度量,为文本分割提供主题信息。文本分割通常是在获得文本内隐含主题的基础上进行的。由于词汇是构成文本最基本的语义单位,因此可通过对文本内部的词汇进行统计以获得关于主题的浅层信息、通过PLSA、LDA等主题模型来表达文本内部的深层语义信息。研究表明,在文本分割利用LDA模型可明显提高文本分割的效果。HDP和CTM主题模型作为LDA的衍生模型,相比LDA模型HDP模型可以确定合适的主主题数量,CTM模型引入了主题相关性。本文通过对比实验,进一步验证了在主题模型中设定合适的主题数量和考虑主题之间的相关性有助于改善文本分割的效果。本文中使用视觉问题中成熟的图割算法作为文本分割问题中的边界搜索方法。目前的文本分割方法在搜索分割边界时需要人工给出先验参数,这些参数值通常对分割结果有较大影响,并且仅靠人工方法无法确定理想的参数值,因此我们引入图割算法。为了将图割算法应用于文本分割任务中,本文做了以下三个方面的工作:通过重新定义文本分割中的边界搜索问题,将边界搜索问题以图割算法可以求解的能量函数的形式进行表达;根据文本分割的线性特性重新定义图割算法中的构图步骤;给出了可行性分析。本文讨论了基于主题模型和图割算法的的文本分割模型及其实现方法,并根据对图割算法的分析,将模拟退火思想与图割算法相结合,改进了图割算法的运行框架。通过实验对比,展示了本文提出模型的性能改进。
其他文献
随着科技的快速发展,各个行业领域对数字图像的运用也日益增多,图像分割是图像处理的一种基本技术,因此逐渐受到人们的重视。图像分割方法可以解释为把图像分成特征有差异的
K-近邻算法作为一种理论上比较成熟且简单有效的分类算法,已经得到了广泛的研究和应用。但是K-近邻算法易受噪声影响且不能处理多模态分布的问题;另外传统K-近邻算法认为每个
随着面向服务架构(Service-oriented Architecture, SOA)的发展,SaaS (Software as a Service)服务作为一种新型的软件服务模式凭借其按需租用、易于维护、便于扩展等特点改
根据卫生部《生活饮用水卫生布标准》(GB5749-2006)的规定,余氯浓度是衡量管网水质的重要指标。因此,加强对余氯浓度的研究是改善供水管网水质的一种比较有效的手段。当前,对于管
低密度校验码(Low-Density Parity-Check codes, LDPC codes)是一种逼近香农限的现代编码技术,已成为当今信道编码领域的研究热点之一。由于低密度校验码具有译码复杂度低、纠
近年来,随着交通运输业的发展,交通事故已成为当前各国所面临的严重问题。其中,疲劳驾驶是导致交通事故的一个重要因素。因此,对于驾驶疲劳检测方法的研究已经成为一个重要课题。
近年来,个性化技术在提升互联网信息服务质量方面发挥了重要的作用。伴随个性化思想的普及,各类互联网应用愈发关注用户个人的信息需求。很多方案尝试从各种渠道收集用户数据,建
随着探测器和空间技术的发展,天文观测从可见光、射电波段扩展到包括红外、紫外、X射线和γ射线在内的电磁波各个波段,形成了全波段天文学,现发展到了一个全新的阶段,即全波
基于GPRS的生产实时数据在线监测系统不管在学术领域还是应用领域都非常具有研究价值。研究GPRS技术在工业生产中的应用,满足人们对工业生产实时数据的传输要求具有十分重要
图像采集与传输系统是指将摄像头采集的图像实时的发送到控制室的过程,方便工作人员对监控场所进行管理和控制。图像采集与传输系统因其实用性强、布置方便、操作简单等优点被