基于种子文档和统计模型的话题演化研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaofeiyu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题演化是指根据不同时间段文本内部的话题相似度获得的话题产生、兴起、消亡的变化历程。本文实现了基于种子文档和OLDA话题模型的发现文本话题信息的改进方法,该方法使用余弦、相对熵等进行话题的相似度计算,通过相似度和时序关系来进行话题的关联性分析,通过话题内容和强度的变化来描述话题的演化过程。探讨话题随时间的演化具有一定的理论和实践意义。首先,通过分析已有话题模型实现了一种基于OLDA模型的挖掘文本深层信息的改进方法。话题演化可以通过词汇的统计信息来形式化表达其浅层信息;可以通过LDA、OLDA等模型来挖掘其深层信息。已有研究表明,引入了LDA模型的话题演化模型可以提高挖掘文本话题信息的效果。OLDA模型在LDA模型的基础上将上一时间片的后验概率作为当前时间片的先验知识来参与训练,这有助于保持话题演化在时间片上的连续性并提高挖掘话题信息的效果。本文基于OLDA模型给出了一种挖掘文本深层信息的改进方法。对比实验表明,基于OLDA的话题演化方法有助于改善话题演化的效果。其次,通过分析话题演化与种子文档的关联性实现了一种基于种子文档的话题演化的改进方法。种子文档是所在时间段上的代表性文档,话题可以看作是与种子事件相关的一系列事件。由于话题演化具有突发性,它在产生、兴起、消亡的渐变过程中,有可能突然从热点变成冷门。本文基于种子文档能发现代表性文档的特点将上个时间片中种子文档的话题信息加入到当前时间片中以强化当前时间片对应话题的强度,达到削弱噪声、消弭突变的目的。本文通过分析已有话题模型和种子文档实现了基于种子文档和OLDA模型的话题演化的改进方法,通过种子文档来保持话题在内容上的连续性并削弱背景噪声带来的影响,通过OLDA模型来保持话题在时间线上的连续性。对比实验表明,话题演化效果有了一定程度的提高。
其他文献
近年来,XML作为互联网上数据表示和交换的标准格式日渐受到人们重视,XML查询也由此成为研究热点。对于大量的没有专业背景的用户,传统的结构化查询方式已不再适用,关键字查询
移动终端设备的普及与广泛使用使移动用户可随时随地发布、分享各类信息。网络中流动的大量信息体现了用户的多种社会属性。如何有效利用这些社会属性,并将其用于移动网络、
云存储是一种新兴的网络存储技术。通过云存储服务,用户可以便捷的在云上存储数据,也能够以一个组的形式共享数据;为了确保共享云数据的完整性,可以利用第三方审计者验证数据的
运动状态识别一直是状态识别领域的研究热点,在虚拟现实、健康医疗、交通领域以及军事训练等方面均有较为广泛的应用。目前大量的研究都是基于传统的分类算法来对运动状态进行
近年来,随着计算机和网络技术的快速发展,越来越多的多媒体业务应用出现在互联网中,例如,广播、视频会议、远程教育等等,这些应用对网络带宽和延迟等都有很高的要求,组播一直
电网的线损率是一个综合性全面性评价指标,不仅仅可以对现行电网的物理结构和运行方式进行评价,还能够体现出相关电力企业的技术实力和管理水平。“十三五”期间,要求升级改造配网,并对配网线损率提出了明确要求,配电网中有关线损的研究已成为电网企业研究的热点。当前,在电网线损计算和预测方面国内外已经了不少的研究,取得了显著效果,但大多集中在主网方向,配电网由于其自身结构的复杂性及我国配网建设相对落后的客观条件
电机优化一直是电机设计研究中的一个热点问题,如何在满足用户需求和国家标准的前提下尽可能提高电机运行效率一直是大家研究的重点,选择一种完善的、适合于工程应用的全局优化方法至关重要。本文针对单相异步电机、三相异步电机和永磁同步电机三种电机,对电机的多目标优化问题进行了研究,设计编写了电机优化设计程序,且基于C#语言设计了方便使用的窗口界面。主要工作如下:1.分析并研究了电机设计中常见的几种智能优化算法
频繁项集挖掘是数据挖掘领域的一项重要任务。随着计算机技术的迅速发展,生活生产领域中很多实际应用能够持续、快速、实时地产生大量数据流。数据流的复杂性使得在其上进行
计算机硬件的发展推动了深度学习技术在图像识别领域的进步,基于卷积神经网络的图像分类,人脸识别方法取得了显著性的成果。近年来,随着人工智能,多媒体等技术的快速发展,监控视频
机会网络是一种在源节点与目的节点之间不总是存在稳定通路,通过网络中节点的随机移动带来的相遇机会进而实现节点间通信的无线自组织网络。这些特性使其被广泛应用在手持设