基于模块度的LDA模型话题演化分析方法研究与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:zz_mars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代互联网信息技术的不断进步与发展,网络新闻的发布数量也在不断上升,面对巨量网络新闻信息,人们难以快速且准确地定位到自己想要掌握的内容。LDA(Latent Dirichlet Allocation)主题模型能够有效降低文本维度,在话题演化分析方面的研究也在不断增多,但LDA模型中主题数难以实现有效选取,该问题在相关研究中关注度仍显不足。为此,本文围绕复杂网络理论、模块度和LDA模型进行话题发现,并在此基础上设计一种话题演化系统。本文的主要工作和创新点如下:(1)提出一种基于模块度的LDA模型(MCN-LDA模型)话题发现方法。本文以复杂网络作为理论基础,并在词熵和关键词之间的共现关系的基础上构建节点与边关系,从而形成信息话题词共现复杂网络,通过基于模块度的社群发现算法来对信息话题词共现复杂网络中的社群进行划分,以此来得到最优主题数,从而实现对LDA模型的有效改进。实验证明,本文所提出的模型具有更好的泛化能力和主题抽取性能。(2)提出一种基于话题演化周期的时间片划分方法。本文将话题演化周期理论加入到时间片划分中,话题演化的每一个阶段都拥有自己的特点,持续时间也有所不同,所以需根据具体情况来进行时间片划分,研究话题演化过程中的特征变化情况。因此,本文结合话题演化生命周期和各个时间段的新闻文本数量来进行时间片划分,以实现话题关系演化过程特征变化的有效发现。(3)提出一种基于JS散度和时间衰减的话题演化关系判别方法。本文在使用JS散度的基础上,将时间衰减引入到话题关系判别中来,通过调和相似度和阈值之间的大小关系来判别是否具有演化关系。实验证明,本文所示方法提高了话题演化关系识别的效果。综上所述,本文通过研究新闻话题演化中话题发现、时间片划分、话题演化分析等方面的内容,在公开数据集上对话题发现方法进行有效性证明,并在真实数据集上进行了话题演化分析,为新闻话题演化研究提供了研究思路和理论指导。
其他文献
医疗行业是与公民生命紧密相关的重要行业。部分医疗场景需要多机构协作及数据共享,在协作及数据共享过程中,机构之间不存在信任关系,导致协作和数据共享成本较高;医疗协作及数据共享过程存在大量人为因素干扰,进一步提高了医疗协作和数据共享的成本。此外,机构的数据中心多存在单点故障风险,容易因数据中心失效导致服务瘫痪。为解决以上问题,本文基于区块链和秘密共享技术,结合结核病防治这一具体医疗协作及数据共享场景,
随着科研人员的不断探索,研究的问题越来越复杂,目标检测只获取了场景中目标的类别信息和位置信息,而忽视了场景中各目标的内在联系。在实际生活中,需要处理的场景更为复杂,目标间的依赖更为紧密,如何高效解析复杂场景中各目标的空间布局及语义联系,并计算复杂场景间的相似性将变得越来越重要。为了解决上述问题,本文基于Faster R-CNN目标检测网络,提出了一种复杂场景相似性计算方法,并制作和标注了一个复杂场
随着移动智能设备的快速发展,越来越多的轨迹数据也随之产生,之后被第三方服务提供商收集,再存储到数据库中。对轨迹数据进行挖掘和分析可以解决诸多问题,但是轨迹数据中通常会包含移动对象的许多个人敏感隐私信息,如果对轨迹数据不加任何保护就直接使用,移动对象的个人敏感隐私信息将会被泄露出去,对移动对象本身造成巨大的损失,更甚者会带来人身威胁。因此,对轨迹数据隐私信息的保护吸引了许多国内外研究人员的关注。在现
视觉里程计是指通过相机采集到的帧序列来估计相机运动轨迹,用来实现相机自主定位的方法,这种方法被广泛应用于各种无人系统,是自主导航、避障、和目标跟踪的关键技术。视觉里程计从方法上可分为特征法和直接法:特征法通过匹配两帧之间的特征点建立几何模型求解位姿,这种求解方法的优点是精度高,但是对计算资源有一定的要求;直接法不需要建立特征点的匹配关系,直接使用光度误差模型优化位姿,计算速度较快,但是需要满足灰度
近几年,我国医疗信息化建设已具有一定规模,信息系统已基本覆盖各基层医疗机构的各职能领域。然而在基层医疗信息化发展过程中,存在各基层医疗系统相关联的业务无法协同、相同医疗数据无法共享的问题。基层医务人员想要从大量的医疗数据中获取到有价值的信息变得愈发困难,从而造成了基层医疗机构人力和财力的浪费。数据中台的实践意义在于,通过数据建模实现跨业务域的数据整合和数据能力沉淀,为解决基层医疗信息化建设中存在的
随着公共基础建设的不断完善,地铁逐渐成为日常出行工具的首要选择。地铁工程建设包括规划、设计、建设和试运行等多个环节,其中设计环节是保证工程建设质量的关键,也是确保地铁安全、经济、适用的重要前提。地铁设计规范是约束这一环节的重要文件,是我国经过多年经验沉淀和反复论证研究的成果。本文针对地铁设计规范文本进行信息抽取,主要包括实体识别和实体关系抽取两个过程,以加速该领域信息化、智能化的进程。具体研究内容
随着互联网科技与在线教育技术的发展,网络在线试题规模迅速增长。目前,很多题库网站呈现试题量大但筛选结构单一的特点,导致试题迷航和学习针对性差等问题。现有大多数试题推荐方法仅利用已考察知识点对学生进行试题推荐,忽略了有相关关系但未考察的知识点,无法发现学生的知识漏洞和薄弱知识点,从而影响试题推荐的准确性。因此,本文基于课程知识图谱,根据学生学习过程中的知识点掌握程度,设计了一种个性化试题推荐方法。具
随着社会的进步,体育健身越来越受到人们的关注。目前,运动者获得健身方案主要是通过健身教练与在线网络平台这两种方式。其中,前者存在花费高、实时性差等问题;后者虽然可以随时随地支持运动者获取健身方案,但其提供的无差别方案不能支持运动者的个性化运动需求。有鉴于此,本文采用本体推理与相似性融合计算方法,结合体育学总结出的运动处方知识集,研究并设计出一种面向运动者在实时状态、适用强度、阶段目标等个性化因素下
动作训练需要专业性的指导,肢体动作的不规范者误都会对运动效果成较大影响。传统的动作训练法要有纸质图示学习、课堂直接学习法、视频录像学习等,这些方式虽然简单是存在着许多不足,比如学习效率低、学习成本高、不能及时得到反馈等。随着深度卷积神网的飞速发展,基于深度学习的人体骨骼关键点检测技术被广应用在人机交互、智能监控、动作分析等领域。将人体骨骼关键点检测技术与动作训练相结合,不仅能够促人骨关点检测领域的
近年来,深度学习在超分辨率重建任务中得到了广泛的应用。大多数超分辨率算法的数据都借助于外部实例,此类方法通过训练高、低分辨率图像块之间的非线性映射函数,得到超分辨率重建算法的网络模型,与传统方法相比取得了很大的进步。然而,基于外部实例的方法需要大量的训练数据,并且无法保证数据集中包含了所有高、低分辨率图像块映射关系;复杂的网络模型也使得训练过程十分耗时,尤其是需要训练不同尺度网络模型时;现实世界中