【摘 要】
:
随着移动互联网的迅速发展,以QQ、微信为代表的社交软件逐渐成为人们日常生活中主要的交流工具,群组聊天则是其中的一种重要功能,产生了海量的群聊数据,话题发现技术可以分析出群聊所涉及的话题,使得用户可以快速获知某个群的热点话题,这对于提升用户体验具有重大意义。主题模型则是实现文本话题发现的一个重要方法,但是传统的LDA主题模型,将其直接应用于群聊文本主题挖掘,会由于群聊短文本稀疏性特征使得主题建模效果
论文部分内容阅读
随着移动互联网的迅速发展,以QQ、微信为代表的社交软件逐渐成为人们日常生活中主要的交流工具,群组聊天则是其中的一种重要功能,产生了海量的群聊数据,话题发现技术可以分析出群聊所涉及的话题,使得用户可以快速获知某个群的热点话题,这对于提升用户体验具有重大意义。主题模型则是实现文本话题发现的一个重要方法,但是传统的LDA主题模型,将其直接应用于群聊文本主题挖掘,会由于群聊短文本稀疏性特征使得主题建模效果较差。同时,LDA使用词袋模型来表示文档,在进行主题挖掘时只考虑了词频,忽略了词与词存在的语义关系,使得最终得到的主题语义连贯性较差。因此,本文将从短文本特征以及词间语义联系两个方面对LDA模型进行改进,使其在群聊主题挖掘上具有更好的表现。本文基于LDA模型进行改进,提出了基于BERT-LDA的群聊主题挖掘模型(Group Chat Topic Mining Based on BERT-LDA Model,BERT-LDA),BERT-LDA模型通过上下文合并来保留原始语境,之后使用BERT预训练模型来提取群聊文本语义特征,将其作为聚类模型的输入,通过文本聚类的方法,来扩充每篇文档所包含的词汇,使得词汇可以广泛分布在各个主题中,而不是趋向于某几个主题。进一步,由于LDA模型在进行主题挖掘时没有考虑词之间的语义关系,使得获取的主题语义连贯性较差,因此,本文提出了基于语义增强和BERT-LDA的群聊主题挖掘模型(Semantic Enhancement and BERT-LDA based Group Chat Topic Mining,SEBL),SEBL模型在BERT-LDA模型的基础上,将词间语义关系引入主题建模中,通过词性特征和TF-IDF选择出能够代表文档的关键词作为语义增强的候选词集,然后通过双层广义波利亚翁模型(Generalized Pólya Urn Models,GPU)增加语义相似候选词在同一主题中的分布概率,使得生成的主题描述词之间具有更强的语义关系,提高主题的语义连贯性。本文最后基于真实的QQ群聊数据进行实验,使用困惑度以及主题语义连贯性作为模型的评价指标,将SEBL模型、BERT-LDA模型与LDA模型、BTM模型进行实验对比,最终实验结果证明,本文提出的BERT-LDA模型和SEBL模型相比于LDA、BTM,能够取得更低的困惑度以及更好的主题语义连贯性,同时,SEBL模型优于BERT-LDA模型,证明了语义增强和候选词选择能够提升模型效果。
其他文献
作为人机交互的关键技术,语音合成是人工智能领域的重要研究方向之一,基于深度学习技术的语音合成方法也日益成熟,其核心是建立文本到语音的非线性关系模型,实现文本序列和语音频谱帧的特征映射关系。然而当前主流的语音合成模型面临着高质量单一音色训练数据需求较大和供给不足的矛盾以及当合成长文本时出现的重复读音、遗漏读音等鲁棒性问题。针对语音合成领域当前存在的高质量单音色语料缺乏和长文本合成鲁棒性较差的问题,本
中文公司名实体识别是命名实体识别的一个细分领域。中文公司名实体识别是对企业的曝光率、知名度、运作状况等信息进行自动化分析的基础,在新闻、财报的自动化分析中具有重要意义。但是,目前的中文公司名识别遇到了很多难点,导致识别率偏低。本文针对这些难点,分析了各个模型的优劣,并针对性地搭建了测试语料库。本文的主要工作如下:(1)针对中文文本缺少分隔符以及中文一词多义现象常见的情况,本文使用BERT词向量模型
三维人脸重建技术在信息安全、日常生活中的应用已经得到了广泛部署,同时解决由于生成时间复杂度、三维点云数据质量等因素,影响三维人脸生成质量的问题仍然是一个技术难点,本文针对现有三维人脸重建算法存在的问题展开研究,具体研究内容如下:(1)针对现有三维人脸重建算法中,由于三维点云数据不密集,造成三维人脸生成质量不佳的问题,本文提出了区域色彩迁移算法。该算法先标注色彩填充区域,并在标注区域内部对填充色块进
肌电模式识别是一种先进的智能信号处理技术,已被认为是一种可靠的用户意图分类的重要方法。目前相关的研究报告了在实验室里的高分类正确率,但在临床应用方面仍不能令人满意。其中一个重要的原因是,EMG-PR方法的稳健性仍然不够强,无法应对许多问题,如日常使用中的电极移位,肌肉疲劳,以及力度的变化。其中,力度的变化是影响EMG-PR方法性能的关键问题。因此,提高肌电模式识别方法的抗力变化的鲁棒性就显得尤为重
为了让人们能够从大量的文本信息中准确地获得关键性的内容,文本摘要技术被广泛关注。随着自然语言处理和深度学习技术的发展,很多基于深度学习的文本摘要方法被提出。本文通过对现阶段文本摘要模型进行研究,发现了针对中文的文本摘要模型会出现割裂语义,生成摘要不通顺,冗余信息过多,无法有效处理长句的问题。针对以上问题本文提出了一种抽取-生成式中文文本摘要模型,具体研究工作如下:(1)本文构建了适应中文的基于改进
由于雷达设备具有不接触性和信号保密性高等特点,使得雷达设备被广泛应用在居家养老、探测、搜救等领域,因此应用环境对雷达信号的处理提出了很高的要求,传统的信号时频滤波和特征提取,需要从时域变换到频域,再反变换到时域,这样的流程不利于并行操作,存在时间的滞后,本文提出了一种基于超宽带雷达的双通道输入跌倒信号检测方法,避开复杂的信号处理过程,只在回波信号时域的通道上做一次快速傅里叶变换和一次奇异值分解,在
随着移动互联网的快速发展,针对社会实事,社交平台上会出现大量的议论,这些议论文本存在数量大、话题多、结构口语化和语义信息不足的特点,特别是一些隐式情感语句,会存在暗讽、反话等语言方式,其情感特征并不明显,这些特点对传统的情感分析方法提出了较大的挑战,实验表明,单纯的文本序列信息无法满足隐式情感分析的需要。本文主要围绕着隐性情感的极性判别任务,在传统的仅仅依靠序列特征进行分类的基础上,通过引入语法结
随着科技的进步,光器件对小型化和集成化的要求越来越高。与传统的光学元件相比,二维的超表面具有独特的电磁响应特性,平面结构意味着制造工艺简单,还可以通过使用不同尺寸、不同形状的结构单元,使用不同的排列方式等,实现对光的强度、相位、波长和偏振等特性的调控。在纳米光学领域,超表面已经受到了人们的广泛关注。通过将纳米颗粒按一定的周期组成阵列,单个粒子的局域共振与周围粒子之间的电磁耦合会产生一种新的集体响应
在我国种植业发展新规划的时代背景下,“果树上山上坡,不与粮争地”的果业发展方针使山地苹果成为苹果产业发展的重要方向。然而,因山地独特的立地条件和气候环境,导致病虫害发生种类和规律不同于其他果区。本文以陕西榆林地区为例,概述了山地苹果主要病虫害发生种类及综合防控技术,为山地苹果安全生产提供技术支撑。
大数据时代背景下,网络产生的数据爆炸式增长,用户想获取符合个性化需求的数据信息变得十分困难。推荐系统是解决这一问题的有效方案,但是传统的数据存储和计算无法满足对海量数据的处理,所以推荐系统应运行在分布式的环境上。分布式环境部署的Spark使用内存对计算中间结果进行存储,可以快速的执行迭代算法,计算性能优秀,是推荐系统首选的计算框架。推荐算法是推荐系统研究的重点,但传统的ALS推荐算法忽略了经过时间