基于深度概率主题模型的文本分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ttjjyy88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的飞速发展,人类社会正步入大数据时代。海量的信息通过互联网发布和传播,其中非结构化的文本数据是互联网信息的重要载体和呈现形式。因此,高效、精准地管理和挖掘文本信息,并快速提取有价值、感兴趣的高质量信息具有重要意义。文本分类是管理海量文本信息的一种有效方法,能够使分类后的信息结构更清晰、内容更聚合。因此,文本分类技术已成为机器学习和自然语言处理领域的研究热点和难点之一。且主题模型作为信息检索、文本分类领域的重要方法之一,通过对主题和文档建立概率分布,自动挖掘不同文档中的潜在语义信息,吸引了大量学者的研究与关注。本文基于无监督的深度主题模型,对联合建模标签与文本信息、实现文本分类进行了讨论和研究。本文主要内容如下:1.本文首先针对隐狄利克雷分配(LDA)模型及其深度模型展开了理论研究与分析。以浅层的LDA模型出发,研究了文档概率建模过程中文档生成和参数更新方法,分析了模型的优势和不足。接着介绍了深度LDA模型,针对深度模型的非线性结构和对文档的层次化表征进行了研究,并通过实验验证了深度LDA模型的有效性。2.针对无监督的深度LDA模型特征提取与分类器无法联合学习,导致其特征可分性较弱,本文结合最大间隔准则,提出了有监督的最大间隔深度多样化LDA模型。它以最大化不同类别的隐变量间隔作为分类准则,通过数据增广技术,在贝叶斯框架下联合建模类别标签和文本信息,学习特征空间及分类器。并进一步考虑文本中公共信息的影响,在建模过程中分离公共主题,利用更具有语义信息的多样主题特征分类,提高模型分类性能。最后,在实测文本数据上验证了最大间隔深度多样化LDA模型的有效性,同时对模型所提特征的可分性和主题估计作出分析和讨论。3.针对大数据背景下,文本分类模型实时更新过程中在学习新数据的同时容易对旧数据遗忘,本文提出了持续化随机梯度MCMC和变分推断混合在线更新方法。基于变分持续算法,将上一时刻的参数后验作为当前时刻的参数先验。并在后验推理过程中,加入衰减因子平衡先验与似然的影响,模型的参数可以在线更新。实验结果表明,利用持续化随机梯度MCMC和变分推断混合在线更新方法,在线最大间隔深度多样化LDA模型不仅能学习当前新数据的特征表示,同时减缓对旧数据的特征信息遗忘和分类性能降低。
其他文献
各种资源是一个企业赖以生存的主要支撑,人力、人才正是企业的稀缺资源。对于人力资源的开发与保持,培训又是其最为有效的途径,是不断提升企业自身价值的一个重要环节。企业对员工开展培训是为了经营业绩的提升和战略目的的实现,这就需要企业开展培训时要有所产出和成效,企业要将培训绩效评估贯穿到整个培训进程中,使绩效作为一种驱动力引导着培训朝着提高企业和个人绩效目标进行。合理、科学的培训绩效评估可以帮助企业及时掌
目前共享经济和人工智能的兴起,同时伴随着互联网的发展,使现代企业的管理方式以及管理机构变得更加多元化。一方面,许多公司内部的组织结构出现扁平化;另一方面,90后员工已经成为企业不可或缺的一部分,种种原因使得企业实现创新管理成为必然趋势。90后员工有着自身独特的时代特征:他们的思维活跃,更加关注自身的价值。工作对他们而言不再仅仅是获取收入的手段,而是生活的一部分。他们希望从工作中获取乐趣,即工作与生
随着5G时代的到来,人们对高速率、大容量、低延时的通信需求不断增加。极化码(Polar code)作为第一个被证明能达到通信信道香农极限的纠错码,其凭借优异的性能已被确定为5G增强移动宽带(Enhanced mobile broadband,e MBB)场景控制信道的编码方案。近年来,深度学习展现出强大的处理复杂任务的能力,在数字通信领域(信道编码与译码、信号检测与分类、毫米波通信和端到端通信等)
最近几年中国处在经济转型、产业升级稳步推进的重要时期,而企业并购活动作为我国调整产业布局,优化产业结构的重要方式在过去两年内呈现出异常火爆的状态,据统计,2013年我国
智能电子锁是智慧家庭乃至智慧城市建设的典型代表,利用足够安全和便捷的智能电子锁对民宿、公寓进行智能化管理,构建共享公寓系统模型,符合人们的利益追求,能产生可观的经济效益和社会效益。现阶段,应用于民宿、公寓方面的智能电子锁的安全性能和便捷程度在某些方面不足以满足人们的需求,对共享公寓系统模型进行构建的研究也比较少,为此,本论文针对共享公寓和智能电子锁存在的问题,设计开发了基于身份证识别开锁的智能电子
随着机器学习概率学派和贝叶斯学派的逐渐统一衍生出了很多的优秀的融合模型,比如用于文本处理的隐狄利克雷分布主题模型。这个模型极大地推动了自然语言处理领域的发展,近年来这个模型被证实在推荐领域中能够改善推荐模型的准确性、缓解数据稀疏性、增强可解释性。同时,注意力机制也从图像处理迁移到自然语言处理任务中,比如使用注意力网络和主题模型结合给用户推荐用户更加喜欢的产品。为了向用户推荐产品,推荐系统需要预测用
近些年来,纳米材料因其在很多领域,如医学、生物工程、电子工业、环境产业、能源环保等均具有广泛的用途而受到关注。纳米氧化铜(nano-CuO)是应用范围最广的纳米材料之一,然而nano-CuO也因为其粒径小,具有表面效应,能溶出金属离子等特点对生物产生毒性作用。当生产、应用中的nano-CuO进入到水和土壤环境中时,就会对赖以生存的生物造成影响,进而对生态环境系统构成潜在的威胁。土壤可溶性有机质(D
目前IC产业正值快速发展中,芯片研发的重要性不言而喻。但是我国的芯片产业的研发面临缺乏自主知识产权的问题,这种情况下发展本土芯片行业显得困难重重。由伯克利团队研发的开源指令集架构RISC-V(Reduced Instruction Set Computer-Five)由于其开放性和先进性,受到了广泛的关注。基于RISC-V指令集CPU的自主研发也已经成为一种必然的新趋势,为我们实现芯片的自主研发打
心电图(electrocardiogram,ECG)是能反映心脏跳动的波形图,它应用在医院的心电图检查,并用来检查心脏的健康状况。在现在的网络时代,因生物特征识别技术逐步走向成熟,国内外众多研究学者对身份识别技术的研究也逐步深入,目前其技术已在人脸识别、眼膜识别、语音识别等多个领域有所使用,并趋于商业化。而且,相当多的技术研究者也投身到了 ECG信号身份辨认研究当中。但目前针对于ECG信号身份识别
多足爬壁机器人作为移动机器人的一个分支,以其独特的运动方式和不同环境的适应性,一直以来都受到国内外研究学者的关注。近些年多足爬壁机器人依靠其优秀的壁面适应性和运动灵活性从军事运用领域逐渐转向工业运用领域。但是其复杂的腿部结构和腿部运动所导致的控制难度成为广泛应用的一大障碍。为了满足一些特殊工业领域对多足爬壁机器人运行的水平姿态要求,本文设计了一种拥有三关节回转伸缩机械腿的新型爬壁机器人,可以保持运