基于W-BTM的短文本主题挖掘及文本分类应用

来源 :山西财经大学 | 被引量 : 0次 | 上传用户：yiwangcom

【摘要】

：

随着互联网和各类社交网站以及电子商务的快速兴起,以文本信息为代表的非结构化信息大量涌现,从中挖掘出有价值的信息变得越来越重要,但同时复杂的语义也使得信息价值的提取

【作者】

：

张雅君

【机构】

：

山西财经大学

【出处】

：

山西财经大学

【发表日期】

：

2017年期

【关键词】

：

W-BTM模型主题挖掘短文本文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和各类社交网站以及电子商务的快速兴起,以文本信息为代表的非结构化信息大量涌现,从中挖掘出有价值的信息变得越来越重要,但同时复杂的语义也使得信息价值的提取变得越来越困难。尤其是短文本信息,其稀疏性和不完整性也给文本挖掘带来了新的巨大挑战。因此,对于文本信息挖掘的研究逐步转向了对于短文本信息挖掘的研究。BTM是一个针对短文本的主题挖掘模型,在处理短文本的稀疏性和不完整性问题上相对于其它主题模型有很大的优势。但包括BTM模型在内的现有文本挖掘模型,模型中都没有特殊的参数设置等对其进行处理,只是在数据预处理时加载停用词表对其进行删除操作。而不同的语料选择会有差异性,千篇一律的使用同样的停用词表并不具有科学性。因此,对于不同的语料集,应该找出可以反映其文本特征的停用词。基于对上述短文本特点和停用词处理的考虑,以差异系数作为权重模型,表示文本中词语的权重,然后将其作为BTM模型的一个参数形成最终的W-BTM模型,从而消除短文本和停用词对文本主题挖掘的影响。模型中使用吉布斯抽样对参数进行估计,从潜在变量的先验分布中抽样,对后验参数进行估计。最后将模型应用于当当网图书简介数据,使用支持向量机对W-BTM模型产生的结果矩阵进行分类,并对比不同模型的分类结果,证明W-BTM模型的优越性。W-BTM模型在整个语料集中寻找“词对”的前提是“词对”中每个词在整个文档中的权重即差异系数已知。在这种情况下,“词对”有了更深层次的含义,它不再只是单一的表示文档中同时出现的两个词语,而且还代表着词语本身的性质,即是否为停用词。这就可以消除停用词的不恰当选择对于文本信息挖掘准确性的影响。为了验证W-BTM的有效性和科学性,以LDA模型和BTM模型做对比进行文本分类实验和应用,从主题挖掘和文本分类两个角度对整个的实验结果进行评价,最终证明了W-BTM模型的分类效果优于LDA模型和BTM模型。本文的创新之处如下:(1)对于停用词的处理,抛弃传统的选择停用词表并将停用词直接去除的方法,而是使用权重模型取而代之,使得文本挖掘的结果更加科学和准确。(2)将权重模型与BTM模型相结合,形成新的主题模型W-BTM,既可以用于短文本的分类,解决短文本的稀疏性问题,也弥补了数据预处理时停用词处理的漏洞。(3)将W-BTM模型应用于当当网图书简介分类,赋予模型更加实际的现实意义。通过对数据不平衡性的处理、W-BTM模型的使用以及支持向量机对于文本-主题矩阵的分类,最终验证了W-BTM模型的有效性。针对分类结果,将W-BTM模型与LDA模型和BTM模型进行对比,验证了W-BTM模型的优越性。

其他文献

基于熵理论与耗散理论的资源型地区绿色发展评价研究

在国家绿色发展理念的大背景下，资源型地区一直探索绿色发展之路，找寻推动资源型地区经济、社会、文化可持续发展的路径，但资源型地区普遍的问题是科技水平不高、自然环境所面临

学位

资源型地区绿色发展熵理论耗散理论评价指标

社交媒体环境下用户信息使用行为与激励机制研究——以知乎网为例

随着迅猛发展的信息技术与互联网的演化、融合，社交媒体成为了新一代网络环境下备受瞩目的热点。社会化问答网站作为社交媒体环境下信息资源提供与分享的平台，它通过良好的开放

学位

社交媒体社会化问答网站信息使用行为激励机制

基于复杂网络的虚拟社区知识传播模型研究

由于计算机技术、网络技术和通信技术的快速发展,互联网得到了广泛的应用。互联网用户的需求不单单局限于追求个人体验,更是将更多的注意力放到知识的共享和交流之上。自此,

学位

虚拟社区知识传播模型复杂网络多AgentNetlogo

手感保卫战超值5英寸“小”屏手机怎么选

在iPhone 5之前，苹果一直坚守3.5英寸阵地，将“单手操作”理念贯彻始终。然而，随着4G网络的普及，越来越多的消费者将手机作为了移动影院、掌上游戏机，此时小屏幕的显示面积就不够看了。于是，智能手机屏幕就一路增长，时至今日没有6英寸都不好意思称自己为大屏手机。　　屏幕变大的后遗症　　其实将手机屏幕变大很容易，但困难的是如何弥补更大尺寸屏幕所带来的续航压力（图1）。于是，大屏手机+超大电池的组合

期刊

单手操作掌上游戏机显示面积双卡双待识别模块联发科金属材质AMOLEDAndroid一只手

基于W-BTM的短文本主题挖掘及文本分类应用

其他学术论文